久久超碰色中文字幕,果冻传媒AⅤ毛片无码蜜桃老狼

大數(shù)據(jù)技術(shù)棧包含了哪些技術(shù)？

2020-04-10 14:16

加米谷大數(shù)據(jù)

對于各種來源的數(shù)據(jù)，包括移動互聯(lián)網(wǎng)數(shù)據(jù)、社交網(wǎng)絡的數(shù)據(jù)等，這些結(jié)構(gòu)化和非結(jié)構(gòu)化的海量數(shù)據(jù)是零散的，數(shù)據(jù)采集就是將這些數(shù)據(jù)寫入數(shù)據(jù)倉庫中，把零散的數(shù)據(jù)整合在一起，對這些數(shù)據(jù)綜合起來進行分析。

大數(shù)據(jù)技術(shù)的體系龐大且復雜，基礎(chǔ)的技術(shù)包含數(shù)據(jù)的采集、數(shù)據(jù)預處理、分布式存儲、NoSQL數(shù)據(jù)庫、數(shù)據(jù)倉庫、機器學習、并行計算、可視化等各種技術(shù)范疇和不同的技術(shù)層面。

大數(shù)據(jù)處理框架主要分為下面幾個方面：數(shù)據(jù)采集與預處理、數(shù)據(jù)存儲、數(shù)據(jù)清洗、數(shù)據(jù)查詢分析和數(shù)據(jù)可視化。

一、數(shù)據(jù)采集與預處理

數(shù)據(jù)采集包括文件日志的采集、數(shù)據(jù)庫日志的采集、關(guān)系型數(shù)據(jù)庫的接入和應用程序的接入等。

Flume NG實時日志收集系統(tǒng)，用于收集數(shù)據(jù)，同時，對數(shù)據(jù)進行簡單處理，并寫到各種數(shù)據(jù)接收方(比如文本，HDFS，Hbase等)。

Logstash是開源的服務器端數(shù)據(jù)處理管道，能夠同時從多個來源采集數(shù)據(jù)、轉(zhuǎn)換數(shù)據(jù)，然后將數(shù)據(jù)發(fā)送到“存儲庫”中。一般常用的存儲庫是Elasticsearch。

Sqoop，用來將關(guān)系型數(shù)據(jù)庫和Hadoop中的數(shù)據(jù)進行相互轉(zhuǎn)移的工具，可以將一個關(guān)系型數(shù)據(jù)庫(例如Mysql、Oracle)中的數(shù)據(jù)導入到Hadoop(例如HDFS、Hive、Hbase)中，也可以將Hadoop(例如HDFS、Hive、Hbase)中的數(shù)據(jù)導入到關(guān)系型數(shù)據(jù)庫(例如Mysql、Oracle)中。

流式計算是行業(yè)研究的一個熱點，流式計算對多個高吞吐量的數(shù)據(jù)源進行實時的清洗、聚合和分析，可以對存在于社交網(wǎng)站、新聞等的數(shù)據(jù)信息流進行快速的處理并反饋，目前大數(shù)據(jù)流分析工具有很多，比如開源的strom，spark streaming等。

Kafka使用Scala進行編寫，是一種分布式的、基于發(fā)布/訂閱的消息系統(tǒng)。Kafka可以和Flume一起工作，如果需要將流式數(shù)據(jù)從Kafka轉(zhuǎn)移到hadoop，可以使用Flume代理agent，將Kafka當做一個來源source，這樣可以從Kafka讀取數(shù)據(jù)到Hadoop。

Zookeeper是一個分布式的，開放源碼的分布式應用程序協(xié)調(diào)服務，提供數(shù)據(jù)同步服務。它的作用主要有配置管理、名字服務、分布式鎖和集群管理。配置管理指的是在一個地方修改了配置，那么對這個地方的配置感興趣的所有的都可以獲得變更，省去了手動拷貝配置的繁瑣，還很好的保證了數(shù)據(jù)的可靠和一致性，同時它可以通過名字來獲取資源或者服務的地址等信息，可以監(jiān)控集群中機器的變化，實現(xiàn)了類似于心跳機制的功能。

二、數(shù)據(jù)存儲

Hadoop作為一個開源的框架，專為離線和大規(guī)模數(shù)據(jù)分析而設(shè)計，HDFS作為其核心的存儲引擎，已被廣泛用于數(shù)據(jù)存儲。

HBase，是一個分布式的、面向列的開源數(shù)據(jù)庫，可以認為是hdfs的封裝，本質(zhì)是數(shù)據(jù)存儲、NoSQL數(shù)據(jù)庫。

Yarn是一種Hadoop資源管理器，可為上層應用提供統(tǒng)一的資源管理和調(diào)度，它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大好處。

Redis是一種速度非常快的非關(guān)系數(shù)據(jù)庫，可以存儲鍵與5種不同類型的值之間的映射，可以將存儲在內(nèi)存的鍵值對數(shù)據(jù)持久化到硬盤中，使用復制特性來擴展性能，還可以使用客戶端分片來擴展寫性能。

Atlas是一個位于應用程序與MySQL之間的中間件。在后端DB看來，Atlas相當于連接它的客戶端，在前端應用看來，Atlas相當于一個DB。

Kudu是圍繞Hadoop生態(tài)圈建立的存儲引擎，Kudu擁有和Hadoop生態(tài)圈共同的設(shè)計理念，它運行在普通的服務器上、可分布式規(guī)?；渴?、并且滿足工業(yè)界的高可用要求。

在數(shù)據(jù)存儲過程中，涉及到的數(shù)據(jù)表都是成千上百列，包含各種復雜的Query，推薦使用列式存儲方法，比如parquent,ORC等對數(shù)據(jù)進行壓縮。Parquet可以支持靈活的壓縮選項，顯著減少磁盤上的存儲。

三、數(shù)據(jù)清洗

MapReduce作為Hadoop的查詢引擎，用于大規(guī)模數(shù)據(jù)集的并行計算，極大的方便了編程人員在不會分布式并行編程的情況下，將自己的程序運行在分布式系統(tǒng)中。

隨著業(yè)務數(shù)據(jù)量的增多，需要進行訓練和清洗的數(shù)據(jù)會變得越來越復雜，這個時候就需要任務調(diào)度系統(tǒng)，比如oozie或者azkaban，對關(guān)鍵任務進行調(diào)度和監(jiān)控。

四、數(shù)據(jù)查詢分析

Hive的核心工作就是把SQL語句翻譯成MR程序，可以將結(jié)構(gòu)化的數(shù)據(jù)映射為一張數(shù)據(jù)庫表，并提供HQL(Hive SQL)查詢功能。Hive本身不存儲和計算數(shù)據(jù)，它完全依賴于HDFS和MapReduce。Hive是為大數(shù)據(jù)批量處理而生的，Hive的出現(xiàn)解決了傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(MySql、Oracle)在大數(shù)據(jù)處理上的瓶頸。

Impala是對Hive的一個補充，可以實現(xiàn)高效的SQL查詢。Hive適合于長時間的批處理查詢分析，而Impala適合于實時交互式SQL查詢，Impala給數(shù)據(jù)人員提供了快速實驗，驗證想法的大數(shù)據(jù)分析工具，可以先使用Hive進行數(shù)據(jù)轉(zhuǎn)換處理，之后使用Impala在Hive處理好后的數(shù)據(jù)集上進行快速的數(shù)據(jù)分析。

Spark擁有Hadoop MapReduce所具有的特點，啟用了內(nèi)存分布數(shù)據(jù)集，除了能夠提供交互式查詢外，它還可以優(yōu)化迭代工作負載。Spark是在Scala語言中實現(xiàn)的，它將Scala用作其應用程序框架。與Hadoop不同，Spark和Scala能夠緊密集成，其中的Scala可以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集。

Elasticsearch是一個開源的全文搜索引擎，基于Lucene的搜索服務器，可以快速的儲存、搜索和分析海量的數(shù)據(jù)。設(shè)計用于云計算中，能夠達到實時搜索，穩(wěn)定，可靠，快速，安裝使用方便。

還涉及到一些機器學習語言，常用的機器學習算法比如，貝葉斯、邏輯回歸、決策樹、神經(jīng)網(wǎng)絡、協(xié)同過濾等。

五、數(shù)據(jù)可視化

對接一些BI平臺，將分析得到的數(shù)據(jù)進行可視化，用于指導決策服務。主流的BI平臺比如，國外的敏捷BI Tableau、Qlikview、PowrerBI等，國內(nèi)的SmallBI等。

基于網(wǎng)絡身份認證的協(xié)議Kerberos，用來在非安全網(wǎng)絡中，對個人通信以安全的手段進行身份認證，它允許某實體在非安全網(wǎng)絡環(huán)境下通信，向另一個實體以一種安全的方式證明自己的身份。

控制權(quán)限的ranger是一個Hadoop集群權(quán)限框架，提供操作、監(jiān)控、管理復雜的數(shù)據(jù)權(quán)限，它提供一個集中的管理機制，管理基于yarn的Hadoop生態(tài)圈的所有數(shù)據(jù)權(quán)限?？梢詫adoop生態(tài)的組件如Hive，Hbase進行細粒度的數(shù)據(jù)訪問控制。通過操作Ranger控制臺，管理員可以輕松的通過配置策略來控制用戶訪問HDFS文件夾、HDFS文件、數(shù)據(jù)庫、表、字段權(quán)限。這些策略可以為不同的用戶和組來設(shè)置，同時權(quán)限可與hadoop無縫對接。

THEEND

免責聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。若有來源標注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點資訊

5G+智慧交通全面開啟萬億級市場藍海

大數(shù)據(jù)技術(shù)棧包含了哪些技術(shù)？

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

大數(shù)據(jù)技術(shù)棧包含了哪些技術(shù)？

最新評論（評論僅代表用戶觀點）

第八屆中國汽車產(chǎn)業(yè)信息化技術(shù)創(chuàng)新峰會順利召開

國家數(shù)據(jù)局印發(fā)《數(shù)字中國建設(shè)2024年工作要點清單》

太原：大數(shù)據(jù)發(fā)展促進條例將于3月起實施

《浙江省推進產(chǎn)業(yè)數(shù)據(jù)價值化改革試點方案》發(fā)布

本月熱門

AI 原生時代，字節(jié)想要復刻第三次增長奇跡

2024 年預防網(wǎng)絡攻擊的 12 項網(wǎng)絡安全最佳實踐措施

從5G到6G：開啟無線通信的未來

2024年上半年中國云終端市場跟蹤報告：出貨量達到166.3萬臺，同比增長22.4%

DevSecOps建設(shè)標桿丨民生證券攜手懸鏡安全，共建敏捷安全開發(fā)體系

ESIS 2024第三屆中國電子半導體數(shù)智峰會正式啟動，邀您共創(chuàng)電子半導體行業(yè)美好未來!

精選文章

中科逆熵榮膺“2024數(shù)字化轉(zhuǎn)型十大杰出企業(yè)”

重磅喜訊 | 翰智集團榮獲“2023年度國企數(shù)字化首選服務商"!

2019中國互聯(lián)網(wǎng)+產(chǎn)業(yè)創(chuàng)新合作發(fā)展論壇在北京隆重召開

三維家攜家居行業(yè)CXO走進抖音集團，揭秘家居營銷新趨勢

科技賦能公共安全，三川科技打造可持續(xù)競爭力

湖北某卷煙廠生產(chǎn)控制系統(tǒng)網(wǎng)絡安全建設(shè)項目

熱點資訊

喜訊!智邦國際榮獲“數(shù)智化轉(zhuǎn)型領(lǐng)導品牌”

定了!2024電子信息產(chǎn)業(yè)創(chuàng)新論壇將在北京召開

深圳市物聯(lián)傳媒有限公司榮膺廣東省會展企業(yè)百強，IOTE物聯(lián)網(wǎng)展再獲殊榮!

監(jiān)管嚴字當頭，智慧合規(guī)管理系統(tǒng)如何助力銀行破局合規(guī)挑戰(zhàn)？

實力獲贊 | 品高軟件成功入選“2024廣東省數(shù)字經(jīng)濟服務百強企業(yè)”

5G+智慧交通全面開啟萬億級市場藍海

中國云計算加速洗牌美團云謝幕，巨頭玩家紛紛加碼

大數(shù)據(jù)技術(shù)棧包含了哪些技術(shù)？

最新評論（評論僅代表用戶觀點）

欄目推薦

第八屆中國汽車產(chǎn)業(yè)信息化技術(shù)創(chuàng)新峰會順利召開

國家數(shù)據(jù)局印發(fā)《數(shù)字中國建設(shè)2024年工作要點清單》

太原：大數(shù)據(jù)發(fā)展促進條例將于3月起實施

《浙江省推進產(chǎn)業(yè)數(shù)據(jù)價值化改革試點方案》發(fā)布

本月熱門

精選文章

熱點資訊

5G+智慧交通全面開啟萬億級市場藍海

中國云計算加速洗牌美團云謝幕，巨頭玩家紛紛加碼

中國云計算加速洗牌美團云謝幕，巨頭玩家紛紛加碼