制服丝袜日韩欧美,亚洲熟妇成人精品一区

大數據技術的五大發(fā)展趨勢

2021-01-18 15:57

恒生電子服務中心

張良友

在傳統(tǒng)集群系統(tǒng)中，計算和存儲是緊密耦合的，以Hadoop為例，在傳統(tǒng)Hadoop的使用中，存儲與計算密不可分，而隨著業(yè)務的發(fā)展，常常會為了擴存儲而帶來額外的計算擴容，這其實就是一種浪費。同理，只為了提升計算能力，也會帶來一段時期的存儲浪費，將計算和存儲分離，可以更好地應對單方面的不足。

英國牛津大學教授維克托·邁爾-舍恩伯格在其所撰寫的《大數據時代》中表述，大數據時代是“已經發(fā)生的未來”，而在這個已經發(fā)生的未來里，沒有旁觀者。

作為時代發(fā)生的必然產物，大數據正加速滲透至我們的日常生活，正完成對各傳統(tǒng)領域的顛覆。本文從大數據時代的特點出發(fā)，為讀者介紹目前的大數據技術的發(fā)展趨勢以及大數據的生態(tài)體系。

大數據時代的特點和市場規(guī)模

大數據時代兩個特點。第一，大數據技術以開源為主，迄今為止，尚未形成絕對技術壟斷，即便是IBM、甲骨文等行業(yè)巨擘，也同樣是集成了開源技術和該公司已有產品而已。開源技術對任何一個國家都是開放的，中國公司同樣可以分享開源的蛋糕，但是需要以更加開放的心態(tài)、更加開明的思想正確地對待開源社區(qū)。第二，中國的人口和經濟規(guī)模決定了中國的數據資產規(guī)模冠于全球。

我國數據產生能力巨大，大數據資源極為豐富。國際數據公司(IDC)的監(jiān)測數據顯示，2018年全球大數據儲量規(guī)模達到33ZB，而我國數據儲量占到全球數據總量的23%。2019年我國大數據產業(yè)規(guī)模約為8500億元，較2018年增長37.8%，預計2020年將達到10100億元。其中金融行業(yè)占比約占20%。

圖1：大數據市場預測

筆者認為，大數據正超越信息技術，使人們重新思考公司的戰(zhàn)略和組織結構，重新審視產業(yè)變遷的驅動因素，重新審視政府治理水平，甚至重新界定國家競爭的主戰(zhàn)場。

大數據技術發(fā)展趨勢

隨著大數據技術的不斷發(fā)展，其各個技術環(huán)節(jié)呈現出新的發(fā)展趨勢和挑戰(zhàn)。根據Gartner最新的分析可以看出，主要有五大技術趨勢。

01、存儲計算分離

筆者認為，存儲計算分離是一種分層架構思想，即將存儲能力和計算能力分開，各自服務化，通過高速網絡連接。以AWS的大護具架構為例，底層統(tǒng)一采用S3存儲，存儲層上架設各種計算引擎比如HIVE、Spark、Flink等。

02、實時計算及實時數倉

實時計算一般針對海量數據進行的，要求為秒級。實時計算主要分為數據的實時入庫、數據的實時計算兩部分。

接下來，筆者將介紹實時計算的主要應用場景。

第一個場景是數據源實時、不間斷，要求用戶的響應時間也是實時的。比如對于大型網站的流式數據：網站的訪問PV/UV、用戶訪問了什么內容、搜索了什么內容等，實時的數據計算和分析可以動態(tài)實時地刷新用戶訪問數據，展示網站實時流量的變化情況，分析每天各小時的流量和用戶分布情況。

另一個場景是數據量大且無法或沒必要預算，但要求對用戶的響應時間是實時的。比如說：昨天來自每個省份不同性別的訪問量分布，昨天來自每個省份不同性別不同年齡不同職業(yè)不同名族的訪問量分布。

03、人工智能推動數據智能應用

相比于傳統(tǒng)機器學習算法，深度學習提出了一種讓計算機自動學習產生特征的方法，并將特征學習融入建立模型的過程中，從而減少了人為設計特征引發(fā)的不完備。深度學習借助深層次神經網絡模型，能夠更加智能地提取數據不同層次的特征，對數據進行更加準確、有效的表達。而且訓練樣本數量越大，深度學習算法相對傳統(tǒng)機器學習算法就越有優(yōu)勢。

圖3：大數據與人工智能交叉

目前，深度學習已經深入多個領域，并在圖像分類、語音識別、問答系統(tǒng)等應用中獲得了重大突破，取得了成功的商業(yè)應用。隨著越來越多的行業(yè)和領域逐步完善數據的采集和存儲，深度學習的應用會更加廣泛。由于大數據應用的復雜性，人工智能和大數據的融合將是一個持續(xù)的常態(tài)。

04、技術趨勢，湖倉一體化

9月18日，2020云棲大會上，阿里云正式推出大數據平臺的下一代架構——“湖倉一體”，打通數據倉庫和數據湖兩套體系，讓數據和計算在湖與倉之間自由流動，從而構建一個完整的、有機的、大數據技術生態(tài)體系。為企業(yè)提供兼具數據湖的靈活性和數據倉庫的成長性的新一代大數據平臺，降低企業(yè)構建大數據平臺的整體成本。

圖4：大數據存在的三種形態(tài)

在數據湖架構上建立數倉的嘗試并不成功，這表明數倉和數據湖有本質的區(qū)別，在數據湖體系上很難建成完善的數倉。數據湖與數據倉庫兩者很難直接合并成一套系統(tǒng)，基于融合兩者的思路進行探索，阿里云提出下一代的大數據技術演進方向：湖倉一體，即打通數據倉庫和數據湖兩套體系，讓數據和計算在湖和倉之間自由流動，從而構建一個完整的有機的大數據技術生態(tài)體系。

圖5：數據倉庫與數據湖的區(qū)別

在阿里云的構想中，湖倉議題值得期待。湖和倉的數據/元數據無縫打通，且不需要用戶人工干預；湖和倉有統(tǒng)一的開發(fā)體驗，存儲在不同系統(tǒng)的數據，可以通過一個統(tǒng)一的開發(fā)/管理平臺操作；數據湖與數據倉庫的數據，系統(tǒng)負責自動caching/moving，系統(tǒng)可以根據自動的規(guī)則決定哪些數據放在數倉，哪些保留在數據湖，進而形成一體化。

05、大數據平臺融合云計算

云計算與大數據的發(fā)展路線必將交接、碰撞，而這已經成為現實。為什么大家開始對大數據諱莫如深呢？大數據給人留下的印象：花錢多，靈活度低，令人頭疼的運營管理等等。好在近年來，Modern Data Warehouse這個概念火了起來，利用云計算的殼解釋了現代大數據存在的合理性。而隨著企業(yè)日新月異的數據需求和技術的進步，更新的架構層出不窮。

以DaaS為例，其既是Function-as-a-Service(FaaS)的一種，也是SaaS的自然延伸，最終目的都是盡可能遠離IaaS以及服務本身的運維，把資源最大限度地解放出來進行業(yè)務功能的開發(fā)，是目前大數據領域最接近這種serverless概念的產品，也許它會成為云時代最好的大數據平臺。

大數據龐大生態(tài)體系

整個大數據技術家族十分龐大，從數據生產、數據交換、數據存儲、數據工程、數據科學計算、數據應用到數據消費整個工程體系中涉及到30多個技術組件。筆者將會重點介紹其中關鍵的幾個：

Sqoop：Sqoop是一款開源的工具，主要用于在Hadoop、Hive與傳統(tǒng)的數據庫(MySql)間進行數據的傳遞，可以將一個關系型數據庫（例如：MySQL，Oracle等）中的數據導進到Hadoop的HDFS中，也可以將HDFS的數據導進到關系型數據庫中。

Flume：Flume是Cloudera提供的一個高可用的，高可靠的，分布式的海量日志采集、聚合和傳輸的系統(tǒng)，Flume支持在日志系統(tǒng)中定制各類數據發(fā)送方，用于收集數據；同時，Flume提供對數據進行簡單處理，并寫到各種數據接受方（可定制）的能力。

Kafka：Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)。

Spark：Spark是當前最流行的開源大數據內存計算框架?？梢曰贖adoop上存儲的大數據進行計算。

Hbase：HBase是一個分布式的、面向列的開源數據庫。HBase不同于一般的關系數據庫，它是一個適合于非結構化數據存儲的數據庫。

Hive：Hive是基于Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射為一張數據庫表，并提供簡單的SQL查詢功能，可以將SQL語句轉換為MapReduce任務進行運行。其優(yōu)點是學習成本低，可以通過類SQL語句快速實現簡單的MapReduce統(tǒng)計，不必開發(fā)專門的MapReduce應用，十分適合數據倉庫的統(tǒng)計分析。

ZooKeeper：Zookeeper是Google的Chubby一個開源的實現。它是一個針對大型分布式系統(tǒng)的可靠協(xié)調系統(tǒng)，提供的功能包括：配置維護、名字服務、分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務，將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。

Apache Flink是為分布式、高性能、隨時可用以及準確的流處理應用程序打造的開源流處理框架

Yarn(分布式資源管理器），YARN是下一代MapReduce，即MRv2，是在第一代MapReduce基礎上演變而來的，主要是為了解決原始Hadoop擴展性較差，不支持多計算框架而提出的。

Yarn是下一代Hadoop計算平臺，Yarn是一個通用的運行時框架，用戶可以編寫自己的計算框架，在該運行環(huán)境中運行。

圖6：大數據技術生態(tài)

另外除了上述強大的開源家族支撐以外，還有眾多商業(yè)文化的公司和組織也在提供技術、產品和服務，圍繞整個大數據的生態(tài)體系當中。比如有老牌的Oracle、IBM、HP、Teradata，也有興欣的Cloudera、星環(huán)、阿里、華為、snowflake等?？芍^是眾星捧月，琳瑯滿目。

總之，大數據技術的興起正完成對各傳統(tǒng)領域的顛覆。全球范圍內，運用大數據推動經濟發(fā)展、完善社會治理、提升政府服務和監(jiān)管能力正成為趨勢。各國已相繼制定實施大數據戰(zhàn)略性文件，大力推動大數據發(fā)展和應用。從全球大數據發(fā)展的趨勢來看，大數據產業(yè)推動社會生產要素的網絡化共享、集約化整合、協(xié)作開發(fā)和高效利用，改變了傳統(tǒng)的生產方式和經濟運行機制，可顯著提升經濟運行水平和效率。

中國是數據生產大國。目前，中國互聯網、移動互聯網用戶規(guī)模居全球第一，擁有豐富的數據資源和應用市場優(yōu)勢。筆者認為，如果能在大數據管理和分析技術的研發(fā)與應用方面取得突破，可持續(xù)推動創(chuàng)新企業(yè)和創(chuàng)新應用的高速成長。

THEEND

免責聲明：凡注明為其它來源的信息均轉自其它平臺，由網友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權負責。本網站對有關資料所引致的錯誤、不確或遺漏，概不負任何法律責任。若有來源標注錯誤或侵犯了您的合法權益，請作者持權屬證明與本站聯系，我們將及時更正、刪除，謝謝。聯系郵箱：xiali@infoobs.com

本月熱門

QuestMobile2024 中國移動互聯網秋季大報告：一線、新一線、二線城市月活用戶重回凈增，數字增長“內生動力”已然改變!

11月5日
AI 原生時代，字節(jié)想要復刻第三次增長奇跡

11月1日
2024 年預防網絡攻擊的 12 項網絡安全最佳實踐措施

11月1日
手機soc廠商自研架構成趨勢

11月4日
中國AI大模型的崛起：從萌芽到廣泛應用

11月4日
從5G到6G：開啟無線通信的未來

11月1日

精選文章

某企業(yè)風險評估方案

4月6日
大咖邀您來聊ChatGPT和知識管理!China MIKE啟動會倒計時

3月29日
吉安市政務數據開放平臺

2月18日
康毅：“核”芯“實力打造中國存儲，攜手共建信創(chuàng)生態(tài)

9月23日
“智改數轉”鍛造新質生產力，長虹佳華再獲殊榮

7月2日
“全棧創(chuàng)新從可用到好用”2023（第六屆）中國信息技術應用創(chuàng)新大會只等你來!

3月22日

熱點資訊

5G車聯網市場發(fā)展提速，運營商如何掘金？

大數據技術的五大發(fā)展趨勢

2024 信息化觀察網

長按掃描二維碼閱讀原文

大數據技術的五大發(fā)展趨勢

最新評論（評論僅代表用戶觀點）

如何保護數據備份服務器遠離勒索軟件攻擊

量子計算：數據存儲面臨的挑戰(zhàn)是什么？

數據治理與數據認責概述

大數據創(chuàng)新應用持續(xù)升級為傳統(tǒng)產業(yè)賦能添翼

本月熱門

QuestMobile2024 中國移動互聯網秋季大報告：一線、新一線、二線城市月活用戶重回凈增，數字增長“內生動力”已然改變!

AI 原生時代，字節(jié)想要復刻第三次增長奇跡

2024 年預防網絡攻擊的 12 項網絡安全最佳實踐措施

手機soc廠商自研架構成趨勢

中國AI大模型的崛起：從萌芽到廣泛應用

從5G到6G：開啟無線通信的未來

精選文章

某企業(yè)風險評估方案

大咖邀您來聊ChatGPT和知識管理!China MIKE啟動會倒計時

吉安市政務數據開放平臺

康毅：“核”芯“實力打造中國存儲，攜手共建信創(chuàng)生態(tài)

“智改數轉”鍛造新質生產力，長虹佳華再獲殊榮

“全棧創(chuàng)新從可用到好用”2023（第六屆）中國信息技術應用創(chuàng)新大會只等你來!

熱點資訊

QuestMobile2024 中國移動互聯網秋季大報告：一線、新一線、二線城市月活用戶重回凈增，數字增長“內生動力”已然改變!

繼“512軸”的新突破：華龍訊達在2024中國自動化大會上分享具身智能生產線實踐

DevSecOps建設標桿丨民生證券攜手懸鏡安全，共建敏捷安全開發(fā)體系

ESIS 2024第三屆中國電子半導體數智峰會正式啟動，邀您共創(chuàng)電子半導體行業(yè)美好未來!

榮耀應用市場攜手數智融合應用伙伴共創(chuàng)綠色生態(tài)

5G車聯網市場發(fā)展提速，運營商如何掘金？

安全指南：如何防止欺騙攻擊？

大數據技術的五大發(fā)展趨勢

最新評論（評論僅代表用戶觀點）

欄目推薦

如何保護數據備份服務器遠離勒索軟件攻擊

量子計算：數據存儲面臨的挑戰(zhàn)是什么？

數據治理與數據認責概述

大數據創(chuàng)新應用持續(xù)升級 為傳統(tǒng)產業(yè)賦能添翼

本月熱門

精選文章

熱點資訊

5G車聯網市場發(fā)展提速，運營商如何掘金？

安全指南：如何防止欺騙攻擊？

量子計算：數據存儲面臨的挑戰(zhàn)是什么？

大數據創(chuàng)新應用持續(xù)升級為傳統(tǒng)產業(yè)賦能添翼

5G車聯網市場發(fā)展提速，運營商如何掘金？