英國牛津大學教授維克托·邁爾-舍恩伯格在其所撰寫的《大數據時代》中表述,大數據時代是“已經發(fā)生的未來”,而在這個已經發(fā)生的未來里,沒有旁觀者。
作為時代發(fā)生的必然產物,大數據正加速滲透至我們的日常生活,正完成對各傳統(tǒng)領域的顛覆。本文從大數據時代的特點出發(fā),為讀者介紹目前的大數據技術的發(fā)展趨勢以及大數據的生態(tài)體系。
大數據時代的特點和市場規(guī)模
大數據時代兩個特點。第一,大數據技術以開源為主,迄今為止,尚未形成絕對技術壟斷,即便是IBM、甲骨文等行業(yè)巨擘,也同樣是集成了開源技術和該公司已有產品而已。開源技術對任何一個國家都是開放的,中國公司同樣可以分享開源的蛋糕,但是需要以更加開放的心態(tài)、更加開明的思想正確地對待開源社區(qū)。第二,中國的人口和經濟規(guī)模決定了中國的數據資產規(guī)模冠于全球。
我國數據產生能力巨大,大數據資源極為豐富。國際數據公司(IDC)的監(jiān)測數據顯示,2018年全球大數據儲量規(guī)模達到33ZB,而我國數據儲量占到全球數據總量的23%。2019年我國大數據產業(yè)規(guī)模約為8500億元,較2018年增長37.8%,預計2020年將達到10100億元。其中金融行業(yè)占比約占20%。
圖1:大數據市場預測
筆者認為,大數據正超越信息技術,使人們重新思考公司的戰(zhàn)略和組織結構,重新審視產業(yè)變遷的驅動因素,重新審視政府治理水平,甚至重新界定國家競爭的主戰(zhàn)場。
大數據技術發(fā)展趨勢
隨著大數據技術的不斷發(fā)展,其各個技術環(huán)節(jié)呈現出新的發(fā)展趨勢和挑戰(zhàn)。根據Gartner最新的分析可以看出,主要有五大技術趨勢。
01、存儲計算分離
在傳統(tǒng)集群系統(tǒng)中,計算和存儲是緊密耦合的,以Hadoop為例,在傳統(tǒng)Hadoop的使用中,存儲與計算密不可分,而隨著業(yè)務的發(fā)展,常常會為了擴存儲而帶來額外的計算擴容,這其實就是一種浪費。同理,只為了提升計算能力,也會帶來一段時期的存儲浪費,將計算和存儲分離,可以更好地應對單方面的不足。
筆者認為,存儲計算分離是一種分層架構思想,即將存儲能力和計算能力分開,各自服務化,通過高速網絡連接。以AWS的大護具架構為例,底層統(tǒng)一采用S3存儲,存儲層上架設各種計算引擎比如HIVE、Spark、Flink等。
02、實時計算及實時數倉
實時計算一般針對海量數據進行的,要求為秒級。實時計算主要分為數據的實時入庫、數據的實時計算兩部分。
接下來,筆者將介紹實時計算的主要應用場景。
第一個場景是數據源實時、不間斷,要求用戶的響應時間也是實時的。比如對于大型網站的流式數據:網站的訪問PV/UV、用戶訪問了什么內容、搜索了什么內容等,實時的數據計算和分析可以動態(tài)實時地刷新用戶訪問數據,展示網站實時流量的變化情況,分析每天各小時的流量和用戶分布情況。
另一個場景是數據量大且無法或沒必要預算,但要求對用戶的響應時間是實時的。比如說:昨天來自每個省份不同性別的訪問量分布,昨天來自每個省份不同性別不同年齡不同職業(yè)不同名族的訪問量分布。
03、人工智能推動數據智能應用
相比于傳統(tǒng)機器學習算法,深度學習提出了一種讓計算機自動學習產生特征的方法,并將特征學習融入建立模型的過程中,從而減少了人為設計特征引發(fā)的不完備。深度學習借助深層次神經網絡模型,能夠更加智能地提取數據不同層次的特征,對數據進行更加準確、有效的表達。而且訓練樣本數量越大,深度學習算法相對傳統(tǒng)機器學習算法就越有優(yōu)勢。
圖3:大數據與人工智能交叉
目前,深度學習已經深入多個領域,并在圖像分類、語音識別、問答系統(tǒng)等應用中獲得了重大突破,取得了成功的商業(yè)應用。隨著越來越多的行業(yè)和領域逐步完善數據的采集和存儲,深度學習的應用會更加廣泛。由于大數據應用的復雜性,人工智能和大數據的融合將是一個持續(xù)的常態(tài)。
04、技術趨勢,湖倉一體化
9月18日,2020云棲大會上,阿里云正式推出大數據平臺的下一代架構——“湖倉一體”,打通數據倉庫和數據湖兩套體系,讓數據和計算在湖與倉之間自由流動,從而構建一個完整的、有機的、大數據技術生態(tài)體系。為企業(yè)提供兼具數據湖的靈活性和數據倉庫的成長性的新一代大數據平臺,降低企業(yè)構建大數據平臺的整體成本。
圖4:大數據存在的三種形態(tài)
在數據湖架構上建立數倉的嘗試并不成功,這表明數倉和數據湖有本質的區(qū)別,在數據湖體系上很難建成完善的數倉。數據湖與數據倉庫兩者很難直接合并成一套系統(tǒng),基于融合兩者的思路進行探索,阿里云提出下一代的大數據技術演進方向:湖倉一體,即打通數據倉庫和數據湖兩套體系,讓數據和計算在湖和倉之間自由流動,從而構建一個完整的有機的大數據技術生態(tài)體系。
圖5:數據倉庫與數據湖的區(qū)別
在阿里云的構想中,湖倉議題值得期待。湖和倉的數據/元數據無縫打通,且不需要用戶人工干預;湖和倉有統(tǒng)一的開發(fā)體驗,存儲在不同系統(tǒng)的數據,可以通過一個統(tǒng)一的開發(fā)/管理平臺操作;數據湖與數據倉庫的數據,系統(tǒng)負責自動caching/moving,系統(tǒng)可以根據自動的規(guī)則決定哪些數據放在數倉,哪些保留在數據湖,進而形成一體化。
05、大數據平臺融合云計算
云計算與大數據的發(fā)展路線必將交接、碰撞,而這已經成為現實。為什么大家開始對大數據諱莫如深呢?大數據給人留下的印象:花錢多,靈活度低,令人頭疼的運營管理等等。好在近年來,Modern Data Warehouse這個概念火了起來,利用云計算的殼解釋了現代大數據存在的合理性。而隨著企業(yè)日新月異的數據需求和技術的進步,更新的架構層出不窮。
以DaaS為例,其既是Function-as-a-Service(FaaS)的一種,也是SaaS的自然延伸,最終目的都是盡可能遠離IaaS以及服務本身的運維,把資源最大限度地解放出來進行業(yè)務功能的開發(fā),是目前大數據領域最接近這種serverless概念的產品,也許它會成為云時代最好的大數據平臺。
大數據龐大生態(tài)體系
整個大數據技術家族十分龐大,從數據生產、數據交換、數據存儲、數據工程、數據科學計算、數據應用到數據消費整個工程體系中涉及到30多個技術組件。筆者將會重點介紹其中關鍵的幾個:
Sqoop:Sqoop是一款開源的工具,主要用于在Hadoop、Hive與傳統(tǒng)的數據庫(MySql)間進行數據的傳遞,可以將一個關系型數據庫(例如:MySQL,Oracle等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。
Flume:Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統(tǒng),Flume支持在日志系統(tǒng)中定制各類數據發(fā)送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫到各種數據接受方(可定制)的能力。
Kafka:Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng)。
Spark:Spark是當前最流行的開源大數據內存計算框架??梢曰贖adoop上存儲的大數據進行計算。
Hbase:HBase是一個分布式的、面向列的開源數據庫。HBase不同于一般的關系數據庫,它是一個適合于非結構化數據存儲的數據庫。
Hive:Hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的SQL查詢功能,可以將SQL語句轉換為MapReduce任務進行運行。其優(yōu)點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統(tǒng)計,不必開發(fā)專門的MapReduce應用,十分適合數據倉庫的統(tǒng)計分析。
ZooKeeper:Zookeeper是Google的Chubby一個開源的實現。它是一個針對大型分布式系統(tǒng)的可靠協(xié)調系統(tǒng),提供的功能包括:配置維護、名字服務、分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。
Apache Flink是為分布式、高性能、隨時可用以及準確的流處理應用程序打造的開源流處理框架
Yarn(分布式資源管理器),YARN是下一代MapReduce,即MRv2,是在第一代MapReduce基礎上演變而來的,主要是為了解決原始Hadoop擴展性較差,不支持多計算框架而提出的。
Yarn是下一代Hadoop計算平臺,Yarn是一個通用的運行時框架,用戶可以編寫自己的計算框架,在該運行環(huán)境中運行。
圖6:大數據技術生態(tài)
另外除了上述強大的開源家族支撐以外,還有眾多商業(yè)文化的公司和組織也在提供技術、產品和服務,圍繞整個大數據的生態(tài)體系當中。比如有老牌的Oracle、IBM、HP、Teradata,也有興欣的Cloudera、星環(huán)、阿里、華為、snowflake等??芍^是眾星捧月,琳瑯滿目。
總之,大數據技術的興起正完成對各傳統(tǒng)領域的顛覆。全球范圍內,運用大數據推動經濟發(fā)展、完善社會治理、提升政府服務和監(jiān)管能力正成為趨勢。各國已相繼制定實施大數據戰(zhàn)略性文件,大力推動大數據發(fā)展和應用。從全球大數據發(fā)展的趨勢來看,大數據產業(yè)推動社會生產要素的網絡化共享、集約化整合、協(xié)作開發(fā)和高效利用,改變了傳統(tǒng)的生產方式和經濟運行機制,可顯著提升經濟運行水平和效率。
中國是數據生產大國。目前,中國互聯網、移動互聯網用戶規(guī)模居全球第一,擁有豐富的數據資源和應用市場優(yōu)勢。筆者認為,如果能在大數據管理和分析技術的研發(fā)與應用方面取得突破,可持續(xù)推動創(chuàng)新企業(yè)和創(chuàng)新應用的高速成長。