“數(shù)倉出局,中臺已涼,數(shù)據(jù)湖將稱王!”目前,市場上出現(xiàn)了這樣一種說法,估計大多數(shù)人很難評斷真?zhèn)巍?/p>
既便是專業(yè)人士,也不會武斷地做出這樣的研判,畢竟數(shù)據(jù)湖并不是為了取代數(shù)倉而生的。同時廣大的用戶更看重的是應用價值,而不是新名詞或者換湯不換藥的噱頭。
毫無疑問,數(shù)字經(jīng)濟時代,數(shù)據(jù)已成為企業(yè)的核心資產。數(shù)據(jù)湖(Data Lake)已經(jīng)成為繼數(shù)據(jù)庫、數(shù)據(jù)倉庫之后敏捷處理數(shù)據(jù)、提升數(shù)據(jù)洞察力的又一標志性的技術。摸清家底,搞清方向,應用數(shù)據(jù)湖才能心里有譜。
01
數(shù)據(jù)湖是開疆拓土不是替代既有產品
1)數(shù)據(jù)湖通常是企業(yè)中全量數(shù)據(jù)的單一存儲。
2010年,Pentaho創(chuàng)始人兼首席技術官James Dixon首次提出了數(shù)據(jù)湖概念。
經(jīng)過多年的發(fā)展,中國軟件網(wǎng)發(fā)現(xiàn),數(shù)據(jù)湖是以集中方式存儲各種類型數(shù)據(jù),提供彈性的容量和吞吐能力,能夠覆蓋廣泛的數(shù)據(jù)源,支持多種計算與處理分析引擎直接對數(shù)據(jù)進行訪問的統(tǒng)一存儲平臺。從結果來看,數(shù)據(jù)湖能夠實現(xiàn)數(shù)據(jù)分析、機器學習,以及數(shù)據(jù)訪問和管理等細粒度的授權、審計等功能。
數(shù)據(jù)湖通常是企業(yè)中全量數(shù)據(jù)的單一存儲,對存取的數(shù)據(jù)沒有格式類型的限制,可以存儲結構化數(shù)據(jù)(如關系型數(shù)據(jù)庫中的表),半結構化數(shù)據(jù)(如CSV、JSON、XML、日志等),非結構化數(shù)據(jù)(如電子郵件、文檔、PDF等)以及二進制數(shù)據(jù)(如圖形、音頻、視頻等)。數(shù)據(jù)產生后,可以按照數(shù)據(jù)的原始內容和屬性,直接存儲到數(shù)據(jù)湖,無需在數(shù)據(jù)上傳之前對數(shù)據(jù)進行任何的結構化處理。
2)數(shù)據(jù)湖的主要特征日益明顯。
數(shù)據(jù)特征。能夠實現(xiàn)全量數(shù)據(jù)的單一存儲,通常存儲原始格式的對象塊或者文件,可與企業(yè)業(yè)務數(shù)據(jù)庫和數(shù)據(jù)倉庫無縫集成,擴展現(xiàn)有數(shù)據(jù)應用。同時并非將數(shù)據(jù)移動到單個存儲庫中,在數(shù)據(jù)原本存儲的地方訪問數(shù)據(jù)并動態(tài)執(zhí)行數(shù)據(jù)轉換和匯總。
數(shù)據(jù)規(guī)模。數(shù)據(jù)湖技術支持超大規(guī)模存儲及可擴展的大規(guī)模數(shù)據(jù)處理能力,可根據(jù)企業(yè)的業(yè)務需求提供可大可小的彈性擴充。
數(shù)據(jù)類型。不管是傳統(tǒng)數(shù)倉承載的結構化數(shù)據(jù),還是數(shù)倉不能存儲的半結構化數(shù)據(jù)、非結構化數(shù)據(jù)、二進制數(shù)據(jù)等任意類型的數(shù)據(jù),數(shù)據(jù)湖都可以輕松實現(xiàn)采集、存儲和分析。
賦能用戶。數(shù)據(jù)湖無需任何預處理即可對數(shù)據(jù)進行采集、存儲和分析,還能消除數(shù)據(jù)采集和存儲的復雜性,加速應用數(shù)據(jù),賦能廣大研發(fā)者、數(shù)據(jù)科學家、分析師,實現(xiàn)對跨平臺、跨語言、跨領域的所有數(shù)據(jù)進行高效分析和處理。
多樣化分析能力??梢赃\行從控制面板和可視化到大數(shù)據(jù)處理、實時分析和機器學習等不同類型的分析,深度挖掘數(shù)據(jù)價值,進行預測分析,并保證了數(shù)據(jù)一致性、可治理和安全性的實現(xiàn)。
3)數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖是數(shù)據(jù)技術不斷發(fā)展的結果,是傳承不是取代。
數(shù)據(jù)倉庫是一個經(jīng)過優(yōu)化的數(shù)據(jù)庫,用于分析來自事務系統(tǒng)和業(yè)務線應用程序的關系型數(shù)據(jù),因此數(shù)據(jù)倉庫存儲的都是結構化數(shù)據(jù)。數(shù)據(jù)經(jīng)過了清理、豐富和轉換,因此可以充當用戶可信任的“單一信息源”。
數(shù)據(jù)倉庫對數(shù)據(jù)提供高效地存儲,便于用戶通過報表、看板和分析工具來獲取查詢結果,從數(shù)據(jù)中獲得洞察力、決策指導。
對應起來看,數(shù)據(jù)湖存儲著來自業(yè)務線應用程序的關系型數(shù)據(jù),以及來自移動應用程序、IoT設備和社交媒體的非關系型數(shù)據(jù)。
用戶可以對數(shù)據(jù)使用不同的方式如SQL查詢、大數(shù)據(jù)分析、全文搜索、實時分析和機器學習等,來獲得對數(shù)據(jù)的深入了解。
當不清楚某些數(shù)據(jù)存在的價值時,將數(shù)據(jù)以原生格式天然沉積在數(shù)據(jù)湖。數(shù)據(jù)來源不盡相同,能夠同時存儲結構化和非結構化數(shù)據(jù)。同時,可以使用不同的過程將數(shù)據(jù)注入到數(shù)據(jù)湖中。最終,都是為了幫助用戶,根據(jù)自己的需要更好地處理數(shù)據(jù)。
4)數(shù)據(jù)湖技術架構發(fā)展經(jīng)歷了三個發(fā)展階段。
第一階段是自建開源Hadoop數(shù)據(jù)湖架構。不過隨著數(shù)據(jù)量激增、應用場景的豐富,導致Hadoop的問題凸顯。因此,越來越多的方案開始向數(shù)據(jù)湖轉型,解決靠單一Hadoop所沒能解決的問題。
第二階段是上托管Hadoop數(shù)據(jù)湖架構,底層物理服務器和開源軟件版本由云廠商提供和管理,企業(yè)需要自己運維和管理。
第三階段采取云上數(shù)據(jù)湖架構,即云上純托管的存儲系統(tǒng),引擎豐富度不斷擴展,分離后的存儲系統(tǒng)可獨立擴展,完成存算分離。
目前,數(shù)據(jù)湖應用正處于第二和第三階段,云上純托管的存儲系統(tǒng),正成為數(shù)據(jù)湖的存儲基礎設施。
02
數(shù)據(jù)湖市場的增速超出預想
雖然數(shù)據(jù)湖的概念提出僅僅只有十年的時間,但是數(shù)據(jù)湖市場的增長速度卻超出了許多人的預想,帶來意外的驚喜。
1)到2024年數(shù)據(jù)湖市場將突破200億美元
市場研究機構MarketsandMarkets發(fā)布的研究報告顯示,2019年全球數(shù)據(jù)湖市場規(guī)模為79億美元。同時該機構預測,到2024年,市場規(guī)模將達到201億美元,預測期內(2019~2024年)的復合年增長率為20.6%。
中國軟件網(wǎng)分析,全球數(shù)據(jù)湖市場的增長主要取決于以下幾個因素:
一是新型數(shù)字化企業(yè)的需求得到了激發(fā),傳統(tǒng)企業(yè)以前因為成本、技術和環(huán)境限制的需求也得到釋放,越來越需要從不斷增長的數(shù)據(jù)量中進行分析從而獲得更深入的內容。
二是公有云服務商的大量介入,以及開源技術的應用,將數(shù)據(jù)湖應用的成本和技術實現(xiàn)難度大幅降低,基于云的數(shù)據(jù)平臺轉變有利于管理和減輕數(shù)據(jù)問題,增加了市場的發(fā)展機會。
三是在數(shù)據(jù)湖上新增的與數(shù)據(jù)分析相關的功能有望得到更大的豐富。到2021年,將數(shù)據(jù)湖和數(shù)據(jù)倉庫良好融合的企業(yè),在實際應用中可以支持多30%的業(yè)務使用場景。
2)北美將占據(jù)最高份額,亞太市場增長最快。
MarketsandMarkets的報告顯示,從地域來看,預計北美將占據(jù)最高的全球數(shù)據(jù)湖市場份額和高增長率,源于大數(shù)據(jù)技術的使用增加,跨行業(yè)、垂直行業(yè)的數(shù)據(jù)量不斷增加,公司對數(shù)據(jù)湖解決方案的投資不斷增加,以及數(shù)據(jù)湖技術的不斷進步等。
在歐洲,一方面政府采取了更多的措施來推動數(shù)據(jù)湖解決方案的采用,如英國。法國越來越注重研發(fā)和來自全球玩家和投資者的大量資本流入,推動法國市場的增長。
而亞太地區(qū)(APAC),在預測期(2019~2024年)內的年復合增長率將達到最高。中國加強人工智能、物聯(lián)網(wǎng)和大數(shù)據(jù)技術的整合,推動數(shù)據(jù)湖解決方案在中國的應用。
3)市場發(fā)展呈現(xiàn)四大特點。
一是數(shù)據(jù)湖組件市場分析中的數(shù)據(jù)發(fā)現(xiàn)、解決方案、數(shù)據(jù)集成和管理、數(shù)據(jù)湖分析、數(shù)據(jù)可視化等幾大重要組件迅速發(fā)展,快速贏得市場和用戶。
二是運營部門年復合增長率最高。從業(yè)務功能來看,數(shù)據(jù)湖具有市場營銷、銷售、運營、金融和人力資源五大業(yè)務功能。MarketsandMarkets預測,運營業(yè)務功能年復合增長率最高,市場營銷業(yè)務功能將占據(jù)最大的市場規(guī)模。數(shù)據(jù)湖使公司能夠提高運營效率,降低成本。
三是基于云部署模式的數(shù)據(jù)湖解決方案快速增長。從部署模式來看,數(shù)據(jù)湖具有本地部署和云部署兩種部署模式。MarketsandMarkets報告認為,數(shù)據(jù)湖市場的大多數(shù)供應商都提供基于云的數(shù)據(jù)湖解決方案,以實現(xiàn)利潤最大化和設備維護過程的有效自動化。同樣,基于云部署模式的數(shù)據(jù)湖解決方案增長快速。
四是數(shù)據(jù)湖行業(yè)應用發(fā)展迅速。數(shù)據(jù)湖解決方案被廣泛應用在銀行、金融服務和保險、IT、零售、醫(yī)療、制造生產、能源和公共事業(yè)、媒體和娛樂、政府以及教育等多個垂直領域當中。
03
云服務商已經(jīng)是數(shù)據(jù)湖市場最大的贏家
作為大數(shù)據(jù)的變革新生力量,數(shù)據(jù)湖技術一經(jīng)問世,便深受不同領域企業(yè)的擁戴。目前,數(shù)據(jù)湖市場主要有三類供應商:
1)開源數(shù)據(jù)湖的四大項目
目前市面上流行的三大開源數(shù)據(jù)湖方案分別為:Apache Delta、Apache Iceberg和Apache Hudi。開源項目的優(yōu)勢包括:頭部企業(yè)提出的開源項目,技術可行性強;群策群智,發(fā)展迅速;商業(yè)化版本也比較多,方便選擇等。
由于Apache Spark在商業(yè)化上取得巨大成功,所以由其背后商業(yè)公司Databricks推出的Delta Lake也顯得格外亮眼。
Delta Lake項目于2019年通過Apache License開放源碼,是Databricks解決方案的重要組成部分。Delta定位為數(shù)據(jù)湖存儲層,集成流式和批處理,支持更新/刪除/合并,為Apache Spark和大數(shù)據(jù)工作負載提供ACID事務能力。一些關鍵特性包括:支持多重分析引擎、廉價存儲、支持流批讀寫、支持Python接口等。
Apache Hudi是由Uber的工程師為滿足其內部數(shù)據(jù)分析的需求而設計的數(shù)據(jù)湖項目,后提供Apache License開放源碼。該項目在Apache社區(qū)非?;钴S,2020年4月取得了最高項目地位。Hudi提供的fast upsert/delete以及compaction等功能,精準命中用戶的痛點。其在文件管理、索引、表類型、查詢類型、Hudi工具等關鍵特性特色鮮明。
Netflix的數(shù)據(jù)湖原先是借助Hive來構建,但在發(fā)現(xiàn)Hive設計上的諸多缺陷之后,開始轉為自研Iceberg,并最終演化成Apache下一個高度抽象通用的開源數(shù)據(jù)湖方案。
Apache Iceberg目前社區(qū)關注度暫時比不上Delta,功能也不如Hudi豐富,但因為它具有高度抽象和非常優(yōu)雅的設計,為成為一個通用的數(shù)據(jù)湖方案奠定了良好基礎。
Apache CarbonData是由華為貢獻給開源社區(qū)的數(shù)據(jù)湖項目,助力華為云產品的數(shù)據(jù)平臺和數(shù)據(jù)湖解決方案應對PB級負載。除了支持更新、刪除、合并操作、流式采集外,它還擁有大量高級功能,如時間序列、物化視圖的數(shù)據(jù)映射、二級索引,并且還被集成到多個AI平臺,如Tensorflow。
2)云服務商的數(shù)據(jù)湖產品與服務
亞馬遜云科技、微軟、谷歌云、阿里云、華為云、騰訊云等紛紛推出自己的數(shù)據(jù)湖解決方案和相關產品,同時一些傳統(tǒng)企業(yè)如IBM也推出類似的項目,但是影響力甚微。
專家認為,云服務商數(shù)據(jù)湖服務彈性分析可以滿足企業(yè)業(yè)務潮汐帶來了資源波動,按試用付費,也讓企業(yè)無需先期購買服務器、存儲等硬件設備,降低了運維成本使用成本,大大提高了資金利用率;同時,能夠實現(xiàn)與企業(yè)現(xiàn)有技術的深度融合,支持數(shù)據(jù)多元集成和遷移,大幅帶動提升了企業(yè)原有分析和治理系統(tǒng)的性能優(yōu)化等。
亞馬遜云數(shù)據(jù)湖,率先基于AWS Lake Formation,構筑了一套以S3為中心化存儲、Glue為元數(shù)據(jù)服務,E-MapReduce、Athena為引擎、針對AI優(yōu)化的AWS Sagemaker的開放協(xié)作式的產品解決方案,普及了數(shù)據(jù)湖的概念。
AWS Lake Formation是一個管理性質的組件,與其他AWS服務互相配合,來完成整個企業(yè)級數(shù)據(jù)湖構建功能。其中,采用Amazon S3作為整個數(shù)據(jù)湖的集中存儲,按需擴展/按使用量付費。AWS Glue完成元數(shù)據(jù)抓取、ETL和數(shù)據(jù)準備。使用Amazon EMR進行數(shù)據(jù)的高級處理分析,或者基于Amazon EMR、Amazon Kinesis來完成流處理任務。數(shù)據(jù)通過Athena/Redshift來提供基于SQL的交互式批處理能力,通過Amazon Machine Learning、Amazon Lex、Amazon Rekognition進行深度加工。
AWS Lake Formation工作原理
微軟Azure數(shù)據(jù)湖解決方案,包括數(shù)據(jù)湖存儲、接口層、資源調度與計算引擎層,其中存儲層是基于Azure object Storage構建的,對結構化、半結構化和非結構化數(shù)據(jù)提供支撐;接口層為WebHDFS,在Azure object Storage實現(xiàn)了HDFS的接口;在資源調度上,Azure基于YARN實現(xiàn);計算引擎上,Azure提供了U-SQL、hadoop和Spark等多種處理引擎。
Azure基于visual studio提供給了客戶開發(fā)的支持。實現(xiàn)多計算引擎的適配,包括SQL、Apache Hadoop和Apache Spark,提供多種不同引擎任務之間的自動轉換能力。
騰訊云數(shù)據(jù)湖。今年年5月13日,騰訊云首次展示了云原生數(shù)據(jù)湖體系,并發(fā)布兩款“開箱即用”數(shù)據(jù)湖產品——數(shù)據(jù)湖計算服務DLC和數(shù)據(jù)湖構建DLF。
騰訊云的云原生智能數(shù)據(jù)湖產品矩陣包括數(shù)據(jù)湖存儲、數(shù)據(jù)湖算力調度、數(shù)據(jù)湖大數(shù)據(jù)分析、數(shù)據(jù)湖AI能力、以及數(shù)據(jù)湖應用和云上基礎服務六個層面,提供一體化的全方位服務。
兩款“開箱即用”數(shù)據(jù)湖新品DLC和DLF核心功能是更簡單地讓數(shù)據(jù)入湖、統(tǒng)一管理數(shù)據(jù)信息,通過DLC數(shù)據(jù)湖計算讓用戶在數(shù)據(jù)分析時可以即時編寫SQL,隨時發(fā)起集群查詢,降低運維門檻。其中,數(shù)據(jù)湖計算服務采用的是無服務器架構設計,計算性能提升35.5%,構建效率提升60%,業(yè)務增長量提升可達75%。
數(shù)據(jù)湖構建則能幫助用戶快速高效的構建企業(yè)數(shù)據(jù)湖技術架構。借助數(shù)據(jù)湖構建,用戶可以極大提高數(shù)據(jù)入湖準備的效率,資源成本節(jié)省超30%,湖構建時間減少60%,運維工程師人數(shù)降低100%。
華為數(shù)據(jù)湖基于DLI Serverless構建,DLI完全兼容Apache Spark、Apache Flink生態(tài)和接口,是集實時分析、離線分析、交互式分析為一體的Serverless大數(shù)據(jù)計算分析服務。
華為云提供了DAYU智能數(shù)據(jù)湖運營平臺,DAYU涵蓋了整個數(shù)據(jù)湖治理的核心流程,并對其提供了相應的工具支持。
據(jù)介紹,華為數(shù)據(jù)湖擁有邏輯統(tǒng)一、類型多樣、匯聚原始紀錄三大特點,提出數(shù)據(jù)入湖的6項標準,包括明確數(shù)據(jù)Owner、發(fā)布數(shù)據(jù)標準、定義數(shù)據(jù)密級、明確數(shù)據(jù)源、數(shù)據(jù)質量評估、元數(shù)據(jù)注冊,保證入湖的數(shù)據(jù)都有明確的業(yè)務責任人,各項數(shù)據(jù)都可理解,同時都能在相應的信息安全保障下進行消費。同時提供了5種數(shù)據(jù)入湖的技術手段,包括批量集成、數(shù)據(jù)復制同步、消息集成、流集成、數(shù)據(jù)虛擬化等。
阿里云提供多種數(shù)據(jù)湖服務與產品,如基于EMR開源生態(tài)和云原生服務構建數(shù)據(jù)湖,云原生數(shù)據(jù)湖分析-DLA方案、構建分層模式混合數(shù)據(jù)湖等。其中云原生數(shù)據(jù)湖分析DLA一站式提供數(shù)據(jù)庫入湖、元數(shù)據(jù)管理、元數(shù)據(jù)自動發(fā)現(xiàn)、Serverless SQL分析與Serverless Spark計算等能力解決此類問題。
阿里云數(shù)據(jù)湖解決方案有三大特色:強大的數(shù)據(jù)存儲引擎,阿里云的數(shù)據(jù)湖底層基于阿里云自研的分布式存儲引擎搭建,提供體系化的數(shù)據(jù)采集能力,支持結構化/半結構化/非結構化數(shù)據(jù)源。
與云原生平臺的深入結合。數(shù)據(jù)湖可以對接多種差異性的計算引擎,運行在不同負載之上,多種計算引擎都共享同一套存儲系統(tǒng),打破數(shù)據(jù)孤島,洞察數(shù)據(jù)價值。
內部及外部的有效驗證。阿里巴巴集團首先是阿里云數(shù)據(jù)湖產品的最佳實踐者,后者首先支撐了阿里巴巴集團內部的電商、移動辦公、文娛、物流、本地生活等各種復雜業(yè)務,建立了完善的自我實踐機制,產品和方案得到有效的驗證。同時,阿里云的數(shù)據(jù)湖方案也支撐了在線教育、互聯(lián)網(wǎng)廣告、新媒體、網(wǎng)絡游戲等行業(yè)用戶在快速發(fā)展過程中的實際業(yè)務需求,實現(xiàn)了技術的有效賦能。
3)創(chuàng)新型企業(yè)
Databricks開源了其數(shù)據(jù)湖的關鍵技術Delta Lake。同時Delta Lake、Apache Spark和Databricks統(tǒng)一分析平臺的進步,不斷提高了架構的功能和性能。
Delta Lake是一個開放格式存儲層,可為數(shù)據(jù)湖提供可靠性、安全性和性能,用于流媒體和批量操作。Delta Lake通過將數(shù)據(jù)孤島替換為結構化、半結構化和非結構化數(shù)據(jù)的單個住宅,成為一個具有成本效益、高度可擴展的湖屋Lakehouse的基礎。
其優(yōu)勢包括:支持ACID交易和架構執(zhí)行,提供了傳統(tǒng)數(shù)據(jù)湖所缺乏的可靠性;Delta Sharing是業(yè)界首個安全數(shù)據(jù)共享的開放式協(xié)議,無論數(shù)據(jù)位于何處,與其他組織共享數(shù)據(jù)都變得簡單,與Unity Catalog的本地集成允許企業(yè)集中管理和審核跨組織的共享數(shù)據(jù);在Apache Spark下,提供更大規(guī)模和速度;所有數(shù)據(jù)都以開放式Apache Parquet格式存儲,允許任何兼容的API讀取數(shù)據(jù);Delta Live Tables,一個簡單的方法來建立和管理數(shù)據(jù);通過啟用數(shù)據(jù)治理的細粒度訪問控制來降低風險等。
Dremio是美國一家數(shù)據(jù)即服務平臺(DaaS),致力于加快分析時間,并提供數(shù)據(jù)湖及其他功能。Dremio作為新一代數(shù)據(jù)湖引擎,直接在云數(shù)據(jù)湖存儲中進行實時的、交互式的查詢釋放數(shù)據(jù)價值,主要應用于三大場景:商業(yè)智能,無需依賴IT或數(shù)據(jù)工程,直接針對數(shù)據(jù)湖存儲提高即席和報告查詢速度;數(shù)據(jù)科學上,使用工具利用數(shù)據(jù)價值,加速數(shù)據(jù)發(fā)現(xiàn)、挖掘潛在關系;數(shù)據(jù)化的現(xiàn)代化上,針對現(xiàn)代化云數(shù)據(jù)湖存儲方案面臨的復雜任務,通過語義層使遷移期間的分析工作負載無縫運行。
數(shù)據(jù)湖企業(yè)附錄表格