數(shù)據(jù)湖正成為新的數(shù)據(jù)倉庫

編譯
許多人所說的“數(shù)據(jù)湖”正迅速發(fā)展成為下一代數(shù)據(jù)倉庫。有必要向不熟悉這個(gè)概念的人介紹一下,數(shù)據(jù)湖是多重結(jié)構(gòu)數(shù)據(jù)的系統(tǒng)或存儲庫,這些數(shù)據(jù)以自然的格式和模式來存儲,通常作為對象“blob”或文件。

像AWSLake Formation和Delta Lake這類平臺正成為用于決策支持和AI驅(qū)動型決策自動化的治理中心。

數(shù)據(jù)倉庫是再度扮演重要角色,還是說奄奄一息?

如果你在這個(gè)問題上有點(diǎn)困惑,那也情有可原。一方面,數(shù)據(jù)倉庫無疑似乎炙手可熱。作為一名長期的行業(yè)觀察人士,我看到這個(gè)行業(yè)創(chuàng)新不斷,創(chuàng)業(yè)活動高潮迭起。

這股趨勢實(shí)際上始于十年前一體機(jī)(appliance)這種設(shè)備進(jìn)入數(shù)據(jù)倉庫主流,然后隨著幾年前市場轉(zhuǎn)向新一代云數(shù)據(jù)倉庫,獲得了新的發(fā)展勢頭。過去這幾年,一家云數(shù)據(jù)倉庫供應(yīng)商Snowflake在市場上獲得了異常的關(guān)注。

數(shù)據(jù)倉庫黯然失色

另一方面,數(shù)據(jù)倉庫在新的行業(yè)模式面前一次次黯然失色,比如大數(shù)據(jù)、機(jī)器學(xué)習(xí)和AI等新模式。這股趨勢加深了這種印象:作為一個(gè)企業(yè)IT優(yōu)先事項(xiàng),數(shù)據(jù)倉庫日漸式微,但實(shí)際上大多數(shù)企業(yè)組織現(xiàn)在至少有一個(gè)、常常有多個(gè)數(shù)據(jù)倉庫為各種下游應(yīng)用提供服務(wù)。

數(shù)據(jù)倉庫依然是核心的企業(yè)工作負(fù)載,這就是為什么幾年前我覺得我要撰文解釋為什么數(shù)據(jù)倉庫遠(yuǎn)未消亡。這也可以解釋為什么其他觀察人士認(rèn)為他們要重新定義數(shù)據(jù)倉庫概念,好讓數(shù)據(jù)倉庫在數(shù)據(jù)湖和云計(jì)算盛行的時(shí)代繼續(xù)扮演重要角色。

數(shù)據(jù)倉庫這種實(shí)踐不僅蓬勃發(fā)展,現(xiàn)在還被視為是云計(jì)算行業(yè)一個(gè)值得期待的主要增長點(diǎn)。然而,如果你一味關(guān)注帶這個(gè)標(biāo)簽進(jìn)入市場的那些平臺(比如Snowflake),就會看不到這個(gè)領(lǐng)域的大部分面貌。

數(shù)據(jù)湖大行其道

許多人所說的“數(shù)據(jù)湖”正迅速發(fā)展成為下一代數(shù)據(jù)倉庫。有必要向不熟悉這個(gè)概念的人介紹一下,數(shù)據(jù)湖是多重結(jié)構(gòu)數(shù)據(jù)的系統(tǒng)或存儲庫,這些數(shù)據(jù)以自然的格式和模式來存儲,通常作為對象“blob”或文件。

數(shù)據(jù)湖通常用作所有企業(yè)數(shù)據(jù)的單個(gè)存儲區(qū),包括源系統(tǒng)數(shù)據(jù)和已轉(zhuǎn)換數(shù)據(jù)的原始副本,已轉(zhuǎn)換數(shù)據(jù)用于報(bào)告、可視化、分析和機(jī)器學(xué)習(xí)等任務(wù)。數(shù)據(jù)湖包含分布式文件或?qū)ο蟠鎯?、機(jī)器學(xué)習(xí)模型庫以及高度并行化的處理和存儲資源集群。此外,數(shù)據(jù)湖通常在讀取時(shí)執(zhí)行模式,并使用統(tǒng)計(jì)模型從中提取有意義的關(guān)系和模式,而不是對它們存儲的對象執(zhí)行通用模式和語義。

這一切與為大多數(shù)專業(yè)人員采用的數(shù)據(jù)倉庫方法提供依據(jù)的Inmon和Kimball核心概念不一致。從根本上說,數(shù)據(jù)倉庫是為了聚合、保留和管理得到官方認(rèn)可、“單一版本真相”的數(shù)據(jù)記錄而存在的。這個(gè)概念與所管理數(shù)據(jù)的特定應(yīng)用領(lǐng)域和具體的特定使用場合無關(guān)。

如果你懷疑我在這個(gè)方面的說法,不妨看看Bill Inmon對數(shù)據(jù)倉庫定義的這番討論(http://www.b-eye-network.com/view/16066)以及對Inmon的框架和Ralph Kimball的框架進(jìn)行的這番比較(https://www.computerweekly.com/tip/Inmon-or-Kimball-Which-approach-is-suitable-for-your-data-warehouse)。數(shù)據(jù)倉庫的關(guān)鍵通常是為決策提供數(shù)據(jù)驅(qū)動型支持,因而可以很好地?cái)U(kuò)展到AI驅(qū)動型推理這個(gè)新領(lǐng)域。

下一代數(shù)據(jù)倉庫

在過去的一年,幾則備受矚目的行業(yè)宣布表明了數(shù)據(jù)倉庫的角色已發(fā)生轉(zhuǎn)變。雖然決策支持(又叫商業(yè)智能、報(bào)告和聯(lián)機(jī)分析處理)仍是大多數(shù)數(shù)據(jù)倉庫的核心使用場合,但我們看到了向決策自動化的穩(wěn)步轉(zhuǎn)變。換句話說,數(shù)據(jù)倉庫現(xiàn)在支持為數(shù)據(jù)驅(qū)動的推理構(gòu)建機(jī)器學(xué)習(xí)應(yīng)用的數(shù)據(jù)科學(xué)管道。

新一代數(shù)據(jù)倉庫實(shí)際上是數(shù)據(jù)湖,首要任務(wù)是用來治理用于構(gòu)建和訓(xùn)練機(jī)器學(xué)習(xí)模型的清理、整合和認(rèn)可。比如說在去年秋天在亞馬遜re:Invent大會上,AWS宣布了AWSLake Formation。這種新型托管服務(wù)的明確目的是,簡化和加快安全數(shù)據(jù)湖的安裝和配置。然而,AWS Lake Formation擁有云數(shù)據(jù)倉庫的所有標(biāo)志,不過AWS沒有稱之為云數(shù)據(jù)倉庫,實(shí)際上已經(jīng)提供了一種面向決策支持應(yīng)用的經(jīng)典數(shù)據(jù)倉庫Amazon Redshift。

AWS Lake Formation的外觀和行為都類似數(shù)據(jù)倉庫。的確,AWS這樣來描述該服務(wù):“數(shù)據(jù)湖是一種集中的、篩選的且安全的存儲區(qū),它以原始形式和針對分析而做準(zhǔn)備的形式來存儲所有數(shù)據(jù)。數(shù)據(jù)湖讓你可以打破數(shù)據(jù)孤島,結(jié)合不同類型的分析工具,以獲得洞察力并指導(dǎo)更好的業(yè)務(wù)決策。”

的確,AWS將AWS Lake Formation視作一種用于決策支持和AI驅(qū)動型決策自動化的超級數(shù)據(jù)倉庫。具體來說,這家供應(yīng)商聲稱這項(xiàng)服務(wù)旨在管理“你用戶可以利用的數(shù)據(jù)集......用戶可以選擇用來管理的分析和機(jī)器學(xué)習(xí)服務(wù),比如Amazon EMR for Apache Spark、Amazon Redshift、Amazon Athena、Amazon SageMaker和Amazon QuickSight 。”

另一個(gè)典型例子是Databricks最近宣布的Delta Lake開源項(xiàng)目。Delta Lake(現(xiàn)在已有采用Apache 2.0許可證的版本)的明確目的類似AWS Lake Format:聚合、清理、篩選和管理數(shù)據(jù)湖中維護(hù)的數(shù)據(jù)集,以支持機(jī)器學(xué)習(xí)管道。

Delta Lake位于可以從Apache Spark訪問的現(xiàn)有內(nèi)部部署或云數(shù)據(jù)存儲平臺上,比如HDFS、Amazon S3或微軟Azure blob存儲。Delta Lake以Parquet格式存儲數(shù)據(jù),以提供Databricks所謂的“事務(wù)存儲層”。Parquet是一種開源列存儲格式,可用于Hadoop生態(tài)系統(tǒng)中的任何項(xiàng)目,無論選擇哪種數(shù)據(jù)處理框架。它通過樂觀的并發(fā)串行化、快照隔離、數(shù)據(jù)版本控制、回滾和模式實(shí)施來支持ACID事務(wù)。

Delta Lake與AWS Lake Formation的一個(gè)關(guān)鍵區(qū)別是,Delta Lake在該管道中既處理批量數(shù)據(jù),又處理流數(shù)據(jù)。另一大區(qū)別是,Delta Lake支持所有數(shù)據(jù)的ACID事務(wù),允許數(shù)百個(gè)應(yīng)用程序同時(shí)進(jìn)行多次寫入和讀取。此外,開發(fā)人員可以訪問每個(gè)Delta Lake的早期版本,以便審計(jì)、回滾或者重現(xiàn)MLFlow機(jī)器學(xué)習(xí)實(shí)驗(yàn)的結(jié)果。

從最廣泛的層面上來看,DeltaLake似乎與最廣泛采用的開源數(shù)據(jù)倉庫項(xiàng)目Apache Hive競爭,不過Hive完全依賴基于HDFS的存儲,就在不久前還缺乏對ACID事務(wù)的支持。一年前宣布的Hive3終于為基于Hadoop的數(shù)據(jù)倉庫帶來了ACID支持功能。Hive3使用增量文件(delta file),對針對事務(wù)型CRUD(創(chuàng)建讀取更新刪除)表的操作提供了原子性和快照隔離。

AI驅(qū)動型決策自動化的基礎(chǔ)

AWS Lake Formation、Delta Lake和Hive 3,最近這些行業(yè)宣布預(yù)示著有一天,數(shù)據(jù)湖成為所有決策支持和決策自動化應(yīng)用的治理中心,以及所有事務(wù)數(shù)據(jù)應(yīng)用的治理中心。要想讓這些趨勢加快發(fā)展,Hive 3和Delta Lake等開源項(xiàng)目需要在供應(yīng)商和用戶當(dāng)中獲得更廣泛的支持。

“數(shù)據(jù)倉庫”這個(gè)術(shù)語可能繼續(xù)主要指面向商業(yè)智能(BI)的結(jié)構(gòu)化數(shù)據(jù)的受管理多領(lǐng)域存儲。然而,底層數(shù)據(jù)平臺將繼續(xù)演進(jìn),為基于云的AI管道提供核心的數(shù)據(jù)治理基礎(chǔ)。

當(dāng)下在推動企業(yè)數(shù)據(jù)倉庫發(fā)展的是AI,而不是BI。

作者:JamesKobielus是Wikibon公司研究AI、數(shù)據(jù)科學(xué)和應(yīng)用軟件開發(fā)的首席分析師。

原文鏈接:https://www.infoworld.com/article/3405443/the-data-lake-is-becoming-the-new-data-warehouse.html

THEEND

最新評論(評論僅代表用戶觀點(diǎn))

更多
暫無評論