如果你對大數(shù)據(jù)有一定的了解,你就會知道為每秒生成的龐大數(shù)據(jù)量找到存儲解決方案至關(guān)重要。在管理數(shù)據(jù)時,數(shù)據(jù)專業(yè)人員可以考慮使用數(shù)據(jù)倉庫或數(shù)據(jù)湖作為數(shù)據(jù)存儲庫。為了讓企業(yè)做出最優(yōu)的決定,我們首先要定義什么是數(shù)據(jù)倉庫和數(shù)據(jù)湖,然后再對其進(jìn)行比較。
什么是數(shù)據(jù)湖?
有些人錯誤地認(rèn)為數(shù)據(jù)湖只是數(shù)據(jù)倉庫的2.0版本。雖然有些類似,但它們是不同的工具,有不同的用途。Pentaho的首席技術(shù)官James Dixon因命名數(shù)據(jù)湖的概念而受到贊譽(yù),他使用了以下類比:
“如果你將數(shù)據(jù)集市(datamart)看做是是經(jīng)過凈化、標(biāo)準(zhǔn)化、且方便消費(fèi)的桶裝水,那么數(shù)據(jù)湖就是自然狀態(tài)下的龐大水域。數(shù)據(jù)湖的內(nèi)容從水源頭流入湖中,用戶可以來檢查、深入或采集樣本。”
在大數(shù)據(jù)時代,數(shù)據(jù)量呈現(xiàn)幾何增長,數(shù)據(jù)的數(shù)量、來源和類型的多元化,使得傳統(tǒng)的“水桶”裝不下了,因此需要一個可以滿足存儲需求的新的架構(gòu)來作為大數(shù)據(jù)的支撐,即數(shù)據(jù)湖。數(shù)據(jù)湖以非結(jié)構(gòu)化的方式保存數(shù)據(jù),并且各個數(shù)據(jù)塊之間沒有層次結(jié)構(gòu)或組織。它以最原始的形式保存數(shù)據(jù),即不對數(shù)據(jù)進(jìn)行處理或分析。此外,數(shù)據(jù)湖容納并保留所有數(shù)據(jù)源中的所有數(shù)據(jù)、支持所有數(shù)據(jù)類型和模式,并且在準(zhǔn)備使用數(shù)據(jù)時,才會應(yīng)用這一模式(數(shù)據(jù)存儲在數(shù)據(jù)庫中的方式)。
什么是數(shù)據(jù)倉庫?
數(shù)據(jù)倉庫以有組織的方式存儲數(shù)據(jù),并且按照特定的方式存檔和排序。開發(fā)數(shù)據(jù)倉庫時,在初始階段需要花費(fèi)大量精力來分析數(shù)據(jù)源并理解業(yè)務(wù)流程,決定倉庫中需要保留和排除哪些數(shù)據(jù)。只有在識別出數(shù)據(jù)用途后,才會將數(shù)據(jù)加載到倉庫中。
數(shù)據(jù)湖和數(shù)據(jù)倉庫的對比
數(shù)據(jù)
數(shù)據(jù)湖保留所有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化和非結(jié)構(gòu)化/原始數(shù)據(jù)。數(shù)據(jù)湖中的某些數(shù)據(jù)可能永遠(yuǎn)不會被使用,但是會保留所有數(shù)據(jù)。數(shù)據(jù)倉庫僅包括處理(結(jié)構(gòu)化)的數(shù)據(jù),以及用于報(bào)告或回答特定業(yè)務(wù)問題所必需的數(shù)據(jù)。
靈活性
由于數(shù)據(jù)湖缺乏結(jié)構(gòu)化,因此更改數(shù)據(jù)的模型和形式相對容易。數(shù)據(jù)湖更靈活,可根據(jù)用戶的工作需求進(jìn)行配置和重新配置。由于它與業(yè)務(wù)流程的數(shù)量相關(guān)聯(lián),使得更改數(shù)據(jù)倉庫的結(jié)構(gòu)會變得更加麻煩和耗時。
用戶
數(shù)據(jù)科學(xué)家通常能夠訪問數(shù)據(jù)湖中的數(shù)據(jù),因?yàn)樗麄兙邆鋵?shù)據(jù)進(jìn)行深入分析的技能。從技術(shù)上講,數(shù)據(jù)湖可以支持所有用戶,并且可供所有用戶使用。特定業(yè)務(wù)用戶會使用數(shù)據(jù)倉庫,從數(shù)據(jù)中匯報(bào)和提取數(shù)據(jù)倉庫建立時所界定的數(shù)據(jù);數(shù)據(jù)科學(xué)家需要跨越數(shù)據(jù)倉庫的界限,從而從數(shù)據(jù)中收集新分析的數(shù)據(jù),而對于他們而言,這個限制通常過于嚴(yán)格。
安全
由于數(shù)據(jù)倉庫比數(shù)據(jù)湖更成熟,因此數(shù)據(jù)倉庫的安全性也更加成熟。還有人擔(dān)心,由于所有數(shù)據(jù)都存儲在數(shù)據(jù)湖中的一個存儲庫中,因此它也會使數(shù)據(jù)更容易受到攻擊。但是由于只需要一種存儲和管理方法,所以它肯定會使數(shù)據(jù)審核和合規(guī)性變得更容易。
數(shù)據(jù)湖和數(shù)據(jù)倉庫是不同的工具,有不同的使用目的。如果你已經(jīng)建立了數(shù)據(jù)倉庫,則可以選擇建立相應(yīng)的數(shù)據(jù)湖,以解決數(shù)據(jù)倉庫遇到的一些限制。要確定數(shù)據(jù)湖或數(shù)據(jù)倉庫是否最適合你的需求,你應(yīng)該從想要實(shí)現(xiàn)的目標(biāo)開始,并使用數(shù)據(jù)存儲庫來幫助你實(shí)現(xiàn)目標(biāo)。
原文作者:Bernard Marr