如何理解數(shù)據(jù)湖?建好數(shù)據(jù)湖?這篇文章很有用

企業(yè)數(shù)字化的轉(zhuǎn)型必然產(chǎn)生大量數(shù)據(jù),如何有效存儲(chǔ)、治理和利用這些結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)促進(jìn)企業(yè)業(yè)務(wù)發(fā)展是所有企業(yè)面臨的共同挑戰(zhàn)。為解決這些挑戰(zhàn),業(yè)界提出了數(shù)據(jù)湖的新型數(shù)據(jù)架構(gòu)。金融企業(yè)有很強(qiáng)烈的訴求搭建自己的數(shù)據(jù)湖。

企業(yè)數(shù)字化的轉(zhuǎn)型必然產(chǎn)生大量數(shù)據(jù),如何有效存儲(chǔ)、治理和利用這些結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)促進(jìn)企業(yè)業(yè)務(wù)發(fā)展是所有企業(yè)面臨的共同挑戰(zhàn)。為解決這些挑戰(zhàn),業(yè)界提出了數(shù)據(jù)湖的新型數(shù)據(jù)架構(gòu)。金融企業(yè)有很強(qiáng)烈的訴求搭建自己的數(shù)據(jù)湖。

但很多人對(duì)數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)等基本概念的認(rèn)識(shí)依然有模糊,圍繞為什么建、怎么建、項(xiàng)目過程中注意事項(xiàng)等幾方面也有很多問題。日前twt社區(qū)組織線上交流對(duì)此進(jìn)行了熱烈討論。以下由專家 xclu_csdc(資深架構(gòu)師)對(duì)活動(dòng)中的分享內(nèi)容進(jìn)行了系統(tǒng)梳理,供大家參考。

一、基本概念

1 、如何理解“數(shù)據(jù)湖”的概念?這與“數(shù)據(jù)倉庫”“數(shù)據(jù)中臺(tái)”“大數(shù)據(jù)平臺(tái)”都是些什么關(guān)系?

@劉懷行 河南凱姆敦克 售前技術(shù)支持 :

數(shù)據(jù)湖的概念可以這樣理解,數(shù)據(jù)湖是將結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù),統(tǒng)一放在一個(gè)數(shù)據(jù)池里,大數(shù)據(jù)平臺(tái)提供數(shù)據(jù)服務(wù),大數(shù)據(jù)分析軟件會(huì)根據(jù)數(shù)據(jù)使用頻率分級(jí)存儲(chǔ),底層采用 SSD 固態(tài)硬盤來提供 10% 的熱數(shù)據(jù)計(jì)算和利用,使用 SATA 硬盤,提供 10-20% 的溫?cái)?shù)據(jù)相當(dāng)于近 1-2 年重復(fù)使用的數(shù)據(jù),采用磁帶或藍(lán)光光盤等形式提供 80% 的近線 + 離線數(shù)據(jù),采用分級(jí)存儲(chǔ)可滿足數(shù)據(jù)的全生命周期管理的需求和法律法規(guī)、檔案相關(guān)的規(guī)定和要求。

@山東膻羊肉 ASIA 售前技術(shù)支持:

以下基于aws咨詢。

根據(jù)要求,典型的組織將需要數(shù)據(jù)倉庫和數(shù)據(jù)湖,因?yàn)樗鼈兛蓾M足不同的需求和使用案例。數(shù)據(jù)倉庫是一個(gè)優(yōu)化的數(shù)據(jù)庫,用于分析來自事務(wù)系統(tǒng)和業(yè)務(wù)線應(yīng)用程序的關(guān)系數(shù)據(jù)。事先定義數(shù)據(jù)結(jié)構(gòu)和 Schema 以優(yōu)化快速 SQL 查詢,其中結(jié)果通常用于操作報(bào)告和分析。數(shù)據(jù)經(jīng)過了清理、豐富和轉(zhuǎn)換,因此可以充當(dāng)用戶可信任的“單一信息源”。

數(shù)據(jù)湖有所不同,因?yàn)樗鎯?chǔ)來自業(yè)務(wù)線應(yīng)用程序的關(guān)系數(shù)據(jù),以及來自移動(dòng)應(yīng)用程序、 IoT 設(shè)備和社交媒體的非關(guān)系數(shù)據(jù)。捕獲數(shù)據(jù)時(shí),未定義數(shù)據(jù)結(jié)構(gòu)或 Schema 。這意味著您可以存儲(chǔ)所有數(shù)據(jù),而不需要精心設(shè)計(jì)也無需知道將來您可能需要哪些問題的答案。您可以對(duì)數(shù)據(jù)使用不同類型的分析(如 SQL 查詢、大數(shù)據(jù)分析、全文搜索、實(shí)時(shí)分析和機(jī)器學(xué)習(xí))來獲得見解。

隨著使用數(shù)據(jù)倉庫的組織看到數(shù)據(jù)湖的優(yōu)勢(shì),他們正在改進(jìn)其倉庫以包括數(shù)據(jù)湖,并啟用各種查詢功能、數(shù)據(jù)科學(xué)使用案例和用于發(fā)現(xiàn)新信息模型的高級(jí)功能。Gartner 將此演變稱為“分析型數(shù)據(jù)管理解決方案”或“ DMSA ”。

2、數(shù)據(jù)湖與大數(shù)據(jù)平臺(tái)的區(qū)別?

目前使用較多的是基于 hadoop 的大數(shù)據(jù)平臺(tái)。主流 lamdba , kappa 架構(gòu)與數(shù)據(jù)湖相比在需求、技術(shù)、業(yè)務(wù)領(lǐng)域有什么區(qū)別?什么情況下需要將大數(shù)據(jù)平臺(tái)改造為數(shù)據(jù)湖?

@xclu_csdc 軟件開發(fā)工程師:

個(gè)人認(rèn)為數(shù)據(jù)湖和大數(shù)據(jù)平臺(tái)并沒有本質(zhì)的區(qū)別,僅是概念上的不同,都是為解決企業(yè)面臨的海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)、治理和使用等問題,所使用的技術(shù)棧也基本類似。上述提到的 lamdba 和 kappa 架構(gòu)是具體的一種實(shí)時(shí)數(shù)據(jù)處理技術(shù),范圍更小,是數(shù)據(jù)湖中的一個(gè)子集。個(gè)人認(rèn)為不需要關(guān)注過于關(guān)注概念,更應(yīng)該關(guān)注企業(yè)的業(yè)務(wù)場(chǎng)景,使用大數(shù)據(jù)平臺(tái)或數(shù)據(jù)湖等等概念均可以,只要解決了業(yè)務(wù)問題即可。

3 、傳統(tǒng)數(shù)據(jù)倉庫與數(shù)據(jù)中臺(tái)有什么差異點(diǎn)?

@zhuqibs Mcd 軟件開發(fā)工程師:

兩者的側(cè)重點(diǎn)完全不一樣

( 1 )傳統(tǒng)的數(shù)據(jù)倉庫,做的是數(shù)據(jù)的聚集,將幾個(gè)數(shù)據(jù)孤島的數(shù)據(jù)匯總起來,做一定維度上的聚集和提煉;

( 2 )數(shù)據(jù)中臺(tái),其實(shí)是做數(shù)據(jù)的標(biāo)準(zhǔn)化,也就是做數(shù)據(jù)治理、數(shù)據(jù)管控,使得數(shù)據(jù)資產(chǎn)化,可以供各個(gè)業(yè)務(wù)所使用。

所以,數(shù)據(jù)中臺(tái)的概念是包含數(shù)據(jù)倉庫的,可以理解為數(shù)據(jù)倉庫升級(jí)。要遷移,不是容易的事,做數(shù)據(jù)中臺(tái),你必須理解業(yè)務(wù),不然你怎么治理,你怎么補(bǔ)全缺失的數(shù)據(jù),你又怎么清洗數(shù)據(jù)。從某種意義上說,數(shù)據(jù)中臺(tái)提供的是數(shù)據(jù)的“產(chǎn)品”,是企業(yè)各業(yè)務(wù)環(huán)節(jié)可以使用的數(shù)據(jù),接近于數(shù)據(jù)湖的概念。

@youki2008 廣東溢達(dá) 系統(tǒng)架構(gòu)師:

數(shù)據(jù)中臺(tái)和數(shù)據(jù)倉庫的區(qū)別核心在于理念的不同,數(shù)據(jù)倉庫更多的是站在 IT 技術(shù)的角度,而數(shù)據(jù)中臺(tái)是站在 DT 的交付,更多是服務(wù)于業(yè)務(wù)的視角,一開始就強(qiáng)調(diào)業(yè)務(wù)引領(lǐng)。

@某金融企業(yè) 技術(shù)經(jīng)理:

( 1 )數(shù)倉主要是數(shù)據(jù)聚集,數(shù)據(jù)中臺(tái)主要是在數(shù)據(jù)集上增加相關(guān)數(shù)據(jù)處理,快速應(yīng)對(duì)業(yè)務(wù)需要

( 2 )我認(rèn)為這中間可以先不用做遷移,保留 T0 層數(shù)據(jù)

@zftang0809 合肥華宇隨身軟件 軟件開發(fā)工程師:

數(shù)據(jù)來源和建立數(shù)倉的目標(biāo)以及數(shù)據(jù)應(yīng)用的方向不同。

首先,從數(shù)據(jù)來源來說 ,數(shù)據(jù)中臺(tái)的數(shù)據(jù)來源期望是全域數(shù)據(jù)包括業(yè)務(wù)數(shù)據(jù)庫,日志數(shù)據(jù),埋點(diǎn)數(shù)據(jù),爬蟲數(shù)據(jù),外部數(shù)據(jù)等。

數(shù)據(jù)庫,日志數(shù)據(jù),埋點(diǎn)數(shù)據(jù),爬蟲數(shù)據(jù),外部數(shù)據(jù)等。數(shù)據(jù)的來源可以是結(jié)構(gòu)化數(shù)據(jù)或者非結(jié)構(gòu)化的數(shù)據(jù)。而傳統(tǒng)數(shù)倉的數(shù)據(jù)來源主要是業(yè)務(wù)數(shù)據(jù)庫,數(shù)據(jù)格式也是以結(jié)構(gòu)化數(shù)據(jù)為主。

其次,建立數(shù)據(jù)中臺(tái)的目標(biāo) 是為了融合整個(gè)企業(yè)的全部數(shù)據(jù),打通數(shù)據(jù)之間的隔閡,消除數(shù)據(jù)標(biāo)準(zhǔn)和口徑不一致的問題。數(shù)據(jù)中臺(tái)通常會(huì)對(duì)來自多方面的的基礎(chǔ)數(shù)據(jù)進(jìn)行清洗,按照主題域概念建立多個(gè)以事物為主的主題域比如用戶主題域,商品主題域,渠道主題域,門店主題域等等。數(shù)據(jù)中臺(tái)遵循三個(gè) one 的概念:One Data, One ID, One Service , 就是說數(shù)據(jù)中臺(tái)不僅僅是匯聚企業(yè)各種數(shù)據(jù),而且讓這些數(shù)據(jù)遵循相同的標(biāo)準(zhǔn)和口徑,對(duì)事物的標(biāo)識(shí)能統(tǒng)一或者相互關(guān)聯(lián),并且提供統(tǒng)一的數(shù)據(jù)服務(wù)接口。就像做菜一樣,按照標(biāo)準(zhǔn)化的菜名,先把所有可能用到的材料都準(zhǔn)備好。而傳統(tǒng)的數(shù)倉主要用來做 BI 的報(bào)表,目的性很單一,只抽取和清洗該相關(guān)分析報(bào)表用到基礎(chǔ)數(shù)據(jù),新增一張報(bào)表,就要從底層到上層再做一次。

然后,在數(shù)據(jù)應(yīng)用方面 ,建立在數(shù)據(jù)中臺(tái)上的數(shù)據(jù)應(yīng)用 不僅僅只是面向于 BI 報(bào)表,更多面向營(yíng)銷推薦,用戶畫像, AI 決策分析,風(fēng)險(xiǎn)評(píng)估等 。而且這些應(yīng)用的特點(diǎn)是比較輕,容易快速開發(fā)出來,因?yàn)橹匾臄?shù)據(jù)分析工作在數(shù)據(jù)中臺(tái)已經(jīng)完成并且沉淀,之前工作成果都能被多個(gè)應(yīng)用共享。

4 、能否通俗地講下什么是結(jié)構(gòu)化數(shù)據(jù),什么是非結(jié)構(gòu)化數(shù)據(jù)?這與是否是關(guān)系型數(shù)據(jù)庫有關(guān)系嗎?

@youki2008 廣東溢達(dá) 系統(tǒng)架構(gòu)師:

結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)是大數(shù)據(jù)的兩種類型,這兩者之間并不存在真正的沖突。客戶如何選擇不是基于數(shù)據(jù)結(jié)構(gòu),而是基于使用它們的應(yīng)用程序:關(guān)系數(shù)據(jù)庫用于結(jié)構(gòu)化數(shù)據(jù),大多數(shù)其他類型的應(yīng)用程序用于非結(jié)構(gòu)化數(shù)據(jù)。

結(jié)構(gòu)化數(shù)據(jù)也稱作百行數(shù)據(jù),是由二維表結(jié)構(gòu)來邏輯表達(dá)和實(shí)現(xiàn)的數(shù)據(jù),嚴(yán)格地遵循數(shù)據(jù)格式與長(zhǎng)度規(guī)范,主要通過關(guān)系型數(shù)據(jù)庫進(jìn)行存儲(chǔ)和管理。

與結(jié)構(gòu)化數(shù)據(jù)相對(duì)的是不適于由數(shù)據(jù)庫二維表來表現(xiàn)的非結(jié)構(gòu)化數(shù)據(jù),包括所有格式的辦公文檔、 XML 、 HTML 、各類報(bào)表、圖片和音頻、視頻信息等。

@塵世隨緣 上海某互聯(lián)網(wǎng)金融公司 技術(shù)總監(jiān):

曾經(jīng)講大數(shù)據(jù)課的時(shí)候給大伙舉過一個(gè)例子:

拿破侖的航海日志,只有人能看的懂,叫非結(jié)構(gòu)化數(shù)據(jù),后續(xù)的科學(xué)家把航海日志經(jīng)過加工、處理,變成機(jī)器可讀,這叫結(jié)構(gòu)化數(shù)據(jù)。

@geeksc okstor 存儲(chǔ)架構(gòu)師:

簡(jiǎn)單的來說,結(jié)構(gòu)化數(shù)據(jù)之間有很強(qiáng)的關(guān)聯(lián)性,像學(xué)籍信息,姓名、性別、年齡、戶籍、專業(yè)、畢業(yè)院校等等;非結(jié)構(gòu)化數(shù)據(jù),大多是指 office 文件、圖片、音視頻等文件數(shù)據(jù),之間沒有或者有很少的關(guān)聯(lián)性。而關(guān)系型數(shù)據(jù)庫在實(shí)際環(huán)境中,基本上可以視為存儲(chǔ)或管理的都是結(jié)構(gòu)化數(shù)據(jù)。

二、為什么建?

5、相比數(shù)據(jù)倉庫和傳統(tǒng)數(shù)據(jù)庫,數(shù)據(jù)湖有什么優(yōu)勢(shì)?

@xclu_csdc 軟件開發(fā)工程師:

主要是能處理、存儲(chǔ)非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)。

@zftang0809 合肥華宇隨身軟件 軟件開發(fā)工程師:

成本低、靈活、可擴(kuò)展性、多種存儲(chǔ)格式。

6、數(shù)據(jù)湖目前有什么局限性?

@xclu_csdc 軟件開發(fā)工程師:

建議關(guān)注具體的業(yè)務(wù)場(chǎng)景和業(yè)務(wù)問題和實(shí)際技術(shù)解決方案,對(duì)技術(shù)概念不必過多關(guān)注。

@zftang0809 合肥華宇隨身軟件 軟件開發(fā)工程師:

從定義上看,數(shù)據(jù)湖可以接收任何數(shù)據(jù),不受監(jiān)督或管理。沒有描述性的元數(shù)據(jù),和維護(hù)它的機(jī)制,數(shù)據(jù)湖會(huì)轉(zhuǎn)變成數(shù)據(jù)沼澤。如果沒有元數(shù)據(jù),所有對(duì)數(shù)據(jù)的后續(xù)使用都意味著從零開始對(duì)數(shù)據(jù)進(jìn)行分析。

7 、在金融行業(yè)中,數(shù)據(jù)湖一般可應(yīng)用于哪些場(chǎng)景,在這些場(chǎng)景中其具有哪些優(yōu)勢(shì)?

@李靜 XSKY 軟件架構(gòu)設(shè)計(jì)師:

常規(guī)理解數(shù)據(jù)湖的就是一個(gè)海量空間,可以包容所有數(shù)據(jù)和應(yīng)用,提供所需的所有接口,按需分配,自動(dòng)精簡(jiǎn)配置。

首先適合的是私有云平臺(tái),現(xiàn)階段金融行業(yè)虛擬化的普及率很高,除了一些重載數(shù)據(jù)庫,大部分應(yīng)用都適合上虛擬化,所有私有云肯定是適合的應(yīng)用。第二是無紙化辦公,針對(duì)現(xiàn)階段雙錄系統(tǒng)的數(shù)據(jù)越來越多,文件數(shù)量也非常大,金融客戶逐步都在搭建非結(jié)構(gòu)化數(shù)據(jù)湖。第三大數(shù)據(jù)應(yīng)用,大數(shù)據(jù)現(xiàn)階段都在推廣存算分離,可以做好隔離和彈性擴(kuò)展,便于容災(zāi)等一系列優(yōu)勢(shì)。第四開發(fā)測(cè)試,開發(fā)測(cè)試區(qū)域應(yīng)用種類越來越多, vmware 、 openstack 、 docker 等多種平臺(tái)需求,對(duì)后端數(shù)據(jù)湖也提出了要求。

@xclu_csdc 軟件開發(fā)工程師:

目前數(shù)據(jù)湖一般作為大數(shù)據(jù)平臺(tái)的一個(gè)組成部分建設(shè)??捎糜跇I(yè)務(wù)辦理中產(chǎn)生的存儲(chǔ)圖片、掃描件、視頻等非結(jié)構(gòu)化數(shù)據(jù),也可以作為低成本的歷史數(shù)據(jù)存儲(chǔ)平臺(tái),存儲(chǔ)交易明細(xì)、流水等歷史數(shù)據(jù)。

@yuandonglau 銀行 總經(jīng)理助理:

目前一般有兩種具體做法:一種是作為非結(jié)構(gòu)化體系的承載平臺(tái),管理企業(yè)圖片、語音等文件,并為上層查詢和分析提供服務(wù),基本上是數(shù)倉的補(bǔ)充。另外一種是作為整個(gè) lambda 架構(gòu)落地的邏輯概念,將倉庫也囊括其中,整體提供流和批的數(shù)據(jù) pipeline 邏輯服務(wù)。

三、如何建?

8 、數(shù)據(jù)湖的架構(gòu)體系是怎樣的?

@zftang0809 合肥華宇隨身軟件 軟件開發(fā)工程師:

一般可分為數(shù)據(jù)采集 -- 數(shù)據(jù)存儲(chǔ) -- 數(shù)據(jù)計(jì)算 -- 數(shù)據(jù)應(yīng)用等功能。

9 、目前主流的開源和商用數(shù)據(jù)湖解決方案?

@xclu_csdc 軟件開發(fā)工程師:

對(duì)于傳統(tǒng)行業(yè),尤其是金融行業(yè)的企業(yè),不建議使用開源解決方案,其并不滿足《信息系統(tǒng)等級(jí)保護(hù)》等監(jiān)管機(jī)構(gòu)的要求,建議由廠商提供相應(yīng)解決方案,如華為、星環(huán)、阿里等。這些商用方案都有很多成功案例,技術(shù)上差距不大,不好簡(jiǎn)單比較,主要看具體業(yè)務(wù)場(chǎng)景和技術(shù)人員的熟悉程度、廠商支持力度、商務(wù)價(jià)格等多種因素。

@zftang0809 合肥華宇隨身軟件 軟件開發(fā)工程師:

開源數(shù)據(jù)湖方案選型:Hudi 、 Delta 、 Iceberg 。

10 、數(shù)據(jù)湖如何搭建?大致有哪些步驟?

@yuandonglau 銀行 總經(jīng)理助理:

公有云上有非常成熟的方案,比如 aws 提供的 S3 、 EMR 、 Redshift , Athena 等組件,可以直接無縫組裝成 lambda 架構(gòu)落地方案。如果私有化設(shè)計(jì)相對(duì)比較麻煩,開源社區(qū)沒有一體化方案,基本上需要 hadoop 、 spark 、對(duì)象存儲(chǔ)、 flink 、數(shù)據(jù)聯(lián)邦一系列技術(shù)體系組裝成企業(yè)級(jí)的解決方案。

四、建設(shè)過程中注意事項(xiàng)

11 、數(shù)據(jù)湖在構(gòu)建實(shí)施的過程中會(huì)遇到哪些坑呢?

@xclu_csdc 軟件開發(fā)工程師:

我所經(jīng)歷過的,業(yè)務(wù)場(chǎng)景不明確、組織架構(gòu)不合理、人員能力不足、領(lǐng)導(dǎo)不夠重視、業(yè)務(wù)部門不配合、合作廠商不給力,很多問題并不是技術(shù)問題。

12 、怎么避免數(shù)據(jù)湖變成數(shù)據(jù)沼澤?

@zftang0809 合肥華宇隨身軟件 軟件開發(fā)工程師:

數(shù)據(jù)湖建設(shè)不成功,數(shù)據(jù)歸集、治理、應(yīng)用有問題,自然就成了沼澤。

13 、建設(shè)數(shù)據(jù)湖后有哪些挑戰(zhàn)?

@xclu_csdc 軟件開發(fā)工程師:

建議立項(xiàng)時(shí)業(yè)務(wù)場(chǎng)景一定要明確,解決了面臨的業(yè)務(wù)問題項(xiàng)目就基本成功。挑戰(zhàn)會(huì)有很多,數(shù)據(jù)安全、數(shù)據(jù)治理、團(tuán)隊(duì)建設(shè)等,但最重要的是要解決企業(yè)發(fā)展中面臨的業(yè)務(wù)問題,切實(shí)幫助業(yè)務(wù)部門提升業(yè)績(jī)、提升管理運(yùn)營(yíng)效率。

@zftang0809 合肥華宇隨身軟件 軟件開發(fā)工程師:

主要要考慮元數(shù)據(jù)管理問題,包括數(shù)據(jù)治理和數(shù)據(jù)質(zhì)量之間缺乏協(xié)調(diào)、數(shù)據(jù)治理和數(shù)據(jù)安全之間缺乏協(xié)調(diào)、使用同一個(gè)數(shù)據(jù)湖的業(yè)務(wù)部門之間可能產(chǎn)生沖突等問題。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論