數(shù)字化轉(zhuǎn)型浪潮卷起各種新老概念滿天飛,數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)中臺(tái)輪番在朋友圈刷屏,有人說“數(shù)據(jù)中臺(tái)算個(gè)啥,數(shù)據(jù)湖才是趨勢(shì)”,有人說“再見了數(shù)據(jù)湖、數(shù)據(jù)倉庫,數(shù)據(jù)中臺(tái)已成氣候”……
企業(yè)還沒推開數(shù)字化大門,先被各種概念絆了一腳。那么它們3者究竟有啥區(qū)別?別急,先跟大家分享兩個(gè)有趣的比喻。
1、圖書館VS地?cái)?/strong>
如果把數(shù)據(jù)倉庫比喻成“圖書館”,那么數(shù)據(jù)湖就是“地?cái)?rdquo;。去圖書館借書(數(shù)據(jù)),書籍質(zhì)量有保障,但你得等,等什么?等管理員先查到這本書屬于哪個(gè)類目、在哪個(gè)架子上,你才能精準(zhǔn)拿到自己想要的書;而地?cái)偵蠜]有人會(huì)給你把關(guān),什么書都有,你自己翻找、隨用隨取,流程上比圖書館便捷多了,但大家找書的過程是沒有經(jīng)驗(yàn)可復(fù)用的,偶爾多拿少拿咱們可能也不知道。
2、升級(jí)版銀行
假定數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)中臺(tái)都是銀行,可以提供現(xiàn)金、黃金等多種服務(wù)。過去大家進(jìn)銀行前都得先問門衛(wèi),里面每個(gè)門牌上的數(shù)字對(duì)應(yīng)哪個(gè)服務(wù)呢?是現(xiàn)金還是黃金呢?然后推開對(duì)應(yīng)的門把東西取出來。而有了“數(shù)據(jù)中臺(tái)”這個(gè)銀行,大家一進(jìn)來就能看到標(biāo)著“現(xiàn)金”、“黃金”漢字的窗口,一目了然,你只需要走到窗口前,就有專人幫你辦理。
以上兩個(gè)例子不一定全面,但基本能解釋三者的優(yōu)劣勢(shì)。數(shù)據(jù)倉庫具備規(guī)范性,但取數(shù)用數(shù)流程長(zhǎng);數(shù)據(jù)湖取數(shù)用數(shù)更實(shí)時(shí)、存儲(chǔ)量大,但數(shù)據(jù)質(zhì)量難以保障;數(shù)據(jù)中臺(tái)能精準(zhǔn)快速地響應(yīng)業(yè)務(wù)需求,離業(yè)務(wù)側(cè)最近。
為了更清晰地區(qū)別三者,接下來咱們?cè)賮砜纯此鼈兏髯缘亩x以及應(yīng)用區(qū)別:
數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)中臺(tái)概念淺析
1、數(shù)據(jù)湖是什么?
數(shù)據(jù)湖,最早由Pentaho的創(chuàng)始人兼CTO James Dixon提出,維基百科對(duì)它的定義是一類存儲(chǔ)數(shù)據(jù)自然/原始格式的系統(tǒng)或存儲(chǔ),通常是對(duì)象塊或者文件,包括原始系統(tǒng)所產(chǎn)生的原始數(shù)據(jù)拷貝以及為了各類任務(wù)而產(chǎn)生的轉(zhuǎn)換數(shù)據(jù)。
簡(jiǎn)單來說,數(shù)據(jù)湖一個(gè)大型的基于對(duì)象的存儲(chǔ)庫,以數(shù)據(jù)的原始格式保存數(shù)據(jù)。它的顯著特點(diǎn)在于,像湖泊一樣沒有固定形態(tài)和邊界,能“容納”各種數(shù)據(jù),加入數(shù)據(jù)就擴(kuò)大,移除數(shù)據(jù)會(huì)縮小,靈活性和包容性很高。
2、數(shù)據(jù)倉庫是什么?
數(shù)據(jù)倉庫誕生于1990年,絕對(duì)算得上是“老前輩”了,它是一個(gè)相對(duì)具體的功能概念。目前對(duì)數(shù)據(jù)倉庫的主流定義是位于多個(gè)數(shù)據(jù)庫上的大容量存儲(chǔ)庫,它的作用在于存儲(chǔ)大量的結(jié)構(gòu)化數(shù)據(jù),并能進(jìn)行頻繁和可重復(fù)的分析,幫助企業(yè)構(gòu)建商業(yè)智能(BI)。
需要注意的是,數(shù)據(jù)倉庫對(duì)數(shù)據(jù)格式是有要求的,只有符合標(biāo)準(zhǔn)的數(shù)據(jù)才能入庫哦。
3、數(shù)據(jù)中臺(tái)又是什么?
廣義上理解,數(shù)據(jù)中臺(tái)包含了頂層數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治理體系以及數(shù)據(jù)管理及運(yùn)營(yíng)、數(shù)據(jù)文化培養(yǎng)和組織架構(gòu)支撐,是一套持續(xù)管理和運(yùn)營(yíng)的體系。
狹義上看,數(shù)據(jù)中臺(tái)是通過數(shù)據(jù)技術(shù),對(duì)海量、多源、多樣的數(shù)據(jù)進(jìn)行采集、處理、存儲(chǔ)、計(jì)算,統(tǒng)一標(biāo)準(zhǔn)和口徑,并以標(biāo)準(zhǔn)形式存儲(chǔ),形成大數(shù)據(jù)資產(chǎn)層,以滿足前臺(tái)數(shù)據(jù)分析和應(yīng)用的需求。
單從定義來看,可以發(fā)現(xiàn)數(shù)據(jù)湖、數(shù)據(jù)倉庫、數(shù)據(jù)中臺(tái)三者并不是非此即彼的關(guān)系,在數(shù)據(jù)來源、建設(shè)目標(biāo)、數(shù)據(jù)應(yīng)用幾個(gè)方面它們存在一定差異。
數(shù)據(jù)來源、建設(shè)目標(biāo)、數(shù)據(jù)應(yīng)用的差異
1、數(shù)據(jù)來源
數(shù)據(jù)湖包含原始系統(tǒng)所產(chǎn)生的原始數(shù)據(jù)拷貝以及為了各類任務(wù)而產(chǎn)生的轉(zhuǎn)換數(shù)據(jù),包括來自于關(guān)系型數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和二進(jìn)制數(shù)據(jù)。
數(shù)據(jù)倉庫則以業(yè)務(wù)數(shù)據(jù)庫的結(jié)構(gòu)化數(shù)據(jù)為主,也就是由二維表結(jié)構(gòu)來邏輯表達(dá)和實(shí)現(xiàn)的數(shù)據(jù)。
數(shù)據(jù)中臺(tái)是一套體系,既不是工具又不是存儲(chǔ),它可以包含數(shù)據(jù)湖和數(shù)據(jù)倉庫。
這里做個(gè)簡(jiǎn)單說明,具備行和列結(jié)構(gòu)的就是結(jié)構(gòu)化數(shù)據(jù),比如表格;CSV、日志、XML、JSON屬于半結(jié)構(gòu)化數(shù)據(jù);而咱們工作中最常用到的Email、文檔、PDF等,屬于非結(jié)構(gòu)化數(shù)據(jù);每天瀏覽的圖像、視頻,聽的音頻都屬于二進(jìn)制數(shù)據(jù)。
2、建設(shè)目標(biāo)
數(shù)據(jù)湖能實(shí)現(xiàn)數(shù)據(jù)的集中式管理,為企業(yè)提供全局的、統(tǒng)一的企業(yè)級(jí)數(shù)據(jù)概覽視圖,讓人人了解、分析數(shù)據(jù),提供自助式探索數(shù)據(jù)的可能。
數(shù)據(jù)倉庫則以輸出某個(gè)業(yè)務(wù)主題的BI報(bào)表和決策為主,目的性單一。
數(shù)據(jù)中臺(tái)主張打通全域數(shù)據(jù)孤島,消除數(shù)據(jù)標(biāo)準(zhǔn)和口徑不一致的問題,釋放業(yè)務(wù)方數(shù)據(jù)應(yīng)用價(jià)值。
3、數(shù)據(jù)應(yīng)用
數(shù)據(jù)湖能結(jié)合不同的工具做數(shù)據(jù)處理和分析,不止于輸出報(bào)表,也同樣適合數(shù)據(jù)探索和發(fā)現(xiàn),能夠?yàn)槠髽I(yè)挖掘新的運(yùn)營(yíng)需求。
數(shù)據(jù)倉庫主要針對(duì)管理決策等分析類場(chǎng)景,在其他方面則存在局限性,比如數(shù)據(jù)建模、數(shù)據(jù)追蹤與探查、深度挖掘等。
數(shù)據(jù)中臺(tái)通過將數(shù)據(jù)服務(wù)化之后提供給業(yè)務(wù)系統(tǒng),在數(shù)據(jù)應(yīng)用上不僅限于分析型場(chǎng)景,也適用于交易類場(chǎng)景,比如營(yíng)銷推薦、風(fēng)險(xiǎn)評(píng)估等。
總體來說,數(shù)據(jù)中臺(tái)是加速企業(yè)從數(shù)據(jù)到業(yè)務(wù)價(jià)值的過程的中間層,可以建立在數(shù)據(jù)倉庫和數(shù)據(jù)湖之上。
至于企業(yè)處于什么階段建數(shù)據(jù)倉庫、什么階段建數(shù)據(jù)湖、什么階段建數(shù)據(jù)中臺(tái),還得看企業(yè)現(xiàn)階段的具體情況,比如數(shù)據(jù)量、數(shù)據(jù)分析維度及要求、數(shù)據(jù)應(yīng)用場(chǎng)景、預(yù)算等等,總之只有把工具和需求匹配起來,才能真正解決企業(yè)業(yè)務(wù)訴求。