數(shù)據(jù)湖的發(fā)展趨勢將給企業(yè)帶來什么

編譯/李睿
隨后很多人質(zhì)疑組織是在創(chuàng)建具有業(yè)務(wù)價值的數(shù)據(jù)湖,還是創(chuàng)建價值有限或沒有價值的數(shù)據(jù)沼澤。有鑒于此,行業(yè)專家Marco Iansiti和Karim Lakhani建議說,“數(shù)據(jù)湖(其中的數(shù)據(jù)是原始來源)是數(shù)據(jù)平臺的一部分,數(shù)據(jù)從下到上流動……數(shù)據(jù)平臺聚合、清理、精煉和處理在數(shù)據(jù)湖中捕獲的數(shù)據(jù)”。

“數(shù)據(jù)湖”(Data Lake)這一術(shù)語已經(jīng)推出了將近10年的時間,如今已經(jīng)成為從大型數(shù)據(jù)存儲庫中的數(shù)據(jù)挖掘中形成競爭性見解的關(guān)鍵工具。

2345截圖20201119114036.png

Pentaho公司創(chuàng)始人James Dixon在2010年創(chuàng)造了“數(shù)據(jù)湖”這個術(shù)語。他對“數(shù)據(jù)湖”給出了這樣描述:“如果將數(shù)據(jù)集市看作是一個瓶裝水的儲存地——經(jīng)過清潔、包裝和結(jié)構(gòu)化以便消費,那么數(shù)據(jù)湖就是在自然狀態(tài)下的一個大型水體。”

隨后很多人質(zhì)疑組織是在創(chuàng)建具有業(yè)務(wù)價值的數(shù)據(jù)湖,還是創(chuàng)建價值有限或沒有價值的數(shù)據(jù)沼澤。有鑒于此,行業(yè)專家Marco Iansiti和Karim Lakhani建議說,“數(shù)據(jù)湖(其中的數(shù)據(jù)是原始來源)是數(shù)據(jù)平臺的一部分,數(shù)據(jù)從下到上流動……數(shù)據(jù)平臺聚合、清理、精煉和處理在數(shù)據(jù)湖中捕獲的數(shù)據(jù)”。

考慮到這種更為精細(xì)的觀點,那么問題是:數(shù)據(jù)湖在其炒作周期內(nèi)發(fā)揮了什么作用?為了回答這個問題,行業(yè)媒體征求了一些首席信息官和行業(yè)專家的意見。

數(shù)據(jù)湖產(chǎn)生了什么結(jié)果?

首席技術(shù)官Steve Jones說:“我所在的組織部署了很多數(shù)據(jù)湖,通常它們有三點基礎(chǔ):(1)彌補(bǔ)傳統(tǒng)企業(yè)數(shù)據(jù)倉庫的不一致的鴻溝;(2)使機(jī)器學(xué)習(xí)和人工智能更容易實施;(3)數(shù)據(jù)的提取和整理實現(xiàn)產(chǎn)業(yè)化。這樣做的目的是讓組織專注于結(jié)果,而IT團(tuán)隊專注于供應(yīng)數(shù)據(jù),而不是將系統(tǒng)集成到數(shù)據(jù)集市/倉庫中。如果有了這些,那么用例就會變得無窮無盡。”

作為數(shù)據(jù)湖實施者,首席信息官Deb Gildersleeve表示,她所在的組織已經(jīng)為業(yè)務(wù)部門實現(xiàn)了特定主題的數(shù)據(jù)湖,它們在獲取見解并為企業(yè)用戶提供訪問方面確實起到了很大作用。”

首席信息官Jim Russell表示,也采取了類似的自助服務(wù)方法,并部署了適用于供應(yīng)商的數(shù)據(jù)湖。他說,“它是我們?nèi)瓿墒煊媱澋囊徊糠郑孕迯?fù)數(shù)據(jù)并開始查看流程。其驅(qū)動力很難判斷,因為它代表了我們組織的總體范式轉(zhuǎn)變。因此,它證明了這一點,但并不令我們感到驚訝。”

同時,企業(yè)架構(gòu)師Craig Milroy表示,“我們已在不同的平臺(AWS、Azure和Cloudera)上分別繼承了一個數(shù)據(jù)湖。每個領(lǐng)域都專注于從數(shù)字到5G的特定業(yè)務(wù)成果。我認(rèn)為我們正處于價值驅(qū)動之旅的起點。要使業(yè)務(wù)價值和成果與技術(shù)投資保持一致,還有很多工作要做。”

與此同時,首席信息官Melissa Woo認(rèn)為從其數(shù)據(jù)湖中獲得的業(yè)務(wù)成果并不確定。她說:“我們的分析主管在數(shù)據(jù)湖變成現(xiàn)實之前就實施了一個數(shù)據(jù)湖,但是對于我們的組織而言,并沒有那么多需求。我們的客戶仍然需要傳統(tǒng)的數(shù)據(jù)倉庫和報告編寫功能。我們公司總裁仍然對建立適當(dāng)?shù)幕A(chǔ)設(shè)施可能產(chǎn)生的結(jié)果非常感興趣,并且非常喜歡數(shù)據(jù)湖這一術(shù)語。”

更糟糕的是,首席信息官Ben Haines說:“許多數(shù)據(jù)湖變成了數(shù)據(jù)沼澤,浪費了數(shù)據(jù)機(jī)會。”以上的討論導(dǎo)致Mark Thiele提出一個問題,“數(shù)據(jù)湖是否取代了其他數(shù)據(jù)存儲庫,還是只是一種增值服務(wù)?”

與數(shù)據(jù)倉庫相比,數(shù)據(jù)湖面臨的最大機(jī)遇是什么?

對于電信行業(yè)高管Mil Roy來說,數(shù)據(jù)湖提供了對來自5G終端的大量非結(jié)構(gòu)化數(shù)據(jù)的支持。這不適合傳統(tǒng)的數(shù)據(jù)倉庫方法,尤其是在線/實時流式數(shù)據(jù)和分析功能。他表示,針對特定業(yè)務(wù)需求,將適合特定用途的工作負(fù)載部署到數(shù)據(jù)湖。

Stephen diFilipo對Milroy的建議表示認(rèn)同,并表示,“數(shù)據(jù)湖提供了收集、存儲和分析所有數(shù)據(jù)、格式、非結(jié)構(gòu)化元數(shù)據(jù)的功能,而這是傳統(tǒng)數(shù)據(jù)倉庫存儲庫無法實現(xiàn)的。”

與類似的觀點一樣,Gildersleeve認(rèn)為數(shù)據(jù)湖的最大機(jī)會是能夠應(yīng)用焦點,并比傳統(tǒng)數(shù)據(jù)倉庫移動更快。這樣可以使更多人訪問數(shù)據(jù)。

首席技術(shù)官Steve Jones在這一點上斷言,數(shù)據(jù)湖和數(shù)據(jù)倉庫之間的區(qū)別在于能夠從“更改數(shù)據(jù)捕獲”轉(zhuǎn)變?yōu)樗懈牡臍v史。使用數(shù)據(jù)湖,無需僅提取報告所需的數(shù)據(jù),就可以捕獲整個歷史記錄。

Gartner公司分析師Nick Heudecker對這一討論進(jìn)行了總結(jié),他說:“數(shù)據(jù)湖應(yīng)被視為勘探系統(tǒng)。它們?yōu)閿?shù)據(jù)倉庫方法提供了補(bǔ)充。”

數(shù)據(jù)湖項目成敗的驅(qū)動因素是什么?

對于成功的數(shù)據(jù)湖項目的性質(zhì),首席信息官們有著不同的看法。一些人認(rèn)為,當(dāng)多個業(yè)務(wù)組數(shù)據(jù)合并以創(chuàng)建融合而不是歷史報告的總和時,數(shù)據(jù)湖是最好的利用方式。首席信息官Melissa說,“這已成為我們解決問題的一部分。如果不同的群體不愿意提供數(shù)據(jù),則沒有什么價值。顯然,分析的成熟度仍然很重要。但是,成功完成這一任務(wù)的組織將成為分析公司或競爭對手。”

首席信息官McBreen說,“當(dāng)企業(yè)能夠為共同的目的而合作時,這就像來自許多設(shè)備、合作伙伴和重要領(lǐng)域的數(shù)據(jù)流,但我們只是從頭開始。對于人工智能和機(jī)器學(xué)習(xí)來說,這可能是使用它們進(jìn)行增強(qiáng)。”就成功或失敗的驅(qū)動因素而言,首席信息官幫助執(zhí)行團(tuán)隊理解有價值的數(shù)據(jù)湖和數(shù)據(jù)沼澤之間的區(qū)別是很重要的。常見問題包括:

(1)缺乏業(yè)務(wù)定義的用例/結(jié)果。

(2)缺乏人際交往能力。

(3)資源不足。

(4)過高的期望。

(5)數(shù)據(jù)素養(yǎng)和流利性。

(6)數(shù)據(jù)質(zhì)量。

(7)數(shù)據(jù)治理。

Heudecker表示:“數(shù)據(jù)湖部署經(jīng)常遇到困難,因為尚未確定目標(biāo)受眾。這會影響可用的工具,所需的數(shù)據(jù)素養(yǎng)水平等等。而認(rèn)為數(shù)據(jù)湖只是一種服務(wù)的觀點是不正確的。”

隨著首席數(shù)據(jù)官的出現(xiàn),首席信息官可以在哪里增加最大價值?

diFilipo建議說,“企業(yè)的首席信息官也將成為為首席數(shù)據(jù)官提供數(shù)據(jù)平臺的數(shù)據(jù)資產(chǎn)經(jīng)理。”

Craig Milroy表示,由于這個原因,首席信息官們應(yīng)該讓分析、數(shù)據(jù)科學(xué)更容易獲得高質(zhì)量、更容易理解的數(shù)據(jù),從而推動業(yè)務(wù)價值和成果。

結(jié)語

首席信息官在數(shù)據(jù)管理中繼續(xù)發(fā)揮著重要作用。數(shù)據(jù)湖為他們提供了增值的潛力。顯然,隨著數(shù)據(jù)湖的應(yīng)用結(jié)果喜憂參半,許多組織在業(yè)務(wù)上面臨失敗。但是對于那些將數(shù)據(jù)湖視為生成數(shù)據(jù)平臺或用數(shù)據(jù)結(jié)構(gòu)分析的一些組織來說,加速業(yè)務(wù)轉(zhuǎn)型付出一些代價都是值得的。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論