大數(shù)據(jù)已死

云頭條
由于關(guān)注的重心從我們收集數(shù)據(jù)的方式轉(zhuǎn)向?qū)崟r處理數(shù)據(jù),大數(shù)據(jù)時代即將終結(jié)。大數(shù)據(jù)現(xiàn)在是支持多云、機器學習和實時分析這幾個新時代的業(yè)務資產(chǎn)。

由于關(guān)注的重心從我們收集數(shù)據(jù)的方式轉(zhuǎn)向?qū)崟r處理數(shù)據(jù),大數(shù)據(jù)時代即將終結(jié)。大數(shù)據(jù)現(xiàn)在是支持多云、機器學習和實時分析這幾個新時代的業(yè)務資產(chǎn)。

大數(shù)據(jù)時代生于2006年4月1日,卒于2019年6月5日

大數(shù)據(jù)時代終結(jié)于2019年6月5日,當時Tom Reilly宣布即將從Cloudera辭職,隨后該公司市值應聲下跌。加上MapR前不久宣布將于6月下旬關(guān)門大吉——這將取決于MapR能否找到買家來繼續(xù)運營,2019年6月表明了這個事實:Hadoop推動的大數(shù)據(jù)這個早期時代已宣告結(jié)束。大數(shù)據(jù)會因在這幾方面起到的作用而被世人銘記:促使社交媒體開始占主導地位,從根本上改變企業(yè)在處理多出好幾個數(shù)量級的數(shù)據(jù)方面的理念,以及澄清分析數(shù)據(jù)、數(shù)據(jù)質(zhì)量和數(shù)據(jù)治理的價值,不斷評估作為企業(yè)資產(chǎn)的數(shù)據(jù)。

如果為大數(shù)據(jù)時代擬寫某種意義上的悼詞時,必須要強調(diào)一下:大數(shù)據(jù)技術(shù)實際上并沒“死”,但第一代基于Hadoop的大數(shù)據(jù)已達到成熟的程度,它已在企業(yè)數(shù)據(jù)界確立了穩(wěn)固的角色。大數(shù)據(jù)不再是無限增長的炒作周期的一部分,而是一種老牌技術(shù)。

大數(shù)據(jù)的誕生

大數(shù)據(jù)時代始于ApacheHadoop在2006年的亮相,開發(fā)人員和架構(gòu)師將此工具視為有助于處理和存儲多結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)。企業(yè)在數(shù)據(jù)方面的理念發(fā)生了根本性轉(zhuǎn)變,并不僅限于傳統(tǒng)企業(yè)數(shù)據(jù)庫的ACID(原子性、一致性、隔離性和持久性),導致數(shù)據(jù)使用場合發(fā)生了變化,許多公司意識到以前丟棄或保存在靜態(tài)歸檔中的數(shù)據(jù)實際上有助于了解客戶行為、采取行動的傾向、風險因素以及復雜的組織、環(huán)境和商業(yè)行為。Cloudera這款商業(yè)發(fā)行版推出后,Hadoop的商業(yè)價值在2009年開始得到確立,MapR、Hortonworks和EMC Greenplum(現(xiàn)在的Pivotal HD)緊隨其后。雖然分析師們預測大數(shù)據(jù)這個潛在市場的規(guī)模高達500億美元或更多,但Hadoop這種分析工具最終在最近十年受到了質(zhì)疑。

Hadoop在企業(yè)界面臨的挑戰(zhàn)

雖然Hadoop在通過批處理支持大型存儲和ETL(提取、轉(zhuǎn)換和加載)作業(yè)以及支持機器學習任務方面大有價值,但它在支持公司和大型組織用來管理日常運營的較為傳統(tǒng)的分析工作方面并非最佳選擇。Hive、Dremel和Spark等工具在Hadoop上面使用以支持分析,但Hadoop從未變得足夠快,無法真正取代數(shù)據(jù)倉庫。

Hadoop還面臨這樣的挑戰(zhàn):NoSQL數(shù)據(jù)庫和對象存儲提供商在解決Hadoop最初旨在幫助解決的部分存儲和管理難題方面取得了進展。隨著時間的推移,在Hadoop上支持業(yè)務連續(xù)性面臨挑戰(zhàn),加上支持實時、地理空間及其他新興的分析使用場合方面缺乏靈活性,這使得Hadoop面對海量數(shù)據(jù)時很難在批處理之外大有作為。

此外,久而久之,許多公司開始發(fā)現(xiàn)大數(shù)據(jù)難題越來越與此有關(guān):支持一系列廣泛的數(shù)據(jù)源,并迅速調(diào)整數(shù)據(jù)模式、查詢、定義和上下文,新的應用程序、平臺和云基礎設施供應商就體現(xiàn)了這一點。為了克服這個挑戰(zhàn),分析、集成和復制就必須變得更敏捷更快速。許多供應商紛紛創(chuàng)辦就體現(xiàn)了這個挑戰(zhàn),包括:

●分析解決方案:比如ClearStory Data、Domo、Incorta、Looker、FineBI、Microsoft Power BI、Qlik、Sisense、Tableau和ThoughtSpot

●數(shù)據(jù)管道供應商:比如Alooma、Attunity、Alteryx、Fivetran和Matillion

●數(shù)據(jù)集成供應商:包括Informatica、MuleSoft、SnapLogic、Talend和TIBCO(后者還憑借其Spotfire產(chǎn)品組合角逐分析領(lǐng)域)。

如果從收購或融資的角度來看,許多這些公司似乎都備受矚目,這絕非巧合。最近的例子包括但不限于:

●ThoughtSpot在2018年5月完成1.45億美元的D輪融資

●Sisense在2018年9月完成8000萬美元的E輪融資

●Incorta在2018年10月完成1500萬美元的B輪融資

●Fivetran在2018年12月完成1500萬美元的A輪融資

●Looker在2018年12月完成1.03億美元的E輪融資

●TIBCO在2018年12月收購Orchestra Networks

●Logi Analytics在2019年2月收購Jinfonet

●谷歌在2019年2月收購Alooma

●Qlik在2019年2月收購Attunity

●Informatica在2019年2月收購AllSight

●TIBCO在2019年3月收購SnappyData

●Alteryx在2019年4月收購ClearStory Data

●Matillion在2019年6月完成3500萬美元的C輪融資

●谷歌在2019年6月斥資26億美元收購Looker

●Salesforce在2019年6月斥資157億美元收購Tableau

●Logi Analytics在2019年6月收購Zoomdata

這些解決方案的成功表明了日益需要分析師、數(shù)據(jù)和平臺靈活性,以便面對諸多云和數(shù)據(jù)源改進數(shù)據(jù)的上下文分析價值。2019年會更鬧猛,因為其中許多公司歸私募股權(quán)公司所有,或者已獲得大量的風投資金,需要盡快成功退出,幫助資助未來的風投基金。

隨著大數(shù)據(jù)的消逝,我們進入到了后大數(shù)據(jù)時代,包括多云時代、機器學習時代以及實時和無處不在的上下文時代。

多云時代恰恰表明日益需要基于現(xiàn)有的各種應用系統(tǒng)跨多云支持應用軟件和平臺,也日益需要支持持續(xù)交付和業(yè)務連續(xù)性。“某項任務有一個應用軟件”這種觀念導致了企業(yè)中每個員工平均有一個SaaS應用軟件的業(yè)務環(huán)境,這意味著每家大企業(yè)在為數(shù)千個SaaS應用軟件支持數(shù)據(jù)和流量。后端容器化這個趨勢導致支持按需和峰值使用環(huán)境的存儲和工作負載環(huán)境日益分散化和專業(yè)化。

機器學習時代專注于分析模型、算法、模型訓練、深度學習以及算法和深度學習技術(shù)的倫理。機器學習需要處理創(chuàng)建干凈數(shù)據(jù)供分析所用所需的大量相同工作,但還需要另外的數(shù)學、業(yè)務和倫理上下文以創(chuàng)建持久的長期價值。

實時和無處不在的上下文恰恰表明,從分析的角度和交互的角度來看,日益需要及時的更新。從分析的角度來看,公司分析處理僅僅每周更新一次或每天更新一次已不夠。員工現(xiàn)在需要近乎實時的更新,否則有可能做出糟糕的公司決策,這些決策在制定的那一刻就已過時或落伍了。有效使用實時分析需要廣泛的業(yè)務數(shù)據(jù),以提供適當?shù)恼w上下文以及供針對數(shù)據(jù)按需執(zhí)行的分析所用。無處不在還表明了交互的興起,包括物聯(lián)網(wǎng)提供表明環(huán)境和機械活動的更多邊緣觀察信息,以及仍在發(fā)展中的擴展現(xiàn)實(Extended Reality,包括增強現(xiàn)實和虛擬現(xiàn)實)提供身臨其境的體驗。為了提供這種級別的交互,必須以交互的速度分析數(shù)據(jù),可能短至300-500毫秒,以提供有效的行為反饋。

隨著大數(shù)據(jù)時代走到盡頭,我們現(xiàn)在可以少關(guān)注收集大量數(shù)據(jù)的機制,多關(guān)注處理、分析海量數(shù)據(jù)并與之實時交互方面的無數(shù)挑戰(zhàn)。我們邁入大數(shù)據(jù)驅(qū)動的新時代時,請牢記以下幾個概念。

●首先,Hadoop在企業(yè)數(shù)據(jù)界仍占有一席之地。Amalgam Insights預計,MapR最終會被一家以管理IT軟件出名的公司收購,比如BMC、冠群或MicroFocus;并認為Cloudera已采取了措施,不僅限于企業(yè)Hadoop,以支持數(shù)據(jù)的下幾個時代。但技術(shù)的步伐不可阻擋,Cloudera的問題在于它的行動是否夠快、隨勢而變。Cloudera在將其企業(yè)數(shù)據(jù)平臺完善成下一代洞察力和機器學習平臺方面面臨數(shù)字化轉(zhuǎn)型挑戰(zhàn)。過去幾十年,公司能夠為轉(zhuǎn)型敲定時間表?,F(xiàn)在正如我們從亞馬遜、Facebook和微軟等公司看到的那樣,僅僅為了活命,成功的科技公司必須準備好每十年就要轉(zhuǎn)型,可能甚至犧牲掉自己的部分業(yè)務。

●其次,對多云分析和數(shù)據(jù)可視化的需求比以往任何時候都要大。谷歌和Salesforce剛斥資180億美元收購了Looker和Tableau,那些收購基本上是針對頗具規(guī)模和收入增長的公司的市場價值收購。會投入更多的巨額資金,以克服這一挑戰(zhàn):針對眾多數(shù)據(jù)源提供分析技術(shù),并支持與多云有關(guān)的日益分散且多樣的存儲、計算和集成需求。這意味著企業(yè)需要慎重地搞清楚數(shù)據(jù)集成、數(shù)據(jù)建模、分析及/或機器學習/數(shù)據(jù)科學團隊可以在多大程度上應對這個挑戰(zhàn),因為處理和分析異構(gòu)數(shù)據(jù)變得越來越困難、復雜,但要支持戰(zhàn)略業(yè)務需求并將數(shù)據(jù)用作真正的戰(zhàn)略優(yōu)勢又勢必需要這么做。而僅看國內(nèi)發(fā)展,企業(yè)對多云分析和數(shù)據(jù)可視化的需求也是一樣劇增。2006年成立的國產(chǎn)BI軟件廠商帆軟軟件自2016年300人左右的團隊短短三年內(nèi)成長到現(xiàn)在的1100余人,據(jù)知為了應對更多的市場需求其團隊還在不斷擴大。這樣的成長速度源自市場需求的增多和帆軟對于市場需求走勢的判斷。

●第三,機器學習和數(shù)據(jù)科學是下一代分析技術(shù),需要各自做好新的數(shù)據(jù)管理工作。大規(guī)模創(chuàng)建測試數(shù)據(jù)、合成數(shù)據(jù)和掩蔽數(shù)據(jù),以及數(shù)據(jù)沿襲、治理、參數(shù)和超參數(shù)定義以及算法假設,這些都超出了傳統(tǒng)大數(shù)據(jù)假設的范疇。這里最重要的考量因素是,使用由于種種原因未能很好地服務于企業(yè)的數(shù)據(jù):樣本量小、缺乏數(shù)據(jù)源、數(shù)據(jù)定義不清晰、數(shù)據(jù)上下文不明確,或者算法和分類假設不準確。換句話說,不使用失實的數(shù)據(jù)。失實的數(shù)據(jù)會導致有偏見、不合規(guī)、不準確的結(jié)果,還可能導致諸多問題:比如Nick Leeson在1995年導致巴林銀行(BaringsBank)垮臺,或法國興業(yè)銀行因Jerome Kerviel精心操縱交易而蒙受70億美元的交易損失。AI現(xiàn)在是新的潛在“流氓交易者”,需要得到適當?shù)闹卫?、管理和支持?/p>

●第四,需要將實時和無處不在的上下文既視為協(xié)作和技術(shù)上的挑戰(zhàn),又視為數(shù)據(jù)挑戰(zhàn)。我們正進入這樣一個世界:每個對象、流程和對話都可以用附加的上下文加以標記、標注或增強,可以實時處理數(shù)GB的數(shù)據(jù),以生成簡單的兩個單詞警報,可能就像“減慢速度”或“立即購買”這么簡單。我們看到“數(shù)字孿生”(digital twin)這個概念方興未艾:在工業(yè)界,PTC、GE及其他產(chǎn)品生命周期和制造公司為設備創(chuàng)建數(shù)字孿生;而在銷售界,Gong、Tact和Voicera等公司借助額外的上下文以數(shù)字方式記錄、分析和增強模擬對話。

結(jié)論

因此,大數(shù)據(jù)時代已宣告結(jié)束。但在此過程中,大數(shù)據(jù)本身已成為IT的一個核心方面,并引發(fā)了一系列新時代,每個時代未來一片光明。投入于大數(shù)據(jù)的公司應該將這些投入視作未來成為實時、增強和交互型互動公司的重要基礎。隨著大數(shù)據(jù)時代走到盡頭,我們現(xiàn)在準備將整個大數(shù)據(jù)用作業(yè)務資產(chǎn),而不僅僅是炒作,從而支持基于作業(yè)的上下文、機器學習和實時交互。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論