隨著大數(shù)據(jù)客戶紛紛遠(yuǎn)離復(fù)雜技術(shù)、擁抱云計(jì)算,Hadoop供應(yīng)商們搖搖欲墜。
大數(shù)據(jù)仍然是很重要,但昔日大數(shù)據(jù)時(shí)代的幾個(gè)典范:Cloudera、Hortonworks和MapR最近相繼失利,讓大數(shù)據(jù)行業(yè)多少備受冷落。這幾大巨頭曾經(jīng)是數(shù)據(jù)界的寵兒,能夠籌集大筆資金(英特爾在單單一輪融資就向Cloudera投資了7.66億美元!),它們迫于無奈只好縮減,要么合并(Cloudera和Hortonworks),要么裁員(MapR)。
在此期間,Elastic和MongoDB等其他開源大數(shù)據(jù)供應(yīng)商卻一路扶搖直上。怎么會(huì)這樣?當(dāng)然有諸多原因,其中一個(gè)原因是這個(gè)事實(shí):昔日的Hadoop供應(yīng)商將大筆賭注押錯(cuò)了對(duì)象,押在了與數(shù)據(jù)中心息息相關(guān)的工程師上,而市場(chǎng)已轉(zhuǎn)向向云端尋求自由的開發(fā)人員。
大是相對(duì)的
MapR是當(dāng)初靠Hadoop大發(fā)其財(cái)?shù)墓?yīng)商當(dāng)中最近的遭殃者。MapR的估值一度超過10億美元,它最近透露必須解雇122名員工(約占員工總?cè)藬?shù)的25%),包括首席執(zhí)行官John Schroeder、其他高管和許多工程師,同時(shí)還要關(guān)閉總部大本營,除非能找到一個(gè)投資者。
這個(gè)投資者要在6月14日前簽約,否則MapR的前途一片黯淡。
不過,近幾年的情況也好不到哪里。據(jù)LinkedIn的數(shù)據(jù)顯示,在近兩年里,MapR估值縮水29%。無獨(dú)有偶。Cloudera與Hortonworks合并(可能是由于這兩家公司無法獨(dú)自存活)后,剛公布了災(zāi)難般的收益,預(yù)計(jì)收入將比分析師預(yù)計(jì)的少6900萬美元至8900萬美元。與此同時(shí),首席執(zhí)行官Tom Reilly和首席安全官兼聯(lián)合創(chuàng)始人Mike Olson雙雙宣布辭職。
Cloudera的股價(jià)一下子暴跌40%。
這樣的結(jié)果更容易歸咎于炒作過度的大數(shù)據(jù)領(lǐng)域回歸現(xiàn)實(shí),但其他供應(yīng)商卻蓬勃發(fā)展,盡管Hadoop的幾只領(lǐng)頭羊步履蹣跚。比如說,MongoDB數(shù)據(jù)庫越來越受歡迎,現(xiàn)在人氣與Oracle和MySQL一樣旺(按各種排行榜來衡量),形成三足鼎立之勢(shì),僅僅5年前其市場(chǎng)份額還只有十分之一。反過來,這么旺的人氣不斷促使這家同名公司收入迅猛增長,最近收入更是猛增了78%。
與之相似,Elasticsearch分布式搜索和分析引擎背后的Elastic公司在去年的員工人數(shù)增加了一倍,最近一個(gè)季度的收入激增了70%。許多公司一直將Elastic用于傳統(tǒng)的文本搜索及其他任務(wù),比如倫敦斯坦斯特德機(jī)場(chǎng)使用Elastic的工具來跟蹤和顯示通過機(jī)場(chǎng)的人員和行李流量,以提供實(shí)時(shí)分析。
劇本不應(yīng)該是這樣的。按理說,MongoDB和Elasticsearch等技術(shù)及其背后的公司從來無法挑戰(zhàn)Hadoop及其后續(xù)技術(shù),但它們挑戰(zhàn)成功了。原因何在?
預(yù)計(jì)云形勢(shì)大好
嗯,云是一個(gè)原因,但它是多方面原因的一部分。正如Anaconda的高級(jí)副總裁Mathew Lodge所寫,雖然Cloudera、Hortonworks和MapR拼命地從內(nèi)部部署產(chǎn)品發(fā)展而來,來自AWS、微軟Azure和谷歌的云原生方案都共同提供了“完全集成的產(chǎn)品,它們的購置成本更低,擴(kuò)展起來費(fèi)用更省。”許多企業(yè)注意到了這一點(diǎn)。同樣,Hadoop供應(yīng)商們?cè)诒M快構(gòu)建云服務(wù),但它們根本趕不上云計(jì)算競(jìng)爭(zhēng)對(duì)手的速度。
雖然就當(dāng)時(shí)而言Hadoop是革命性的技術(shù),但與云替代產(chǎn)品相比,想繼續(xù)擁有云的優(yōu)點(diǎn),其成本高得離譜。正如Clint Sharp特別指出,“Hadoop最主要的用途一直是廉價(jià)存儲(chǔ)。[鑒于云]存儲(chǔ)變得更便宜,加上S3+ EMR及其他服務(wù)的用戶體驗(yàn)要好1000倍。”比如說,雖然Hadoop可能是傳統(tǒng)專有數(shù)據(jù)倉庫的出色替代品,但遠(yuǎn)不如像基于云的Snowflake這些更現(xiàn)代化的方法那么好。
與此同時(shí),云預(yù)示著處理數(shù)據(jù)有了不同的新方式。云服務(wù)本身不是對(duì)等替換,不過與MongoDB或Elasticsearch一樣,它們處理與Hadoop同樣的幾種問題,但處理起來簡單得多。正如MongoDB的Joe Drumgoole所說,“編寫高效的分布式map-reduce算法很難,確實(shí)很難。”更糟糕的是,Hadoop供應(yīng)商競(jìng)相往各自的Hadoop產(chǎn)品添加一大批開源附加組件(Impala!Pig!Hive!Flume?。?,開發(fā)出更為笨拙的“解決方案堆棧”,直到最后“沒有人知道這些Hadoop公司到底做什么,”據(jù)一位觀察人士所說。
對(duì)于負(fù)責(zé)“完成任務(wù)”的開發(fā)人員而言,他們?nèi)找孢x擇更簡單的替代方案。
方便壓倒一切
對(duì)于Hadoop及后續(xù)技術(shù)的用戶而言,開箱即用的體驗(yàn)很差勁。MongoDB與之形成了鮮明對(duì)比。MongoDB前高管Kelly Stirman認(rèn)為MongoDB用戶體驗(yàn)是個(gè)關(guān)鍵的差異化優(yōu)勢(shì)。怎么會(huì)這樣?Tom Barber解釋道:
[若使用]MongoDB,你可以借助apt install指令輕松地安裝在一臺(tái)服務(wù)器上,不必?fù)v鼓糟糕的虛擬機(jī)來入手。在生產(chǎn)環(huán)境中,你可以在一臺(tái)服務(wù)器上運(yùn)行它。可以將它連接到一堆東西上,沒必要編寫一堆代碼。人們想要數(shù)據(jù)庫...... MongoDB很容易獲取數(shù)據(jù),也很容易倒出數(shù)據(jù)。”
TimeScale DB首席執(zhí)行官Ajay Kulkarni同意這個(gè)說法,他補(bǔ)充道:
備受開發(fā)人員的喜愛[是MongoDB擊敗Hadoop的原因]。Mongo專注于首次使用體驗(yàn)。眾所周知,Hadoop運(yùn)行起來很難。[Hadoop供應(yīng)商]向企業(yè)銷售宣傳的工作做得很到位,但得不到開發(fā)人員的追捧,增長停滯不前,市場(chǎng)隨之蒸發(fā)。
雖說開發(fā)人員的喜愛完全解釋MongoDB和Elastic較之Cloudera和MapR取得成功這種說法未免夸大其辭,但這確實(shí)是一個(gè)重要的因素。
Jake Kaldenbaugh推理道,開發(fā)人員開始將MongoDB“嵌入到”他們的現(xiàn)代應(yīng)用程序中。久而久之,將MongoDB推入到不太重要的應(yīng)用程序的開發(fā)人員將MongoDB推入到關(guān)鍵業(yè)務(wù)應(yīng)用程序中,MongoDB添加了支持更復(fù)雜的使用場(chǎng)合的功能(比如多文檔事務(wù)),又不會(huì)使它們的復(fù)雜性變得大大提高。
那么,這讓昔日的大數(shù)據(jù)巨頭們何去何從?Lodge給出了悼詞:
在Cloudera和Hortonworks [以及MapR]作為大數(shù)據(jù)領(lǐng)域的主角享受了10年的風(fēng)光后,行業(yè)重心已轉(zhuǎn)移到別處。領(lǐng)先的云公司并不運(yùn)行來自Cloudera和Hortonworks的大型Hadoop/Spark集群,它們而是在容器基礎(chǔ)設(shè)施上運(yùn)行分布式云規(guī)模數(shù)據(jù)庫和應(yīng)用程序。它們使用Python、R和其他非Java語言搞機(jī)器學(xué)習(xí)。公司企業(yè)日益轉(zhuǎn)向類似的方法,因?yàn)樗鼈兿M谒俣群鸵?guī)模方面獲得同樣的好處?,F(xiàn)在是Hadoop和Spark領(lǐng)域該與時(shí)俱進(jìn)的時(shí)候了。
這是開源數(shù)據(jù)基礎(chǔ)設(shè)施創(chuàng)新的祝福之一,也是詛咒之一。這一幕正以極快的速度上演,一些供應(yīng)商會(huì)在此過程中轟然倒下。