從硅谷大數(shù)據(jù)公司的勢力更替看數(shù)據(jù)分析的未來

用戶投稿
愛分析
隨著數(shù)字化的深入,Hadoop架構(gòu)的分析平臺在成本和業(yè)務(wù)需求上越來越不能適應(yīng)企業(yè)的要求,因此國內(nèi)外領(lǐng)先的大數(shù)據(jù)公司都在轉(zhuǎn)向云原生。

隨著數(shù)字化的深入,Hadoop架構(gòu)的分析平臺在成本和業(yè)務(wù)需求上越來越不能適應(yīng)企業(yè)的要求,因此國內(nèi)外領(lǐng)先的大數(shù)據(jù)公司都在轉(zhuǎn)向云原生。云原生架構(gòu)由于具有彈性伸縮、低成本、敏捷性的優(yōu)勢,正在逐步取代Hadoop,成為新一代數(shù)據(jù)分析平臺的基礎(chǔ)。而新一代的數(shù)據(jù)分析平臺也將具備云原生、存算分離、容器化、自動化、湖倉融合、訂閱制等特征。區(qū)別于美國市場,中國市場的私有云會與公有云共同發(fā)力,企業(yè)應(yīng)該看清趨勢,盡早做好下一代數(shù)據(jù)平臺架構(gòu)的選型和搭建。

技術(shù)的發(fā)展都有著自己的生命周期。在技術(shù)從起步到成長,再到成熟、衰退,最終被新技術(shù)所取代的過程中,商業(yè)化公司一直起到了重要的推動作用,但它們也終將因為技術(shù)的迭代而改變自身的走向。大數(shù)據(jù)行業(yè)近期發(fā)生的兩件大事,印證了數(shù)據(jù)分析領(lǐng)域的技術(shù)也遵循著這樣的演變規(guī)律:兩家硅谷大數(shù)據(jù)公司分別IPO和私有化。

6月25日,Apache Kafka商業(yè)化公司Confluent正式登陸納斯達(dá)克,首日開漲25%,市值超過110億美元。Confluent成立于2014年,其提供的是一個實時事件流平臺,具有高吞吐、低延時、高可用和數(shù)據(jù)持久性的能力。公司在2018年推出云原生版本產(chǎn)品Confluent Cloud,并將云原生作為公司的主要戰(zhàn)略。

而在此前的6月初,Cloudera卻被私有化退市,這一消息令人唏噓。因為Cloudera從2008年成立至今一直是Hadoop生態(tài)的領(lǐng)導(dǎo)者,其開發(fā)的產(chǎn)品以及背后基于Hadoop開源技術(shù)的生態(tài)曾是企業(yè)首選的大數(shù)據(jù)分析解決方案。但Cloudera自2017年5月上市以來一直表現(xiàn)不佳,先后經(jīng)歷過股價腰斬,與業(yè)內(nèi)第二名Hortonworks的合并抱團,以及現(xiàn)在的私有化退市,也代表了Hadoop的頹勢。

作為同是出自Apache的頂級項目,為何Confluent和Cloudera卻在同一時間在資本市場走向了完全相反的方向?Hadoop為何走向衰落,數(shù)據(jù)分析技術(shù)的未來又會走向何方?愛分析基于對相關(guān)領(lǐng)域的持續(xù)研究和積累,以及對業(yè)內(nèi)專家的訪談,嘗試對這兩起事件折射出的數(shù)據(jù)分析技術(shù)的演進(jìn)趨勢做出分析解讀。

成本與業(yè)務(wù)需求雙重因素驅(qū)動下,Hadoop從興起走向衰落

從企業(yè)用戶的視角,成本和業(yè)務(wù)需求實現(xiàn)是技術(shù)選型的核心考量。而這兩個因素在不同時代的演變,既造就了Hadoop的興起,也解釋了現(xiàn)在Hadoop為何開始走向衰落。

在數(shù)據(jù)分析技術(shù)的演進(jìn)過程中,成本是首要驅(qū)動因素。

在2004年Hadoop誕生之前的近20年中,數(shù)據(jù)分析技術(shù)一直被大規(guī)模并行處理(MPP)架構(gòu)所主導(dǎo)。以Teradata為代表的MPP數(shù)倉產(chǎn)品采用基于專有物理硬件的軟硬件一體機架構(gòu),因此企業(yè)在擴展存儲和計算資源時需要付出高昂的成本。隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)量不斷加大,企業(yè)越來越不堪成本支出的重負(fù),紛紛轉(zhuǎn)向了在軟件層面開源免費,硬件層面可以采用廉價PC服務(wù)器的Hadoop架構(gòu)。

但Hadoop架構(gòu)在成本上對客戶而言依然不是最優(yōu)解。在數(shù)字化應(yīng)用已經(jīng)無所不在的今天,企業(yè)對存儲和計算資源都提出了更高的要求。Hadoop沒能進(jìn)一步解決算力和資源的優(yōu)化問題,也在擴容成本和運維成本上逐漸不能適應(yīng)企業(yè)要求。

在擴容成本方面,Hadoop雖然在軟件架構(gòu)層面實現(xiàn)了計算與存儲的分離,但其在硬件層面仍然基于無共享架構(gòu),計算和存儲資源是耦合的。然而今天企業(yè)在計算和存儲資源上的擴展需求往往并不同步:計算資源通常僅需在負(fù)載高峰期進(jìn)行擴展,而存儲資源的擴展一般是長期、線性的過程。企業(yè)無法按需獨立擴展計算和存儲資源,必然帶來資源的浪費。此外,Hadoop的擴容時間成本也非常高,通常Hadoop集群擴容一倍,企業(yè)僅在硬件的采購和部署上花費的時間就需要半年或以上。

在運維成本方面,由于Hadoop的解決方案通常是從其生態(tài)中的數(shù)百個開源項目中選擇一堆技術(shù)組件組合起來實現(xiàn)相關(guān)功能,這樣的體系非常復(fù)雜,且組件間的耦合度非常高。隨著Hadoop生態(tài)技術(shù)組件越來越龐雜,組件之間的耦合性和差異性要求開發(fā)和運維人員具備全棧能力,給企業(yè)帶來了不菲的運維成本。

成本因素之外,業(yè)務(wù)需求的變化則在另一個層面驅(qū)動了數(shù)據(jù)分析技術(shù)的迭代。

在數(shù)倉時代,企業(yè)的數(shù)據(jù)分析需求以處理結(jié)構(gòu)化數(shù)據(jù)、為業(yè)務(wù)人員作報表應(yīng)用為主,MPP架構(gòu)在當(dāng)時能夠很好地滿足這些需求。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論