數(shù)字經(jīng)濟(jì)時(shí)代,數(shù)據(jù)成為新的生產(chǎn)資料,數(shù)據(jù)驅(qū)動(dòng)體驗(yàn)、數(shù)據(jù)驅(qū)動(dòng)決策、數(shù)據(jù)驅(qū)動(dòng)流程的各種應(yīng)用正不斷上演。5G、云、AI加速行業(yè)數(shù)字化轉(zhuǎn)型,海量數(shù)據(jù)時(shí)代已經(jīng)到來(lái)。海量數(shù)據(jù)促使企業(yè)從數(shù)據(jù)管理走向數(shù)據(jù)運(yùn)營(yíng),目前,正面臨三大挑戰(zhàn):一是成本高、存不下;二是效率低、流不動(dòng);三是自動(dòng)化差、管不好。
Hadoop1.0時(shí)代,計(jì)算和存儲(chǔ)是高度融合,僅能處理單一的MapReduce分析業(yè)務(wù);Hadoop2.0時(shí)代,計(jì)算層與數(shù)據(jù)開(kāi)始解耦,通過(guò)Yarn實(shí)現(xiàn)了獨(dú)立的資源管理,并開(kāi)始支持Spark等更多的計(jì)算引擎;而如今來(lái)到Hadoop3.0時(shí)代,計(jì)算存儲(chǔ)已分開(kāi)演進(jìn),通過(guò)Hadoop EC來(lái)支持冷數(shù)據(jù)的存儲(chǔ),同時(shí)引入外置存儲(chǔ),如S3,增強(qiáng)其存儲(chǔ)底座能力,逐步向數(shù)據(jù)湖架構(gòu)演進(jìn)。Hadoop3.0時(shí)代,計(jì)算正向輕量化和容器化方向發(fā)展,計(jì)算存儲(chǔ)分離演進(jìn)已成為事實(shí)。計(jì)算存儲(chǔ)分離后,我們用企業(yè)級(jí)的存儲(chǔ)基座替代原來(lái)的原生大數(shù)據(jù)存儲(chǔ)基座,好處是可以把當(dāng)前企業(yè)級(jí)存儲(chǔ)的先進(jìn)技術(shù)帶入到大數(shù)據(jù)里面來(lái),如高可靠、高利用率、多協(xié)議融合等,更好地釋放數(shù)據(jù)的價(jià)值。
舉個(gè)例子來(lái)說(shuō),2018年,華為創(chuàng)新性推出基于OceanStor Pacific系列的大數(shù)據(jù)存算分離方案。在成本方面,華為大數(shù)據(jù)存算分離方案實(shí)現(xiàn)存算分離,資源按需獨(dú)立擴(kuò)展,彈性EC、冷熱數(shù)據(jù)分級(jí),存儲(chǔ)成本大幅降低。在數(shù)據(jù)應(yīng)用效率方面,華為OceanStor Pacific系列采用全對(duì)稱分布式NameNode,集群性能和支持文件數(shù)隨節(jié)點(diǎn)數(shù)目增加線性提升,單一命名空間支持文件數(shù)達(dá)百億級(jí)。在實(shí)際操作運(yùn)維方面,華為OceanStor Pacific系列提供的原生HDFS接口提供了更佳性能和使用體驗(yàn)。通過(guò)ViewFS或Hbase元數(shù)據(jù)網(wǎng)關(guān)方式可實(shí)現(xiàn)新老共存,實(shí)現(xiàn)存算一體向存算分離的平滑演進(jìn),保護(hù)用戶已有投資。