自工業(yè)革命進(jìn)入4.0階段,算力已經(jīng)開(kāi)始取代電力,成為經(jīng)濟(jì)發(fā)展最重要的驅(qū)動(dòng)力。牛津經(jīng)濟(jì)研究院研究分析表明,數(shù)字技術(shù)投資每增加一美元,便可撬動(dòng)GDP增加20美元,投資的平均回報(bào)是非數(shù)字技術(shù)投資的6.7倍。中國(guó)信息通信院和國(guó)家統(tǒng)計(jì)局的研究結(jié)果也表明,數(shù)字經(jīng)濟(jì)對(duì)經(jīng)濟(jì)增長(zhǎng)的貢獻(xiàn)率顯著高于三大產(chǎn)業(yè)對(duì)經(jīng)濟(jì)增長(zhǎng)的貢獻(xiàn)。
作為算力的重要組成部分,數(shù)據(jù)中心網(wǎng)絡(luò)貫穿數(shù)據(jù)存儲(chǔ)、計(jì)算與應(yīng)用的全流程。在2021數(shù)據(jù)中心高質(zhì)量發(fā)展大會(huì)上,由中國(guó)信息通信研究院云計(jì)算與大數(shù)據(jù)研究所發(fā)起、ODCC(開(kāi)放數(shù)據(jù)中心委員會(huì))組織起草的《超融合數(shù)據(jù)中心網(wǎng)絡(luò)白皮書(shū)》正式發(fā)布。下一代數(shù)據(jù)中心網(wǎng)絡(luò)也就是超融合數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu),作為下一代數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展方向備受關(guān)注。
如何理解下一代數(shù)據(jù)中心網(wǎng)絡(luò)?在云化升級(jí)、存儲(chǔ)全閃存化等變革之下,數(shù)據(jù)中心網(wǎng)絡(luò)正在向全以太化的超融合架構(gòu)邁進(jìn),實(shí)現(xiàn)基于物理網(wǎng)絡(luò)的全無(wú)損以太架構(gòu),管控析一體的管理融合,以及全場(chǎng)景的服務(wù)化能力融合。
特別值得注意的是,華為已經(jīng)推出超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric 3.0解決方案,秉承超融合數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的理念,實(shí)現(xiàn)了數(shù)據(jù)的高效流通,可助力企業(yè)構(gòu)建大算力低能耗的網(wǎng)絡(luò)。
大算力低能耗如何兼得?
算力對(duì)于GDP增長(zhǎng)有非常強(qiáng)的杠桿效應(yīng)。而在提升算力的同時(shí),往往伴隨著能耗的增加。數(shù)據(jù)中心是傳統(tǒng)的能耗大戶(hù),DC能耗占到ICT總能耗的33%,在近三年更是以18%的速度持續(xù)增長(zhǎng)。
面對(duì)綠色生態(tài)的約束性指標(biāo),數(shù)據(jù)中心這個(gè)傳統(tǒng)用電大戶(hù)何去何從?
數(shù)據(jù)中心降能耗,常規(guī)的做法是降低配電和IT設(shè)備的能耗,此外網(wǎng)絡(luò)的能耗占比一般約為12%。除了降低網(wǎng)絡(luò)自身能耗外,網(wǎng)絡(luò)能耗降低有一條更佳路徑:實(shí)現(xiàn)網(wǎng)絡(luò)無(wú)損,從而帶動(dòng)撬動(dòng)數(shù)據(jù)中心整體能效比提升,降低單位算力的能耗。
CEC認(rèn)證是生態(tài)環(huán)境部批準(zhǔn)設(shè)定的國(guó)內(nèi)權(quán)威綠色產(chǎn)品認(rèn)證。華為CloudEngine數(shù)據(jù)中心交換機(jī)已經(jīng)率先通過(guò)了此認(rèn)證,設(shè)備能耗低于業(yè)界22%。華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric 3.0方案,也始終圍繞著大算力低能耗展開(kāi)。
三大融合應(yīng)對(duì)全以太化演進(jìn)挑戰(zhàn)
數(shù)據(jù)中心網(wǎng)絡(luò)從原來(lái)IB、FC、以太的多協(xié)議模式向全以太化演進(jìn)的過(guò)程中,正在發(fā)生四大變革——
▲云計(jì)算是數(shù)據(jù)中心全以太化的首要驅(qū)動(dòng)力
▲存儲(chǔ)全閃存化驅(qū)動(dòng)RoCE產(chǎn)業(yè)生態(tài)發(fā)展
▲CPU/GPU去PCIe化,直出以太以獲取極致性能
▲IPv6大規(guī)模部署,產(chǎn)業(yè)政策加速以太化進(jìn)程
全以太技術(shù)的快速發(fā)展與成熟,必將使數(shù)據(jù)中心傳統(tǒng)的三張煙囪式物理網(wǎng)絡(luò)走向統(tǒng)一。
關(guān)于數(shù)據(jù)中心基礎(chǔ)設(shè)施架構(gòu),業(yè)界也在不同的層面上進(jìn)行了持續(xù)的探索與嘗試。例如在小型數(shù)據(jù)中心場(chǎng)景中的一體機(jī)方案(HCI),簡(jiǎn)化了網(wǎng)絡(luò)設(shè)計(jì)、提升了交付效率。而在本次白皮書(shū)提到的超融合數(shù)據(jù)中心網(wǎng)絡(luò),則將融合層面從單機(jī)架擴(kuò)展到多云多場(chǎng)景,實(shí)現(xiàn)了更大范圍的資源整合。
然而,超融合數(shù)據(jù)中心網(wǎng)絡(luò)建設(shè)并不是一件很容易的事情。在實(shí)現(xiàn)融合的過(guò)程中,必須要攻克如下三大挑戰(zhàn):
●以太網(wǎng)的機(jī)制是“盡力而為”,天然是丟包的,而隨著網(wǎng)絡(luò)規(guī)模的增加,丟包率將呈指數(shù)級(jí)增長(zhǎng),在HPC和集中式存儲(chǔ)等極端性能場(chǎng)景,傳統(tǒng)以太無(wú)法滿(mǎn)足性能要求;
●當(dāng)新建數(shù)據(jù)中心規(guī)模擴(kuò)大后,端口、策略等網(wǎng)絡(luò)對(duì)象關(guān)系達(dá)到上千萬(wàn)級(jí),運(yùn)維的復(fù)雜性指數(shù)級(jí)增長(zhǎng);
●一體化大數(shù)據(jù)中心要實(shí)現(xiàn)算力靈活調(diào)度,跨云業(yè)務(wù)部署效率也成為數(shù)據(jù)跨區(qū)域流通的關(guān)鍵。
挑戰(zhàn)正是攻關(guān)的目標(biāo)和方向。基于業(yè)界數(shù)年的積極探索和積累,產(chǎn)學(xué)研用各方對(duì)下一代超融合數(shù)據(jù)中心網(wǎng)絡(luò)的構(gòu)架,已經(jīng)達(dá)成了基本共識(shí),這對(duì)于推動(dòng)超融合數(shù)據(jù)中心網(wǎng)絡(luò)的快速發(fā)展意義重大。
三大特征包括:
◆全無(wú)損以太網(wǎng)絡(luò),實(shí)現(xiàn)數(shù)據(jù)承載融合:通用計(jì)算、存儲(chǔ)、高性能計(jì)算統(tǒng)一承載在0丟包以太網(wǎng)技術(shù)棧上,TCP、RoCE數(shù)據(jù)混流運(yùn)行,打破傳統(tǒng)分散架構(gòu)限制;
◆全生命周期自動(dòng)管理,實(shí)現(xiàn)管控析融合:基于統(tǒng)一數(shù)據(jù)采集平臺(tái),自動(dòng)駕駛網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)智能運(yùn)維,打破多工具多平臺(tái)分散管理限制;
◆全場(chǎng)景服務(wù)化能力,實(shí)現(xiàn)全場(chǎng)景融合:基于開(kāi)放底座,實(shí)現(xiàn)多行業(yè)場(chǎng)景服務(wù)化體驗(yàn)融合,打破區(qū)域與場(chǎng)景限制。
系統(tǒng)躍遷如何釋放價(jià)值?
任何網(wǎng)絡(luò)架構(gòu)的升級(jí)與改造,很重要的目的是提質(zhì)增效、創(chuàng)造價(jià)值。超融合數(shù)據(jù)中心網(wǎng)絡(luò)在設(shè)計(jì)階段就已經(jīng)瞄準(zhǔn)收益目標(biāo),在降低建網(wǎng)與運(yùn)維成本效果顯著。
以以太網(wǎng)丟包問(wèn)題為例,存在了40多年,以太專(zhuān)家探索了很多路徑,但都失敗了。0.1%的丟包會(huì)導(dǎo)致50%的算力損失。
如何避免0.1%?
華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)CloudFabric 3.0方案創(chuàng)造性地將智能算法引入到網(wǎng)絡(luò)聯(lián)接中來(lái),用算法代替專(zhuān)家經(jīng)驗(yàn)實(shí)現(xiàn)實(shí)時(shí)精準(zhǔn)控速;為了確保算法可以自適應(yīng)任何流量場(chǎng)景和模型,除了百萬(wàn)級(jí)的真實(shí)業(yè)務(wù)樣本外,還加入了千萬(wàn)級(jí)的隨機(jī)樣本訓(xùn)練,可以保證在任意場(chǎng)景下網(wǎng)絡(luò)的0丟包。最終實(shí)現(xiàn)無(wú)損算法升級(jí),攻克以太網(wǎng)75公里0丟包難題。
規(guī)模不變,算力翻番,期間創(chuàng)造的效益可想而知。
如果說(shuō)解決丟包難題,是技術(shù)層面的提升,那么超融合數(shù)據(jù)中心網(wǎng)絡(luò)方案提供的全生命周期自動(dòng)管理、全場(chǎng)景服務(wù)化融合等,則實(shí)行了系統(tǒng)層面的躍遷,應(yīng)用后釋放出倍增的效能。
■一套系統(tǒng)實(shí)現(xiàn)全生命周期自動(dòng)管理
眾所周知,運(yùn)維效率決定了數(shù)據(jù)中心的運(yùn)行效率,因?yàn)閿?shù)據(jù)中心的生命周期中80%以上的時(shí)間在運(yùn)維。而在十余年發(fā)展史中,僅運(yùn)營(yíng)商層面使用過(guò)的網(wǎng)絡(luò)管理工具就有上千種。
網(wǎng)元管理、網(wǎng)絡(luò)配置、狀態(tài)監(jiān)控、數(shù)據(jù)分析,這四大類(lèi)工具往往獨(dú)立運(yùn)行,只覆蓋某個(gè)階段;同時(shí),運(yùn)維數(shù)據(jù)和分析結(jié)果無(wú)法跨工具共享,無(wú)法對(duì)端到端的故障根因及時(shí)分析。因此,盡管有大量的工具,運(yùn)維人員人工二次分析不能缺失,這時(shí)導(dǎo)致業(yè)務(wù)體驗(yàn)難以管理,進(jìn)而影響用戶(hù)體驗(yàn)很重要的原因。
那么,超融合數(shù)據(jù)中心網(wǎng)絡(luò)方案如何解決問(wèn)題?
超融合數(shù)據(jù)中心網(wǎng)絡(luò)方案在網(wǎng)絡(luò)管理層實(shí)現(xiàn)了管理、控制、分析能力融合后,基于統(tǒng)一的Telemetry大數(shù)據(jù)實(shí)現(xiàn)網(wǎng)絡(luò)的管理界面融合,一套智能運(yùn)維系統(tǒng)可以實(shí)現(xiàn)從規(guī)劃、建設(shè)、維護(hù)、優(yōu)化全生命周期管理,減少或者無(wú)需人工二次介入。
以業(yè)務(wù)發(fā)放為例,網(wǎng)絡(luò)部署耗時(shí)可從3~5天降低為數(shù)分鐘,顯著提升業(yè)務(wù)部署效率。
■實(shí)現(xiàn)全場(chǎng)景下的網(wǎng)絡(luò)服務(wù)化
在多云場(chǎng)景,多廠(chǎng)商設(shè)備配置存在差異,一次跨云業(yè)務(wù)變更需要分解到多個(gè)控制器??缭茦I(yè)務(wù)當(dāng)前嚴(yán)重依賴(lài)人工在多云間進(jìn)行網(wǎng)絡(luò)配置,單個(gè)應(yīng)用耗時(shí)需要2周。而在云管平臺(tái)側(cè)則需要同時(shí)對(duì)接多個(gè)接口各異的控制器,對(duì)接開(kāi)發(fā)工作量巨大。
超融合數(shù)據(jù)中心網(wǎng)絡(luò)方案如何解決問(wèn)題?
數(shù)據(jù)保存在私有云,Web、APP等應(yīng)用部署在公有云,將成為數(shù)據(jù)中心業(yè)務(wù)的新常態(tài)。如果采用多云業(yè)務(wù)服務(wù)化調(diào)度方案,可以替代人工,對(duì)多云間的網(wǎng)絡(luò)進(jìn)行自動(dòng)化編排、業(yè)務(wù)發(fā)放、配置仿真校驗(yàn),則單個(gè)應(yīng)用的開(kāi)通效率提升40%。
除了優(yōu)化成本提升效率外,多云算力調(diào)度可最大化實(shí)現(xiàn)數(shù)據(jù)要素跨區(qū)域流通,滿(mǎn)足節(jié)能減排、綠色轉(zhuǎn)型的政策要求。
下一代數(shù)據(jù)中心網(wǎng)絡(luò)的價(jià)值顯而易見(jiàn),打破協(xié)議、管理與場(chǎng)景限制,最大化實(shí)現(xiàn)數(shù)據(jù)的無(wú)障礙流動(dòng),有效提升算力能效比,顯著降低網(wǎng)絡(luò)建網(wǎng)與運(yùn)營(yíng)成本,帶來(lái)積極的商業(yè)價(jià)值與社會(huì)價(jià)值。
超融合數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)可顯著降低建網(wǎng)與運(yùn)維成本,對(duì)于數(shù)據(jù)中心綠色節(jié)能建設(shè)具有重要意義。在此過(guò)程中,以華為為代表的業(yè)界中堅(jiān)力量,正在努力打造引領(lǐng)級(jí)的超融合數(shù)據(jù)中心網(wǎng)絡(luò)方案,為提升數(shù)據(jù)中心算力、推動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展,持續(xù)提供價(jià)值。