本文來自全棧網(wǎng)絡(luò)空間安全。
以太網(wǎng)是當(dāng)前以及未來數(shù)據(jù)中心的主要技術(shù),據(jù)相關(guān)數(shù)據(jù)顯示,當(dāng)前數(shù)據(jù)中心以太網(wǎng)占比已經(jīng)接近95%。隨著RDMA等技術(shù)在以太網(wǎng)的應(yīng)用,預(yù)測未來數(shù)據(jù)中心以太網(wǎng)占比將持續(xù)擴大,以太網(wǎng)將向高性能計算網(wǎng)絡(luò)和存儲網(wǎng)絡(luò)擴展,形成統(tǒng)一的高性能算力承載網(wǎng)。
面對數(shù)據(jù)中心高性能算力需求,傳統(tǒng)的有損以太網(wǎng)已經(jīng)無法滿足要求。為了保障RDMA的性能和網(wǎng)絡(luò)層的通信,對算力承載網(wǎng)提出高吞吐、低時延、零丟包等高性能要求。面向更高算力訴求的應(yīng)用時,算力集群對高性能的數(shù)據(jù)承載網(wǎng)絡(luò)提出了全新的挑戰(zhàn):
挑戰(zhàn)一:AI算力訓(xùn)練流量密集,網(wǎng)絡(luò)吞吐低成為瓶頸
網(wǎng)絡(luò)負載分擔(dān)不均問題是當(dāng)前業(yè)界的一個重大的難題,Google就曾指出在其數(shù)據(jù)中心中存在多級HASH不均問題導(dǎo)致10K規(guī)模組網(wǎng)下整網(wǎng)吞吐低于25%的問題。
業(yè)界主流的負載分擔(dān)算法均存在性能問題,不適用于AI訓(xùn)練場景。例如,HASH適用于流數(shù)量較多的場景,不適用AI帶寬大流數(shù)少的場景,會造成嚴(yán)重的負載分擔(dān)不均;Flowlet Switching算法不適用于AI這種連續(xù)大帶寬的流量模型場景;Packet-based HASH需要接收端對流進行重組排序,否則亂序會導(dǎo)致性能急劇下降。
挑戰(zhàn)二:網(wǎng)絡(luò)擁塞導(dǎo)致動態(tài)轉(zhuǎn)發(fā)時延大,影響計算和存儲通信效率
與日俱增的高算力需求需要高效的大規(guī)模算力集群支撐,算力集群擴大一倍,任務(wù)拆分數(shù)量為原來的2倍,以Ring-Allreduce為例集合通信時通信次數(shù)為原來2倍。同時網(wǎng)絡(luò)規(guī)模擴大一倍,網(wǎng)絡(luò)擁塞概率增加,網(wǎng)絡(luò)擁塞導(dǎo)致的計算效率下降更加凸顯。在現(xiàn)有傳統(tǒng)的集群應(yīng)用中,服務(wù)器端和網(wǎng)絡(luò)互相隔離、能力互不感知,網(wǎng)絡(luò)只作為傳遞數(shù)據(jù)的管道使用,針對以太網(wǎng)盡力轉(zhuǎn)發(fā)機制,網(wǎng)絡(luò)容易成為擁塞瓶頸,導(dǎo)致計算效率下降,而傳統(tǒng)的網(wǎng)絡(luò)擁塞控制技術(shù)無法讓算力得到充分釋放。因此,如何有效利用網(wǎng)絡(luò)資源,借助網(wǎng)絡(luò)的全局視角,改進算力通信網(wǎng)絡(luò)的擁塞控制,提升算力通信效率,成為新的挑戰(zhàn)。
挑戰(zhàn)三:網(wǎng)絡(luò)故障收斂時間長,影響計算和存儲業(yè)務(wù)性能和穩(wěn)定性
數(shù)據(jù)中心物理鏈路數(shù)量隨網(wǎng)絡(luò)規(guī)模的擴大成倍增長,同等帶寬1:1收斂,3級Clos架構(gòu)物理鏈路數(shù)量為單歸接入端口數(shù)量的3倍,即要滿足16K接入,需要48K根線纜,96K個光模塊。由于光模塊器件或線纜損壞所導(dǎo)致的鏈路故障幾乎無法避免。當(dāng)鏈路故障發(fā)生時,傳統(tǒng)收斂技術(shù)依賴控制面的動態(tài)路由協(xié)議進行信息交互和重新選路,收斂時間長,實際部署的大規(guī)模DCN網(wǎng)絡(luò)的路由收斂時間甚至達到秒級乃至10s。因為鏈路導(dǎo)致的網(wǎng)絡(luò)故障對業(yè)務(wù)穩(wěn)定性產(chǎn)生負面影響,數(shù)據(jù)丟失導(dǎo)致IO歸零,計算任務(wù)重啟等,會造成在線實時敏感類業(yè)務(wù)性能的嚴(yán)重下降,影響業(yè)務(wù)體驗。
挑戰(zhàn)四:傳統(tǒng)網(wǎng)絡(luò)架構(gòu)無法支撐超大規(guī)模算力集群
算力需求倍增,需要更大規(guī)模網(wǎng)絡(luò)支撐。隨著網(wǎng)絡(luò)規(guī)模向10萬節(jié)點演進,傳統(tǒng)的3層Clos架構(gòu)已經(jīng)無法支撐如此規(guī)模的網(wǎng)絡(luò)擴展,想要擴大規(guī)模需要采用4層Clos架構(gòu)。但是,提升網(wǎng)絡(luò)架構(gòu)層級將導(dǎo)致網(wǎng)絡(luò)節(jié)點增加,并由此帶來網(wǎng)絡(luò)時延的增加,如在3級Clos架構(gòu)中,計算節(jié)點間交互需要經(jīng)過5個網(wǎng)絡(luò)節(jié)點,4級Clos網(wǎng)絡(luò)架構(gòu),則需要經(jīng)過7個網(wǎng)絡(luò)節(jié)點,相比原來2層Clos的3個網(wǎng)絡(luò)節(jié)點,網(wǎng)絡(luò)時延增加了2倍多,無法滿足并行計算效率要求。
挑戰(zhàn)五:存算網(wǎng)絡(luò)融合,計算和存儲相互影響SLA難保障
數(shù)據(jù)中心是數(shù)據(jù)存儲和計算的集散地,數(shù)據(jù)存儲和處理廣泛分布和共享于數(shù)據(jù)中心的各個角落,及時信息共享需要依賴連接存儲和計算單元的網(wǎng)絡(luò)。為了節(jié)省投入,計算和存儲網(wǎng)絡(luò)、以及管理網(wǎng)絡(luò)融合部署成為業(yè)界新的嘗試。存儲和計算、管理三個網(wǎng)絡(luò)平面融合,最高可以節(jié)省接近50%的網(wǎng)絡(luò)投資。
網(wǎng)絡(luò)融合帶來的是業(yè)務(wù)流量融合,不同業(yè)務(wù)流量之間,會出現(xiàn)互相干擾,導(dǎo)致計算性能得不到釋放。如何同時保障計算和存儲業(yè)務(wù)流量公平混合調(diào)度,使得算力能夠有效釋放,這將對網(wǎng)絡(luò)帶來新的挑戰(zhàn)。
數(shù)據(jù)中心網(wǎng)絡(luò)演進階段
標(biāo)準(zhǔn)以太網(wǎng)絡(luò)采用盡力而為的工作機制,天然有丟包的特性對存儲的性能穩(wěn)定性帶來了極大的影響。以太網(wǎng)為什么會丟包呢?當(dāng)多臺服務(wù)器向一臺服務(wù)器同時發(fā)送大量報文,報文數(shù)量超過交換機的承受能力時,丟包就產(chǎn)生了。此時數(shù)據(jù)需要重傳,這種返工帶來的結(jié)果就是傳輸效率的降低。盡力而為網(wǎng)絡(luò)已然成為了過去,高性能應(yīng)用正在數(shù)據(jù)中心融合。在這一背景下,數(shù)據(jù)中心網(wǎng)絡(luò)需要重構(gòu)以實現(xiàn)高吞吐、低時延、高可靠性、強可擴展性。
產(chǎn)業(yè)數(shù)字化推動數(shù)據(jù)中心發(fā)展,推動數(shù)據(jù)中心網(wǎng)絡(luò)不斷演進,根據(jù)不同發(fā)展時期數(shù)據(jù)中心可以總結(jié)為幾個階段:虛擬化階段、云化應(yīng)用階段、算力服務(wù)化階段。
虛擬化階段,數(shù)據(jù)中心為辦公、郵件、web門戶網(wǎng)站等提供虛擬化基礎(chǔ)設(shè)施,實現(xiàn)數(shù)據(jù)大集中,計算和存儲資源池化。此時數(shù)據(jù)中心傳統(tǒng)以太網(wǎng),在帶寬、時延、可靠性方面都無法滿足高性能計算和存儲的要求,數(shù)據(jù)中心高性能存儲需要承載在FC專網(wǎng),而超算中心高性能互聯(lián)則通過IB專網(wǎng)承載。通用計算以太網(wǎng),高性能存儲FC網(wǎng),高性能計算IB網(wǎng)絡(luò),分別通過三種不同網(wǎng)絡(luò)技術(shù)承載,需要各自獨立管理維護。
數(shù)據(jù)中心云計算技術(shù)的快速采用助長網(wǎng)絡(luò)中對以太網(wǎng)交換需求的增長,隨著以太網(wǎng)400GE以太技術(shù)的商用,及800GE標(biāo)準(zhǔn)的發(fā)布,使得以太在帶寬上已經(jīng)超越IB,無損以太技術(shù)逐漸成熟,高性能網(wǎng)絡(luò)開始往無損以太邁進。
數(shù)據(jù)中心云化應(yīng)用階段,數(shù)據(jù)中心為移動互聯(lián)網(wǎng)、網(wǎng)上銀行、政務(wù)云化等提供敏捷智能的服務(wù)應(yīng)用,推進數(shù)字化轉(zhuǎn)型。隨著存儲介質(zhì)從HDD到SSD的提升,存儲服務(wù)化以及RDMA技術(shù)在數(shù)據(jù)中心的廣泛應(yīng)用,對數(shù)據(jù)中心網(wǎng)絡(luò)在帶寬、吞吐、時延上提出新的要求。數(shù)據(jù)中心智能無損技術(shù),滿足全閃存以及RDMA的性能要求,并通過零丟包、高吞吐、低時延的無損網(wǎng)絡(luò)實現(xiàn)通用計算、存儲網(wǎng)絡(luò)技術(shù)融合,數(shù)據(jù)中心網(wǎng)絡(luò)開始邁入無損以太網(wǎng)時代。與傳統(tǒng)計算和存儲網(wǎng)絡(luò)兩種不同技術(shù)、兩套管理系統(tǒng)、分散管理的煙囪式架構(gòu)相比,無損以太網(wǎng)絡(luò)技術(shù)實現(xiàn)數(shù)據(jù)中心存儲網(wǎng)絡(luò)以太化,實現(xiàn)計算和存儲網(wǎng)絡(luò)技術(shù)統(tǒng)一,運維統(tǒng)一。
隨著機器視覺、語音識別、自然語言處理、自動駕駛等AI應(yīng)用需求爆發(fā),在數(shù)據(jù)中心算力服務(wù)化階段,GPU/NPU算力開始規(guī)?;渴?,數(shù)據(jù)中心朝E級/10E級更大規(guī)模算力互聯(lián)演進,算力網(wǎng)絡(luò)進入100G/200G接入400G高速互聯(lián)時代。在面向更高算力訴求的應(yīng)用時,新算力集群對網(wǎng)絡(luò)提出了諸多全新的挑戰(zhàn)。通過超融合以太技術(shù)的應(yīng)用可有效應(yīng)對未來算力應(yīng)用需求,具體來看,超融合以太技術(shù)具備四大優(yōu)勢,一是可通過網(wǎng)絡(luò)架構(gòu)創(chuàng)新滿足超大規(guī)模網(wǎng)絡(luò)擴展,二是可通過全網(wǎng)負載均衡技術(shù)實現(xiàn)AI算力100%釋放,三是可通過端網(wǎng)協(xié)同減少算力冗余通信,四是可通過全新的智能擁塞控制算法,實現(xiàn)計算網(wǎng)絡(luò)和存儲網(wǎng)絡(luò)融合混合調(diào)度。
超融合以太技術(shù)的提出為數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展指明了方向,也成為應(yīng)對未來超大規(guī)模算力集群高性能算力需求的重要解決方案。超融合以太技術(shù)以實現(xiàn)數(shù)據(jù)中心網(wǎng)絡(luò)融合充分釋放算力為目標(biāo),通用計算、存儲、高性能計算統(tǒng)一承載在0丟包以太網(wǎng)技術(shù)棧上,打破傳統(tǒng)分散架構(gòu)限制,實現(xiàn)從三張網(wǎng)到一張網(wǎng)的融合部署,統(tǒng)一網(wǎng)絡(luò)架構(gòu),推動無損網(wǎng)絡(luò)向超融合網(wǎng)絡(luò)架構(gòu)演進,實現(xiàn)算力網(wǎng)絡(luò)融合。