再一次驗證!華為面向AI時代的智能無損數(shù)據(jù)中心網(wǎng)絡(luò)性能全面領(lǐng)先

智會社
業(yè)內(nèi)的所有網(wǎng)絡(luò)廠商都在不遺余力建好這條運送數(shù)據(jù)的“物流通道”。例如RDMA的出現(xiàn),就是新型網(wǎng)絡(luò)的成功探索,它可以實現(xiàn)業(yè)務(wù)應(yīng)用直接訪問網(wǎng)卡而不需經(jīng)過CPU內(nèi)核,從而減少時延又提升CPU利用率。

什么樣的快遞物流會被用戶認(rèn)可?毫無疑問,一個不丟包裹、沒有暴力分揀、送貨速度快的企業(yè)會成為用戶的首選。

如果我們把快遞物流所發(fā)揮的作用放到數(shù)據(jù)中心看,那么同樣,一個零丟包、低時延、高吞吐的網(wǎng)絡(luò)更顯得十分重要!

眾所周知,數(shù)據(jù)中心有“三大件”:計算、存儲和網(wǎng)絡(luò)。存儲主要用于存儲業(yè)務(wù)應(yīng)用的各類數(shù)據(jù),計算從存儲設(shè)備獲取數(shù)據(jù)并對數(shù)據(jù)進(jìn)行處理。網(wǎng)絡(luò)則建立了計算和存儲資源的通道,它是一條高速路、國道還是省道直接影響了數(shù)據(jù)中心的運行效率。

所以,業(yè)內(nèi)的所有網(wǎng)絡(luò)廠商都在不遺余力建好這條運送數(shù)據(jù)的“物流通道”。例如RDMA的出現(xiàn),就是新型網(wǎng)絡(luò)的成功探索,它可以實現(xiàn)業(yè)務(wù)應(yīng)用直接訪問網(wǎng)卡而不需經(jīng)過CPU內(nèi)核,從而減少時延又提升CPU利用率。

但是RDMA就是那條最佳的“物流”嗎?雖然它有相比TCP/IP的諸多優(yōu)點,但也存在一個很大的缺點:對網(wǎng)絡(luò)丟包異常敏感。傳統(tǒng)以太網(wǎng)0.1%的丟包,會導(dǎo)致RDMA協(xié)議處理能力下降50%,進(jìn)而使得如今越來越熱的AI訓(xùn)練的計算能力下降50%。

其實現(xiàn)行網(wǎng)絡(luò)存在網(wǎng)絡(luò)丟包和時延的矛盾點,單獨解決某一個問題并不難,難點在于同時解決這兩個問題,如何找到這個“蹺蹺板”的平衡點需要創(chuàng)新的技術(shù)。

這項創(chuàng)新技術(shù)被華為攻克,其提出的CloudFabric智簡數(shù)據(jù)中心網(wǎng)絡(luò)面向AI時代的子方案AI Fabric智能無損數(shù)據(jù)中心網(wǎng)絡(luò)解決方案,首次解決了網(wǎng)絡(luò)傳輸耗時和容易丟失數(shù)據(jù)這個兩難的問題。

近日,AI Fabric所體現(xiàn)的創(chuàng)新與價值得到國際權(quán)威測試機構(gòu)Tolly Group的認(rèn)可,在其進(jìn)行的對比測試驗證結(jié)果表明,華為AI Fabric由CloudEngine系列數(shù)據(jù)中心交換機組網(wǎng),相比業(yè)界其他主流廠商的組網(wǎng)方案,性能表現(xiàn)卓越,優(yōu)于Tolly進(jìn)行的對比測試驗證的思科同等款型交換機的相同組網(wǎng)。

具體從高性能計算、人工智能/機器學(xué)習(xí)和分布式存儲三大典型應(yīng)用場景來看,Tolly對華為AI Fabric解決?案進(jìn)?了性能評估,并與思科Nexus交換機組?性能進(jìn)?了對比。華為和思科的?案均基于RDMA over Converged Ethernet(RoCEv2)。在所有三大場景中,華為AI Fabric解決方案的性能均優(yōu)于思科。

AI訓(xùn)練效率對比高于27%

首先以大熱的人工智能來說,在深度學(xué)習(xí)的AI訓(xùn)練模型中,為了滿足處理海量非結(jié)構(gòu)化數(shù)據(jù)的要求,計算單元從CPU發(fā)展到了GPU,存儲介質(zhì)從HDD機械硬盤演進(jìn)到了SSD閃存盤,它們的性能均提升了100倍以上。然而,網(wǎng)絡(luò)通信時延卻成為整體性能提升的瓶頸。

即使逐漸興起的RDMA網(wǎng)絡(luò),如同前文所說,也沒有有效解決這個難題。

Tolly測試驗證華為AI Fabric智能無損數(shù)據(jù)中心網(wǎng)絡(luò)可以完美地解決此問題。經(jīng)過嚴(yán)苛測試,在服務(wù)器通過AI算法深度學(xué)習(xí)識別圖片的100Gbps時,AI Fabric可以完全做到0丟包,使得GPU每秒可以學(xué)習(xí)識別478個圖片,這個結(jié)果高出思科27%。測試結(jié)果如下圖所示:

通信時延對比縮短30%

其次以高性能計算來看,由于HPC系統(tǒng)的MPI AllReduce模型常常導(dǎo)致網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)量會瞬間撐爆網(wǎng)絡(luò)管道。也就是網(wǎng)絡(luò)會周期性爆發(fā)多打一的Incast流量,瞬間超過網(wǎng)絡(luò)設(shè)備的承受能力,造成擁塞和丟包。

傳統(tǒng)以太網(wǎng)為了防止數(shù)據(jù)丟失,會把這些數(shù)據(jù)放入緩存隊列排隊,并反復(fù)不斷地重新傳送,大大延長了網(wǎng)絡(luò)傳輸時間,進(jìn)而導(dǎo)致計算任務(wù)完成時間也被延長。如何平衡好網(wǎng)絡(luò)丟包和時延成為令人頭痛的難題。

Tolly測試驗證華為AI Fabric可以很好地解決這個問題。高性能計算一般會把任務(wù)分解成8字節(jié)或者16字節(jié)的子任務(wù)。此時,AI Fabric不僅沒有丟包,而且完成一次All Reduce計算任務(wù)的時間比思科縮短了30%。測試結(jié)果如下圖所示:

分布式存儲IOPS性能對比高于30%

最后再從分布式存儲來看,如同前文多次表述,存儲介質(zhì)從HDD到SSD,介質(zhì)訪問時延縮短了100多倍,然而傳統(tǒng)以太網(wǎng)的通信時延上升到存儲處理時間的50%以上。

通信時延大,存儲訪問I/O端口的時間就長,每秒可以訪問的I/O端口數(shù)就少,存儲訪問I/O端口的IOPS性能就會受到嚴(yán)重制約,數(shù)據(jù)的實時存儲也就無法實現(xiàn)。如何降低網(wǎng)絡(luò)時延進(jìn)而提升存儲IOPS性能成為極大挑戰(zhàn)。

Tolly測試再次驗證,AI Fabric可以很好地使存儲介質(zhì)的IOPS性能發(fā)揮到極致。測試結(jié)果表明,相同的存儲介質(zhì),部署AI Fabric后存儲的IOPS性能相比思科提高了30%以上。測試結(jié)果如下圖所示:

AI Fabric為何能做到“更快、更高、更強”?

其實此前,華為AI Fabric已經(jīng)通過國際權(quán)威第三方獨立測試機構(gòu)EANTC的數(shù)據(jù)中心高性能測試,此次Tolly測試再一次表明,AI Fabric使數(shù)據(jù)中心“大腦”處理速度(HPC高性能計算)更快了,比以思科為代表的業(yè)界頂級水平提高了30%;“記憶”能力(存儲IOPS)更高了,對比提高30%;“認(rèn)知”能力(分布式AI訓(xùn)練)更強了,對比提高27%。

如果要問,AI Fabric為何能做到“更快、更高、更強”?這就不得不說到其所具備的幾大關(guān)鍵技術(shù):華為首次給CloudEngine數(shù)據(jù)中心交換機裝上了智慧的“芯”,并獨創(chuàng)了iLossless智能無損算法,實現(xiàn)定時采集流量特征和動態(tài)基線智能調(diào)整,最終帶來0丟包、低時延、高吞吐的極致網(wǎng)絡(luò)性能。

無論是硬件上的“芯”升級,還是軟件算法上的突破,這些技術(shù)創(chuàng)新得以讓華為AI Fabric智能無損數(shù)據(jù)中心網(wǎng)絡(luò)解決方案性能表現(xiàn)卓越。

并且,華為AI Fabric在互聯(lián)網(wǎng)和金融領(lǐng)域已有了成功實踐。它讓某互聯(lián)網(wǎng)巨頭無人駕駛應(yīng)用的計算效率提升了40%,讓招行存儲的IOPS性能提高了20%。以數(shù)據(jù)說話,可以想見AI Fabric一定會吸引越來越多的企業(yè)選用。

新的機遇,AI Fabric正在引領(lǐng)數(shù)據(jù)中心邁向智能無損網(wǎng)絡(luò),推動企業(yè)加速邁向AI時代!

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論