3月13日,記者了解到,盡管大多數(shù)云計算廠商已經(jīng)在其數(shù)據(jù)中心內(nèi)部部署RDMA(Remote Direct Memory Access)網(wǎng)絡(luò),但阿里巴巴已經(jīng)搶先一步:其數(shù)據(jù)中心集群內(nèi)的RDMA網(wǎng)絡(luò)規(guī)模居于全球領(lǐng)先地位,目前已有數(shù)十個數(shù)據(jù)中心支持RDMA網(wǎng)絡(luò),延時可顯著降低90%,最大程度滿足人工智能、科學(xué)計算等場景需求。
阿里云北京冬奧云數(shù)據(jù)中心
當(dāng)用戶在阿里云選擇高性能云盤ESSD、云原生數(shù)據(jù)庫POLARDB、云超算SCC、機(jī)器學(xué)習(xí)PAI等產(chǎn)品時,均運行在RDMA網(wǎng)絡(luò)之上。也正因為如此,這些廣受歡迎的創(chuàng)新產(chǎn)品背后已經(jīng)共享了網(wǎng)絡(luò)的技術(shù)紅利。
RDMA是目前業(yè)內(nèi)最受歡迎的高性能網(wǎng)絡(luò)技術(shù),能大大節(jié)約數(shù)據(jù)傳輸時間,被認(rèn)為是提高人工智能、超算等效率的關(guān)鍵。數(shù)據(jù)顯示,在未使用RDMA網(wǎng)絡(luò)時,語音識別訓(xùn)練每次迭代任務(wù)時長為650ms至700ms,其中通信時延就占400ms。
為了提高數(shù)據(jù)傳輸速度、滿足用戶需求,亞馬遜、微軟等主要云廠商都在投入該技術(shù)的研發(fā)和部署,但鮮有企業(yè)實現(xiàn)RDMA在數(shù)據(jù)中心的大規(guī)模應(yīng)用。
在2016年,阿里巴巴開始投入專項研究,以改造RDMA、提高傳輸性能。從網(wǎng)卡底層開始設(shè)計滿足大規(guī)模應(yīng)用的網(wǎng)絡(luò),并結(jié)合阿里自研交換機(jī)實現(xiàn)性能最大化,最終建成全球最大規(guī)模數(shù)據(jù)中心內(nèi)的“高速網(wǎng)”,使得集群極大地突破了傳輸速度瓶頸,并將時延顯著降低90%。
以2018年天貓雙11為例,基于RDMA網(wǎng)絡(luò)技術(shù)的云存儲和電商數(shù)據(jù)庫服務(wù)器可以從容地應(yīng)對峰值流量考驗。
而上汽集團(tuán)乘用車也正采用加入高速RDMA互聯(lián)支持的云超算SCC集群進(jìn)行模擬仿真,整體提升效率25%。
“RDMA網(wǎng)絡(luò)已經(jīng)成為人工智能、科學(xué)計算等高性能計算、存儲業(yè)務(wù)的必備技術(shù),我們將繼續(xù)探索更高帶寬的網(wǎng)絡(luò)技術(shù),未來將部署 100G高速網(wǎng)絡(luò),為企業(yè)提供穩(wěn)定、低延時的網(wǎng)絡(luò)服務(wù)。” 阿里巴巴基礎(chǔ)設(shè)施首席網(wǎng)絡(luò)架構(gòu)師蔡德忠向記者表示。
作為全球前三、國內(nèi)第一的云服務(wù)商,阿里云在全球19個地域擁有56個可用區(qū),網(wǎng)絡(luò)總帶寬已達(dá)到 PB 級別超大規(guī)模,目前正在測試400G 網(wǎng)絡(luò)的研發(fā),推出的 400G QSFP-DD行業(yè)標(biāo)準(zhǔn)已受到全球企業(yè)廣泛支持。