人工智能(AI)和深度學習正成為越來越多企業(yè)的核心競爭力。隨著智能化應(yīng)用的高速普及,很多傳統(tǒng)數(shù)據(jù)中心都面臨著眾多難題。單個 GPU 或服務(wù)器難以做到快速訪問大量計算資源,但要跨多個節(jié)點擴展應(yīng)用程序,又面臨存儲、網(wǎng)絡(luò)等不同系統(tǒng)組件帶來的挑戰(zhàn)。
對此,NVIDIA 打造了超強深度學習訓練性能的 DGX-1 AI 超級計算機,融合多種有助于多節(jié)點擴展的系統(tǒng)技術(shù),并基于實踐經(jīng)驗,總結(jié)出構(gòu)建多節(jié)點系統(tǒng)的建議和多種參考架構(gòu)設(shè)計方案,可協(xié)助 IT 管理員以更高的成本效益構(gòu)建高性能多節(jié)點系統(tǒng)。
本期的智能內(nèi)參,我們推薦《基于 NVIDIA DGX-1 構(gòu)建多節(jié)點環(huán)境的注意事項》白皮書,不僅解析提高多節(jié)點可擴展性面臨的瓶頸,還針對不同的節(jié)點數(shù)量需求,提出三種在多節(jié)點環(huán)境中高效配置 DGX-1 架構(gòu)的解決方案。如需查閱此白皮書,可直接點擊左下方的“閱讀原文”下載,還可掃描文末二維碼申請測試 NVIDIA DGX-1 AI 超級計算機。
以下為智能內(nèi)參整理呈現(xiàn)的干貨:
影響多節(jié)點可擴展性的關(guān)鍵瓶頸
要實現(xiàn)良好可擴展性,需確保應(yīng)用程序在多節(jié)點上協(xié)調(diào)運行多個進程,而任何系統(tǒng)組件存在的瓶頸問題都會影響其有效擴展的能力,這給傳統(tǒng)數(shù)據(jù)中心帶來重重困難。
比如在通信方面,如果向節(jié)點添加更多 GPU,應(yīng)用程序線程間的通信成本會導(dǎo)致訓練性能明顯下降。在標準服務(wù)器中,GPU 間的通信受 PCIe 總線限制,不同服務(wù)器上的 GPU 通信又受典型數(shù)據(jù)中心網(wǎng)絡(luò)以太網(wǎng)的影響。對通信模式作出不明確假定也會導(dǎo)致相同和不同系統(tǒng)上的 GPU 間出現(xiàn)不必要的流量。
海量數(shù)據(jù)處理和管理對讀取緩存也提出了新的需求,要求有巨大讀取帶寬通路,同時能在訓練期間多次重復(fù)訪問相同數(shù)據(jù)。
軟件也是制約系統(tǒng)可擴展性的一個關(guān)鍵要素。并非所有深度學習框架都能保持一致的高效擴展,因此必須選擇適當?shù)目蚣芎桶姹?,以及合適的作業(yè)調(diào)度軟件,以確保其可擴展性遠高于支持硬件。
除了上述因素外,本白皮書也分析了關(guān)于整體集群、機架設(shè)計空間、數(shù)據(jù)中心功率密度等其他方面的考量?;?NVIDIA 與客戶長期的交流,NVIDIA 也探討了一些應(yīng)對這些挑戰(zhàn)的成熟解決方案。
融合大量多節(jié)點擴展系統(tǒng)技術(shù)的DGX-1
NVIDIA 提供的參考方案基于 NVIDIA DGX-1 超級計算機,這是專為深度學習打造的集成系統(tǒng),旨在最大限度提升深度神經(jīng)網(wǎng)絡(luò)的訓練速度。有關(guān) NVIDIA DGX-1 的核心技術(shù)和性能介紹,可參閱《性能媲美250臺CPU服務(wù)器,英偉達DGX-1的實力有多彪悍?》
DGX-1 為何能最大限度提高多 GPU 和多節(jié)點性能?這源自 DGX-1 采用的多種新技術(shù)。
NVIDIA 在 DGX-1 的節(jié)點內(nèi) GPU 之間,采用超高帶寬通路 NVLink,相比基于 PCIe Gen3 的傳統(tǒng)互連,速度可提升 10 倍。此外,NVIDIA還為每個系統(tǒng)配備 4 個 InfinBand 100 Gb/秒擴展數(shù)據(jù)速率(EDR)端口,并搭配軟件技術(shù)提供 GPU 間的優(yōu)化通信方法。
▲DGX-1 采用 8-GPU 的混合立體互聯(lián)網(wǎng)絡(luò)拓撲
為了幫助數(shù)據(jù)中心工作人員進一步節(jié)省構(gòu)建 AI 基礎(chǔ)設(shè)施所需的時間和試錯成本,NVIDIA 通過與領(lǐng)先的存儲、網(wǎng)絡(luò)交換技術(shù)提供商合作,提出一種經(jīng)優(yōu)化的數(shù)據(jù)中心機架—— DGX POD 交付節(jié)點(Point of Delivery)。
基于此,NVIDIA 將其超大規(guī)模數(shù)據(jù)中心 AI 部署經(jīng)驗轉(zhuǎn)化為可復(fù)制方案,將包含多臺 DGX-1、存儲服務(wù)器、網(wǎng)絡(luò)交換機等設(shè)備的最佳實踐方案,融入一系列 DGX POD 數(shù)據(jù)中心交付節(jié)點設(shè)計參考架構(gòu)中。
智東西曾在《NVIDIA集成AI超算中心經(jīng)驗,打造AI就緒型數(shù)據(jù)中心》一文中對《NVIDIA DGX POD 數(shù)據(jù)中心參考設(shè)計》白皮書進行亮點解讀,并附以白皮書下載鏈接。
▲ DGX POD 參考架構(gòu)正面圖
陸續(xù)有 NVIDIA 的合作伙伴已經(jīng)開始基于 DGX POD 推出具體的配置方案。例如, NetApp 推出的 NetApp ONTAP AI 解決方案。
NVIDIA建議的DGX-1多節(jié)點參考架構(gòu)
在提供 DGX POD 一站式交付節(jié)點解決方案前,NVIDIA 曾打造了由 125 個 DGX-1 節(jié)點組成的 AI 超級計算機 SATURNV。
SATURNV 托管了 1000 個 NVIDIA Tesla GPU,計算能力媲美 3 萬多臺 x86 服務(wù)器,一經(jīng)推出就登上了 Green 500 超算榜第一名,被稱為全球最經(jīng)濟高效的超算,同時它也是最快的 AI 超算。
在構(gòu)建 SATURNV 的過程中,NVIDIA 積累了橫向擴展 DGX-1 架構(gòu)的指導(dǎo)基礎(chǔ),其中采用的一些技術(shù)及方案均可供 IT 架構(gòu)師參考。
比如,為了能更快在跨集群延伸的節(jié)點間傳遞數(shù)據(jù),NVIDIA 開發(fā)了一種高性能雙層 InfiniBand 交換架構(gòu),并使用 GPUDirect RDMA 技術(shù),最大限度降低延遲并提高集群節(jié)點間的帶寬。NVIDIA 也在存儲等方面提供了一些兼顧性能和成本效益、且簡單可執(zhí)行的建議。
針對不同環(huán)境的性能和算能需求,NVIDIA 提供了三種可能的配置方法,上限服務(wù)器節(jié)點數(shù)量分別為 12、 36、144,以確保在相應(yīng)節(jié)點數(shù)量的環(huán)境可實現(xiàn)無限制的深度神經(jīng)網(wǎng)絡(luò)訓練性能。
▲NVIDIA DGX-1 深度學習數(shù)據(jù)中心參考架構(gòu)(144個服務(wù)器)
NVIDIA 充分考慮到每臺機架的計算、功率、散熱密度等因素,給予的具體建議包括機架、網(wǎng)絡(luò)、計算、存儲、管理等材料的數(shù)量和選型。
IT 團隊可根據(jù)必須考慮的具體目標和成本目標,參考這些配置,然后定制出最符合自身需求的多節(jié)點擴展系統(tǒng)。
與此同時,NVIDIA 也與 ISV 合作伙伴緊密協(xié)作,提供協(xié)助管理 DGX-1 多節(jié)點集群的解決方案。這些方案在管理調(diào)度 GPU 資源、優(yōu)化提高吞吐量以及恢復(fù)能力方面,可提供非常有效的幫助。
智東西認為,如果能借鑒經(jīng)過檢驗的成熟參考架構(gòu),IT 架構(gòu)師、管理員及管理者在面對數(shù)據(jù)中心的 AI 轉(zhuǎn)型需求時更加游刃有余,幫助團隊及組織更快地實現(xiàn)深度學習工作負載的多節(jié)點擴展,在大幅提升訓練性能的同時,節(jié)省部署時間、資本支出及IT管理運營支出等成本。