作為信息社會(huì)的數(shù)字底座,數(shù)據(jù)中心已經(jīng)成為推動(dòng)社會(huì)發(fā)展的戰(zhàn)略性基礎(chǔ)設(shè)施。如今,完全基于零信任的大環(huán)境下,數(shù)據(jù)中心既要有無限算力,又需要高安全性能。“要應(yīng)對這樣的環(huán)境,目前最好的技術(shù)就是云原生技術(shù)。”NVIDIA網(wǎng)絡(luò)事業(yè)部宋慶春表示。
會(huì)計(jì)算的Quantum-2平臺(tái)
上個(gè)月初,NVIDIA發(fā)布了新一代InfiniBand網(wǎng)絡(luò)平臺(tái)——NVIDIA Quantum-2平臺(tái)。據(jù)介紹,NVIDIA Quantum-2將為云計(jì)算提供商和超級計(jì)算中心提供極致的性能、廣泛的接入能力及強(qiáng)大的安全性。
“Quantum-2平臺(tái)的推出是基于現(xiàn)在的數(shù)據(jù)和計(jì)算量爆發(fā)性增長的現(xiàn)狀。”宋慶春表示,“傳統(tǒng)方式對于云服務(wù)的需求主要是靈活便捷,但是當(dāng)需要大的算力資源時(shí),往往需要利用超算中心的資源。如何把超算的性能和云的靈活性、安全性整合起來提供一種更新的架構(gòu)支持現(xiàn)有的不斷增長的算力業(yè)務(wù)需求?”宋慶春強(qiáng)調(diào):“需要通過云原生超算技術(shù)把超級計(jì)算技術(shù)帶入數(shù)據(jù)中心中,讓數(shù)據(jù)中心擁有了超算技術(shù)的同時(shí),也兼具靈活性和安全性。云原生將會(huì)是未來提供算力平臺(tái)的發(fā)展趨勢。”
據(jù)介紹,NVIDIA Quantum-2平臺(tái)即400Gbps的InfiniBand網(wǎng)絡(luò)平臺(tái),包括NVIDIA Quantum-2交換機(jī)、ConnectX-7網(wǎng)卡、BlueField-3 InfiniBand DPU(數(shù)據(jù)處理器)和所有支持這種新架構(gòu)的軟件。憑借其云原生技術(shù),NVIDIA Quantum-2提供每秒400Gb/s的高吞吐量和先進(jìn)的多租戶支持功能,能夠滿足眾多用戶的需求。
據(jù)悉,當(dāng)超級計(jì)算機(jī)和云原生超算系統(tǒng)要實(shí)現(xiàn)高性能時(shí),需要所有的資源都參與到計(jì)算里面來。Quantum-2的目標(biāo)是實(shí)現(xiàn)數(shù)據(jù)在哪里,計(jì)算就在那里?;谏鲜鰞?yōu)勢,Quantum-2可以幫助企業(yè)實(shí)現(xiàn)對AI業(yè)務(wù)一個(gè)至關(guān)重要的技術(shù)——網(wǎng)絡(luò)計(jì)算技術(shù)(In-Network Computing)。
NVIDIA網(wǎng)絡(luò)事業(yè)部高級副總裁Gilad Shainer曾表示:“如今,超級計(jì)算中心和公有云的訴求正在走向融合——它們必須為新一代高新能計(jì)算(HPC)、AI和數(shù)據(jù)分析的應(yīng)用提供盡可能高的性能,同時(shí)還應(yīng)安全隔離應(yīng)用,并響應(yīng)用戶對流量的不同需求。憑借NVIDIA Quantum-2 InfiniBand平臺(tái),現(xiàn)代數(shù)據(jù)中心已經(jīng)可以將這一遠(yuǎn)景變?yōu)楝F(xiàn)實(shí)。”
3U一體賦能無限算力
伴隨著計(jì)算力的提升,尤其是異構(gòu)計(jì)算的發(fā)展,近些年,GPU加速計(jì)算成為了人工智能、深度學(xué)習(xí)和大數(shù)據(jù)分析應(yīng)用的關(guān)鍵。大數(shù)據(jù)時(shí)代,信息和數(shù)據(jù)呈現(xiàn)爆發(fā)式增長的趨勢,DPU成為數(shù)據(jù)中心加速計(jì)算模型中繼CPU、GPU之外的的第三個(gè)計(jì)算單元。
在NVIDIA GTC 2021峰會(huì)上,NVIDIA正式發(fā)布了新一代數(shù)據(jù)處理器NVIDIA BlueField-3 DPU,為數(shù)據(jù)中心提供強(qiáng)大的軟件定義網(wǎng)絡(luò)、存儲(chǔ)和網(wǎng)絡(luò)安全加速功能。NVIDIA的BlueField DPU為3U一體架構(gòu)奠定了基礎(chǔ)。
據(jù)介紹,使用BlueField DPU后,可以將所有的CPU資源用于運(yùn)行業(yè)務(wù)應(yīng)用程序,不再需要部分CPU資源來支持SDN。除此之外,還能夠使擴(kuò)展能力提升,云原生應(yīng)用程序是高度分布式的應(yīng)用程序,帶來數(shù)據(jù)中心內(nèi)密集的“東西向”流量,BlueField DPU可為擴(kuò)展應(yīng)用程序提供高吞吐量、低延遲的網(wǎng)絡(luò)環(huán)境。
另外,云數(shù)據(jù)中心的多租戶和基礎(chǔ)設(shè)施彈性會(huì)帶來隱私和機(jī)密性風(fēng)險(xiǎn),而BlueField DPU可很好地應(yīng)對這些風(fēng)險(xiǎn)。BlueField DPU還可提供穩(wěn)健而強(qiáng)大的網(wǎng)絡(luò),用于應(yīng)對GPU加速計(jì)算在云、企業(yè)和邊緣領(lǐng)域中不斷增強(qiáng)的廣泛應(yīng)用的需求。
宋慶春表示:“DPU的出現(xiàn)彌補(bǔ)了數(shù)據(jù)中心中基礎(chǔ)設(shè)施加速能力不足的問題,實(shí)現(xiàn)了DPU、GPU、CPU 3U一體新型數(shù)據(jù)中心架構(gòu),讓數(shù)據(jù)中心成為新的計(jì)算單元。給了我們一個(gè)優(yōu)化算力資源時(shí),從數(shù)據(jù)中心這種更高層次、更高粒度、更大空間里來進(jìn)行優(yōu)化的一個(gè)思考空間,3U一體已經(jīng)成為數(shù)據(jù)中心的一個(gè)必然的架構(gòu)。”
零信任挑戰(zhàn)
目前,企業(yè)面臨著數(shù)據(jù)量越來越大,數(shù)據(jù)傳輸速度越來越快。各種異構(gòu)數(shù)據(jù)頻繁出現(xiàn),非結(jié)構(gòu)化數(shù)據(jù)的量遠(yuǎn)遠(yuǎn)大于結(jié)構(gòu)化數(shù)據(jù),在處理非結(jié)構(gòu)化數(shù)據(jù)時(shí),復(fù)雜程度會(huì)遠(yuǎn)遠(yuǎn)大于處理結(jié)構(gòu)化數(shù)據(jù)。再加上需要做跨平臺(tái)的整合,各種模型迭代、計(jì)算迭代、平臺(tái)迭代越來越快,網(wǎng)絡(luò)安全已經(jīng)成為數(shù)據(jù)安全的最大的威脅。
如何解決此問題呢?為助力企業(yè)應(yīng)對日漸復(fù)雜的威脅,NVIDIA發(fā)布了一款零信任網(wǎng)絡(luò)安全平臺(tái)。利用該平臺(tái)的一整套功能,網(wǎng)絡(luò)安全行業(yè)可構(gòu)建實(shí)時(shí)保護(hù)企業(yè)數(shù)據(jù)中心的解決方案。零信任安全平臺(tái)結(jié)合了三種技術(shù)——NVIDIA BlueField DPU、NVIDIA DOCA和NVIDIA Morpheus網(wǎng)絡(luò)安全人工智能框架。
據(jù)介紹,NVIDIA DOCA 1.2是專門面向零信任安全框架的SDK,在DOCA1.2中提供了面向Load Balancers、DPI、IPS、IDS、下一代防火墻等安全業(yè)務(wù)的API,設(shè)計(jì)安全軟件的用戶或者安全軟件的供應(yīng)商,可以直接通過DOCA API調(diào)用在DPU里的硬件加速引擎,讓數(shù)據(jù)中心更安全。
此外,NVIDIA Morpheus是NVIDIA在DPU+DOCA安全數(shù)據(jù)中心里的一個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)安全框架。最新版本包括一個(gè)新的工作流程,該工作流程使用無監(jiān)督學(xué)習(xí)來創(chuàng)建數(shù)字指紋,以檢測網(wǎng)絡(luò)入侵者何時(shí)接管用戶帳戶或機(jī)器。NVIDIA Morpheus可加速數(shù)據(jù)科學(xué)處理、通過NVIDIA AI訓(xùn)練生成預(yù)訓(xùn)練模型或推理模型,并將新的Policy下發(fā)給NVIDIA DPU,使企業(yè)能夠同時(shí)檢查其數(shù)據(jù)中心網(wǎng)絡(luò)中的所有遙測數(shù)據(jù)。
宋慶春指出:“數(shù)據(jù)中心對算力的需求變得越來越大,大規(guī)模的模型層出不窮,要運(yùn)行大的模型需要很多的GPU來并行處理,數(shù)據(jù)并行和模型并行在未來工作訓(xùn)練中同時(shí)使用將成為一個(gè)趨勢。在這種大規(guī)模使用場景下面,如何既保持很高的算力,又能夠在多租戶情況下保證訓(xùn)練性能,保證業(yè)務(wù)的安全性?云原生技術(shù)對這樣一個(gè)趨勢是必不可少的。”