2021是“十四五”的開局之年,在大基建的浪潮下,人工智能(AI)基礎(chǔ)設(shè)施也迎來了前所未有的發(fā)展和技術(shù)產(chǎn)品迭代。
隨著AI更廣泛地在千行百業(yè)中落地,區(qū)域和產(chǎn)業(yè)對(duì)于人工智能算力的需求也不斷增加,面向AI的算力基礎(chǔ)設(shè)施隨之成為新基建的重點(diǎn)。
以智能計(jì)算中心為代表的智算基礎(chǔ)設(shè)施(以下簡稱智算中心)是為AI應(yīng)用提供所需算力服務(wù)、數(shù)據(jù)服務(wù)和算法服務(wù)的公共算力新型基礎(chǔ)設(shè)施,由AI芯片和算力機(jī)組等設(shè)備組成,聚集海量數(shù)據(jù),企業(yè)和研究機(jī)構(gòu)可以依托智算中心提供的強(qiáng)大算力,驅(qū)動(dòng)AI模型進(jìn)行數(shù)據(jù)深度加工,實(shí)現(xiàn)AI應(yīng)用創(chuàng)新。
智算中心建設(shè)目的是促進(jìn)AI產(chǎn)業(yè)化和產(chǎn)業(yè)AI化。
智算中心和云數(shù)據(jù)中心不同,云數(shù)據(jù)中心是采用虛擬化等云計(jì)算技術(shù),提供的仍舊是傳統(tǒng)的數(shù)據(jù)中心業(yè)務(wù)和各種新型網(wǎng)絡(luò)應(yīng)用,而智算中心是對(duì)數(shù)據(jù)中心的虛擬化,可能是云數(shù)據(jù)中心中的部分機(jī)組組合提供算力,也可能是多個(gè)云數(shù)據(jù)中心協(xié)作提供算力。
但智算中心相比于傳統(tǒng)的數(shù)據(jù)中心,建設(shè)歷史較短,行業(yè)內(nèi)標(biāo)準(zhǔn)較少。作為新型基礎(chǔ)設(shè)施的智算中心需要向社會(huì)提供什么樣的算力?雙碳政策下,智算中心如何實(shí)現(xiàn)更綠色?面對(duì)龐大的AI智算產(chǎn)業(yè)鏈,如何協(xié)同上下游共同建設(shè)?花費(fèi)巨額資金建成的智算中心如何更好的支撐地方經(jīng)濟(jì)社會(huì)發(fā)展?
針對(duì)這些智算中心建設(shè)、運(yùn)營的關(guān)鍵、重要問題,中科曙光高級(jí)副總裁任京暘與智東西等媒體進(jìn)行了深入交流,分享曙光方案。
一、智算中心成新基建熱點(diǎn),四大難題需解決
想要建成并建好一個(gè)智算基礎(chǔ)設(shè)施并不容易,任京暘談道,像智算中心等智算基礎(chǔ)設(shè)施,其發(fā)展還處于初級(jí)階段,建設(shè)上,會(huì)面臨一些初期困難。
中科曙光高級(jí)副總裁任京暘
智算中心的建設(shè)目的是服務(wù)當(dāng)?shù)亟?jīng)濟(jì)發(fā)展,也就是說智算中心首先是一個(gè)公共算力平臺(tái),不止為一個(gè)企業(yè)或一個(gè)產(chǎn)業(yè)服務(wù),而是需要盡可能多的服務(wù)當(dāng)?shù)馗黝惼髽I(yè)或多類產(chǎn)業(yè)。
智算中心不能是一個(gè)“孤島”,其適用性不能是有限的,不能建成一個(gè)使用率不高或者只能支撐少量應(yīng)用的智算基礎(chǔ)設(shè)施。
這是智算基礎(chǔ)設(shè)施建設(shè)需要面臨的第一個(gè)問題,如何滿足地區(qū)和當(dāng)?shù)仄髽I(yè)需要,甚至服務(wù)更大范圍,讓智算中心的建設(shè)更有意義。
智算中心建設(shè)的第二個(gè)問題是,隨著“雙碳(碳達(dá)峰和碳中和)”目標(biāo)的提出,各地的雙碳規(guī)劃相繼出爐,怎樣減少碳排放成為熱點(diǎn)話題,而智算中心這類耗能大戶,如何降低其能耗、減少碳排放,是建設(shè)者必須考慮的一個(gè)問題。
第三個(gè)智算中心建設(shè)時(shí)需要解決的問題是如何協(xié)同AI產(chǎn)業(yè)鏈上下游的力量,共同建設(shè)好智算中心。
從最底層的芯片,到中層的框架、模型、算法,再到最頂層的應(yīng)用,AI產(chǎn)業(yè)鏈相當(dāng)長,每一層都有多個(gè)細(xì)分賽道和大量的玩家,如何在現(xiàn)階段整合好各層力量,把智算中心建設(shè)好,是一個(gè)很現(xiàn)實(shí)有意義的課題。
智算中心建設(shè)需要面對(duì)的第四個(gè)問題是怎樣做好產(chǎn)業(yè)賦能。
智算中心建設(shè)目的是推動(dòng)當(dāng)?shù)禺a(chǎn)業(yè)經(jīng)濟(jì)發(fā)展,在AI賦能千行百業(yè)的現(xiàn)在,投資方在利用智算中心,實(shí)現(xiàn)加速AI的產(chǎn)業(yè)化和產(chǎn)業(yè)的AI化過程中,會(huì)面臨各種挑戰(zhàn)。
二、AI落地進(jìn)行時(shí),如何建好、管好、用好智算中心?
面對(duì)上述智算基礎(chǔ)設(shè)施或者說智算中心建設(shè)運(yùn)營中存在的各種難點(diǎn),曙光通過自身的實(shí)踐和總結(jié),提出了建設(shè)“5A級(jí)”智算基礎(chǔ)設(shè)施,希望借此推動(dòng)產(chǎn)業(yè)生態(tài)開發(fā)和協(xié)同發(fā)展,激發(fā)產(chǎn)業(yè)活力和整體繁榮,為綠色經(jīng)濟(jì)和數(shù)字經(jīng)濟(jì)融合發(fā)展提供重要支撐載體和推動(dòng)力。
曙光“5A級(jí)”智算基礎(chǔ)設(shè)施
曙光不斷強(qiáng)調(diào)的“5A級(jí)”智算基礎(chǔ)設(shè)施,具體包括開放、融合、綠色、普惠、服務(wù)五個(gè)方面的能力。
開放是以生態(tài)包容的模式,構(gòu)建智算中心多元集成的基礎(chǔ)架構(gòu);融合是以搭載多種類型的芯片,提供多元的算力;綠色是運(yùn)用先進(jìn)的相變式全浸沒液冷技術(shù),將能耗降低達(dá)30%;普惠是通過多種策略,將綜合建設(shè)成本降到低于市場(chǎng)既有價(jià)格30%;服務(wù)是提供全生命周期的智算基礎(chǔ)設(shè)施服務(wù),從建到運(yùn)營,持續(xù)服務(wù)。
1、開放:以多元協(xié)作為宗旨,追求產(chǎn)業(yè)鏈共建
目前,智算中心面臨的首要問題就是開放性問題,AI應(yīng)用的數(shù)量增加和迭代速度對(duì)智算中心的生命力提出挑戰(zhàn)。
作為新型基礎(chǔ)設(shè)施,智算中心不能只解決像材料或者基因等某一領(lǐng)域的問題。
同時(shí),智算中心建設(shè)還要避免這種情況:花巨資建好智算中心后,比如說一兩年之后,隨著迭代,智算中心的功能就大幅衰減。
業(yè)界關(guān)于智算中心建設(shè)的思路有兩種,一種是垂直一體化整合模式,每一層都是建設(shè)者獨(dú)立實(shí)現(xiàn)的,這樣的優(yōu)點(diǎn)是避免了不同技術(shù)路線之間的適配過程。
第二種做法是多元協(xié)作模式,這種做法適配上就可能稍微難一點(diǎn),但是對(duì)開發(fā)者來說會(huì)更加友好,對(duì)產(chǎn)業(yè)發(fā)展來講更加有利。
曙光堅(jiān)持的就是多元協(xié)作模式,任京暘談道,曙光建設(shè)“5A級(jí)”智算基礎(chǔ)設(shè)施,就是通過芯片、算法、框架、模型的全面開放、兼容,構(gòu)建多元集成的基礎(chǔ)架構(gòu),實(shí)現(xiàn)算力底座最大程度的易用性,降低遷移成本,給未來的開發(fā)者帶來一個(gè)比較好的環(huán)境,進(jìn)而通過建設(shè)智算中心帶動(dòng)整個(gè)產(chǎn)業(yè)鏈的健康發(fā)展。
2、融合:通過分布式異構(gòu)并行體系結(jié)構(gòu),實(shí)現(xiàn)多樣性算力供應(yīng)
隨著AI技術(shù)的不斷發(fā)展和各行業(yè)對(duì)于智能化、數(shù)字化轉(zhuǎn)型的認(rèn)識(shí)和需要的提升,從產(chǎn)業(yè)橫向角度上看,AI賦能的領(lǐng)域越來越多,從智慧城市,到工業(yè)制造,再到農(nóng)業(yè)生產(chǎn)、科學(xué)計(jì)算等等;從產(chǎn)業(yè)縱向角度來看,AI應(yīng)用正逐步在垂直領(lǐng)域進(jìn)行縱深發(fā)展,解決行業(yè)內(nèi)部的關(guān)鍵問題。
AI應(yīng)用多樣,對(duì)算力的需求同樣多樣,既有應(yīng)用需要高精度的算力,也有應(yīng)用需要低精度的算力,混合精度、多元算力成為智算基礎(chǔ)設(shè)施發(fā)展的必然趨勢(shì)。
曙光“5A級(jí)”智算基礎(chǔ)設(shè)施通過分布式異構(gòu)并行體系結(jié)構(gòu),搭載多種類型的芯片,可以覆蓋全算力精度,進(jìn)而實(shí)現(xiàn)多樣化算力供應(yīng),滿足不同AI應(yīng)用場(chǎng)景和多種用戶的需求。
3、綠色:采用相變式全浸沒液冷技術(shù),實(shí)測(cè)PUE值可達(dá)1.04
除了AI應(yīng)用在增加,AI模型參數(shù)、智算中心的算力體量也都在逐年上升。
尤其是大模型越來越多的現(xiàn)在,以GTP-3為例,相關(guān)數(shù)據(jù)顯示,如果將GPT-3的全部程序運(yùn)行一遍,該模型產(chǎn)生的碳排放量相當(dāng)于一輛汽車行駛70萬公里,大概是從地球到月球的2倍距離。
在雙碳目標(biāo)下,智算中心的節(jié)能減排形式相當(dāng)嚴(yán)峻。
曙光“5A級(jí)”智算基礎(chǔ)設(shè)施采取多種方式降低智算中心的能耗,其中液冷技術(shù)是殺手锏。
PUE(電能使用效率值)值是評(píng)價(jià)智算中心、數(shù)據(jù)中心碳排放的重要指標(biāo)。未來,1.5數(shù)值以上的數(shù)據(jù)中心或智算中心要被逐步淘汰。
曙光通過清潔能源以及芯片、設(shè)備、平臺(tái)節(jié)能等多層次技術(shù)創(chuàng)新,構(gòu)建綠色低碳的“5A級(jí)”智算基礎(chǔ)設(shè)施。
并且,基于曙光創(chuàng)新的浸沒式相變液冷技術(shù),智算中心的PUE值實(shí)測(cè)可達(dá)1.04到1.05。
曙光還在研究余熱再利用等技術(shù),希望將數(shù)據(jù)中心的PUE值降到更低。
4、普惠:優(yōu)化算力成本,使綜合建設(shè)成本低于市場(chǎng)既有價(jià)格30%
目前智算中心的價(jià)格存在兩個(gè)特點(diǎn),一個(gè)是貴,另一個(gè)是亂。
貴是因?yàn)橹撬阒行淖鳛樾滦偷乃懔A(chǔ)設(shè)施,如果按建設(shè)成本折合成算力單價(jià)來算,算力成本是很高的。亂是因?yàn)檫@是一個(gè)新興市場(chǎng),算力價(jià)格與智算中心所在地區(qū)等多方面因素有關(guān)。
從長遠(yuǎn)上看,一定要有非常普惠的算力提供給AI用戶和開發(fā)者,這樣AI產(chǎn)業(yè)才能持續(xù)發(fā)展,也能降低各地政府的投資建設(shè)壓力。
曙光“5A級(jí)”智算基礎(chǔ)設(shè)施通過多種策略,持續(xù)優(yōu)化算力成本,實(shí)現(xiàn)綜合建設(shè)成本低于市場(chǎng)既有價(jià)格30%。
5、服務(wù):采取一體化服務(wù)模式,提供建成后運(yùn)營服務(wù)
目前,智算中心多數(shù)采取建、運(yùn)分離的模式,運(yùn)營方面還沒有較成熟的商業(yè)模式,運(yùn)營主體普遍處于模糊地帶,有可能出現(xiàn)運(yùn)營缺乏的情況。
但是,對(duì)于要建設(shè)智算中心服務(wù)地區(qū)經(jīng)濟(jì)的各地政府而言,智算中心的運(yùn)營是剛需,是必須要解決的問題。
曙光“5A級(jí)”智算基礎(chǔ)設(shè)施采取了一體化的服務(wù)模式,實(shí)現(xiàn)從規(guī)劃設(shè)計(jì)、中心建設(shè)、到平臺(tái)運(yùn)營的完整配套服務(wù),貫穿智算基礎(chǔ)設(shè)施的全生命周期。
三、可景觀級(jí)交付,曙光的智算產(chǎn)品化落地之路
據(jù)我們了解,曙光“5A級(jí)”智算基礎(chǔ)設(shè)施可以實(shí)現(xiàn)超高密度的快速交付和景觀級(jí)交付,景觀級(jí)交付是指與園區(qū)建設(shè)融為一體,成為城市的地標(biāo)。
具體來看,超高密度方面,曙光“5A級(jí)”智算基礎(chǔ)設(shè)施可以實(shí)現(xiàn)立體擴(kuò)展,節(jié)省機(jī)房面積達(dá)90%,降低機(jī)房環(huán)境要求和造價(jià);快速交付方面,曙光“5A級(jí)”智算基礎(chǔ)設(shè)施可以在3-6個(gè)月實(shí)現(xiàn)基建、機(jī)房、設(shè)備一體化快速部署。
曙光“5A級(jí)”智算基礎(chǔ)設(shè)施能力的構(gòu)建離不開曙光在計(jì)算領(lǐng)域的技術(shù)沉淀、優(yōu)勢(shì)積累及經(jīng)驗(yàn)預(yù)判。
今年7月,由曙光等中科院相關(guān)企業(yè)整合組成的中國科學(xué)院人工智能產(chǎn)學(xué)研創(chuàng)新聯(lián)盟發(fā)布了新一代人工智能計(jì)算平臺(tái),從基礎(chǔ)架構(gòu)、建設(shè)路徑、價(jià)格模型等維度,為智能計(jì)算中心建設(shè)提供了參考依據(jù)和建設(shè)標(biāo)準(zhǔn)。
為了更好的將智算平臺(tái)框架落地、產(chǎn)品化,曙光進(jìn)行了一些嘗試。
曙光在今年9月宣布踐行“與前進(jìn)者同行”理念,構(gòu)建了“5A級(jí)”智算能力。
近期,曙光將智算基礎(chǔ)設(shè)施的“5A級(jí)”進(jìn)行了再次凝練,用開放、融合、綠色、普惠、服務(wù)五項(xiàng)能力加速智算基礎(chǔ)設(shè)施建設(shè)。
結(jié)語:智算中心建設(shè)還在初期階段
曙光是國內(nèi)核心基礎(chǔ)設(shè)施領(lǐng)域的頭部玩家,在計(jì)算、智算領(lǐng)域進(jìn)行了諸多實(shí)踐,提出更高層次的智算中心建設(shè)理念。
曙光認(rèn)為智算中心的建設(shè)還處于比較初期的階段,要從開放、融合、綠色、普惠、服務(wù)五個(gè)方面進(jìn)行智算基礎(chǔ)設(shè)施的建設(shè),提高智算中心的運(yùn)營效益。
隨著AI產(chǎn)業(yè)和產(chǎn)業(yè)AI的不斷發(fā)展,智算基礎(chǔ)設(shè)施的建設(shè)熱度持續(xù)升高。
相比于傳統(tǒng)數(shù)據(jù)中心,智算中心對(duì)于當(dāng)?shù)禺a(chǎn)業(yè)經(jīng)濟(jì)的發(fā)展可能會(huì)帶來更明顯的作用,如何建好、管好、用好智算中心是一個(gè)持續(xù)迭代更新的命題。