據(jù)統(tǒng)計(jì),2020年國(guó)內(nèi)數(shù)據(jù)中心的總能耗突破了2千億千瓦時(shí),大概相當(dāng)于三峽水電站的年發(fā)電量的兩倍。如果折算成標(biāo)準(zhǔn)煤的燃燒發(fā)電,則意味著我們消耗了6千萬噸煤,排放了1.6億噸的二氧化碳。預(yù)計(jì)到2025年,中國(guó)數(shù)據(jù)中心的用電量會(huì)占整個(gè)社會(huì)用電量的4.05%。
要知道,數(shù)據(jù)中心早已成為能耗大戶,要實(shí)現(xiàn)最終的“雙碳”目標(biāo),開放、標(biāo)準(zhǔn)化依然是整個(gè)產(chǎn)業(yè)界需要秉承的宗旨,這也是開放計(jì)算自創(chuàng)立之初就立下的“初心”。今天,我們就跟大家分享一下開放計(jì)算為降低能耗都做了哪些創(chuàng)新。
整機(jī)柜是未來數(shù)據(jù)中心算力基礎(chǔ)設(shè)施的主流形態(tài)
開放計(jì)算的主要目標(biāo)之一是優(yōu)化機(jī)架中服務(wù)器的安裝和運(yùn)維。此外如何大規(guī)模的配置計(jì)算、存儲(chǔ)、異構(gòu)加速和網(wǎng)絡(luò)資源以滿足工作負(fù)載的需求,也是重要考量。
整機(jī)柜的設(shè)計(jì)理念是將各功能區(qū)的供電、敗熱、管理集中化和模塊化,便于快速交付、降低成本,正在替代傳統(tǒng)的機(jī)架服務(wù)器成為大規(guī)模數(shù)據(jù)中心的主要選擇。
開放計(jì)算中最重要的貢獻(xiàn)之一是OCP Open Rack技術(shù)規(guī)范的制定。Open Rack2.0可提高計(jì)算密度并提升能源效率,該設(shè)計(jì)已被互聯(lián)網(wǎng)公司和電信運(yùn)營(yíng)商廣泛使用,并為他們帶來了實(shí)質(zhì)性的投資回報(bào)。
最新的OpenRack3.0將采用48V直流電源和液冷技術(shù),機(jī)架高度從410U增加到440U,進(jìn)一步提高數(shù)據(jù)中心的空間利用率,添加GPU等異構(gòu)加速單元,以滿足產(chǎn)業(yè)界對(duì)加速計(jì)算的需求。
此外,ODCC社區(qū)開發(fā)的天蝎整機(jī)柜規(guī)范一直在推進(jìn)數(shù)據(jù)中心服務(wù)器的模塊化設(shè)計(jì)和大規(guī)模部署。
天蝎1.0技術(shù)規(guī)范確立了集中供電、散熱、管理的整機(jī)柜服務(wù)器形態(tài)。
天蝎2.0進(jìn)一步細(xì)化和改善,比如,將機(jī)柜內(nèi)框拓展至21英寸,以增大可用空間;增強(qiáng)機(jī)柜背板功能,并可實(shí)現(xiàn)熱插拔維護(hù);服務(wù)器節(jié)點(diǎn)與機(jī)柜系統(tǒng)解耦,可實(shí)現(xiàn)服務(wù)器節(jié)點(diǎn)混插互換。
天蝎3.0繼續(xù)在高密、彈性計(jì)算需求上探索,在架構(gòu)、供電、散熱技術(shù)等方面持續(xù)優(yōu)化;架構(gòu)上充分考慮CPU/GPU/XPU/FPGA等處理器核心部件的適配,預(yù)留新部件的彈性擴(kuò)展能力;供電上將機(jī)柜供電能力提升至33KW,散熱上引入虹吸散熱技術(shù),實(shí)現(xiàn)高功率CPU的高效能風(fēng)冷散熱;同時(shí)機(jī)柜的設(shè)計(jì)充分考慮液冷模組的預(yù)留支持等。
OpenRMC是開放計(jì)算規(guī)?;渴鸬闹匾苿?dòng)力
當(dāng)數(shù)據(jù)中心的規(guī)模越來越大,基礎(chǔ)設(shè)施的管理,算力的聚合、調(diào)度將扮演愈加重要的角色。機(jī)架管理控制(RMC)將管理從服務(wù)器、GPU服務(wù)器延伸到機(jī)柜中的部件,例如交換機(jī)、PDU和風(fēng)扇等,且可進(jìn)一步配合數(shù)據(jù)中心的資源管理計(jì)劃。RMC將是實(shí)現(xiàn)開放計(jì)算設(shè)備規(guī)模化部署的重要推動(dòng)力。
OpenRMC工作組的核心理念是:明確、統(tǒng)一的管理將使最終客戶更輕松地管理和維護(hù)各類廠商的設(shè)備并極大地降低系統(tǒng)管理成本。OpenRMC是協(xié)同合作如何發(fā)揮作用的典型實(shí)踐。OpenRMC項(xiàng)目由浪潮牽頭,其他貢獻(xiàn)者包括Facebook、Microsoft、Google、HPE、Dell、Intel等。
開放計(jì)算加速AI創(chuàng)新落地
AI的飛速發(fā)展推動(dòng)了一系列面向深度學(xué)習(xí)、機(jī)器學(xué)習(xí)等應(yīng)用的異構(gòu)加速方案的發(fā)展。異構(gòu)加速系統(tǒng)的技術(shù)挑戰(zhàn)和設(shè)計(jì)復(fù)雜性大,加速計(jì)算芯片多元化趨勢(shì)明顯,各廠商在開發(fā)中采用了不同的技術(shù)路線。
芯片的接口、互聯(lián)、協(xié)議上互不兼容,用戶通常需要數(shù)月時(shí)間對(duì)不同平臺(tái)進(jìn)行測(cè)試,才能找到合適的方案,最終導(dǎo)致將加速芯片集成到計(jì)算系統(tǒng)中需要大約6~12個(gè)月,較長(zhǎng)的開發(fā)周期阻礙了新技術(shù)的快速發(fā)展。
OCP社區(qū)在服務(wù)器項(xiàng)目組下設(shè)立了OAI(Open AcceIeratorInfrastructure)項(xiàng)目組。該工作組旨在建立一整套可兼容各類Al加速器的技術(shù)標(biāo)準(zhǔn),解決Al計(jì)算基礎(chǔ)設(shè)施建設(shè)中硬件和生態(tài)分裂化的重大挑戰(zhàn)。
OAI工作組推進(jìn)的開放技術(shù)規(guī)范涉及OAI、OAM、UBB、HIB等9大領(lǐng)域,涵蓋結(jié)構(gòu)設(shè)計(jì)、溫度、管理、供電、硬件安全性、可用性等諸多方面,以促進(jìn)不同Al加速器技術(shù)的開放融合及標(biāo)準(zhǔn)化,讓Al計(jì)算硬件系統(tǒng)設(shè)計(jì)更加敏捷,產(chǎn)業(yè)配套更為簡(jiǎn)化。
OAM是OAI項(xiàng)目組中進(jìn)展最為迅速的領(lǐng)域。OAM設(shè)計(jì)規(guī)范定義了加速器模塊互聯(lián)形式和通用規(guī)范。與PCIe相比,OAM的互聯(lián)通信通過簡(jiǎn)化模塊間高速通信鏈路互連的系統(tǒng)解決方案,促進(jìn)了各加速器的可擴(kuò)展性。OAM規(guī)范的目標(biāo)是實(shí)現(xiàn)加速器模塊的標(biāo)準(zhǔn)化,簡(jiǎn)化人工智能基礎(chǔ)架構(gòu)設(shè)計(jì),縮短面向Al協(xié)處理器的開發(fā)周期和實(shí)現(xiàn)大規(guī)模采用。
開放標(biāo)準(zhǔn)促進(jìn)邊緣計(jì)算創(chuàng)新發(fā)展
隨著5G、物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,為了更加實(shí)時(shí)地分析和處理來自終端設(shè)備的海量數(shù)據(jù)并減輕網(wǎng)絡(luò)傳輸?shù)膲毫Γs短終端與服務(wù)器之間的通信距離,實(shí)現(xiàn)終端與服務(wù)器的高實(shí)時(shí)性交互,邊緣計(jì)算迎來巨大的發(fā)展契機(jī)。
在邊緣部署的服務(wù)器的數(shù)量預(yù)計(jì)將在未來5年內(nèi)翻倍,開放計(jì)算社區(qū)已經(jīng)加大投入,提供專為在邊緣部署而設(shè)計(jì)的IT設(shè)備。
寫在最后,開放計(jì)算一直強(qiáng)調(diào)的“普惠化”價(jià)值觀。如果說之前開放計(jì)算更多服務(wù)于超大規(guī)模、大規(guī)模數(shù)據(jù)中心,服務(wù)于眾多互聯(lián)網(wǎng)巨頭,那么未來伴隨著數(shù)字化與智能化的發(fā)展,所有企業(yè)都需要云端的支持,需要邊緣側(cè)的配合,也需要一體化的解決方案與高效能數(shù)據(jù)中心的支撐,這也就意味著開放計(jì)算必將逐步滲透到更多的中小數(shù)據(jù)中心,并幫助這些數(shù)據(jù)中心實(shí)現(xiàn)“雙碳”目標(biāo)。