本文來自微信公眾號“TrendForce集邦”。
根據TrendForce集邦咨詢最新調查,隨著NVIDIA Blackwell新平臺預計于2024年第四季出貨,將推動液冷散熱方案的滲透率明顯增長,從2024年的10%左右至2025年將突破20%。隨著全球ESG(環(huán)境、社會和公司治理)意識提升,加上CSP(云端服務業(yè)者)加速建設AI服務器,預期有助于帶動散熱方案從氣冷轉向液冷形式。
觀察全球AI服務器市場,2024年主要AI方案供應商仍是NVIDIA(英偉達)。若在GPU AI服務器市場而言,NVIDIA則占據強大的優(yōu)勢,市占率接近90%,排名第二的AMD僅約8%。
TrendForce集邦咨詢觀察,今年NVIDIA Blackwell出貨量規(guī)模較小,主要是因為供應鏈仍在進行產品最終測試驗證等流程,如高速傳輸和散熱設計等方面需要持續(xù)優(yōu)化。新平臺因能耗較高,尤其GB200整柜式方案需要更好的散熱效率,有望促進液冷方案滲透率。然而,現(xiàn)有服務器生態(tài)系采用液冷的比例尚低,對于漏液或散熱效能不佳的問題,ODM(原始設計制造商)仍須歷經學習曲線后得出最佳解決方式。TrendForce集邦咨詢預估2025年Blackwell平臺在高端GPU的占比有望超過80%,這將促使電源供應廠商和散熱行業(yè)等將競相投入AI液冷市場,形成新的產業(yè)競爭格局。
大型CSP加快布建AI服務器,Google積極布局液冷方案
近年來,Google、AWS和Microsoft等大型美系云端業(yè)者皆加快布建AI服務器,主要采用搭載NVIDIA GPU及自研ASIC的方式。據TrendForce集邦咨詢了解,NVIDIA GB200 NVL72機柜之熱設計功耗(TDP)高達約140kW,需要采用液冷方案才能解決散熱問題,預計將以水對氣(Liquid-to-Air,L2A)方式為主流。HGX和MGX等其他架構的Blackwell服務器因密度較低,氣冷散熱為主要方案。
在云端業(yè)者自研AI ASIC方面,Google的TPU除了使用氣冷方案,還積極布局液冷散熱,是最積極采用液冷方案的美系廠商,BOYD和Cooler Master是其冷水板(Cold Plate)的主要供應商。中國大陸方面,Alibaba(阿里巴巴)最積極擴建液冷數(shù)據中心,其他云端服務商對自研的AI ASIC主要仍采用氣冷散熱方案。
TrendForce集邦咨詢指出,云端服務商將指定GB200機柜液冷散熱方案的關鍵零部件供應商,目前冷水板(Cold Plate)主要供應商為奇鋐和Cooler Master,分歧管(Manifold)為Cooler Master和雙鴻,冷卻分配系統(tǒng)(Coolant Distribution Unit,CDU)為Vertiv和臺達電。至于防止漏水的關鍵零件快接頭(Quick Disconnect,QD),目前采購仍以CPC、Parker Hannifin、Denfoss和Staubli等廠商為主,其他供應商如嘉澤和富世達等已進入驗證階段,預期2025年上半年,上述廠商有機會加入快接頭供應商的行列,有助于逐步緩解當前供不應求的局面。