本文來自微信公眾號“半導(dǎo)體行業(yè)觀察”。
盡管谷歌是一家無晶圓廠設(shè)計(jì)公司,不向第三方公司出售芯片,但它是數(shù)據(jù)中心處理器業(yè)務(wù)中真正的巨頭。山景城公司擁有重要的市場份額,由于最近人工智能的爆炸式增長,該市場份額有望進(jìn)一步擴(kuò)大。
Tech Insights發(fā)布的新研究將谷歌評為數(shù)據(jù)中心領(lǐng)域最大的芯片設(shè)計(jì)公司之一。Tech Insights表示,憑借其在半導(dǎo)體供應(yīng)鏈和ASIC市場等多個領(lǐng)域的獨(dú)特專業(yè)知識,谷歌的市場份額可與英特爾和AMD等更知名的芯片制造商相媲美。
Tech Insights強(qiáng)調(diào),谷歌在2015年推出的張量處理單元(TPU)開創(chuàng)了定制人工智能加速器的先河,這使得該公司超越了云競爭對手微軟和亞馬遜。就市場份額而言,只有英偉達(dá)和英特爾超越谷歌。
Tech Insights指出,谷歌去年向其全球數(shù)據(jù)中心運(yùn)送了200萬個TPU。隨著TPU v4的推出,該業(yè)務(wù)在2021年實(shí)現(xiàn)了顯著增長,恰逢大型語言模型的興起。Broadcom是Google在ASIC設(shè)計(jì)方面的主要合作伙伴,它可能從TPU v4的推出中受益最多。
谷歌使用TPU來加速內(nèi)部工作負(fù)載,而Nvidia GPU則處理云計(jì)算任務(wù)。Tech Insights報告稱,到2023年,谷歌將擁有最大的AI加速器安裝基數(shù)和最大的AI計(jì)算基礎(chǔ)設(shè)施。該公司最近推出了第六代TPU,稱為Trillium,旨在增強(qiáng)AI超級計(jì)算機(jī)架構(gòu)。
TI還指出,隨著云超大規(guī)模企業(yè)投資新的加速器和Nvidia AI GPU,去年服務(wù)器市場的庫存出現(xiàn)了重大調(diào)整。微軟和亞馬遜還分別使用Azure Cobalt和Graviton開發(fā)定制人工智能加速器。
Azure Cobalt和Graviton都是基于Arm的定制處理器。谷歌最近推出了基于Arm的Axion處理器來補(bǔ)充其TPU。根據(jù)Bernstein Research的報告,Arm架構(gòu)目前已用于全球10%的服務(wù)器,其中超過50%安裝在亞馬遜的AWS數(shù)據(jù)中心。
谷歌的第六代TPU
5月14日星期二,谷歌發(fā)布了名為Trillium的第六代TPU(張量處理單元)。
該芯片本質(zhì)上是TPU v6,是該公司在與GPU制造商英偉達(dá)以及云提供商微軟和亞馬遜(擁有自己的人工智能芯片)的人工智能戰(zhàn)斗中的最新武器。
TPU v6將繼承TPUv5芯片,TPUv5芯片有兩種版本:TPUv5e和TPUv5p。該公司表示,Trillium芯片是“迄今為止性能最高、最節(jié)能的TPU”。“
谷歌在加州山景城舉行的IO會議上表示,Trillium芯片將運(yùn)行的人工智能模型將取代當(dāng)前的Gemini大語言模型。
谷歌對該芯片進(jìn)行了全方位的改進(jìn)。該芯片的峰值計(jì)算性能提高了4.7倍。它還使高帶寬內(nèi)存、內(nèi)部帶寬和芯片間互連速度加倍。
谷歌發(fā)言人在給HPCwire的電子郵件中表示:“通過比較Trillium TPU與Cloud TPU v5e的每芯片峰值計(jì)算性能(bf16),我們得到了4.7倍的數(shù)字。”
BF16在TPU v5e上的性能為197 teraflops,如果提高4.7倍,BF16在Trillium上的峰值性能將達(dá)到925.9 teraflops。
Google的TPU早就應(yīng)該有大幅的性能提升了。TPU v5e的197萬億次浮點(diǎn)BF16性能實(shí)際上比TPU v4的275萬億次浮點(diǎn)有所下降。
Trillium芯片具有下一代HBM內(nèi)存,但沒有具體說明它是HBM3還是HBM3e,Nvidia在其H200和Blackwell GPU中使用了HBM3e。
TPU v5e上的HBM2容量為16GB,因此Trillium將擁有32GB的容量,HBM3和HBM3e均有提供。HBM3e提供最大的帶寬。
服務(wù)器Pod中最多可配對256個Trillium芯片,與TPU v5e相比,芯片間通信提高了一倍。谷歌沒有透露芯片間通信速度,但可能是3,200 Gbps,是TPU v5e 1,600 Gbps的兩倍。
谷歌在一篇博客文章中表示,Trillium TPU的節(jié)能效果也比TPU v5e高出67%。
Trillium正在取代TPU品牌名稱,并將成為未來幾代芯片背后的品牌。Trillium是根據(jù)花的名字命名的,不要與AWS的Trainium混淆,Trainium是一種人工智能訓(xùn)練芯片。
谷歌很快就發(fā)布了其第六代TPU——距離該公司發(fā)布TPU v5芯片還不到一年。
TPU v4于2020年推出,拖了三年才發(fā)布TPU v5。TPU v5本身的開發(fā)也陷入了爭議之中。
谷歌聲稱,人工智能代理幫助TPU v5芯片進(jìn)行平面規(guī)劃,速度比人類專家快約六個小時。
與TPU v5 AI設(shè)計(jì)項(xiàng)目相關(guān)的研究人員被解雇或離職,這些說法目前正在接受《自然》雜志的調(diào)查。
服務(wù)器Pod將托管256個Trillium芯片,AI芯片的通信速度是類似TPU v5 Pod設(shè)置的兩倍。
這些Pod可以組合成更大的集群,并通過光纖網(wǎng)絡(luò)進(jìn)行通信。艙體之間的通信速度也將提高兩倍,從而提供更大的AI模型所需的可擴(kuò)展性。
谷歌表示:“Trillium TPU可以擴(kuò)展到數(shù)百個Pod,通過每秒數(shù)拍比特的數(shù)據(jù)中心網(wǎng)絡(luò)互連建筑級超級計(jì)算機(jī)中的數(shù)萬個芯片。”
一項(xiàng)名為Multislice的技術(shù)將大型AI工作負(fù)載串聯(lián)到大型集群中的數(shù)千個TPU上。這確保了TPU的高正常運(yùn)行時間和能效。
該芯片具有第三代SparseCores,這是一種更接近高帶寬內(nèi)存的中間芯片,大多數(shù)AI運(yùn)算都在這里進(jìn)行。
SparseCores使處理更接近內(nèi)存中的數(shù)據(jù),支持AMD、英特爾和高通正在研究的新興計(jì)算架構(gòu)。
通常,數(shù)據(jù)必須從內(nèi)存移動到處理單元,這會消耗帶寬并產(chǎn)生阻塞點(diǎn)。稀疏計(jì)算模型試圖通過將處理單元移近內(nèi)存集群來釋放網(wǎng)絡(luò)帶寬。
谷歌表示:“Trillium TPU可以更快地訓(xùn)練下一波基礎(chǔ)模型,并以更少的延遲和更低的成本為這些模型提供服務(wù)。”
Trillium還具有用于矩陣數(shù)學(xué)的TensorCore。Trillium芯片是為人工智能設(shè)計(jì)的,不會運(yùn)行科學(xué)應(yīng)用程序。
該公司最近發(fā)布了首款CPU Axion,它將與Trillium搭配使用。
Trillium芯片將成為谷歌自主研發(fā)的Hypercomputer AI超級計(jì)算機(jī)設(shè)計(jì)的一部分,該設(shè)計(jì)針對其TPU進(jìn)行了優(yōu)化。
該設(shè)計(jì)融合了計(jì)算、網(wǎng)絡(luò)、存儲和軟件,以滿足不同的AI消費(fèi)和調(diào)度模型。“日歷”系統(tǒng)滿足任務(wù)何時開始的嚴(yán)格期限,而“彈性啟動”模型則保證任務(wù)何時結(jié)束并交付結(jié)果。
超級計(jì)算機(jī)包含一個軟件堆棧和其他工具,用于開發(fā)、優(yōu)化、部署和編排用于推理和訓(xùn)練的AI模型。其中包括JAX、PyTorch/XLA和Kubernetes。
超級計(jì)算機(jī)將繼續(xù)使用針對GPU優(yōu)化的互連技術(shù),例如基于Nvidia H100 GPU的Titanium卸載系統(tǒng)和技術(shù)。
預(yù)計(jì)Trillium芯片將在Google Cloud中提供,但谷歌沒有提供提供日期。它將成為頂級產(chǎn)品,成本高于TPU v5產(chǎn)品。
云中GPU的高價格可能會讓Trillium對客戶有吸引力。已經(jīng)使用Vertex(Google Cloud中的AI平臺)中提供的AI模型的客戶也可能會轉(zhuǎn)向Trillium。
AWS的Trainium芯片也可用,而微軟的Azure Maia芯片主要用于推理。
谷歌一直將其TPU作為Nvidia GPU的AI替代品。谷歌發(fā)布了研究論文,將TPU的性能與同類Nvidia GPU進(jìn)行了比較。
谷歌最近宣布將搭載Nvidia的新GPU、B200和帶有Blackwell GPU的專用DGX盒。
Nvidia最近還宣布將以7億美元收購Run.ai。收購Run.ai將使Nvidia在運(yùn)行AI模型時能夠使其軟件堆棧獨(dú)立于Google的堆棧。
TPU最初是為谷歌的本土模型設(shè)計(jì)的,但該公司正在努力更好地映射到開源模型,其中包括Gemini的分支Gemma。