本文來自微信公眾號(hào)“半導(dǎo)體行業(yè)觀察”,作者/semianalysis。
生成式人工智能即將到來,它將改變世界。自從ChatGPT席卷全球并激發(fā)了我們對(duì)人工智能可能性的想象力以來,我們看到各種各樣的公司都在爭(zhēng)先恐后地訓(xùn)練人工智能模型并將生成式人工智能部署到內(nèi)部工作流程或面向客戶的應(yīng)用程序中。不僅僅是大型科技公司和初創(chuàng)公司,許多財(cái)富500強(qiáng)非科技公司也在研究如何部署基于LLM的解決方案。
當(dāng)然,這需要大量的GPU計(jì)算。GPU的銷量像火箭一樣猛增,而供應(yīng)鏈卻難以滿足對(duì)GPU的需求。公司正在爭(zhēng)先恐后地獲得GPU或云實(shí)例。
即使OpenAI也無法獲得足夠的GPU,這嚴(yán)重阻礙了其近期路線圖。由于GPU短缺,OpenAI無法部署其多模態(tài)模型。由于GPU短缺,OpenAI無法部署更長(zhǎng)的序列長(zhǎng)度模型(8k與32k)。
與此同時(shí),中國公司不僅投資部署自己的LLM,還在美國出口管制進(jìn)一步收緊之前進(jìn)行儲(chǔ)備。例如,據(jù)新聞報(bào)道,中國公司字節(jié)跳動(dòng)據(jù)稱從Nvidia訂購了價(jià)值超過10億美元的A800/H800。
雖然數(shù)十萬個(gè)專門用于人工智能的GPU有許多合法的用例,但也有很多情況是人們急于購買GPU來嘗試構(gòu)建他們不確定是否有合法市場(chǎng)的東西。在某些情況下,大型科技公司正試圖趕上OpenAI和谷歌,以免落后。對(duì)于沒有經(jīng)過驗(yàn)證的商業(yè)用例的初創(chuàng)公司來說,有大量的風(fēng)險(xiǎn)投資資金。我們知道有十幾家企業(yè)正在嘗試?yán)米约旱臄?shù)據(jù)訓(xùn)練自己的LLM。最后,這也適用于沙特阿拉伯和阿聯(lián)酋今年也試圖購買數(shù)億美元的GPU的國家。
盡管Nvidia試圖大幅提高產(chǎn)量,但最高端的Nvidia GPU H100直到明年第一季度仍將售空。Nvidia每季度將增加400,000個(gè)H100 GPU的出貨量。
Nvidia的H100采用CoWoS-S上的7-die封裝。中間是H100 GPU ASIC,其芯片尺寸為814mm2,周圍是6個(gè)內(nèi)存堆棧HBM。不同SKU之間的HBM配置有所不同,但H100 SXM版本使用HBM3,每個(gè)堆棧為16GB,總內(nèi)存為80GB。H100 NVL將具有兩個(gè)封裝,每個(gè)封裝上有6個(gè)活躍的HBM堆棧。
在只有5個(gè)激活HBM的情況下,非HBM芯片可以使用虛擬硅,為芯片提供結(jié)構(gòu)支撐。這些芯片位于硅中介層的頂部,該硅中介層在圖片中不清晰可見。該硅中介層位于封裝基板上,該封裝基板是ABF封裝基板。
GPU Die和TSMC晶圓廠
Nvidia GPU的主要數(shù)字處理組件是處理器芯片本身,它是在稱為“4N”的定制臺(tái)積電工藝節(jié)點(diǎn)上制造的。它是在臺(tái)積電位于臺(tái)灣臺(tái)南的Fab 18工廠制造的,與臺(tái)積電N5和N4工藝節(jié)點(diǎn)共享相同的設(shè)施,但這不是生產(chǎn)的限制因素。
由于PC、智能手機(jī)和非AI相關(guān)數(shù)據(jù)中心芯片的嚴(yán)重疲軟,臺(tái)積電N5工藝節(jié)點(diǎn)的利用率降至70%以下。英偉達(dá)在確保額外的晶圓供應(yīng)方面沒有遇到任何問題。
事實(shí)上,Nvidia已經(jīng)訂購了大量用于H100 GPU和NVSwitch的晶圓,這些晶圓立即開始生產(chǎn),遠(yuǎn)遠(yuǎn)早于運(yùn)送芯片所需的晶圓。這些晶圓將存放在臺(tái)積電的芯片組中,直到下游供應(yīng)鏈有足夠的產(chǎn)能將這些晶圓封裝成完整的芯片。
基本上,英偉達(dá)正在吸收臺(tái)積電的部分低利用率,并獲得一些定價(jià)優(yōu)勢(shì),因?yàn)橛ミ_(dá)已承諾進(jìn)一步購買成品。
Wafer bank,也被稱為die bank,是半導(dǎo)體行業(yè)的一種做法,其中存儲(chǔ)部分處理或完成的晶圓,直到客戶需要它們?yōu)橹埂Ec其他一些代工廠不同的是,臺(tái)積電將通過將這些晶圓保留在自己的賬簿上幾乎完全加工來幫助他們的客戶。這種做法使臺(tái)積電及其客戶能夠保持財(cái)務(wù)靈活性。由于僅進(jìn)行了部分加工,因此晶圓庫中保存的晶圓不被視為成品,而是被歸類為WIP。只有當(dāng)這些晶圓全部完成后,臺(tái)積電才能確認(rèn)收入并將這些晶圓的所有權(quán)轉(zhuǎn)讓給客戶。
這有助于客戶修飾他們的資產(chǎn)負(fù)債表,使庫存水平看起來處于控制之中。對(duì)于臺(tái)積電來說,好處是可以幫助保持更高的利用率,從而支撐利潤(rùn)率。然后,隨著客戶需要更多的庫存,這些晶圓可以通過幾個(gè)最終加工步驟完全完成,然后以正常銷售價(jià)格甚至稍有折扣的價(jià)格交付給客戶。
HBM在數(shù)據(jù)中心的出現(xiàn):
AMD的創(chuàng)新如何幫助Nvidia
GPU周圍的高帶寬內(nèi)存是下一個(gè)主要組件。HBM供應(yīng)也有限,但正在增加。HBM是垂直堆疊的DRAM芯片,通過硅通孔(TSV)連接并使用TCB進(jìn)行鍵合(未來更高的堆疊數(shù)量將需要混合鍵合)。DRAM裸片下方有一顆充當(dāng)控制器的基本邏輯裸片。
通常,現(xiàn)代HBM具有8層內(nèi)存和1個(gè)基本邏輯芯片,但我們很快就會(huì)看到具有12+1層HBM的產(chǎn)品,例如AMD的MI300X和Nvidia即將推出的H100更新。
有趣的是,盡管Nvidia和Google是當(dāng)今使用量最大的用戶,但AMD率先推出了HBM。2008年,AMD預(yù)測(cè),為了匹配游戲GPU性能而不斷擴(kuò)展內(nèi)存帶寬將需要越來越多的功率,而這些功率需要從GPU邏輯中轉(zhuǎn)移出來,從而降低GPU性能。AMD與SK Hynix以及供應(yīng)鏈中的其他公司(例如Amkor)合作,尋找一種能夠以更低功耗提供高帶寬的內(nèi)存解決方案。這驅(qū)使SK海力士于2013年開發(fā)了HBM。
SK Hynix于2015年首次為AMD Fiji系列游戲GPU提供HBM,該GPU由Amkor進(jìn)行2.5D封裝。隨后,他們?cè)?017年推出了使用HBM2的Vega系列。然而,HBM并沒有對(duì)游戲GPU性能產(chǎn)生太大的改變。由于沒有明顯的性能優(yōu)勢(shì)以及更高的成本,AMD在Vega之后重新在其游戲卡中使用GDDR。如今,Nvidia和AMD的頂級(jí)游戲GPU仍在使用更便宜的GDDR6。
然而,AMD的最初預(yù)測(cè)在某種程度上是正確的:擴(kuò)展內(nèi)存帶寬已被證明是GPU的一個(gè)問題,只是這主要是數(shù)據(jù)中心GPU的問題。對(duì)于消費(fèi)級(jí)游戲GPU,Nvidia和AMD已轉(zhuǎn)向使用大型緩存作為幀緩沖區(qū)(large caches for the frame buffer),使它們能夠使用帶寬低得多的GDDR內(nèi)存。
正如我們過去所詳述的,推理和訓(xùn)練工作負(fù)載是內(nèi)存密集型的。隨著人工智能模型中參數(shù)數(shù)量的指數(shù)級(jí)增長(zhǎng),僅權(quán)重的模型大小就已達(dá)到TB級(jí)。因此,人工智能加速器的性能受到從內(nèi)存中存儲(chǔ)和檢索訓(xùn)練和推理數(shù)據(jù)的能力的瓶頸:這個(gè)問題通常被稱為“內(nèi)存墻”。
為了解決這個(gè)問題,領(lǐng)先的數(shù)據(jù)中心GPU與高帶寬內(nèi)存(HBM)共同封裝。Nvidia于2016年發(fā)布了首款HBM GPU P100。HBM通過在傳統(tǒng)DDR內(nèi)存和片上緩存之間找到中間立場(chǎng),以容量換取帶寬來解決內(nèi)存墻問題。通過大幅增加引腳數(shù)以達(dá)到每個(gè)HBM堆棧1024位寬的內(nèi)存總線,可以實(shí)現(xiàn)更高的帶寬,這是每個(gè)DIMM 64位寬的DDR5的18倍。同時(shí),通過大幅降低每比特傳輸能量(pJ/bit)來控制功耗。這是通過更短的走線長(zhǎng)度來實(shí)現(xiàn)的,HBM的走線長(zhǎng)度以毫米為單位,而GDDR和DDR的走線長(zhǎng)度以厘米為單位。
如今,許多面向HPC的芯片公司正在享受AMD努力的成果。具有諷刺意味的是,AMD的競(jìng)爭(zhēng)對(duì)手Nvidia作為HBM用量最大的用戶,或許會(huì)受益最多。
HBM市場(chǎng):SK海力士占據(jù)主導(dǎo)地位
作為HBM的先驅(qū),SK海力士是擁有最先進(jìn)技術(shù)路線的領(lǐng)導(dǎo)者。SK海力士于2022年6月開始生產(chǎn)HBM3,是目前唯一一家批量出貨HBM3的供應(yīng)商,擁有超過95%的市場(chǎng)份額,這是大多數(shù)H100 SKU所使用的。HBM現(xiàn)在的最大配置為8層16GB HBM3模塊。SK Hynix正在為AMD MI300X和Nvidia H100刷新生產(chǎn)數(shù)據(jù)速率為5.6 GT/s的12層24GB HBM3。
HBM的主要挑戰(zhàn)是存儲(chǔ)器的封裝和堆疊,這是SK海力士所擅長(zhǎng)的,他們過去在這方面積累了最強(qiáng)大的工藝流程知識(shí)。
三星緊隨Hynix之后,預(yù)計(jì)將在2023年下半年發(fā)貨HBM3。我們相信它們是為Nvidia和AMD GPU設(shè)計(jì)的。他們目前在銷量上與SK海力士存在很大差距,但他們正在緊鑼密鼓地前進(jìn),并正在大力投資以追趕市場(chǎng)份額。三星正在投資以追趕并成為HBM市場(chǎng)份額第一,就像他們?cè)跇?biāo)準(zhǔn)內(nèi)存方面一樣。我們聽說他們正在與一些加速器公司達(dá)成優(yōu)惠協(xié)議,以試圖獲得更多份額。
他們展示了12層HBM以及未來的混合鍵合HBM。三星HBM-4路線圖的一個(gè)有趣的方面是,他們希望在內(nèi)部FinFET節(jié)點(diǎn)上制作邏輯/外圍設(shè)備。這顯示了他們擁有內(nèi)部邏輯和DRAM代工廠的潛在優(yōu)勢(shì)。
美光科技在HBM方面排名墊底。
他們?cè)诨旌洗鎯?chǔ)立方體(HMC)技術(shù)上投入了更多資金。這是與HBM競(jìng)爭(zhēng)的技術(shù),其概念非常相似,大約在同一時(shí)間開發(fā)。然而,HMC周圍的生態(tài)系統(tǒng)是封閉的,導(dǎo)致圍繞HMC的IP很難開發(fā)。此外,還存在一些技術(shù)缺陷。HBM的采用率要高得多,因此HBM勝出,成為3D堆疊DRAM的行業(yè)標(biāo)準(zhǔn)。
直到2018年,美光才開始從HMC轉(zhuǎn)向HBM路線圖。這就是美光科技落在最后面的原因。他們?nèi)匀煌A粼贖BM2E(SK海力士在2020年中期開始量產(chǎn))上,他們甚至無法成功制造HBM2E。
在最近的財(cái)報(bào)電話會(huì)議中,美光對(duì)其HBM路線圖做出了一些大膽的聲明:他們相信,他們將在2024年憑借HBM3E從落后者變?yōu)轭I(lǐng)先者。HBM3E預(yù)計(jì)將在第三季度/第四季度開始為Nvidia的下一代GPU發(fā)貨。
“我們的HBM3斜坡實(shí)際上是下一代HBM3,與當(dāng)今業(yè)界生產(chǎn)的HBM3相比,它具有更高水平的性能、帶寬和更低的功耗。該產(chǎn)品,即我們行業(yè)領(lǐng)先的產(chǎn)品,將從2024年第一季度開始銷量大幅增加,并對(duì)24財(cái)年的收入產(chǎn)生重大影響,并在2025年大幅增加,即使是在2024年的水平基礎(chǔ)上。我們的目標(biāo)也是在HBM中獲得非常強(qiáng)勁的份額,高于行業(yè)中DRAM的非自然供應(yīng)份額。”美光首席商務(wù)官Sumit Sadana說。
他們希望在HBM中擁有比一般DRAM市場(chǎng)份額更高的市場(chǎng)份額的聲明非常大膽。鑒于他們?nèi)栽谂Υ笈可a(chǎn)頂級(jí)HBM2E,我們很難相信美光聲稱他們將在2024年初推出領(lǐng)先的HBM3,甚至成為第一個(gè)HBM3E。在我們看來,盡管Nvidia GPU服務(wù)器的內(nèi)存容量比英特爾/AMD CPU服務(wù)器要低得多,但美光科技似乎正在試圖改變?nèi)藗儗?duì)人工智能失敗者的看法。
我們所有的渠道檢查都發(fā)現(xiàn)SK海力士在新一代技術(shù)方面保持最強(qiáng),而三星則非常努力地通過大幅供應(yīng)增加、大膽的路線圖和削減交易來追趕。
真正的瓶頸-CoWoS
下一個(gè)瓶頸是CoWoS產(chǎn)能。CoWoS(Chip on Wafer on Substrate)是臺(tái)積電的一種“2.5D”封裝技術(shù),其中多個(gè)有源硅芯片(active silicon)(通常的配置是邏輯和HBM堆棧)集成在無源硅中介層上。中介層充當(dāng)頂部有源芯片的通信層。然后將中介層和有源硅連接到包含要放置在系統(tǒng)PCB上的I/O的封裝基板。
HBM和CoWoS是互補(bǔ)的。HBM的高焊盤數(shù)(high pad count)和短走線長(zhǎng)度要求需要CoWoS等2.5D先進(jìn)封裝技術(shù)來實(shí)現(xiàn)PCB甚至封裝基板上無法實(shí)現(xiàn)的密集、短連接。CoWoS是主流封裝技術(shù),能夠以合理的成本提供最高的互連密度和最大的封裝尺寸。由于目前幾乎所有HBM系統(tǒng)都封裝在CoWoS上,并且所有高級(jí)AI加速器都使用HBM,因此,幾乎所有領(lǐng)先的數(shù)據(jù)中心GPU都由臺(tái)積電在CoWoS上封裝。百度確實(shí)有一些先進(jìn)的加速器,三星的版本也有。
雖然臺(tái)積電(TSMC)的SoIC等3D封裝技術(shù)可以將芯片直接堆疊在邏輯之上,但由于散熱和成本的原因,這對(duì)于HBM來說沒有意義。SoIC在互連密度方面處于不同的數(shù)量級(jí),并且更適合通過芯片堆疊擴(kuò)展片上緩存,如AMD的3D V-Cache解決方案所示。AMD的Xilinx也是多年前CoWoS的第一批用戶,用于將多個(gè)FPGA小芯片組合在一起。
雖然還有一些其他應(yīng)用使用CoWoS,例如網(wǎng)絡(luò)(其中一些用于網(wǎng)絡(luò)GPU集群,如Broadcom的Jericho3-AI)、超級(jí)計(jì)算和FPGA,但絕大多數(shù)CoWoS需求來自人工智能。與半導(dǎo)體供應(yīng)鏈的其他部分不同,其他主要終端市場(chǎng)的疲軟意味著有足夠的閑置空間來吸收GPU需求的巨大增長(zhǎng),CoWoS和HBM已經(jīng)是大多數(shù)面向人工智能的技術(shù),因此所有閑置產(chǎn)能已在第一季度被吸收。隨著GPU需求的爆炸式增長(zhǎng),供應(yīng)鏈中的這些部分無法跟上并成為GPU供應(yīng)的瓶頸。
“就在最近這兩天,我接到一個(gè)客戶的電話,要求大幅增加后端容量,特別是在CoWoS中。我們?nèi)栽谠u(píng)估這一點(diǎn)。”臺(tái)積電首席執(zhí)行官C.C Wei早起那說。
臺(tái)積電一直在為更多的封裝需求做好準(zhǔn)備,但可能沒想到這一波生成式人工智能需求來得如此之快。6月,臺(tái)積電宣布在竹南開設(shè)先進(jìn)后端Fab 6。該晶圓廠占地14.3公頃,足以容納每年100萬片晶圓的3D Fabric產(chǎn)能。這不僅包括CoWoS,還包括SoIC和InFO技術(shù)。有趣的是,該工廠比臺(tái)積電其他封裝工廠的總和還要大。雖然這只是潔凈室空間,遠(yuǎn)未配備齊全的工具來實(shí)際提供如此大的容量,但很明顯,臺(tái)積電正在做好準(zhǔn)備,預(yù)計(jì)對(duì)其先進(jìn)封裝解決方案的需求會(huì)增加。
稍微有幫助的是晶圓級(jí)扇出封裝產(chǎn)能(主要用于智能手機(jī)SoC)的閑置,其中一些產(chǎn)能可以在某些CoWoS工藝步驟中重新利用。特別是,存在一些重疊的工藝,例如沉積、電鍍、背面研磨、成型、放置和RDL形成,這將趨勢(shì)設(shè)備供應(yīng)鏈發(fā)生了有意義的轉(zhuǎn)變。
雖然市場(chǎng)上還有來自英特爾、三星和OSAT(例如ASE的FOEB)提供的其他2.5D封裝技術(shù),但CoWoS是唯一一種大批量使用的技術(shù),因?yàn)榕_(tái)積電是迄今為止最主要的AI加速器代工廠。甚至Intel Habana的加速器也是由臺(tái)積電制造和封裝的。然而,一些客戶正在尋找臺(tái)積電的替代品。
CoWoS擁有幾種變體,但原始CoWoS-S仍然是大批量生產(chǎn)中的唯一配置。這是如上所述的經(jīng)典配置:邏輯芯片+HBM芯片通過帶有TSV的硅基中介層連接。然后將中介層放置在有機(jī)封裝基板上。
硅中介層的一項(xiàng)支持技術(shù)是一種稱為“reticle stitching”的技術(shù)。由于光刻工具slit/scan最大尺寸芯片的最大尺寸通常為26mm x 33mm。隨著GPU芯片本身接近這一極限,并且還需要在其周圍安裝HBM,中介層需要很大,并且將遠(yuǎn)遠(yuǎn)超出這一標(biāo)線極限。TSMC通過reticle stitching解決了這個(gè)問題,這使得他們能夠?qū)⒅薪閷訄D案化為標(biāo)線限制的數(shù)倍(截至目前,AMD MI300最高可達(dá)3.5倍)。
CoWoS-R在具有重新分布層(RDL)的有機(jī)基板上使用,而不是硅中介層。這是一種成本較低的變體,由于使用有機(jī)RDL而不是硅基中介層,因此犧牲了I/O密度。正如我們所詳述的,,AMD的MI300最初是在CoWoS-R上設(shè)計(jì)的,但我們認(rèn)為,由于翹曲和熱穩(wěn)定性問題,AMD必須改用CoWoS-S。
CoWoS-L預(yù)計(jì)將在今年晚些時(shí)候推出,并采用RDL中介層,但包含嵌入中介層內(nèi)部的用于芯片間互連的有源和/或無源硅橋。這是臺(tái)積電相當(dāng)于英特爾EMIB封裝技術(shù)。隨著硅中介層變得越來越難以擴(kuò)展,這將允許更大的封裝尺寸。MI300 CoWoS-S可能接近單硅中介層的極限。
對(duì)于更大的設(shè)計(jì)來說,使用CoWoS-L會(huì)更加經(jīng)濟(jì)。臺(tái)積電正在開發(fā)6x reticle尺寸的CoWoS-L超級(jí)載具中介層。對(duì)于CoWoS-S,他們沒有提到4x reticle之外的任何內(nèi)容。這是因?yàn)楣柚薪閷拥拇嗳跣浴_@種硅中介層只有100微米厚,并且在工藝流程中隨著中介層尺寸增大而存在分層或破裂的風(fēng)險(xiǎn)。