本文來自微信公眾號“半導(dǎo)體行業(yè)觀察”,內(nèi)容由半導(dǎo)體行業(yè)觀察(ID:icbank)編譯自HPCwire,謝謝。。
還記得嗎,GPU曾經(jīng)只是一種小型無風(fēng)扇顯卡,其代表包括Voodoo、Matrox、Nvidia或ATI嗎?這個簡單的添加為您的PC帶來了響應(yīng)式2D和3D圖形的新世界。
如果當(dāng)時有人告訴你,未來版本的GPU最終將被用作HPC、加密貨幣和生成人工智能的高性能工具。我懷疑答案會是“什么是加密貨幣和生成人工智能?”
對GPU硬件或更好的加速器的需求從未如此強(qiáng)烈,如果這種趨勢持續(xù)下去,當(dāng)前的高需求可能會延續(xù)到不久的將來。就HPC而言,這一趨勢表明GPU未來將會變得昂貴且難以找到(除非您購買的數(shù)量足以直接向供應(yīng)商購買)。
GPU非常適合加速矩陣運(yùn)算,這通常是許多HPC應(yīng)用程序的核心。它們提供SIMD(單指令多數(shù)據(jù))處理單元,可以加速復(fù)雜的并行數(shù)組操作。正如人們經(jīng)常指出的那樣,HPC GPU市場在一定程度上要?dú)w功于規(guī)模大得多(約7倍)的游戲市場,它幫助支付了硬件成本,讓游戲玩家能夠飛越星系,同時允許科學(xué)家模擬星系。
加密貨幣市場改變了這種低端動態(tài)。就加密貨幣而言,游戲GPU非常擅長快速查找唯一數(shù)字并產(chǎn)生熱量。市場需求相當(dāng)高,但由于加密市場的不斷發(fā)展,需求似乎正在下降。
在高端,情況就完全不同了。根據(jù)雅虎財經(jīng)的一篇文章,Reports Insights的一份報告預(yù)測:
“受圖形處理器(GPU)科學(xué)模擬、數(shù)據(jù)分析和人工智能需求不斷增長的推動,全球圖形處理器(GPU)市場預(yù)計在2022年至2030年期間復(fù)合年增長率為33.5%。“
數(shù)據(jù)顯示,2022年,GPU市場估值為447億美元,預(yù)計到2030年將達(dá)到4509億美元。GPU市場的增長可歸因于游戲、娛樂和數(shù)據(jù)中心等各種最終用途行業(yè)對高級圖形和高質(zhì)量視覺體驗(yàn)的需求不斷增長。虛擬和增強(qiáng)現(xiàn)實(shí)的日益普及以及人工智能和機(jī)器學(xué)習(xí)的進(jìn)步也促進(jìn)了GPU市場的增長。隨著高性能GPU需求的增長,市場有望在未來幾年大幅增長,為市場參與者帶來大量機(jī)會。
然而,對于GPU市場供應(yīng)商來說,這是個好消息,對于最終用戶來說,LLM(大型語言模型,例如ChatGPT)的增長創(chuàng)造了對嚴(yán)格意義上不屬于傳統(tǒng)HPC市場一部分的GPU的新需求。
以Inflection AI為例,該公司正在開發(fā)一種名為“Pi”的“個人人工智能”聊天機(jī)器人。為了實(shí)現(xiàn)這一目標(biāo),該公司建造了一臺配備22,000個NVIDIA H100 GPU的超級計算機(jī)。為了提供一些背景信息,F(xiàn)rontier是6月23日TOP500列表中排名第一的系統(tǒng),擁有37,632個GPU。
Inflection AI的情況并非獨(dú)一無二。SemiAnalysis報告的另外兩個數(shù)據(jù)點(diǎn)也支持同樣的趨勢。
“即使OpenAI也無法獲得足夠的GPU,這嚴(yán)重阻礙了其近期路線圖。由于GPU短缺,OpenAI無法部署其多模態(tài)模型。“
例如,Tik Tok背后的中國公司字節(jié)跳動據(jù)稱從Nvidia訂購了價值超過10億美元的A800/H800。“
正在尋找FLOPS?
幸運(yùn)的是,GPU對于HPC來說并不是必需的;GPU并不是HPC所必需的。它們對于許多應(yīng)用都很有用;然而,最新的TOP500系統(tǒng)統(tǒng)計(6月23日)表明,37%的機(jī)器使用GPU。這個數(shù)字正在增加,并且隨著系統(tǒng)進(jìn)入exaFLOPS領(lǐng)域,加速器的使用將繼續(xù)。
如前所述,GPU不是必需的,但對于許多HPC應(yīng)用程序來說通常是可取的。由于生成式AI行業(yè)爆炸式增長的巨大需求,許多HPC現(xiàn)場采購和/或云場景的擔(dān)憂是GPU的全面可用性(短缺)。“任何GPU”(Nvidia、AMD或Intel)的高市場需求可能會促使HPC從業(yè)者考慮僅使用CPU的解決方案來幫助加速其代碼(例如,眾核、AVX-512、HBM、3D V-Cache等)。
對“GPU周期”的搜索也可能會帶來一些新穎的方法?;叵胍幌拢琀PC中的一些原始GPU應(yīng)用程序始于標(biāo)準(zhǔn)GPU卡和一種名為“Brook”的新語言,該語言是CUDA的前身,并在第一段中提到的一些早期GPU卡上運(yùn)行。一開始,這種方法似乎有點(diǎn)尷尬,但速度的提高是不容忽視的。結(jié)果重塑了HPC領(lǐng)域。
最近,一個有趣的舉動是,最新版本的AMD ROCm GPU庫(V5.6)提供了對移動和桌面級iGPU(集成GPU)的支持。在LinkedIn上的一篇簡短帖子中,HPC專家James Cuff能夠使用Ryzen 9 6900HX桌面處理器在CPU和CPU/iGPU上運(yùn)行TensorFlow基準(zhǔn)測試。同樣的基準(zhǔn)測試在CPU上運(yùn)行需要13秒,在CPU/iGPU組合上運(yùn)行需要3秒。當(dāng)然,還需要更多的測試,但正如對FLOPS的搜索將目光轉(zhuǎn)向了早期基于GPU的顯卡一樣,尋找內(nèi)部GPU可能會為HPC組合添加一些未使用和可用的FLOPS。
GPU的巨大壓力已經(jīng)到來。