?GPU芯片新技術(shù)出現(xiàn),中國(guó)廠商值得借鑒

半導(dǎo)體產(chǎn)業(yè)縱橫
暢秋
不僅是國(guó)際巨頭,中國(guó)本土GPU廠商,特別是更具前瞻性的幾家創(chuàng)業(yè)公司,在發(fā)展GPU方面也需要研發(fā)更具競(jìng)爭(zhēng)力的技術(shù)和產(chǎn)品,而在當(dāng)下美國(guó)政府推出各種限制政策的大環(huán)境下,中國(guó)本土GPU芯片技術(shù)和生態(tài)系統(tǒng)建設(shè)可以拓展更多思路,將更多先進(jìn)的技術(shù)和理念融入相關(guān)產(chǎn)品。在本土企業(yè)客戶(hù)給出更多采用和試錯(cuò)空間的情況下,中國(guó)芯片企業(yè)或許可以加快追趕國(guó)際先進(jìn)GPU的步伐。

本文來(lái)自半導(dǎo)體產(chǎn)業(yè)縱橫 ,作者/暢秋。

微信圖片_20231121093936.png

11月6日,在創(chuàng)業(yè)三年,即將進(jìn)入下一個(gè)三年之際,摩爾線程創(chuàng)始人兼CEO張建中給公司全體員工發(fā)了一封信。信中提到了很多關(guān)于過(guò)去三年研發(fā)工作的總結(jié),以及未來(lái)發(fā)展規(guī)劃的內(nèi)容,不過(guò),這封信的核心內(nèi)容是:摩爾線程將進(jìn)行一次崗位優(yōu)化,也就是裁員。

對(duì)于這家中國(guó)本土新崛起的GPU芯片設(shè)計(jì)公司來(lái)說(shuō),最近幾年的形勢(shì),使得擺在他面前的機(jī)遇和挑戰(zhàn)都顯得很凸出。

不僅摩爾線程,壁仞科技和沐曦集成電路也是近幾年中國(guó)本土表現(xiàn)非常凸出的GPU芯片創(chuàng)業(yè)公司,再加上老牌的景嘉微,以及其它幾家相關(guān)企業(yè),把中國(guó)本土GPU技術(shù)和芯片產(chǎn)品市場(chǎng)熱度推向了一個(gè)新高度,在主動(dòng)與被動(dòng)之間,取得了明顯多于、快于2018年之前的成績(jī)。

然而,在市場(chǎng)和美國(guó)政策的雙重壓力下,特別是近期美國(guó)政府將壁仞科技和摩爾線程列入了實(shí)體清單,使得它們?cè)O(shè)計(jì)出的芯片難以拿到先進(jìn)制程產(chǎn)能,再加上市場(chǎng)寒冬,以及在生態(tài)系統(tǒng)方面與英偉達(dá)的巨大差距,生存和發(fā)展愈加艱難,裁員難以避免。

01

GPU及生態(tài)系統(tǒng)建設(shè)

1999年10月,英偉達(dá)發(fā)布了GeForce 256,這是一款基于臺(tái)積電220nm制程工藝、集成了2300萬(wàn)個(gè)晶體管的圖形處理芯片。英偉達(dá)把Graphics Processing Unit的首字母“GPU“提煉出來(lái),把GeForce 256冠以“世界上第一塊GPU”稱(chēng)號(hào),巧妙地定義了GPU這個(gè)新品類(lèi),并占據(jù)這個(gè)詞的用戶(hù)心智直到今天。憑借先發(fā)優(yōu)勢(shì),不僅在芯片端,英偉達(dá)在GPU生態(tài)系統(tǒng)建設(shè)方面也是統(tǒng)治者,直到今天,也沒(méi)有哪家廠商能夠動(dòng)搖它的根基。

GPU原本是為圖像而生的,它把CPU從圖像顯示的苦力活中解放了出來(lái),大量的流水線架構(gòu),使得GPU非常適合巨量、重復(fù)性的工作,自從GPU大規(guī)模應(yīng)用以后,CPU就擺脫了這些原本由它負(fù)責(zé)的頭疼工作,轉(zhuǎn)而去做更擅長(zhǎng)的指令判斷和控制類(lèi)的“大腦“型工作。

在發(fā)展的很長(zhǎng)一段時(shí)間內(nèi),由GPU組成的顯卡主要用于大型游戲、CAD制圖和視頻剪輯等圖像處理工作,后來(lái),隨著應(yīng)用和技術(shù)的發(fā)展,GPU又滲透到自動(dòng)駕駛、醫(yī)療影像、金融模型、生物信息等多個(gè)領(lǐng)域。如今,GPU是人工智能(AI),特別是AI訓(xùn)練應(yīng)用領(lǐng)域的明星,火遍全球。

發(fā)展了這么多年,GPU芯片賽道高度壟斷,全球90%的市場(chǎng)被少數(shù)幾家大企業(yè)占領(lǐng),在集顯市場(chǎng),英特爾和AMD平分天下,在獨(dú)顯賽道,AMD、英偉達(dá)二八分成;在GPGPU(主要用于AI等高性能計(jì)算)市場(chǎng),英偉達(dá)的市占率高達(dá)90%以上。

生態(tài)系統(tǒng)方面,2006年,英偉達(dá)推出了并行計(jì)算平臺(tái)和編程模型CUDA,它讓GPU擁有了解決復(fù)雜計(jì)算問(wèn)題的能力,開(kāi)發(fā)者們可以通過(guò)CUDA平臺(tái),更方便地調(diào)度底層的GPU算力。當(dāng)前,CUDA擁有400多萬(wàn)開(kāi)發(fā)者,大部分GPU和AI芯片創(chuàng)業(yè)公司的產(chǎn)品也都通過(guò)兼容CUDA來(lái)進(jìn)入用戶(hù)端。

為了追趕英偉達(dá),英特爾于2022年發(fā)布了全新架構(gòu)的第一款獨(dú)立顯卡,擁有超過(guò)一萬(wàn)名軟件工程師的英特爾,在顯卡發(fā)布后的一年里,其顯卡驅(qū)動(dòng)更新了21次,平均半年更新10版。

為了與CUDA競(jìng)爭(zhēng),AMD于2016年推出了開(kāi)放的ROCm平臺(tái),不過(guò),從目前的發(fā)展情況來(lái)看,ROCm的市場(chǎng)接受度和應(yīng)用規(guī)模依然與CUDA有非常大的差距。

02

中國(guó)GPU的發(fā)展近況

近些年,中國(guó)GPU取得了一些突破。

2019-2020年,中國(guó)本土出現(xiàn)了GPU、AI芯片創(chuàng)業(yè)熱潮,壁仞科技、摩爾線程、燧原科技、沐曦集成電路、天數(shù)智芯等一批明星企業(yè)涌現(xiàn)出來(lái),相關(guān)GPU芯片新品不斷。

2022年3月,摩爾線程公布了首批顯卡產(chǎn)品,包括面向電腦和工作站的MTT S60,以及面向服務(wù)器的MTT S2000。兩張顯卡都采用了第一代MUSA架構(gòu)(Moore Threads Unified System Architecture,中文名為“蘇堤”)。2022年11月,該公司公布了第二批產(chǎn)品,包括面向電腦和工作站的顯卡MTT S80,以及面向服務(wù)器的MTT S3000,這兩款產(chǎn)品采用了新一代MUSA架構(gòu)“春曉”,并使用了PCIe Gen5插槽。

壁仞科技的高光時(shí)刻,是在2022年8月發(fā)布了首款GPGPU芯片BR100,并宣布該產(chǎn)品從800多個(gè)參選項(xiàng)目中脫穎而出,榮膺當(dāng)年世界人工智能大會(huì)最高獎(jiǎng)項(xiàng)SAIL獎(jiǎng)。據(jù)悉,BR100峰值算力達(dá)到國(guó)際廠商在售旗艦產(chǎn)品3倍以上,創(chuàng)下國(guó)內(nèi)互連帶寬紀(jì)錄,還是國(guó)內(nèi)率先采用Chiplet技術(shù)、率先采用PCIe 5.0、率先支持CXL互連協(xié)議的GPGPU芯片。

今年6月,沐曦集成電路宣布完成AI訓(xùn)練GPU MXC500的功能測(cè)算工作,同時(shí),MXMACA 2.0計(jì)算平臺(tái)基礎(chǔ)測(cè)試完成。

據(jù)悉,MXC500是沐曦對(duì)標(biāo)英偉達(dá)A100/A800的芯片,目標(biāo)算力為FP32 15 TFLOPS(A100為FP32 19.5 TFLOPS),兼容CUDA,預(yù)計(jì)今年底規(guī)模出貨。

以上這些廠商推出的產(chǎn)品,目標(biāo)都是要奪取英偉達(dá)和AMD在中國(guó)本土的市場(chǎng)份額。然而,英偉達(dá)經(jīng)歷了30年的持續(xù)積累,才取得今天的成績(jī),中國(guó)本土GPU廠商不可能在5年左右的時(shí)間內(nèi)研發(fā)出具有同樣水平和市場(chǎng)影響力的產(chǎn)品。不過(guò),如果中國(guó)GPU芯片能達(dá)到英偉達(dá)H100芯片性能的70%,也是很有意義的。接下來(lái)的重點(diǎn)工作就是本土GPU生態(tài)系統(tǒng)建設(shè)。

03

中國(guó)GPU生態(tài)系統(tǒng)建設(shè)

比提升芯片性能更難的,是構(gòu)建生態(tài)系統(tǒng)。英偉達(dá)不僅強(qiáng)在芯片硬件,更強(qiáng)在其軟件生態(tài)CUDA,其GPU+CUDA,就像英特爾和微軟構(gòu)建的Wintel,后來(lái)者要想再創(chuàng)建一整套軟硬件系統(tǒng)的成本非常高,而且非常難,不僅僅是錢(qián)的問(wèn)題。假設(shè)投入和英偉達(dá)相當(dāng)?shù)娜瞬藕唾Y源,以3倍的發(fā)展速度追趕,至少需要10年時(shí)間才能接近英偉達(dá)的水平。

以摩爾線程為例,理論上講,無(wú)論是GPGPU,還是桌面級(jí)應(yīng)用,該公司的產(chǎn)品性能已經(jīng)達(dá)到了英偉達(dá)中端產(chǎn)品水準(zhǔn),但實(shí)際表現(xiàn)并非如此。以MTT S80為例,從游戲愛(ài)好者的測(cè)試結(jié)果來(lái)看,其早期實(shí)際性能接近GTX1050Ti,今年更新驅(qū)動(dòng)后,性能可以媲美GTX1650,能流暢運(yùn)行英雄聯(lián)盟等網(wǎng)游,也可以跑4K游戲,但與RTX3060相比,依然有很大差距。

MTT S80強(qiáng)勁的硬件卻難以發(fā)揮理論性能,關(guān)鍵問(wèn)題就是軟件適配,摩爾線程差的就是底層技術(shù)和驅(qū)動(dòng)經(jīng)驗(yàn)的積累。據(jù)悉,MUSA架構(gòu)源于IMG的PowerVR,這也從一個(gè)側(cè)面體現(xiàn)出該公司在GPU IP方面缺乏核心技術(shù)。

通過(guò)購(gòu)買(mǎi)IP研發(fā)GPU是中國(guó)本土大多數(shù)廠商的選擇,包括芯動(dòng)、壁仞科技等企業(yè)都是如此。該模式能夠以最小代價(jià)設(shè)計(jì)出商用產(chǎn)品,但是,芯片生產(chǎn)出來(lái)以后,軟硬件打磨就要考驗(yàn)廠家的技術(shù)實(shí)力了,而這些軟實(shí)力是沒(méi)有地方購(gòu)買(mǎi)的。

中國(guó)老牌GPU芯片企業(yè)景嘉微曾表示,做GPU,三分靠硬件,七分靠軟件。英偉達(dá)在初期的產(chǎn)品性能也不好,還一度被ATI壓制,后期的成功除了全新架構(gòu)的助攻,驅(qū)動(dòng)的打磨功不可沒(méi)。

中國(guó)本土這些GPU芯片新星大多都想兼容英偉達(dá)的CUDA,但是,在驅(qū)動(dòng)軟件的適配上還差強(qiáng)人意,例如,早期的MTT S80只支持DX9游戲,雖然現(xiàn)在歷經(jīng)9次版本驅(qū)動(dòng)更新后,能支持更高的DX11游戲,但是其性能表現(xiàn)遠(yuǎn)未達(dá)到硬件實(shí)際水平。

正是看到了差距,中國(guó)本土GPU廠商一直在生態(tài)系統(tǒng)建設(shè)方面增加投入。例如,今年,弘信電子與摩爾線程和燧原科技分別簽署了《戰(zhàn)略合作框架協(xié)議》,以打造人工智能軟硬件基礎(chǔ)設(shè)施。

目前,摩爾線程已經(jīng)將大部分資源分配給軟件,占比達(dá)到70%,重點(diǎn)關(guān)注元宇宙和AI。沐曦已與服務(wù)器OEM、大數(shù)據(jù)中心、互聯(lián)網(wǎng)、運(yùn)營(yíng)商等行業(yè)客戶(hù)建立了合作關(guān)系,并與眾多知名高校和研究機(jī)構(gòu)開(kāi)展產(chǎn)學(xué)研合作,快速推進(jìn)產(chǎn)業(yè)上下游生態(tài)系統(tǒng)建設(shè)。

04

GPU的新動(dòng)向

全球范圍內(nèi),在已有基礎(chǔ)上,GPU技術(shù)及其生態(tài)依然在向前發(fā)展,目前來(lái)看,有兩點(diǎn)很值得關(guān)注:一是GPU與CPU的融合,二是RISC-V的融入。

GPU比CPU簡(jiǎn)單得多;它可以更快地執(zhí)行簡(jiǎn)單的指令,執(zhí)行是并行進(jìn)行的,這也是GPU與CPU的最大不同之處。然而,并非所有軟件都可以輕松地并行化執(zhí)行。CUDA生態(tài)系統(tǒng)旨在提供工具來(lái)構(gòu)建可以利用GPU進(jìn)行并行計(jì)算的軟件應(yīng)用程序,但是,大多數(shù)軟件應(yīng)用程序仍然需要CPU才能運(yùn)行。

基于CPU的應(yīng)用程序不僅更容易開(kāi)發(fā),而且大多已經(jīng)構(gòu)建完成。很難想象哪些公司會(huì)花費(fèi)時(shí)間和精力將已經(jīng)在CPU上運(yùn)行的東西移植到GPU上。

目前,AMD、英特爾和英偉達(dá)都在CPU-GPU融合技術(shù)方面下重注。

2023上半年,AMD首席技術(shù)官M(fèi)ark Papermaster表示,該公司將在2024年推出CPU-GPU芯片,它將基于第4代Epyc架構(gòu)的CPU內(nèi)核與基于新一代CDNA 3架構(gòu)的GPU結(jié)合在一起,也就是AMD近些年一直在宣傳的APU概念。

英特爾的CPU-GPU芯片F(xiàn)alcon Shores具有x86 CPU內(nèi)核和Xe GPU內(nèi)核,成熟產(chǎn)品將在2025年量產(chǎn)。

下面看一下RISC-V與GPU的融合。

最近,Ventana Micro Systems與Imagination Technologies合作推出了基于RISC-V的CPU-GPU平臺(tái)。

Ventana計(jì)劃推出一個(gè)仿真模型,展示其基于RISV-C的CPU如何與Imagination開(kāi)發(fā)的GPU協(xié)同工作。這次演示將結(jié)合Ventana的新CPU產(chǎn)品Veyron V2。據(jù)悉,V2將對(duì)RISC-V指令集架構(gòu)進(jìn)行增強(qiáng),使其能與x86和Arm同臺(tái)競(jìng)技。

目前來(lái)看,Imagination與Ventana的合作項(xiàng)目距離產(chǎn)品量產(chǎn)和規(guī)?;瘧?yīng)用還有較大距離,但是,RISC-V CPU和GPU IP融合的可用性,可能會(huì)帶來(lái)針對(duì)不同客戶(hù)端應(yīng)用的新一波RISC-V平臺(tái)開(kāi)發(fā)熱潮。

從目前的市場(chǎng)和應(yīng)用需求來(lái)看,RISC-V與GPU的結(jié)合是有基礎(chǔ)的。

在一些垂直市場(chǎng),例如5G/6G通信、AI推理和視頻處理等,傳統(tǒng)CPU已經(jīng)無(wú)法滿(mǎn)足這些應(yīng)用的計(jì)算量需求,需要新計(jì)算方法的出現(xiàn)。對(duì)于圖像處理來(lái)說(shuō),內(nèi)存訪問(wèn)瓶頸問(wèn)題已經(jīng)非常凸出,需要新的解決方案,甚至是新的計(jì)算架構(gòu),看看市場(chǎng)上最近發(fā)布的一些人工智能和RISC-V產(chǎn)品,會(huì)發(fā)現(xiàn)一些公司發(fā)布的處理器里面有新的ISA,它們已經(jīng)開(kāi)始將RISC-V和GPU IP融合使用了。

通過(guò)指令擴(kuò)展將GPU功能添加到RISC-V架構(gòu)中很有創(chuàng)意,然而,二者融合這條路并不好走,最大的攔路虎就是架構(gòu)融合,以及生態(tài)系統(tǒng)建設(shè),需要的時(shí)間可能很長(zhǎng)。要將RISC-V指令集改編成非常適合GPU任務(wù)的指令集,需要大量投資來(lái)定義ISA擴(kuò)展,構(gòu)建高度復(fù)雜的微架構(gòu),并對(duì)開(kāi)源工具進(jìn)行重大調(diào)整。如果將RISC-V指令集融入GPU架構(gòu),幾乎所有RISC-V的固有優(yōu)勢(shì)都將被定制化稀釋掉,另外,RISC-V核心ISA功能會(huì)限制GPU在特定領(lǐng)域的可用性。

雖然,有諸多挑戰(zhàn),但鑒于RISC-V迅猛的發(fā)展勢(shì)頭,以及其在高性能計(jì)算領(lǐng)域的滲透決心,與同樣在高性能計(jì)算應(yīng)用領(lǐng)域如魚(yú)得水的GPU融合,前景還是很值得期待的。

不僅是國(guó)際巨頭,中國(guó)本土GPU廠商,特別是更具前瞻性的幾家創(chuàng)業(yè)公司,在發(fā)展GPU方面也需要研發(fā)更具競(jìng)爭(zhēng)力的技術(shù)和產(chǎn)品,而在當(dāng)下美國(guó)政府推出各種限制政策的大環(huán)境下,中國(guó)本土GPU芯片技術(shù)和生態(tài)系統(tǒng)建設(shè)可以拓展更多思路,將更多先進(jìn)的技術(shù)和理念融入相關(guān)產(chǎn)品。在本土企業(yè)客戶(hù)給出更多采用和試錯(cuò)空間的情況下,中國(guó)芯片企業(yè)或許可以加快追趕國(guó)際先進(jìn)GPU的步伐。

THEEND

最新評(píng)論(評(píng)論僅代表用戶(hù)觀點(diǎn))

更多
暫無(wú)評(píng)論