本文來(lái)自半導(dǎo)體行業(yè)觀察,作者/李飛。
Intel下一代旗艦級(jí)CPU Sapphire Rapids將會(huì)是Intel在CPU領(lǐng)域的一次重要新產(chǎn)品。該CPU將會(huì)使用Intel 7工藝,并且大規(guī)模使用了chiplet(芯片粒)技術(shù),從而讓單個(gè)CPU中可以包含高達(dá)60個(gè)核心,從而讓Intel不至于在高級(jí)封裝驅(qū)動(dòng)的下一代CPU競(jìng)爭(zhēng)中落后AMD。
Sapphire Rapids早在幾年前就已經(jīng)宣布要開(kāi)發(fā),而其正式出貨在多次推遲后,終于在最近幾個(gè)月有了更確定的消息。根據(jù)最近Intel發(fā)布的消息,Sapphire Rapids將在2023年正式出貨。而在9月底,Intel也在自家舉辦的活動(dòng)Innovation Event上發(fā)布了基于Sapphire Rapids樣片的demo,這也讓Sapphire Rapids的一些重要特性讓外界有了更加詳細(xì)的認(rèn)知。
在Sapphire Rapids的這些新特性中,除了chiplet這一個(gè)廣為人知的技術(shù)之外,最值得關(guān)注的就是使用了異構(gòu)計(jì)算的架構(gòu),集成了許多為專門計(jì)算領(lǐng)域優(yōu)化的加速器(domain specific accelerator,DSA)。在過(guò)去的幾十年中,由于CPU性能借著摩爾定律的高速發(fā)展而飛速提升,大多數(shù)時(shí)候用戶會(huì)考慮只使用CPU來(lái)處理所有的算法,即使用一個(gè)通用架構(gòu)來(lái)解決所有問(wèn)題。然而,隨著摩爾定律的發(fā)展接近瓶頸,使用一個(gè)通用架構(gòu)解決所有問(wèn)題已經(jīng)不再現(xiàn)實(shí),因?yàn)镃PU性能的發(fā)展速度已經(jīng)跟不上應(yīng)用的需求,因此異構(gòu)計(jì)算的思路得到了越來(lái)越多的重視,即為了重要的應(yīng)用專門設(shè)計(jì)相關(guān)的計(jì)算加速模塊,從而加速計(jì)算性能,同時(shí)也改善效率。
我們認(rèn)為Intel在下一代CPU Sapphire Rapids中引入大量異構(gòu)計(jì)算是一個(gè)里程碑式的事件,這是因?yàn)閭鹘y(tǒng)上來(lái)說(shuō)通用型CPU和異構(gòu)計(jì)算是兩個(gè)芯片設(shè)計(jì)陣營(yíng),通用CPU設(shè)計(jì)的時(shí)候會(huì)嘗試改善性能從而說(shuō)服用戶無(wú)需使用異構(gòu)計(jì)算;而Intel這次在Sapphire Rapids中主動(dòng)引入大量異構(gòu)計(jì)算加速器,這也說(shuō)明了異構(gòu)計(jì)算確實(shí)已經(jīng)成為極其重要的主流設(shè)計(jì)方案,與其單獨(dú)設(shè)計(jì)CPU然后讓其他公司去設(shè)計(jì)相關(guān)的異構(gòu)計(jì)算芯片搶走市場(chǎng),還不如在自己的CPU中主動(dòng)擁抱異構(gòu)計(jì)算,集成相關(guān)的加速器,來(lái)確保滿足用戶的需求。
具體來(lái)看,這次Intel在Sapphire Rapids中集成的獨(dú)立加速器主要包括動(dòng)態(tài)負(fù)載平衡模塊(DLB),數(shù)據(jù)流加速器(DSA),內(nèi)存內(nèi)分析加速器(IAA),以及快速協(xié)助模塊(QAT)。這些獨(dú)立的加速器是作為一個(gè)單獨(dú)模塊集成在CPU之外的。除了這些單獨(dú)加速模塊之外,Intel還在每個(gè)CPU核心中集成了用于矩陣計(jì)算加速的AMX模塊(Advanced Matrix Extensions)。
我們不妨來(lái)看一下這些加速模塊的具體功能。DLB的主要功能是加速不同服務(wù)器之間的負(fù)載均衡,從而保證服務(wù)器的大規(guī)模部署分布式計(jì)算。DSA主要用于加速CPU和存儲(chǔ)(NVMe以及TCP)之間的數(shù)據(jù)交換和數(shù)據(jù)轉(zhuǎn)換。IAA主要用于數(shù)據(jù)庫(kù)應(yīng)用,可以加速數(shù)據(jù)庫(kù)相關(guān)應(yīng)用中的數(shù)據(jù)壓縮和解壓。QAT主要用于網(wǎng)絡(luò)相關(guān)應(yīng)用中的數(shù)據(jù)壓縮和加密運(yùn)算。最后,AMX主要是用于人工智能相關(guān)的矩陣運(yùn)算。
我們可以看到,這些加速器幾乎都是針對(duì)目前最火熱的大數(shù)據(jù)應(yīng)用,主要目的都是改善這些大數(shù)據(jù)應(yīng)用中的痛點(diǎn)。DSA,IAA和QAT針對(duì)的應(yīng)用目前基本都是CPU是主要計(jì)算單元,但是由于在數(shù)據(jù)傳輸?shù)阮I(lǐng)域傳統(tǒng)CPU的效率不高,目前有不少公司試著在用專門的ASIC來(lái)取代CPU,因此Intel這次在Sapphire Rapids中引入這些加速器正是一個(gè)希望能保住這些市場(chǎng)中公司份額的舉動(dòng)。AMX主要針對(duì)矩陣運(yùn)算,目前雖然GPU是人工智能相關(guān)計(jì)算的主流計(jì)算單元,但是也有一些模型因?yàn)樾枰褂玫囊恍┧阕覩PU支持不夠好,仍然是在CPU上計(jì)算,而Intel的AMX正是針對(duì)這些模型的部署做加速。
異構(gòu)計(jì)算為軟件定義芯片鋪平道路
如前所述,Intel在Sapphire Rapids中加入了大量異構(gòu)計(jì)算特性,其主要目的是為了提升性能,確保市場(chǎng)競(jìng)爭(zhēng)力。而除了這之外,異構(gòu)計(jì)算其實(shí)還有另外一個(gè)優(yōu)勢(shì),就是可以實(shí)現(xiàn)軟件定義芯片。這是因?yàn)楫悩?gòu)計(jì)算中,不同的加速器模塊相對(duì)獨(dú)立,因此可以通過(guò)軟件的方式來(lái)實(shí)現(xiàn)控制這些加速器的開(kāi)關(guān)。這也事實(shí)上讓付費(fèi)訂閱芯片功能這樣的商業(yè)模型成為了可行:使用同一款芯片,用戶可以在不同的時(shí)間點(diǎn)根據(jù)需求靈活訂閱相關(guān)的芯片功能并支付相關(guān)的費(fèi)用,從而讓整個(gè)芯片的購(gòu)買和使用過(guò)程更加靈活。
對(duì)這樣新商業(yè)模式的嘗試也正是Intel在Sapphire Rapids里計(jì)劃要做的。Intel之前把這樣的模式稱為Software Defined Silicon(SDSi),而在上周Intel剛剛發(fā)布的針對(duì)該功能的正式Linux代碼中,該模式被改名成了Intel On-Demand(IOD)。根據(jù)Intel公布的代碼,IOD將會(huì)首先檢測(cè)相關(guān)的加速器IP是否存在于對(duì)應(yīng)的物理芯片中,而在檢測(cè)到相關(guān)的加速器IP之后,管理員可以通過(guò)IOD來(lái)激活這些加速器IP。同時(shí),IOD還可以統(tǒng)計(jì)這些相關(guān)加速器IP的使用頻率,從而幫助系統(tǒng)管理員來(lái)決定要購(gòu)買哪種對(duì)應(yīng)的付費(fèi)訂閱方案。
隨著先進(jìn)半導(dǎo)體工藝的成本越來(lái)越高,事實(shí)上使用軟件定義芯片正在成為越來(lái)越合理。使用軟件定義芯片,芯片設(shè)計(jì)公司只需要設(shè)計(jì)一款芯片,然后可以通過(guò)軟件的形式來(lái)針對(duì)不同的用戶群體。這樣一來(lái),芯片公司就無(wú)需為了不同的受眾群體而設(shè)計(jì)多款不同的芯片,因?yàn)樵谙冗M(jìn)半導(dǎo)體工藝中,每一款芯片的NRE成本都是非常高的。當(dāng)然,軟件定義芯片造成了芯片面積的一些浪費(fèi)(例如入門級(jí)用戶可能不會(huì)付費(fèi)激活大多數(shù)加速器IP),但是在NRE成本越來(lái)越高的今天,通過(guò)一些芯片面積來(lái)交換較低的總NRE成本正在成為越來(lái)越合理的選擇。
軟件和異構(gòu)計(jì)算引領(lǐng)行業(yè)變革
隨著摩爾定律逐漸走向飽和,軟件(包括狹義的軟件定義芯片和廣義的軟件-芯片協(xié)同優(yōu)化)和異構(gòu)計(jì)算將會(huì)引領(lǐng)高性能計(jì)算芯片繼續(xù)演進(jìn)。從行業(yè)上來(lái)看,除了上文討論的Intel之外,AMD和Nvidia在相關(guān)方向上都有重要的布局。
AMD在異構(gòu)計(jì)算和軟件方面的布局主要包括對(duì)于Xilinx的收購(gòu)和在高性能計(jì)算GPU(CDNA系列)領(lǐng)域的軟件生態(tài)投資。收購(gòu)FPGA領(lǐng)域的領(lǐng)導(dǎo)者Xilinx確保了AMD有機(jī)會(huì)能把FPGA技術(shù)和處理器業(yè)務(wù)整合在一起,而FPGA正是異構(gòu)計(jì)算的一個(gè)重要范式之一。在軟件方面,AMD繼續(xù)大力投資CDNA系列GPU和相關(guān)軟件生態(tài)(包括與CUDA競(jìng)爭(zhēng)的ROCM生態(tài)),預(yù)計(jì)在未來(lái)5-10年內(nèi)會(huì)把CDNA系列GPU生態(tài)打造成和Nvidia生態(tài)有一較高下的實(shí)力。
Nvidia在軟件生態(tài)方面擁有護(hù)城河極高的CUDA,我們認(rèn)為在可預(yù)計(jì)的將來(lái)該軟件生態(tài)將會(huì)成為Nvidia繼續(xù)大力布局的領(lǐng)域同時(shí)也將是Nvidia最大的競(jìng)爭(zhēng)力來(lái)源之一。隨著AMD和Intel進(jìn)一步在GPU和AI加速卡領(lǐng)域的投資,該領(lǐng)域的競(jìng)爭(zhēng)會(huì)變得愈加激烈,軟件生態(tài)也將會(huì)成為決定市場(chǎng)競(jìng)爭(zhēng)力最關(guān)鍵的核心之一。在異構(gòu)計(jì)算領(lǐng)域,我們也看到了Nvidia在GPU設(shè)計(jì)中越來(lái)越針對(duì)相關(guān)算法做專用加速器,例如針對(duì)整數(shù)計(jì)算的Tensor Core,以及在最新Hopper系列GPU中加入的Transformer Engine IP。另外一個(gè)不容小覷的方向是Nvidia自動(dòng)駕駛芯片,在Nvidia公布的Orin等自動(dòng)駕駛芯片中,我們可以看到它集成了多種針對(duì)專門應(yīng)用的加速器,可謂是異構(gòu)計(jì)算的典范。
我們預(yù)計(jì),整個(gè)高性能計(jì)算芯片行業(yè)都會(huì)繼續(xù)大力布局軟件和異構(gòu)計(jì)算,而在某一個(gè)時(shí)間點(diǎn),軟件和異構(gòu)計(jì)算將會(huì)慢慢融合,例如針對(duì)特定算法應(yīng)用優(yōu)化的異構(gòu)計(jì)算IP(軟件芯片協(xié)同優(yōu)化),同時(shí)通過(guò)軟件定義芯片的方式來(lái)實(shí)現(xiàn)潛在的新商業(yè)模式。整個(gè)行業(yè)將會(huì)看到越來(lái)越多在軟件方面的投資和收購(gòu)(例如Intel不久之前對(duì)于codeplay的收購(gòu)),同時(shí)整個(gè)芯片設(shè)計(jì)范式將會(huì)看到越來(lái)越多軟件和芯片設(shè)計(jì)的協(xié)同優(yōu)化。