本文來自微信公眾號“AI芯天下”,作者/方文三。
在人工智能的快速發(fā)展中,大語言模型(LLM)已成為研究和應(yīng)用的熱點。
隨著對計算性能和能效比的不斷追求,傳統(tǒng)的GPU加速方案正面臨新的挑戰(zhàn)。
FPGA的優(yōu)勢在AI時代凸顯
FPGA正在逐步確立其在人工智能和高性能計算領(lǐng)域作為GPU的有力替代品的地位,F(xiàn)PGA的核心優(yōu)勢在于其出色的可編程特性。
FPGA具備改變內(nèi)部電路的能力,使之成為原型設(shè)計和開發(fā)中的優(yōu)選工具。
工程師可以依托FPGA實現(xiàn)快速迭代,對不同硬件配置進行測試,直至找到解決特定問題的最佳方案。
在延遲和功耗方面,F(xiàn)PGA通常較GPU表現(xiàn)更為優(yōu)越,特別是在針對特定任務(wù)進行精細化調(diào)整時。
開發(fā)人員能夠針對特定任務(wù)定制硬件加速器,這些任務(wù)可能并不適應(yīng)GPU的固定架構(gòu)。
這一特性賦予了FPGA高度的靈活性,使其能夠微調(diào)硬件設(shè)計以最大化效率。
然而,在圖形處理方面,需要指出的是,高性能專用GPU仍具備更出色的性能和功耗表現(xiàn)。
FPGA為那些需要高度可定制和節(jié)能的硬件加速和實時處理特定應(yīng)用提供了解決方案。
隨著人工智能技術(shù)的快速發(fā)展,F(xiàn)PGA的可編程性優(yōu)勢逐漸凸顯,特別是在需要頻繁調(diào)整底層模型的人工智能推理場景中。
盡管如此,需要明確的是,F(xiàn)PGA并不會成為構(gòu)建大規(guī)模人工智能系統(tǒng)時數(shù)千個GPU的有力競爭對手。
然而,隨著人工智能在電子領(lǐng)域的廣泛應(yīng)用,F(xiàn)PGA的應(yīng)用范圍將得到進一步拓展。
FPGA與GPU在AI領(lǐng)域的特性對比
①性能與功耗對比:在AI領(lǐng)域,F(xiàn)PGA和GPU的性能和功耗是衡量性價比的關(guān)鍵指標。
根據(jù)Achronix的基準測試結(jié)果,其Speedster7t FPGA在運行Llama2 70B模型時,每token的成本比GPU解決方案低200%,同時在功耗上也顯示出200%的提高。
這表明FPGA在特定場景下,如LLM的推理任務(wù),可能提供更高的性價比。
②靈活性與定制性:FPGA的另一個顯著優(yōu)勢是其靈活性和定制性。
與GPU相比,F(xiàn)PGA可以針對特定算法進行硬件級別的優(yōu)化,從而減少不必要的計算和存儲開銷。
例如,AMD的Alveo V80加速卡利用Versal FPGA自適應(yīng)SoC和HBM技術(shù),為需要低延遲和高帶寬的AI應(yīng)用提供了強大的支持。
③市場定位與應(yīng)用場景:FPGA在AI領(lǐng)域的市場定位主要集中在對實時處理和低延遲有嚴格要求的應(yīng)用場景。
例如,英特爾的Stratix 10 NX FPGA通過集成神經(jīng)處理單元(NPU),在AI性能上實現(xiàn)了顯著提升,特別適合數(shù)據(jù)中心、網(wǎng)絡(luò)和嵌入式市場中的AI應(yīng)用。
④成本效益分析:雖然FPGA的初始投資成本可能高于GPU,但其在長期運營中的能效和可編程性可能帶來更高的總體擁有成本(TCO)優(yōu)勢。
特別是在算法不斷迭代和優(yōu)化的LLM時代,F(xiàn)PGA的靈活性可以減少因技術(shù)過時導致的硬件更換成本。
FPGA與GPU的性能成本對應(yīng)不同場景選擇
GPU主要擅長浮點、并聯(lián)、定點,可以提供大量的HBM;
但FPGA更擅長實時處理,具備低時延、靈活應(yīng)變的特點,有非常豐富的存儲器架構(gòu)資源,就像樂高積木一樣,可以自定義進行拼接和拼裝。
在性能方面,F(xiàn)PGA和GPU各有優(yōu)勢。FPGA以其并行處理能力和可定制的硬件邏輯在某些特定任務(wù)上展現(xiàn)出更高的性能。
例如,對于需要快速響應(yīng)的實時AI應(yīng)用,F(xiàn)PGA能夠提供更低的延遲。
而GPU則在處理大規(guī)模并行任務(wù)時表現(xiàn)出色,特別是在深度學習訓練階段。
根據(jù)相關(guān)研究,F(xiàn)PGA在執(zhí)行某些AI算法時,如卷積神經(jīng)網(wǎng)絡(luò)(CNN)的推理,性能可以超越GPU。
FPGA的初始購買成本通常高于GPU,但FPGA的能效比較高,長期運營成本可能更低。
此外,F(xiàn)PGA的可編程性意味著它們可以適應(yīng)新的算法和模型,減少了因技術(shù)迭代而產(chǎn)生的升級成本。
能效比是衡量性價比的重要指標之一。FPGA由于其硬件可定制性,能夠針對特定任務(wù)優(yōu)化能耗,通常在能效比上優(yōu)于GPU。
特別是在推理任務(wù)中,F(xiàn)PGA的低功耗特性可以顯著降低數(shù)據(jù)中心的運營成本。
不同的AI應(yīng)用場景對硬件的需求不同。FPGA更適合對延遲敏感、需要快速響應(yīng)的應(yīng)用,如自動駕駛、實時語音識別等。
而GPU則更適合于需要處理大量數(shù)據(jù)和進行復雜計算的場景,如大規(guī)模圖像和視頻處理。
因此,在選擇FPGA或GPU時,需要根據(jù)應(yīng)用場景的具體需求進行匹配。
英偉達通過推出如A100等高性能GPU,英偉達在AI和數(shù)據(jù)中心市場占據(jù)了領(lǐng)先地位。英偉達還提供CUDA等開發(fā)平臺,以支持深度學習和并行計算。
AMD通過推出具有競爭力的GPU產(chǎn)品,如Radeon系列和Instinct系列,針對游戲、專業(yè)圖形和數(shù)據(jù)中心市場。
從性價比的角度來看,F(xiàn)PGA在某些特定領(lǐng)域表現(xiàn)出了優(yōu)勢。
Achronix的Speedster7t FPGA在LLM的基準測試中顯示出比GPU更高的性價比,其每token的價格提高了200%,同時功耗也有所提高。
AMD推出的Alveo V80 FPGA加速卡,特別適合需要低時延和高計算密度的應(yīng)用場景,如高性能計算、數(shù)據(jù)分析等。
英特爾的Stratix 10 NX FPGA通過集成神經(jīng)處理單元(NPU)顯著提升了AI性能,與英偉達的GPU相比具有更高的性能。
GPU市場繼續(xù)占大頭,F(xiàn)PGA全速追趕
GPU作為AI服務(wù)器的核心增量,占據(jù)了AI芯片市場的大部分份額,預計到2025年仍將占據(jù)80%以上。
中國GPU市場規(guī)模在2022年達到83.6億美元,預計2023年將達到111億美元。
2022年至2023年間,F(xiàn)PGA市場規(guī)模維持在90億至100億美元之間,并以7%至8%的復合年增長率持續(xù)增長。
到2028年,基于FPGA的解決方案將有望實現(xiàn)額外的30億美元市場增長空間。
然而,盡管FPGA市場前景廣闊,但目前在中國AI芯片市場中,F(xiàn)PGA的占有率仍然相對較低。
根據(jù)IDC數(shù)據(jù),2022年中國AI芯片市場中,GPU占比高達約89.0%,而FPGA等其他芯片的市場占有率共計超過10%,其中FPGA僅占0.4%。
預計2021年至2027年,F(xiàn)PGA市場將以12%的年復合增長率持續(xù)增長,并有望達到130億美元的規(guī)模。
尤其值得一提的是,中國市場預計將呈現(xiàn)出更快的增長速度,未來5年的增長率有望保持在18%左右。
越來越多的廠商布局FPGA賽道
GPU市場由英偉達和AMD等企業(yè)占據(jù)主導地位,提供涵蓋消費級至數(shù)據(jù)中心級的廣泛產(chǎn)品線,以滿足不同領(lǐng)域的需求。
在FPGA市場,賽靈思與英特爾共同占據(jù)超過七成的市場份額,兩家企業(yè)憑借高度可定制化的產(chǎn)品,有效滿足了特定行業(yè)客戶的多樣化需求。
自2018年左右起,賽靈思(現(xiàn)已被AMD收購)便洞察到FPGA在算力市場的巨大潛力,并確立了[數(shù)據(jù)中心優(yōu)先]的戰(zhàn)略布局。
隨后,該公司發(fā)布了Versal自適應(yīng)計算加速平臺,這一創(chuàng)新產(chǎn)品已超越傳統(tǒng)FPGA的范疇,通過內(nèi)部可編程引擎引入多個自適應(yīng)數(shù)據(jù)流組織的AI Core,從而成為承載AI等數(shù)據(jù)密集型運算的核心力量。
賽靈思在FPGA的AI領(lǐng)域,設(shè)計了一套專門的硬件體系來支撐數(shù)據(jù)密集型運算。
Versal ACAP集成了標量處理引擎、自適應(yīng)硬件引擎、智能引擎以及先進的存儲器和接口技術(shù),顯著提升了異構(gòu)加速性能。
相較于賽靈思通過獨立于傳統(tǒng)FPGA結(jié)構(gòu)之外的AI Core陣列來承載AI運算,英特爾在FPGA的AI技術(shù)路線上表現(xiàn)得相對保守。
其主要策略是將FPGA內(nèi)部的DSP模塊升級為AI張量模塊,使其成為FPGA內(nèi)部的一個組成部分。
鑒于AI算法的核心在于高效的張量運算,英特爾的這一技術(shù)路線旨在通過優(yōu)化DSP模塊以適應(yīng)AI張量運算的需求。
在AMD完成對賽靈思的收購之際,賽靈思亦公布了AIE(人工智能引擎)架構(gòu)。
而英特爾在2020年推出了首款AI優(yōu)化的FPGA——Stratix 10 NX FPGA,其中集成了名為神經(jīng)處理單元(NPU)的AI軟處理器。
經(jīng)測試,該FPGA在性能上相較于英偉達T4 GPU和V100 GPU具有顯著優(yōu)勢。
近年來,隨著AI應(yīng)用逐漸轉(zhuǎn)向低延遲、高安全性和私密性的處理場景,高端FPGA的特性正逐漸滲透到中端應(yīng)用領(lǐng)域。
網(wǎng)絡(luò)邊緣計算、智能終端設(shè)備等市場展現(xiàn)出巨大的發(fā)展?jié)摿Γ藝鴥?nèi)外眾多廠商加大對中端FPGA領(lǐng)域的投入。
專注于低功耗FPGA的Lattice公司近年來亦加大了在中端市場的布局力度。
與此同時,英特爾也開始關(guān)注中端FPGA市場的機遇。
盡管過去英特爾的FPGA產(chǎn)品主要面向高端應(yīng)用市場,但隨著Agilex D系列FPGA和代號Sundance Mesa的Agilex FPGA的推出,英特爾正逐步將業(yè)務(wù)重心拓展至中端市場。
國內(nèi)FPGA廠商亦在積極面向AI領(lǐng)域進行創(chuàng)新。例如,京微齊力在其FPGA產(chǎn)品中采用了Imagination的Series3NX AI核,以支持AIoT應(yīng)用、邊緣端AI視頻分析處理應(yīng)用等場景。
該公司通過將FPGA、CPU、AI等多種異構(gòu)計算單元集成于同一芯片上,強調(diào)了硬件的可重構(gòu)特性,從而實現(xiàn)了高定制水平和能效提升。
2024年6月,AMD推出了首款針對大規(guī)模數(shù)據(jù)處理市場的加速卡產(chǎn)品——Alveo V80。
該產(chǎn)品不僅采用了Versal FPGA自適應(yīng)SoC技術(shù),還集成了HBM,非常適用于高性能計算、數(shù)據(jù)分析、金融科技、網(wǎng)絡(luò)安全、存儲以及AI計算等多樣化應(yīng)用場景。
FPGA會進一步搶占LLM和邊緣AI市場
①在數(shù)據(jù)中心領(lǐng)域,IPU作為一種與至強可擴展處理器協(xié)同工作的器件,發(fā)揮著服務(wù)器中服務(wù)器的關(guān)鍵作用。
每一個IPU器件均基于FPGA技術(shù)構(gòu)建,為數(shù)據(jù)中心提供強大的計算能力。
②在網(wǎng)絡(luò)領(lǐng)域,當前市場正經(jīng)歷著巨大的變革,如可編程網(wǎng)絡(luò)的不斷擴展和智能邊緣的崛起。
為應(yīng)對這些變化,我們需要在整個網(wǎng)絡(luò)中進行協(xié)同增效。
EPF、時間敏感性網(wǎng)絡(luò)(TSN)以及P4可編程解決方案等技術(shù)將成為未來市場的重要機遇。
而英特爾的IPU/SmartNIC則被視為驅(qū)動下一代網(wǎng)絡(luò)的核心技術(shù)。
③在嵌入式系統(tǒng)領(lǐng)域,如交通汽車和零售等行業(yè),AI/ML技術(shù)的廣泛應(yīng)用正在不斷提升生產(chǎn)效率和安全性。
FPGA憑借其獨特的優(yōu)勢,在這些領(lǐng)域能夠顯著降低總體擁有成本(TCO)。
結(jié)尾:可能在某些應(yīng)用場景中實現(xiàn)技術(shù)融合
在未來,隨著技術(shù)的不斷進步和市場的持續(xù)擴大,F(xiàn)PGA和GPU有潛力在某些特定應(yīng)用場景中實現(xiàn)技術(shù)融合,以應(yīng)對日益復雜的計算需求。
舉例來說,F(xiàn)PGA可望在特定任務(wù)的加速方面發(fā)揮關(guān)鍵作用,而GPU則在大規(guī)模數(shù)據(jù)處理方面具備顯著優(yōu)勢。
通過將兩者有機結(jié)合,可以構(gòu)建出更加高效且靈活的計算架構(gòu),從而滿足各種復雜的計算需求。
此外,隨著新型計算技術(shù)如光子計算和量子計算的不斷涌現(xiàn),AI硬件市場正迎來前所未有的創(chuàng)新和發(fā)展機遇。
長遠來看,F(xiàn)PGA和GPU等技術(shù)將在不同應(yīng)用場景中各自展現(xiàn)其獨特優(yōu)勢,共同推動AI硬件市場的持續(xù)繁榮。
最終,是否選擇FPGA或GPU作為AI加速方案,將取決于具體的應(yīng)用需求、預算限制、技術(shù)成熟度以及長期投資回報等因素的綜合考量。
市場將由技術(shù)發(fā)展、應(yīng)用需求和成本效益共同決定,以實現(xiàn)最佳的計算性能和經(jīng)濟效益。
部分資料參考:電子工程世界:《LLM時代,F(xiàn)PGA跑AI會比GPU更強嗎?》,大眼仔生活圈:《芯片之爭:GPU vs CPU vs FPGA,誰將主導人工智能未來?》,Java學研大本營:《FPGA對比GPU,優(yōu)劣勢與應(yīng)用場景分析》,與非網(wǎng):《算力競速,F(xiàn)PGA如何擁抱AI大時代?》