圖片來源GPT生成
本文來自鈦媒體,作者|秦聰慧。
搶算力的前提,是算力正在成為一種新的商業(yè)模式。大模型“煉丹”的熱潮會(huì)過去,算力服務(wù)商要做的是未雨綢繆,及時(shí)轉(zhuǎn)向。
使用全球40年的天氣數(shù)據(jù),用200張GPU卡進(jìn)行預(yù)訓(xùn)練,2個(gè)月左右的時(shí)間,訓(xùn)練出了參數(shù)量達(dá)億級(jí)的盤古氣象大模型。
這是清華大學(xué)畢業(yè)3年的畢愷峰訓(xùn)練大模型的故事。
不過,從成本上看,按照正常情況下,一張GPU 7.8元/小時(shí)計(jì)算,畢愷峰盤古氣象大模型的訓(xùn)練成本可能超出200萬。這還是氣象領(lǐng)域的垂直大模型,如果訓(xùn)練的是通用大模型,成本可能要翻百倍。
有數(shù)據(jù)統(tǒng)計(jì),中國當(dāng)下10億參數(shù)規(guī)模的大模型已經(jīng)超百個(gè)。然而行業(yè)蜂擁而上的大模型“煉丹”卻面臨著高端GPU一卡難求的無解題。算力成本高企,缺算力、缺資金也成為了擺在行業(yè)面前最直觀的問題。
高端GPU,有多缺?
“缺,當(dāng)然缺,但是我們能有什么辦法。”某大廠高管被問及是否缺算力問題時(shí)脫口而出。
這似乎已經(jīng)成了行業(yè)公認(rèn)的一道無解題,頂峰時(shí)期一張英偉達(dá)A100的價(jià)格已經(jīng)被炒到了二三十萬人民幣,單臺(tái)A100服務(wù)器的月租價(jià)格也飆到了5萬-7萬/月。但是即便如此,高昂的價(jià)格依然可能拿不到芯片,一些算力供應(yīng)商也遇到過供應(yīng)商跳票等之前很難遇到的奇葩經(jīng)歷。
一位云計(jì)算行業(yè)高管周立軍也談及類似的感受:“算力短缺的情況確實(shí)存在。我們有很多客戶都想要高端GPU資源,但能提供的也暫時(shí)無法完全滿足廣泛的市場需求。”
某云服務(wù)商搭載A100的高性能計(jì)算集群售罄界面
事實(shí)證明,高端GPU的短缺短期內(nèi)在全行業(yè)都無解。大模型爆發(fā),市場對(duì)算力的需求快速增長,但供給量增速遠(yuǎn)遠(yuǎn)沒有跟上。雖然算力供給長遠(yuǎn)來看一定會(huì)從賣方市場進(jìn)入買方市場,但這個(gè)時(shí)間究竟要多久,也是個(gè)未知。
各家都在盤算著自己手里有多少“貨”(英偉達(dá)GPU),甚至用這個(gè)來判斷市場份額。比如手里如果接近1萬張卡,市場總共是10萬張卡,那份額就是10%。“到年底保有量大概到4萬,如果市場是20萬的,那可能占20%的市場。”知情人士舉例表示。
一邊是買不到卡,一邊是大模型訓(xùn)練門檻并沒有業(yè)界烘托的那么容易“入門”。上述提到,畢愷峰盤古氣象大模型的訓(xùn)練成本可能超出200萬。但需要注意的是,畢愷峰盤古氣象大模型是在盤古通用大模型的基礎(chǔ)上訓(xùn)練出得垂直大模型,它的參數(shù)為億級(jí)。如果要訓(xùn)練一款十億規(guī)模參數(shù)或者更大規(guī)模的通用大模型,那么成本可能要十倍、百倍往上加。
“目前投資規(guī)模最大的是在訓(xùn)練,沒有幾十億的資本投入,很難下場去持續(xù)做大模型。”騰訊集團(tuán)副總裁、云與智慧產(chǎn)業(yè)事業(yè)群COO、騰訊云總裁邱躍鵬透露。
“跑得要快,至少在錢燒完之前能有成果拿到下一輪‘融資’。”一位創(chuàng)業(yè)者描述當(dāng)下大模型“戰(zhàn)況”,“這條路是條絕路。如果你沒有百億千億資金在后邊撐著,很難走得通。”
這一局面下,業(yè)內(nèi)的共同觀點(diǎn)是,隨著大模型市場的角逐廝殺,市場也會(huì)從狂熱到理性,企業(yè)也會(huì)隨著預(yù)期的變化來控制成本、調(diào)整策略。
無解下的積極應(yīng)對(duì)
沒條件,創(chuàng)造條件也要上——這似乎是大模型參與者中的多數(shù)心態(tài)。而如何創(chuàng)造條件,應(yīng)對(duì)真實(shí)存在的問題,各家也是方法頗多。
由于高端GPU芯片短缺,且中國市場能用的GPU不是最新代次,性能通常更低一些,所以企業(yè)需要更長的時(shí)間來訓(xùn)練大模型。這些公司也在尋找一些創(chuàng)新性的辦法來彌補(bǔ)算力短板。
其中一種方法是,使用更高質(zhì)量的數(shù)據(jù)去做訓(xùn)練,從而提升訓(xùn)練效率。
近期,信通院牽頭發(fā)布了《行業(yè)大模型標(biāo)準(zhǔn)體系及能力架構(gòu)研究報(bào)告》,其中就提到了大模型數(shù)據(jù)層的評(píng)估。報(bào)告建議,在數(shù)據(jù)質(zhì)量方面,由于其對(duì)模型的效果影響會(huì)很大,推薦引入人工的標(biāo)注和確認(rèn),至少從原始數(shù)據(jù)中挑選一定比例進(jìn)行標(biāo)注,從而構(gòu)建并嚴(yán)重高質(zhì)量的數(shù)據(jù)集。
除了通過高質(zhì)量數(shù)據(jù)減少大模型成本,對(duì)于業(yè)界來說,提升基礎(chǔ)架構(gòu)能力,實(shí)現(xiàn)千卡以上穩(wěn)定運(yùn)行兩周不掉卡,是技術(shù)難點(diǎn)也是構(gòu)建可靠基礎(chǔ)架構(gòu)、優(yōu)化大模型訓(xùn)練的方法之一。
“作為云服務(wù)商,我們會(huì)幫助客戶建立起穩(wěn)定可靠的基礎(chǔ)架構(gòu)。因?yàn)镚PU服務(wù)器卡的穩(wěn)定性會(huì)差一些,任何故障都會(huì)讓訓(xùn)練中斷,導(dǎo)致整體的訓(xùn)練時(shí)長增加。高性能計(jì)算集群,可以給到客戶更穩(wěn)定的服務(wù),也能相對(duì)減少訓(xùn)練時(shí)長、解決一些算力問題。”周立軍說。
同時(shí),算力卡資源調(diào)度也考驗(yàn)服務(wù)商的技術(shù)能力?;鹕揭嫒A東互聯(lián)網(wǎng)解決方案負(fù)責(zé)人徐巍告訴鈦媒體,擁有算力卡資源只是一方面,如何將卡資源調(diào)度起來,真正投入使用,是更具考驗(yàn)的核心能力、工程能力。“把一個(gè)卡拆成很多小卡,盡量能做到分布式的精細(xì)化的調(diào)度,可以更近一步降低算力成本。”徐巍說道。
網(wǎng)絡(luò)也影響大模型訓(xùn)練速度和效率。大模型訓(xùn)練動(dòng)輒千卡,連接幾百臺(tái)GPU服務(wù)器所要求的網(wǎng)絡(luò)速度極高,如果網(wǎng)絡(luò)有點(diǎn)擁塞,訓(xùn)練速度就會(huì)很慢,效率很受影響。“只要一臺(tái)服務(wù)器過熱宕機(jī),整個(gè)集群都可能要停下來,訓(xùn)練任務(wù)要重啟。這對(duì)云服務(wù)運(yùn)維能力與排查問題能力的要求非常高。”邱躍鵬說。
也有廠商另辟蹊徑,從云計(jì)算架構(gòu)過渡到超算架構(gòu)也成為減少成本的一種方法,即在都能滿足用戶需求的情況、非高通量計(jì)算的任務(wù)及并行任務(wù)場景下,超算云大概是云超算一半左右的價(jià)格,然后再通過性能優(yōu)化資源利用率可以從30%提高到60%。
另外,也有廠商選擇使用國產(chǎn)平臺(tái)做大模型的訓(xùn)練和推理以替代一卡難求的英偉達(dá)。“我們跟華為聯(lián)合發(fā)布了訊飛星火一體機(jī),能夠在國產(chǎn)平臺(tái)上自己做訓(xùn)練做推理,這是非常了不起的。我特別高興地告訴大家,華為的GPU能力現(xiàn)在已經(jīng)跟英偉達(dá)一樣,任正非高度重視,華為的三位董事到科大訊飛專班工作,現(xiàn)在已經(jīng)把它做到了能對(duì)標(biāo)英偉達(dá)的A100。”科大訊飛創(chuàng)始人、董事長劉慶峰曾表示。
上述方法,每一種都是一個(gè)相對(duì)大的工程,所以,一般企業(yè)是很難通過自建的數(shù)據(jù)中心來滿足,很多算法團(tuán)隊(duì)都選擇最專業(yè)的算力廠商來支持。這其中并行存儲(chǔ)也是很大的一種成本,以及技術(shù)能力,對(duì)應(yīng)的故障率的保障等等也屬于硬件成本的一部分。當(dāng)然甚至要考慮,IDC可用區(qū)電的成本,軟件、平臺(tái)、人員成本等運(yùn)營成本等等。
千卡級(jí)別的GPU集群才會(huì)有規(guī)?;?yīng),選擇算力服務(wù)商,等于說邊際成本為零。
中國工程院院士,中國科學(xué)院計(jì)算技術(shù)研究所研究員孫凝暉也曾在演講中提出,AIGC帶來人工智能產(chǎn)業(yè)的爆發(fā),而智能技術(shù)的規(guī)?;瘧?yīng)用具有典型長尾問題,即具備強(qiáng)AI能力的強(qiáng)勢部門(網(wǎng)安、九院九所和氣象局等)、科研院校與大中企業(yè)只占據(jù)算力需求主體的大約20%,另外80%則均為中小微企業(yè),這類主體受限于公司規(guī)模與預(yù)算,往往難以接入算力資源、或受限于算力的高昂價(jià)格,從而難以在AI時(shí)代浪潮中獲得發(fā)展紅利。
因此,要實(shí)現(xiàn)智能技術(shù)的規(guī)?;瘧?yīng)用,讓人工智能產(chǎn)業(yè)既“叫好”也“叫座”,需要大量便宜、易用的智能算力,讓中小微企業(yè)也能方便、便宜地使用算力。
而無論是大模型對(duì)算力的急切的需求,還是算力在應(yīng)用過程中需要解決的各種難題,這其中都需要注意的一個(gè)新變化是,算力已經(jīng)在市場需求和技術(shù)迭代的過程中,成為了一種新的服務(wù)模式。
探索算力服務(wù)新模式
我們?cè)趽尩拇竽P退懔κ鞘裁此懔??解答這個(gè)問題,需要先從算力服務(wù)說起。
從種類來講,算力分為通用算力、智能算力和超算算力,而這些算力成為一種服務(wù),是市場與技術(shù)雙重驅(qū)動(dòng)的結(jié)果。
《2023算力服務(wù)白皮書》(以下簡稱“白皮書”)對(duì)算力服務(wù)的定義是,算力服務(wù)以多樣性算力為基礎(chǔ),以算力網(wǎng)絡(luò)為鏈接,以供給有效的算力為目標(biāo)的算力產(chǎn)業(yè)新領(lǐng)域。
算力服務(wù)的本質(zhì),是通過全新計(jì)算技術(shù)實(shí)現(xiàn)異構(gòu)算力統(tǒng)一輸出,并與云、大數(shù)據(jù)、AI等技術(shù)交叉融合。算力服務(wù)中不僅只有算力,它是算力、存儲(chǔ)、網(wǎng)絡(luò)等資源的統(tǒng)一封裝,以服務(wù)形式(如API)完成算力交付。
了解這一點(diǎn)就會(huì)發(fā)現(xiàn),在搶英偉達(dá)芯片的,其實(shí)是很大一部分是算力服務(wù)提供方,即算力生產(chǎn)者。真正在前端調(diào)用算力API的行業(yè)使用者,只需要提出對(duì)應(yīng)的算力需求。
據(jù)鈦媒體App了解,從軟件方角度,所有的軟件交互產(chǎn)生的大模型使用分為三種,第一種大模型API調(diào)用,每家都有報(bào)價(jià),按價(jià)結(jié)算;第二個(gè)是自有小模型,自己購買算力,甚至是自己部署;第三種,大模型廠商和云廠商合作,也就是專署云,按月支付。“一般就是這三種,金山辦公當(dāng)前主要采用API調(diào)用,內(nèi)部小模型自己做了算力調(diào)度平臺(tái)。”金山辦公副總裁姚冬對(duì)鈦媒體App說。
算力產(chǎn)業(yè)鏈結(jié)構(gòu)圖,來源:中國信通院
也就是說,在算力結(jié)構(gòu)產(chǎn)業(yè)鏈中,上游企業(yè)主要完成實(shí)現(xiàn)對(duì)通用算力、智算算力、超算算力、存儲(chǔ)和網(wǎng)絡(luò)等算力服務(wù)的支撐資源的供給。例如在大模型算力爭奪戰(zhàn)中,英偉達(dá)就屬于上游算力基礎(chǔ)資源供應(yīng)方向行業(yè)供應(yīng)芯片,而這其中浪潮信息等服務(wù)器廠商股票應(yīng)聲上漲也是受到了市場需求的影響。
中游企業(yè)則以云服務(wù)商、新型算力服務(wù)提供商為主,他們的角色主要通過對(duì)算力的編排、算力調(diào)度、算力交易技術(shù)實(shí)現(xiàn)算力生產(chǎn),并通過API等方式完成算力供給。上述提到的算力服務(wù)商、騰訊云、火山引擎都處于這一環(huán)節(jié)。而算力服務(wù)中游企業(yè)的服務(wù)化能力越強(qiáng),對(duì)應(yīng)用方的門檻越低,越有助于算力的普惠、泛在化發(fā)展。
下游企業(yè),則是依靠算力服務(wù)提供的計(jì)算能力進(jìn)行增值服務(wù)生成制造的產(chǎn)業(yè)鏈角色,如行業(yè)用戶等。這部分用戶只需要提出需求,算力生產(chǎn)者則根據(jù)需求去配置對(duì)應(yīng)的算力完成用戶下達(dá)的“算力任務(wù)”。
這相比原來自己購買服務(wù)器搭建大模型算力環(huán)境,都更有成本和技術(shù)優(yōu)勢。畢愷峰訓(xùn)練盤古氣象大模型,應(yīng)該是直接調(diào)用了盤古大模型的底層即華為云的高性能計(jì)算服務(wù),那么其他大模型企業(yè)的使用算力或者說為算力付費(fèi)的過程會(huì)有什么不一樣嗎?
算力商業(yè)模式迭代
ChatGLM是最早一批推出的通用大模型,以智譜AI的ChatGLM算力使用為例,據(jù)已經(jīng)公開披露的消息,智譜AI使用了國內(nèi)多家主流AI算力服務(wù)商。“理論上應(yīng)該所有的都有用了。”知情人士表示,這其中可能還包括了國內(nèi)主流的算力服務(wù)商/云服務(wù)商。
按量計(jì)費(fèi)和包年包月計(jì)費(fèi)是當(dāng)前算力服務(wù)的主流模式,使用需求大致有兩種,一種是選擇對(duì)應(yīng)的算力服務(wù)實(shí)例,在某云服務(wù)商的官網(wǎng)界面,可提供搭載英偉達(dá)A800、A100、V100三種主流顯卡的高性能GPU服務(wù)器。
某算力服務(wù)商提供的高性能計(jì)算GPU顯卡類型
另一種是選擇對(duì)應(yīng)的MaaS服務(wù)平臺(tái),在MaaS平臺(tái)中對(duì)大模型進(jìn)行行業(yè)性的精調(diào)。以騰訊云TI-ONE平臺(tái)按量計(jì)費(fèi)刊例價(jià)為例,8C40G V100*1的配置,20.32元/小時(shí),可用于自動(dòng)學(xué)習(xí)-視覺、任務(wù)式建模、Notebook、可視化建模。
當(dāng)前行業(yè)也在推進(jìn)算力服務(wù)的“算網(wǎng)一體化融合”,通過對(duì)計(jì)算任務(wù)、算網(wǎng)資源狀態(tài)等信息的綜合判斷,形成可支持跨架構(gòu)、跨地域、跨服務(wù)商調(diào)度的算網(wǎng)編排方案,并完成相關(guān)資源部署。例如,只要存一筆錢,存到算力網(wǎng)絡(luò)里來,算力網(wǎng)絡(luò)中的分區(qū)可以隨意調(diào)用。根據(jù)應(yīng)用特點(diǎn),選擇最適合的分區(qū)、最快的分區(qū)、最具性價(jià)比的分區(qū),然后根據(jù)時(shí)長計(jì)費(fèi),從預(yù)存的資金中把費(fèi)用扣除。
云服務(wù)商也是如此,算力服務(wù)作為云服務(wù)一項(xiàng)獨(dú)特的產(chǎn)品,使他們迅速參與到算力產(chǎn)業(yè)鏈中來。
工業(yè)和信息化部數(shù)據(jù)顯示,2022年中國算力總規(guī)模達(dá)到180EFLOPS,位列全球第二。截至2022年,中國算力產(chǎn)業(yè)規(guī)模已經(jīng)達(dá)到1.8萬億。大模型算力很大程度上加速了算力產(chǎn)業(yè)的發(fā)展。
一種說法是,當(dāng)下的算力服務(wù),實(shí)際上是一種新型的“賣電”模式。只不過根據(jù)分工的不同,一部分算力服務(wù)商可能需要幫助用戶做更多系統(tǒng)性能調(diào)試、軟件安裝、大規(guī)模作業(yè)運(yùn)行值守和運(yùn)行特征分析,即一部分的最后一公里運(yùn)維工作。
隨著大模型高性能計(jì)算需求的常態(tài)化,脫胎于云服務(wù)的算力服務(wù),儼然快速進(jìn)入大眾視野,形成了獨(dú)特的產(chǎn)業(yè)鏈和商業(yè)模式。只不過在算力產(chǎn)業(yè)因大模型而爆發(fā)的伊始,高端GPU短缺、算力成本高企、搶“芯”形成了屬于這個(gè)時(shí)代的獨(dú)特風(fēng)景。
“現(xiàn)階段卷的是供應(yīng)鏈中誰能拿到卡,英偉達(dá)是目前整個(gè)行業(yè)的王者,所有的市場都被它控制,這是現(xiàn)狀。”知情人士評(píng)論。目前境況仿佛是,在供不應(yīng)求的情況下,誰能拿到卡,誰就可以去交付業(yè)務(wù)。
但并不是所有人都在搶“卡”,因?yàn)槎倘笔菚簳r(shí)的,問題總會(huì)解決。“做長期研究的人其實(shí)不搶,正常等著就行了,因?yàn)樗粫?huì)死。現(xiàn)在正兒八經(jīng)搶卡的只有一批創(chuàng)業(yè)公司,他們要保證自己可以活到明年。”上述人士稱。
在諸多不確定性中,算力成為一種服務(wù)是確定性趨勢,算力服務(wù)商要做的是隨時(shí)準(zhǔn)備,在大模型回歸理性、市場風(fēng)向快速轉(zhuǎn)變的時(shí)候,能未雨綢繆。
*注:應(yīng)受訪對(duì)象要求,周立軍為化名
(本文首發(fā)鈦媒體APP)