本文來(lái)自微信公眾號(hào)“數(shù)據(jù)猿”,文/摘星狐貍。
在當(dāng)代人工智能領(lǐng)域中,如果將算力比作是AI的燃料,那么大模型則相當(dāng)于AI的發(fā)動(dòng)機(jī)。算力充當(dāng)著AI體系運(yùn)作的根基,使得復(fù)雜的算法和模型得以運(yùn)行,大模型則將這些算力轉(zhuǎn)換為具體的智能輸出。而開(kāi)源大模型則是人人都能用得上的發(fā)動(dòng)機(jī)。
在信息技術(shù)的發(fā)展歷程中,開(kāi)源社區(qū)的作用就像是催化劑,它加速了知識(shí)的共享、技術(shù)的創(chuàng)新和問(wèn)題的解決,讓一項(xiàng)新技術(shù)以最短的時(shí)間迭代完善。這種開(kāi)放協(xié)作的精神如今也在推動(dòng)大模型的發(fā)展。作為人工智能領(lǐng)域的前沿技術(shù),大模型的復(fù)雜度和研發(fā)成本都相對(duì)較高,開(kāi)源社區(qū)的存在極大地降低了這些門檻。
本文將梳理國(guó)內(nèi)外開(kāi)源大模型的發(fā)展現(xiàn)狀,對(duì)比不同開(kāi)源模型的技術(shù)路線,尤其是中國(guó)開(kāi)發(fā)者的探索和嘗試,找出數(shù)據(jù)背后隱藏的大模型發(fā)展趨勢(shì)。
開(kāi)源大模型的演進(jìn)–從探索到突破
大模型受到廣泛關(guān)注無(wú)疑是從OpenAI的ChatGPT開(kāi)始的,而其背后的GPT-3.5和GPT-4都是閉源模型。給人的感覺(jué)似乎是整個(gè)大模型行業(yè)就是由閉源模型撬動(dòng)的,然而事實(shí)恰恰相反。
早在2018年,谷歌就開(kāi)源了基于Transformer架構(gòu)的BERT模型,打破了語(yǔ)言模型只能順序讀取文本的印象。通過(guò)雙向輸入,BERT可以在兩個(gè)不同但相關(guān)的NLP任務(wù)上進(jìn)行預(yù)訓(xùn)練:掩碼語(yǔ)言建模(MLM)和下一句預(yù)測(cè)(NSP)。這使得BERT能夠建立上下文來(lái)幫助計(jì)算機(jī)理解文本中的歧義。同時(shí),BERT-large擁有3.4億參數(shù),使用大量文本進(jìn)行預(yù)訓(xùn)練,并且可以使用問(wèn)答數(shù)據(jù)集進(jìn)行微調(diào)。這也奠定了后來(lái)“大規(guī)模參數(shù)+預(yù)訓(xùn)練+微調(diào)”的模板。
2019年,OpenAI開(kāi)源了GPT-2。相比BERT,GPT-2的生成能力更強(qiáng),預(yù)訓(xùn)練數(shù)據(jù)集也更大。而此后的開(kāi)源模型也逐漸朝著“更多參數(shù),更大數(shù)據(jù)集,更長(zhǎng)上下文”的方向發(fā)展。
BERT模型與GPT模型對(duì)比圖
2022年,OpenAI的GPT-3橫空出世,參數(shù)量來(lái)到了1750億,而基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)的概念也深入人心。從這時(shí)起,OpenAI便一路領(lǐng)跑。但即便如此,OpenAI的CEO山姆·奧特曼(Sam Altman)也承認(rèn),OpenAI的最終目標(biāo)是開(kāi)放的通用人工智能。
由于大模型的訓(xùn)練成本高昂,很多企業(yè)從商業(yè)角度考慮,選擇閉源自家的大模型。也有一些企業(yè)擔(dān)心開(kāi)源之后,被濫用的模型會(huì)帶來(lái)安全風(fēng)險(xiǎn)。盡管如此,開(kāi)源社區(qū)依然在蓬勃發(fā)展。
2023年,Meta開(kāi)源LLaMA模型,最大參數(shù)量650億,訓(xùn)練數(shù)據(jù)量達(dá)到2.0 T tokens。
2024年3月,xAI開(kāi)源Grok模型,最大參數(shù)量3140億,是目前開(kāi)源模型中參數(shù)規(guī)模最大的。
與此同時(shí),國(guó)內(nèi)的開(kāi)源大模型也開(kāi)始嶄露頭角,清華大學(xué)聯(lián)合智譜AI開(kāi)源的GLM系列模型就是其中的代表。
全球視角–開(kāi)源大模型的玩家們
根據(jù)IISS發(fā)布的報(bào)告,目前參與開(kāi)發(fā)大模型的主要國(guó)家是中國(guó)和美國(guó),此外還有英國(guó)、法國(guó)、韓國(guó)、俄羅斯、以色列,以及眾多的跨國(guó)企業(yè)和研究機(jī)構(gòu)。如下圖所示,全球大模型的算力需求快速增長(zhǎng),各國(guó)都投入了大量資源建立自己的模型。
全球大語(yǔ)言模型算力需求趨勢(shì)圖
模型的開(kāi)發(fā)者們嘗試了多樣化的發(fā)布方案,包括不發(fā)布模型(如谷歌截至2023年3月21日對(duì)Bard的限量公開(kāi))、對(duì)API輸出進(jìn)行限制(例如OpenAI雖然開(kāi)放了GPT-4的API調(diào)用,但是在固定時(shí)間內(nèi)的調(diào)用次數(shù)非常有限)、在非商業(yè)性許可下共享模型(Meta開(kāi)源了LLaMA,任何人都可以使用,只有在產(chǎn)品的月活用戶數(shù)超過(guò)7億的情況下才需要Meta的專門許可),以及將模型完整地、可下載地放到網(wǎng)上(類似于EleutherAI和BigScience研究組的做法)。
總的來(lái)說(shuō),研究機(jī)構(gòu)和跨國(guó)公司更傾向于將模型開(kāi)源。對(duì)于前者來(lái)說(shuō),開(kāi)源除了能推動(dòng)創(chuàng)新,也能一定程度上規(guī)避重復(fù)工作的風(fēng)險(xiǎn)。而對(duì)于后者來(lái)說(shuō),通過(guò)開(kāi)源,公司可以展示其技術(shù)實(shí)力,增強(qiáng)品牌影響力,吸引潛在的客戶和合作伙伴(尤其是研發(fā)人才),甚至將開(kāi)源生態(tài)打造成自身的競(jìng)爭(zhēng)優(yōu)勢(shì)。比如阿里巴巴,既開(kāi)源了QWen大模型,也推出了商用版本,阿里云上也有其他的大模型。
要平衡開(kāi)源和商業(yè)并不容易。對(duì)于開(kāi)源部分要有清晰的許可證和商業(yè)使用條款,而對(duì)于商業(yè)部分,一方面要讓用戶和開(kāi)發(fā)者了解開(kāi)源模型和商業(yè)模型之間的區(qū)別,保持足夠的透明度,另一方面也需要有相應(yīng)策略來(lái)確保開(kāi)源模型的商用不會(huì)導(dǎo)致與社區(qū)的利益沖突。在行業(yè)大發(fā)展的背景下,開(kāi)源利大于弊。
根據(jù)大模型之家的測(cè)算,2024年,全球大模型市場(chǎng)規(guī)模將達(dá)到280億美元,到2028年,其規(guī)模將達(dá)到1095億美元。
如此龐大的市場(chǎng),中國(guó)又在其中占有怎樣的分量呢?
據(jù)大數(shù)據(jù)之家的預(yù)測(cè),到2024年,中國(guó)大模型產(chǎn)業(yè)的規(guī)模有望達(dá)到216億人民幣,
并預(yù)計(jì)在2028年將增至1179億人民幣。
這一市場(chǎng)不僅廣闊,而且發(fā)展迅速,加之國(guó)內(nèi)龐大的工程師隊(duì)伍,為本土大模型的成長(zhǎng)和擴(kuò)張創(chuàng)造了有利的外部環(huán)境。那么當(dāng)前的競(jìng)爭(zhēng)格局又呈現(xiàn)出怎樣的特點(diǎn)呢?
開(kāi)源大模型全景–核心玩家和他們的模型
2024年4月18日,Meta發(fā)布了最新開(kāi)源模型Llama 3,這個(gè)模型有80億(8B)和700億(70B)兩個(gè)版本的參數(shù)。Llama 3是基于超過(guò)15萬(wàn)億(15T)token的數(shù)據(jù)集進(jìn)行訓(xùn)練的,數(shù)據(jù)集的大小是Llama 2的七倍,而且包含了四倍的代碼數(shù)據(jù)。
谷歌在2月份開(kāi)源的Gemma大模型,嘗試用2B和7B的參數(shù)規(guī)模,實(shí)現(xiàn)同尺寸范圍內(nèi)的最佳性能。
Mistral AI開(kāi)源了全球首個(gè)“專家混合”架構(gòu)(MoE)的大模型Mixtral 8x7B,為AI Agent的發(fā)展新添了一把火。而hugging-face網(wǎng)站上的開(kāi)源大模型排行榜,則記錄了更多玩家的身影。
回到國(guó)內(nèi)這邊,2022年8月,清華大學(xué)開(kāi)源中英雙語(yǔ)預(yù)訓(xùn)練模型GLM-130B,使用通用模型算法進(jìn)行預(yù)訓(xùn)練。2023年6月,百川智能發(fā)布開(kāi)源可商用大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型Baichuan-7B,支持中英雙語(yǔ)。2023年10月,智譜AI開(kāi)源ChatGLM3系列模型。2023年11月,vivo開(kāi)源70億參數(shù)的大模型。2023年12月,阿里云開(kāi)源Qwen-72B、Qwen-1.8B和Qwen-AudioQwen大模型。
目前大模型的評(píng)價(jià)指標(biāo)還沒(méi)有形成權(quán)威的標(biāo)準(zhǔn),大部分都是在一些測(cè)試集上得出結(jié)果,而測(cè)試集很容易過(guò)擬合。借用Moonshot AI/Kimi創(chuàng)始人楊植麟的話說(shuō),大模型就像是新時(shí)代的計(jì)算機(jī),參數(shù)規(guī)模相當(dāng)于CPU,上下文長(zhǎng)度相當(dāng)于內(nèi)存。從這個(gè)角度出發(fā),筆者統(tǒng)計(jì)了目前國(guó)內(nèi)外主要開(kāi)源大模型的性能如下(截止到2024年1月):
技術(shù)路徑選擇-開(kāi)源大模型的多維探索
目前絕大多數(shù)的開(kāi)源大模型都是基于Transformer架構(gòu),其主導(dǎo)地位至今無(wú)人能撼動(dòng)。但是反對(duì)的聲音也不是沒(méi)有,比如“Transformer的效率太低”、“Transformer無(wú)法實(shí)現(xiàn)AGI”等等。這是因?yàn)門ransformer模型的優(yōu)勢(shì)同樣也是其劣勢(shì)所在:該模型核心的自注意力機(jī)制雖然強(qiáng)大,但也伴隨著計(jì)算上的挑戰(zhàn)。主要問(wèn)題在于其處理信息時(shí)的復(fù)雜度是二次方增長(zhǎng)的,這導(dǎo)致在處理長(zhǎng)序列輸入或在資源受限的環(huán)境中,所需的計(jì)算資源和內(nèi)存使用量顯著增加,這也是造成當(dāng)下算力短缺的原因之一。
鑒于Transformer架構(gòu)存在的限制,眾多替代性模型應(yīng)運(yùn)而生,例如中國(guó)的RWKV、Meta公司的Mega、微軟亞洲研究院的Retnet、Mamba,以及DeepMind團(tuán)隊(duì)開(kāi)發(fā)的Hawk和Griffin等。這些模型都是在Transformer主導(dǎo)了大模型研發(fā)領(lǐng)域之后,相繼被引入的。
2024年1月,開(kāi)源RWKV的元始智能完成了種子輪融資。RWKV是一種具有Transformer級(jí)LLM性能的RNN。它可以像GPT(可并行化)一樣直接訓(xùn)練,并結(jié)合了RNN和Transformer的優(yōu)點(diǎn)。在算力愈發(fā)緊張的當(dāng)下,這樣的探索顯得尤為必要。
Mega通過(guò)其多尺度的解碼器架構(gòu)能夠?qū)Τ^(guò)一百萬(wàn)字節(jié)的序列進(jìn)行建模,這使其能夠處理比傳統(tǒng)模型更長(zhǎng)的序列。由于減少了自注意力的計(jì)算量,Mega在生成速度上有顯著提升。
RetNet是一種新型自回歸基礎(chǔ)架構(gòu),它引入了多尺度保留(Multi-ScaleRetention,MSR)機(jī)制來(lái)替代Transformer中的多頭注意力機(jī)制。RetNet在scaling曲線和上下文學(xué)習(xí)方面表現(xiàn)出色,推理成本與序列長(zhǎng)度無(wú)關(guān)。它在內(nèi)存消耗、吞吐量和延遲方面優(yōu)于Transformer,特別是在模型尺寸大于2B時(shí)性能通常優(yōu)于Transformer。
Mamba基于選擇性狀態(tài)空間模型(selective state space model),它可以有選擇地決定關(guān)注還是忽略傳入的輸入。Mamba具有快速的推理能力(吞吐量比Transformer高5倍)和序列長(zhǎng)度線性縮放的特點(diǎn)。它在語(yǔ)言建模任務(wù)中表現(xiàn)優(yōu)異,可以與兩倍大小的Transformer模型相媲美。
Griffin和Hawk模型都使用了一種新穎的門控線性循環(huán)層(RG-LRU),這是一種受線性循環(huán)單元啟發(fā)的新型循環(huán)層,用于構(gòu)建新的循環(huán)塊。Hawk是一個(gè)混合了多層感知器(MLP)和循環(huán)塊的模型。Griffin進(jìn)一步混合了MLP、循環(huán)塊和局部注意力,以提高效率。通過(guò)結(jié)合循環(huán)塊和局部注意力,Griffin和Hawk在保持RNN的高效優(yōu)勢(shì)和Transformer的表達(dá)能力的同時(shí),實(shí)現(xiàn)了更好的性能和資源效率,特別是在處理長(zhǎng)序列和大規(guī)模參數(shù)時(shí)。
而在Transformer架構(gòu)這條賽道上,不同開(kāi)源模型的區(qū)別主要有三個(gè)方面:數(shù)據(jù)使用、訓(xùn)練策略和優(yōu)化方法。從上面的表格中也可以看出,很多模型就是基于LLaMA或者Baichuan這樣的預(yù)訓(xùn)練模型,加入專門的數(shù)據(jù)集,進(jìn)行微調(diào)得到的。而最終性能指標(biāo)的PK,背后也就是數(shù)據(jù)、計(jì)算資源、以及算法的激烈競(jìng)爭(zhēng)。
中美大模型發(fā)展對(duì)比
中美大模型的對(duì)比,簡(jiǎn)單來(lái)說(shuō)就是應(yīng)用和基礎(chǔ)研發(fā)的對(duì)比:中國(guó)擅長(zhǎng)應(yīng)用落地,而美國(guó)則傾向于基礎(chǔ)模型研發(fā)。但是落實(shí)到具體的行業(yè),中美各自的特色才更為彰顯。
首先,大模型在不同行業(yè)的滲透率存在差異。有兩類行業(yè)滲透率較高,一類是數(shù)據(jù)的規(guī)模、質(zhì)量和多樣性比較好的行業(yè),如辦公、交通等,另一類是技術(shù)需求高且創(chuàng)新能力強(qiáng)的行業(yè),如金融、文娛等。
中美大模型在各自行業(yè)的發(fā)展也遵循上述規(guī)律。例如在辦公領(lǐng)域,微軟已經(jīng)在Office中全面引入大模型技術(shù),而國(guó)內(nèi)的金山辦公等廠商也通過(guò)接入MinMax、百度文心等大模型緊隨其后。在金融領(lǐng)域,中國(guó)農(nóng)業(yè)銀行也推出了百億級(jí)參數(shù)的ChatABC大模型。這是中美相同的地方。
而不同的地方更有意思。
比如教育行業(yè),美國(guó)傾向于利用AI輔助教師工作,而中國(guó)更側(cè)重于應(yīng)試教育。Turnitin公司旗下的Gradescope是一個(gè)作業(yè)批改模型,好未來(lái)推出的MathGPT則是國(guó)內(nèi)首個(gè)數(shù)學(xué)大模型。
在醫(yī)療行業(yè)中,中國(guó)大模型的滲透受到數(shù)據(jù)制約,進(jìn)展緩慢,而美國(guó)在數(shù)據(jù)方面的優(yōu)勢(shì)使其在醫(yī)療研發(fā)環(huán)節(jié)更青睞使用大模型。谷歌的Med-PaLM是其中的代表。
在文娛行業(yè),美國(guó)的發(fā)展遇到了價(jià)值觀方面的阻力,中國(guó)有望實(shí)現(xiàn)彎道超車。攜程推出了首個(gè)旅游行業(yè)垂直大模型“攜程問(wèn)道”,阿里大文娛的“提香”大模型則引領(lǐng)了妙鴨相機(jī)產(chǎn)品的流行。
在交通行業(yè),中美兩國(guó)正處于競(jìng)爭(zhēng)狀態(tài),尤其在智能駕駛領(lǐng)域?;谥袊?guó)在交通領(lǐng)域豐富的基礎(chǔ)數(shù)據(jù),以及與電動(dòng)車、新能源等領(lǐng)域的共振,加上政府在基礎(chǔ)數(shù)據(jù)和算力方面的政策支持,例如北京、上海等城市都發(fā)布了支持人工智能發(fā)展的具體措施,中國(guó)交通領(lǐng)域的大模型發(fā)展勢(shì)必會(huì)奏出最強(qiáng)音。
展望未來(lái):開(kāi)源大模型的發(fā)展趨勢(shì)與挑戰(zhàn)
盡管開(kāi)源大模型能助力中小型開(kāi)發(fā)者,在千行百業(yè)里用起來(lái),但筆者認(rèn)為它們最終無(wú)法替代真正的通用大模型。就目前來(lái)說(shuō),開(kāi)源模型最大的參數(shù)量是3000億,而GPT-4的參數(shù)量估算超過(guò)1.8萬(wàn)億。在性能、通用性以及處理復(fù)雜任務(wù)的能力上,任何開(kāi)源模型都無(wú)法與那些專門為高級(jí)應(yīng)用和研究而設(shè)計(jì)的封閉或?qū)S械拇竽P拖噫敲馈?/p>
然而,開(kāi)源模型仍然可以作為一個(gè)很好的起點(diǎn),就像它過(guò)去發(fā)揮的作用那樣。尤其是在算力短缺的場(chǎng)景下,很多時(shí)候我們可能并不需要運(yùn)行那么大的模型,就像小米在他們的汽車上裝配的1.3B模型那樣。關(guān)鍵還是創(chuàng)造價(jià)值。
結(jié)論
雖然中國(guó)的開(kāi)源大模型發(fā)布數(shù)量眾多,但影響力還不及國(guó)外的大模型。這一方面是因?yàn)閲?guó)內(nèi)下游市場(chǎng)巨大,人們更傾向于利用龍頭企業(yè)的開(kāi)源模型來(lái)做應(yīng)用落地的創(chuàng)業(yè),而國(guó)外則更擅長(zhǎng)基礎(chǔ)研究。另一方面,由于人才、資本和技術(shù)的限制,中國(guó)對(duì)大模型項(xiàng)目的一級(jí)市場(chǎng)投資也不如國(guó)外活躍。在行業(yè)應(yīng)用方面,在尊重技術(shù)滲透規(guī)律的基礎(chǔ)上,影響大模型發(fā)展的是長(zhǎng)期積累的基礎(chǔ)數(shù)據(jù)。
從長(zhǎng)遠(yuǎn)看,中國(guó)的人工智能領(lǐng)域在行業(yè)基礎(chǔ)數(shù)據(jù)和算力方面仍然存在不足,要扭轉(zhuǎn)這些劣勢(shì)不是一夕之功。但是立足于自身的特色,尤其是中文的應(yīng)用落地方面仍然可以領(lǐng)先一步。