自從OpenAI在去年6月份發(fā)布的GPT-3之后,大模型成為幾乎所有全球頭部AI公司的逐鹿目標。在昨天舉行的2021人工智能計算大會(AICC 2021)上,關(guān)于產(chǎn)業(yè)層面的大新聞是浪潮人工智能研究院宣布其9月份開發(fā)出全球最大規(guī)模的中文AI巨量模型“源1.0”開源開放,此舉給大模型的逐鹿再添一把火。
模型的參數(shù)規(guī)模越大,優(yōu)勢越明顯?
最近大模型為什么走熱,先要從OpenAI講起。OpenAI是由來自硅谷、西雅圖等地的諸多科技大亨聯(lián)合建立的人工智能非營利組織,這些大佬們給OpenAI的首期投資是10億美金,而這個組織的發(fā)起人之一,是“鋼鐵俠”馬斯克。2015年,馬斯克與其他硅谷、西雅圖科技大亨進行連續(xù)對話后,決定共同創(chuàng)建OpenAI,希望能夠預防人工智能的災難性影響,推動人工智能發(fā)揮積極作用,OpenAI的目標,是要制造“通用”機器人,或者稱之為“通用人工智能”。2019年7月,微軟也給OpenAI投資了10億美元。次年6月,OpenAI研發(fā)出GPT-3語言模型,而且在三個月后又將這個GPT-3模型獨家授權(quán)給微軟。
最近微軟CEO薩提亞對微軟首席技術(shù)官凱文談及未來對微軟研究院的期待,薩提亞給出了三個期望,其中之一便是AI“大模型”。
那么,這個GPT-3又有什么魔力呢?作為最先進的語言模型,GPT-3包括1750億個參數(shù)(而其前身GPT-2的參數(shù)為15億個),從而擊敗了之前保持記錄的圖靈NLG模型(170億)。參數(shù)多有什么意義?浪潮人工智能研究院首席研究員吳韶華回應記者說:“其關(guān)鍵原因在于OpenAI的GPT-3凸顯了一種小樣本學習以及泛化能力,而且兩個層面的能力都非常優(yōu)秀。”
吳韶華進一步解釋,泛化能力是指模型訓練一次,而來的大模型就可用于各種各樣的任務,哪怕這些任務之間沒有任何關(guān)聯(lián)。而要理解小樣本學習,需要先了解傳統(tǒng)的模型訓練范式。傳統(tǒng)范式是首先要預訓練得到一個基礎(chǔ)模型,基礎(chǔ)模型做完之后,需要針對具體任務再做微調(diào),這意味著如果一個企業(yè)有各種各樣的任務,就得有各種繁多的模型。“大模型最重要的優(yōu)勢,是進入大規(guī)模可復制的產(chǎn)業(yè)落地階段,只需小樣本的學習,也能達到比以前更好的效果,而且模型參數(shù)規(guī)模越大,這種優(yōu)勢越明顯,可大大降低各類用戶的開發(fā)使用成本。”吳韶華說。
模型的參數(shù)規(guī)模越大,優(yōu)勢越明顯。正因為如此,頭部AI企業(yè)正在不斷地追逐大模型之“大”,不久前,微軟與英偉達宣布雙方合作的語言模型MT-NLG的參數(shù)為5300億個。
中國工程院院士王恩東表示:“人工智能如何發(fā)展出像人類具備邏輯、意識和推理的認知能力,是人工智能研究一直探索的方向。目前來看,通過大規(guī)模數(shù)據(jù)訓練超大參數(shù)量的巨量模型,被認為是非常有希望實現(xiàn)通用人工智能的一個重要方向。”隨著巨量模型的興起,巨量化已成為未來人工智能發(fā)展非常重要的一個趨勢。而巨量化的一個核心特征就是模型參數(shù)多、訓練數(shù)據(jù)量大。
人工智能從專用到通用,模型做精更好?
目前,美國在大模型領(lǐng)域已經(jīng)取得較快進展,代表性的進展有谷歌的Bert,OpenAI的GPT-3等。正當模型參數(shù)朝著越來越無窮大的方向邁進之時,OpenAI的CEO宣布其大模型的下一個GPT-4,其參數(shù)不會比GPT-3的更多,而是更少,因為GPT-4將使用與之前GPT模型不同的方法,包括數(shù)據(jù)算法和微調(diào),這其中的重點是在較小的模型中獲得最大的收益。
是不是模型越大越好?吳韶華認為,模型的核心并不是越大越好,其本質(zhì)是人工智能正在向通用人工智能的方向演進,其核心是從專用人工智能向通用人工智能發(fā)展。在尋求更接近于通用人工智能的道路上,不同的公司、不同的科學家們,正在尋找更接近的路徑。
目前國內(nèi)的企業(yè)與機構(gòu)同樣在大模型路上蠢蠢欲動。今年6月,阿里巴巴宣布其多模態(tài)通用大模型M6問世,模型參數(shù)是萬億級;幾個月后的云棲大會上,阿里巴巴宣布其大模型M6的參數(shù)已經(jīng)從原來的萬億級上升到10萬億級,規(guī)模超越此前谷歌發(fā)布的1.6萬億Switch Transformer模型。與此同時,北京智源人工智能研究院宣布推出大模型“悟道2.0”,智源研究院表示,悟道2.0具備大規(guī)模、高精度、高效率的特點。在規(guī)模上,“悟道2.0”的參數(shù)達到1.75萬億,是OpenAI GPT-3的10倍。
9月28日,浪潮人工智能研究院宣布推出的大模型“源1.0”,10月27日浪潮宣布“源1.0”開源。按照介紹,“源1.0”是全球最大中文預訓練語言模型,歷時四個月研發(fā),其參數(shù)量為2457億,訓練數(shù)據(jù)集規(guī)模達到5000GB。相比GPT3模型的1750億參數(shù)量和570GB訓練數(shù)據(jù)集,“源1.0”的參數(shù)規(guī)模增加了40%,訓練數(shù)據(jù)集規(guī)模增加近10倍。
當浪潮的大模型出來,必然引來相關(guān)爭議,究竟阿里、智源與浪潮之間的模型究竟誰更大?業(yè)內(nèi)資深認識表示,阿里與智源的大模型屬于混合模型,而浪潮的模型為單體模型也稱巨量模型,而GPT-3就是單體巨量模型。這兩者有本質(zhì)區(qū)別。單體巨量模型其最核心、最有潛力的能力在于零樣本學習能力和小樣本學習能力,巨量模型是讓AI發(fā)展有了機會越階升級,是一次升維,可以通過訓練它找到更高層次的東西,觸碰到更高階的智能世界。一直以來,浪潮的優(yōu)勢是AI算力,現(xiàn)在浪潮也推大模型,加入AI大模型的賽道,這是要從底層算力到上層算法、模型通吃AI市場的節(jié)奏嗎?未來,浪潮在AI領(lǐng)域的邊界在哪里?
回應《中國電子報》記者的這一問題,浪潮信息副總裁、浪潮信息AI&HPC產(chǎn)品線總經(jīng)理劉軍說,“浪潮既不會畫地為牢地局限自己,也不會天馬行空地不顧邊界。”
劉軍談及了浪潮在兩個層面的思考與訴求,一是從產(chǎn)業(yè)發(fā)展的層面看,需要產(chǎn)品不斷去滿足客戶、滿足市場、滿足應用需要的發(fā)展。這個層面要做非常嚴謹?shù)纳虡I(yè)計劃和商業(yè)推敲、嚴格的產(chǎn)品規(guī)劃和營銷策略規(guī)劃,還包括如何去滿足客戶的需求的實現(xiàn)路徑。
二是從科研創(chuàng)新、科學探索方向上,可以更加大膽一點,這個大膽核心來源于科學家們、研究員們的好奇心、好勝心,希望做充滿興趣的東西,在科學和探索的領(lǐng)域里面,鼓勵大家去有更多的想象空間。
“之所以選擇做源,不僅僅是因為大模型是AI產(chǎn)業(yè)的重要制高點,更因為它對產(chǎn)業(yè)的發(fā)展有幫助,是一個交叉點;而且從浪潮的策略、優(yōu)勢和能力儲備來說,很適合做。因為要做好大模型,其實是算力、算法、數(shù)據(jù)三架馬車協(xié)同的創(chuàng)新。”劉軍說。
在大模型的賽道上,算力公司、算法公司、數(shù)據(jù)公司,研究機構(gòu)正在展開新一輪競賽。如果說大模型競爭的前半程是模型本身,那么后半程的競爭則是商業(yè)落地,而落地的關(guān)鍵是生態(tài)和用戶,這正是浪潮將其開源的原因,開源以贏得更多的生態(tài)支持。目前,前半程才剛剛開始,后半程誰會跑得更快呢,是阿里還是浪潮或是其他,等待時間給出答案。