本文來自微信公眾號“半導(dǎo)體行業(yè)觀察”,作者/李飛。
以生成式模型(generative model)為代表的下一代AI正在席卷科技行業(yè)乃至整個人類社會。目前,人們對于生成式模型的關(guān)注還主要在于以O(shè)penAI和谷歌為代表的人工智能巨頭運行在云端服務(wù)器的模型,這些模型需要巨大的算力,并且一般運行在GPU上。然而,隨著技術(shù)的發(fā)展,我們認為生成式模型運行在手機端已經(jīng)到了一個轉(zhuǎn)折點,馬上會進入大規(guī)模鋪開的階段。
在看具體技術(shù)之前,我們不妨先看一下,用戶對于運行在手機端的生成式模型有哪些具體應(yīng)用場景。這期是值得我們仔細考慮,因為像ChatGPT這樣的人工智能對話應(yīng)用并不需要真正運行在手機終端——讓ChatGPT完成文稿設(shè)計這樣的需求的最佳使用場景還是在接入互聯(lián)網(wǎng)的電腦上,而不是運行在手機本地。我們認為,最適合生成式模型運行在手機終端芯片上的第一是拍攝增強,包括超分辨、去模糊、照片補全等,這些應(yīng)用需要模型能在任何時候都能低延遲地運行,因此需要在本地執(zhí)行。另一個任務(wù)是智能助理,指的是通過運行一個大模型去檢索所有用戶本地的備忘錄、短信記錄等,通過綜合用戶所有的個人信息來實現(xiàn)智能助理的功能——例如如果檢測到用戶和某個聯(lián)系人最近的短信是關(guān)于約在飯店吃飯,助理可以自動設(shè)置一個提醒信息,等等。由于涉及到用戶隱私,因此這類模型也需要運行在手機本地的芯片上。
對于用于拍攝增強的生成式模型主要是以擴散(diffusion)模型為代表的圖像生成式模型。擴散模型在去年一年中取得了長足的進步,其生成內(nèi)容的質(zhì)量足以改變用戶的拍攝體驗,包括:
1
超分辨:使用擴散模型可以把低分辨率的圖片以很高的質(zhì)量轉(zhuǎn)換成高分辨率圖像,其質(zhì)量遠高于目前已有的其他模型。
2
圖像修補:包括把圖像中不想要的內(nèi)容去除/更換(即inpainting),或者把圖片內(nèi)容進一步補全(即outpainting)。
對于基于擴散模型的生成式圖像模型,自從Stable Diffusion從去年下半年發(fā)布之后,已經(jīng)獲得了業(yè)界極大的關(guān)注。擴散模型一般的模型都較大,而且需要運行多步的采樣過程,之前雖然也有運行在手機上的例子,但是因為運行時間過程(10秒左右),尚未得到真正大規(guī)模應(yīng)用。然而,隨著今年10月份中國清華團隊發(fā)表了latent consistency model(LCM)的研究論文,在手機上運行高性能圖像生成式模型已經(jīng)不再遙不可及。
LCM模型和Stable Diffusion的模型結(jié)構(gòu)類似,但是LCM通過數(shù)學(xué)上的優(yōu)化,可以把一次生成需要的模型執(zhí)行次數(shù)從Stable Diffusion的50次降低到2-4次,相當(dāng)于把端到端的運行速度提升了10倍,而且生成圖像的質(zhì)量和Stable Diffusion接近。目前,LCM已經(jīng)在人工智能社區(qū)得到了廣泛的關(guān)注和應(yīng)用,我們認為很快LCM就會成為手機上運行圖像生成式模型的首選,而且LCM的低延遲可以真正實現(xiàn)全新的用戶體驗;例如,高質(zhì)量的實時超分辨可以讓數(shù)字變焦得到的拍攝質(zhì)量和光學(xué)變焦相似,但是同時又避免了厚重的鏡頭;又如,inpainting/outpainting可以讓用戶快速編輯拍攝的照片并分享,能實現(xiàn)在手機上擁有和photoshop相似的效果,這也將會大大提升用戶體驗。
對于智能助理應(yīng)用來說,目前主要還處于探索階段,如何將多模態(tài)的信息(包括用戶的短信、備忘錄、日歷等等)整合在一起并不容易,但是我們認為最終模型的形態(tài)最有可能還是類似GPT這樣的大語言模型,通過海量數(shù)據(jù)與訓(xùn)練來實現(xiàn)對于用戶數(shù)據(jù)的深入理解并且給出相應(yīng)幫助。這類智能助手的第一步落地應(yīng)用可能是用戶消息編輯和改寫,例如用戶可以讓智能助手去改寫一條短信以改變語氣,這樣的應(yīng)用預(yù)計在明年就會落地。
手機生成式模型需要什么樣的芯片
首先,我們從用于拍攝增強的圖像生成式模型(LCM)開始分析,因為這類模型的應(yīng)用較為明確。
我們對于模型芯片支持的分析可以從算符、算力和內(nèi)存三方面來入手。從算符來看,LCM或者Stable Diffusion模型使用的算符主要是常用的卷積和注意力(attention)層,這些算符在目前的手機芯片人工智能加速器中已經(jīng)得到了非常好的支持。而在算力和內(nèi)存方面,圖像生成式模型的復(fù)雜度和模型尺寸都比現(xiàn)有的運行在手機上的人工智能模型要大一到兩個數(shù)量級:LCM的參數(shù)量達到了10億以上,而相對而言目前主流手機人工智能模型的參數(shù)量都在千萬左右。如我們之前所說的,手機需要能實時執(zhí)行這樣的模型,因此需要在算力上滿足模型的需求。
算力能滿足需求可以從兩方面來考慮,首先是增加人工智能加速器的峰值算力,主要的方法就是增加計算單元的數(shù)量。但是,計算單元數(shù)量的增加是以更大的芯片面積(即更高的成本)為代價的,為了能在成本和性能之間得到一個較好的折衷,需要能使用“性價比”更好的計算單元。在服務(wù)器的LCM版本中,使用的計算是基于32位或者16位浮點數(shù)的,但是在手機端執(zhí)行時32/16位浮點數(shù)計算單元太貴,因此絕大多數(shù)的計算必須使用更低精度,例如8位定點數(shù),或者8位浮點數(shù)9甚至是4位浮點數(shù))。這里就涉及到了一個軟硬件協(xié)同設(shè)計的問題,即如何在使用低精度計算的條件下同時確保模型輸出質(zhì)量不受太大影響,具體是使用8位浮點數(shù)還是8位定點數(shù)性價比更高等等,因此需要模型設(shè)計團隊和芯片設(shè)計團隊合作才能完成。另外,由于模型的尺寸遠大于之前的主流模型到達了GB數(shù)量級,因此很可能需要手機的DRAM容量進行升級才能較好的支持。
除了DRAM容量之外,模型參數(shù)量大也意味著對于內(nèi)存接口的壓力更大(否則可能會陷入內(nèi)存墻問題,讓內(nèi)存訪問成為整體模型執(zhí)行速度的瓶頸)。從這個角度,一方面可望將會推動手機芯片加速使用下一代內(nèi)存接口(例如LPDDR6),而在另一方面也推動SoC使用更多的片上內(nèi)存(SRAM)來緩解DRAM訪問的壓力。最后,在Stable Diffusion和LCM模型中廣為使用的U-Net神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)也擁有更多的中間結(jié)果(activation),為了能確保最佳的延遲和能效比,這也需要SoC片上有更多的SRAM來滿足需求。
對于大語言模型來說,其對于手機芯片的需求也可以從算符、算力和內(nèi)存來看。同樣,算符方面大語言模型使用的主要算符是attention,目前已經(jīng)得到廣泛支持;主要挑戰(zhàn)則是大語言模型的參數(shù)量甚至比擴散模型/LCM更大一個數(shù)量級,到了百億數(shù)量級,這對于手機內(nèi)存容量和接口速度都將造成巨大的挑戰(zhàn),而如果大語言模型真的能在手機得到大規(guī)模應(yīng)用,預(yù)計將會大大推動手機芯片內(nèi)存容量和內(nèi)存接口的發(fā)展。此外,由于大語言模型的參數(shù)量太大,很有可能需要多級緩存,每次只會有一部分模型參數(shù)加載在DRAM中,還會有一部分會留在非易失性存儲器中,因此內(nèi)存和非易失性存儲器的接口速度提升可能也會得到推動。
生成式模型對手機芯片市場的潛在影響
目前,我們看到手機系統(tǒng)廠商已經(jīng)越來越重視生成式模型在手機端的應(yīng)用。在最近的發(fā)布會上,知名手機廠商vivo和Oppo都把這類生成式模型作為下一代新手機的主要賣點,原因很簡單,因為目前生成式模型已經(jīng)到了能夠真正成為核心用戶體驗的時刻了,而且模型技術(shù)也足夠成熟,爆發(fā)在即。
手機芯片格局也可能會在這次的生成式模型熱潮中發(fā)生微妙的改變。生成式模型的支持能力可能會成為和手機鏡頭一樣重要的核心硬件賣點,但是生成式模型的最終解決方案其實是一個軟硬件結(jié)合設(shè)計的方案,這樣來說,其實對于有自研芯片能力的手機廠商來說是非常有利的,因為這些手機廠商可以通過同時掌握模型和硬件的設(shè)計,從而實現(xiàn)最高效率的解決方案,或者換句話說有可能通過深度的協(xié)同優(yōu)化,即使在芯片實現(xiàn)工藝和性能較為落后的情況下,仍然實現(xiàn)很好的用戶體驗,這一點對于一些中國的手機廠商例如華為來說尤其有利,因為他們同時擁有深度的人工智能模型開發(fā)、手機系統(tǒng)優(yōu)化和芯片開發(fā)能力,通過在自研的第一方應(yīng)用(例如拍照以及照片瀏覽)應(yīng)用中加入自研的模型跑在自研的芯片上,有機會充分利用端到端優(yōu)化的機會。
對于為手機系統(tǒng)提供芯片平臺的公司例如高通和聯(lián)發(fā)科來說,則需要提供完整的參考設(shè)計。在這方面,高通已經(jīng)把手機端生成式模型提到了核心位置,在最近發(fā)布的Snapdragon 8 Gen 3中,高通宣布可以實現(xiàn)以低于一秒的延遲實現(xiàn)Stable Diffusion圖像生成,未來可望進一步提升質(zhì)量并降低延遲,接下來就看使用高通芯片的手機系統(tǒng)廠商如何利用這樣的算力了。聯(lián)發(fā)科也基于億級參數(shù)大語言模型的特性,開發(fā)了混合精度INT4量化技術(shù),結(jié)合公司特有的內(nèi)存硬件壓縮技術(shù)NeuroPilot Compression,以更高效地利用內(nèi)存帶寬,大幅減少AI大模型占用終端內(nèi)存,為端側(cè)運行AI大語言模型突破手機內(nèi)存限制,助力更大參數(shù)模型在端側(cè)落地。
另一個疑問是,云端生成式模型芯片領(lǐng)域目前的統(tǒng)治者Nvidia會如何看待手機生成式模型的機會?Nvidia在移動端的嘗試自從十多年前的Tegra系列之后似乎就停滯了,但是今年年中Nvidia傳出和聯(lián)發(fā)科合作并且下一代聯(lián)發(fā)科旗艦手機SoC可能會使用Nvidia GPU的消息,可見Nvidia在手機生成式模型領(lǐng)域還是有機會能切入。Nvidia在這個領(lǐng)域的優(yōu)勢主要在于模型開發(fā)生態(tài),但是在手機生態(tài)(包括第一方應(yīng)用)中是否繼續(xù)這樣的優(yōu)勢,還需要聯(lián)合SoC廠商以及使用該SoC的手機系統(tǒng)廠商深度合作,這樣的合作能進行到什么樣的程度,還需拭目以待。