把大模型裝進(jìn)手機(jī),總共分幾步?

藏狐
年初ChatGPT爆火的時(shí)候,我去上海參加華為春季新品發(fā)布會(huì),用一頁keynote提到了大模型技術(shù)與手機(jī)硬件的結(jié)合。雖然只有短短的一兩分鐘,但我專門發(fā)了一條朋友圈,看好自然語言交互能力在手機(jī)上的應(yīng)用。

本文來自微信公眾號(hào)“腦極體”,作者/藏狐。

年初ChatGPT爆火的時(shí)候,我去上海參加華為春季新品發(fā)布會(huì),用一頁keynote提到了大模型技術(shù)與手機(jī)硬件的結(jié)合。雖然只有短短的一兩分鐘,但我專門發(fā)了一條朋友圈,看好自然語言交互能力在手機(jī)上的應(yīng)用。

640 (1).png

當(dāng)時(shí)我就有預(yù)感,大語言模型跟手機(jī)結(jié)合,應(yīng)該會(huì)很快。

時(shí)間拉回到現(xiàn)在,蘋果、三星,以及“華米OV”國產(chǎn)手機(jī)廠商,都先后宣布了落地大模型。對(duì)手機(jī)來說,有沒有大模型,已經(jīng)不是一道選擇題了,而是一道必答題。

提起這段故事,不是想說我們預(yù)判有多準(zhǔn),做科技觀察不是玄學(xué)算命,一切都是有規(guī)律可循的。2023即將尾聲,但大模型手機(jī)的熱鬧方興未艾,是時(shí)候總結(jié)性地聊一聊,手機(jī)和大模型結(jié)合的深層邏輯,目前各家的差異化打法和挑戰(zhàn)是什么,以及未來會(huì)如何發(fā)展。

2023,手機(jī)大模型的

基建元年

首先有必要解釋一下,為什么我們會(huì)預(yù)判,大模型與手機(jī)的結(jié)合,是一種必然?

了解手機(jī)市場近況的讀者應(yīng)該知道,在輝煌了十余年之后,移動(dòng)智能終端已經(jīng)陷入了某種瓶頸,增長低迷、缺少亮點(diǎn),廠商創(chuàng)新如同擠牙膏,開發(fā)者巧婦難為無米之炊,可施展的創(chuàng)意空間有限。與此同時(shí),一個(gè)用戶身邊至少環(huán)繞著三四個(gè)移動(dòng)設(shè)備,每天要為繁瑣交互,付出大量的隱形勞動(dòng),甚至有人不勝其煩,開始嘗試“數(shù)字戒斷”。

可以說,移動(dòng)數(shù)字服務(wù)的供需雙方,都在期待一種新的變革技術(shù),可以讓移動(dòng)智能終端生態(tài)化繁為簡、重塑體驗(yàn)。而在今天的技術(shù)世界中,大模型是最佳選項(xiàng)。

大語言模型的強(qiáng)大理解和生成能力,各種功能用同一個(gè)模型基座和自然語言交互來獲取,可以改變手機(jī)的多個(gè)基本能力,說是重新定義手機(jī),也不為過。

讓大模型跑在手機(jī)上,成了手機(jī)廠商的必爭之地,開發(fā)者所需要的機(jī)會(huì)窗口,也是重新點(diǎn)燃用戶熱情的一種必然選項(xiàng)。

大家今年都聽說了“百模大戰(zhàn)”,但跟主要在云端訓(xùn)練、web調(diào)用的通用大語言模型不同,高度集成化的手機(jī),端側(cè)算力、OS操作系統(tǒng)、應(yīng)用并發(fā)、UI交互等一系列軟硬件,都有自身的特性,也給大模型落地帶來了不少限制。

640 (1).png

結(jié)合華米OV等頭部廠商的行動(dòng)方略來看,我們預(yù)判,2023將是手機(jī)大模型的基建元年。

大模型落地手機(jī),基建工程剛剛開始,后面會(huì)有更多好戲可看。具體來說,廠商必須搞定:

1.三座基建。

2.一個(gè)入口。

3.一群人。

我們就從這三個(gè)層面,來看看目前,各家的情況都怎么樣?有哪些共同挑戰(zhàn)和差異化思路?

第一步

端側(cè)部署,三個(gè)基建

大語言模型的參數(shù)量動(dòng)輒百億、千億,其訓(xùn)練和推理過程,需要耗費(fèi)大量計(jì)算資源,對(duì)于手機(jī)這樣的移動(dòng)智能終端來說,SoC芯片的算力是遠(yuǎn)遠(yuǎn)達(dá)不到數(shù)據(jù)中心萬卡集群的規(guī)模的,怎么支撐大模型的端側(cè)運(yùn)算呢?

就算勉強(qiáng)帶起來了,大模型占據(jù)過多的手機(jī)工作內(nèi)存,搶占其他應(yīng)用的資源,會(huì)不會(huì)出現(xiàn)卡頓或快速掉電?

本地計(jì)算不足,引入云計(jì)算又會(huì)產(chǎn)生很多問題,比如大模型在云上分析處理個(gè)人數(shù)據(jù),會(huì)不會(huì)暴露我的隱私啊?

要在端側(cè)部署,手機(jī)和大模型都要進(jìn)行一番改造。

首先,模型層。

目前主要有兩條路線。

一是把大模型做小,也就是在端側(cè)引入輕量級(jí)大模型,通過量化、剪枝、蒸餾等壓縮技術(shù),調(diào)整模型結(jié)構(gòu)和參數(shù)大小,以適配端側(cè)芯片的內(nèi)存和算力特點(diǎn),沒網(wǎng)也能用,以榮耀、小米為代表。

榮耀Magic6搭載的,是自研的7B端側(cè)AI大模型(即70億參數(shù)規(guī)模),雷軍在2023年度演講宣布“小米全面擁抱大模型”,主攻的是輕量化和本地部署,目前訓(xùn)練出1.3B和6B參數(shù)規(guī)模的大模型。

640 (1).png

二是把大模型做多,提供不同參數(shù)量級(jí)的大模型,來支撐不同場景、不同任務(wù),云端協(xié)同,以vivo、OPPO為代表。

11月vivo發(fā)布的自研AI大模型矩陣,其中包括十億、百億、千億三個(gè)不同參數(shù)量級(jí)的5款大模型。其中,10億量級(jí)模型是主要面向端側(cè)場景打造的專業(yè)文本大模型,70億模型是面向手機(jī)打造的端云兩用模型,700億模型是面向云端服務(wù)的主力模型。

同樣采用矩陣方式的,還有OPPO的安第斯大模型(AndesGPT),包括從10億至千億多種不同參數(shù)規(guī)模的模型。

640 (1).png

我在VDC大會(huì),實(shí)地體驗(yàn)了基于藍(lán)心大模型的“vivo看見”,可以在完全沒有網(wǎng)絡(luò)的情況下,為視障群體提供物品實(shí)時(shí)識(shí)別,辨認(rèn)出植物、二維碼、公交卡等物體,響應(yīng)很及時(shí),手機(jī)的發(fā)熱和續(xù)航也在可接受范圍內(nèi),確實(shí)能解決視障群體出行在外時(shí)感知外界環(huán)境的實(shí)際需求。

這個(gè)功能讓我很受觸動(dòng),還特地發(fā)了條朋友圈分享。

不過,產(chǎn)品人員也直言,這種完全斷網(wǎng)、本地計(jì)算的大模型應(yīng)用,對(duì)手機(jī)芯片的性能要求很高,目前只能在部分旗艦機(jī)型上落地。

640 (1).png

其次,芯片層。

大模型再小,也是“大”模型,一味壓縮可能會(huì)降低模型性能和輸出質(zhì)量,導(dǎo)致識(shí)別精準(zhǔn)度、生成內(nèi)容下降。所以,大模型落地,硬件的升級(jí),尤其是手機(jī)移動(dòng)芯片,是必不可少的先決條件。

根據(jù)目前得到的信息,vivo和聯(lián)發(fā)科、高通等都有聯(lián)合研發(fā)合作,來加速優(yōu)化手機(jī)端側(cè)的AI推理性能,小米也透露,再跟芯片公司(高通和聯(lián)發(fā)科)共同推動(dòng)端側(cè)大模型的落地。此外,今年麒麟芯片回歸,與華為鴻蒙操作系統(tǒng)、盤古大模型可以實(shí)現(xiàn)深度的協(xié)同優(yōu)化。

必須承認(rèn),大模型應(yīng)用才剛剛開始,與移動(dòng)芯片的協(xié)同調(diào)校也才邁出了第一步,未來手機(jī)要承載視頻、圖像類AIGC任務(wù),絕大多數(shù)用戶應(yīng)該是都不愿意上傳到云端的,所以本地AI計(jì)算硬件的優(yōu)化調(diào)校,接下來會(huì)是手機(jī)廠商的競爭力之一。

然后,系統(tǒng)層。

最終,高效可用的大模型應(yīng)用,一定是端云協(xié)同的,來兼顧體驗(yàn)與隱私。這就帶來了一些問題,比如數(shù)據(jù)和業(yè)務(wù)上云,如何保障用戶的隱私和數(shù)據(jù)安全?基于大模型的AI應(yīng)用,是否會(huì)影響手機(jī)性能、續(xù)航等使用感?要解決這個(gè)問題,必須從底層操作系統(tǒng)上下功夫。

其中,華為旗艦手機(jī)通過HarmonyOS 4系統(tǒng)接入盤古大模型,鴻蒙系統(tǒng)作為底層源代碼全部自己寫出來的OS,加上微內(nèi)核架構(gòu),將核心的操作系統(tǒng)服務(wù)和安全服務(wù)分離,以及安全芯片和隔離技術(shù),從軟硬件全方位的安全保障機(jī)制。

此外,OPPO的ColorOS,小米澎湃OS,vivo藍(lán)心大模型與其手機(jī)系統(tǒng)OriginOS 4,也都成為自研大模型的落地土壤。

而大模型能否與操作系統(tǒng)深度融合,以及操作系統(tǒng)自身的流暢、安全、智能,決定了大模型后續(xù)表現(xiàn)的關(guān)鍵。

據(jù)vivo的一位工作人員分享,除了基座模型本身的性能質(zhì)量之外,大量的工程化細(xì)節(jié)也是必不可少的。要讓操作系統(tǒng)快速執(zhí)行用戶的指令,不僅需要大模型對(duì)輸入的語音/文本,通過思維鏈進(jìn)行目標(biāo)拆解,而且需要大模型深入理解手機(jī)技能,對(duì)幾百個(gè)技能進(jìn)行智能編排,自動(dòng)選擇和調(diào)用相應(yīng)的API,這樣才能自動(dòng)執(zhí)行復(fù)雜任務(wù),把復(fù)雜留給自己,把簡單交給用戶。

640 (1).png

不難看出,底層模型、芯片、操作系統(tǒng),是大模型端側(cè)部署,必不可少的三座基礎(chǔ)設(shè)施。同時(shí)也應(yīng)該看到,下一階段的手機(jī)市場,是高技術(shù)、高難度、高投入、高風(fēng)險(xiǎn)的,需要扎扎實(shí)實(shí)的“硬功夫”,競爭將變得嚴(yán)酷,玩家也會(huì)變得更少。

第二步

觸達(dá)用戶,一個(gè)入口

大模型火了一整年,大廠、媒體和創(chuàng)業(yè)者心心念念的超越ChatGPT、對(duì)標(biāo)GPT4,到了普通讀者那里,似乎還是不明就里:大模型究竟怎么改變我的生活呢?

那么,把智能手機(jī)變成“阿拉丁神燈”怎么樣?

看過童話故事的讀者知道,燈中乾坤大,藏著無數(shù)資源和寶藏,但不需要阿拉丁費(fèi)心琢磨,他只需要說出愿望,都有“燈神”為他將一切事務(wù)安排妥當(dāng)。大模型的理解、創(chuàng)造能力,賦能給手機(jī)語音助手,就將它們變成了一個(gè)個(gè)“燈神”。

接入大模型能力的語音助手,是手機(jī)廠商觸達(dá)用戶的直接路徑。

目前來看,大模型到手機(jī),就干三件事:一是利用大語言模型的自然對(duì)話能力,改變終端交互體驗(yàn);二是利用大模型的理解能力,提供個(gè)性化的服務(wù),熟悉用戶的日常偏好、習(xí)慣,更懂用戶;三是借助大模型的創(chuàng)造能力,進(jìn)行摘要提取、文案生成、圖像制作,提高生產(chǎn)力……

而上述能力,基本都是通過語音助手來一步直達(dá)的。

比如華為的智慧助手小藝,接入盤古大模型的底層能力,在智慧交互、高效生產(chǎn)力提升和個(gè)性化服務(wù)三個(gè)方向上獲得增強(qiáng)。

vivo藍(lán)心大模型與手機(jī)系統(tǒng)OriginOS 4結(jié)合,打造了首款全局智能輔助“藍(lán)心小V”,可以通過自然交流,幫用戶完成很多復(fù)雜任務(wù),化繁為簡。

基于OPPO安第斯大模型的新小布助手,以及升級(jí)了小米AI大模型的小愛同學(xué),也都上線了測試版、體驗(yàn)版。

萬物智聯(lián)時(shí)代,智能終端用戶會(huì)面臨設(shè)備大爆炸、信息大爆炸、服務(wù)大爆炸,如果一切都需要用戶自己進(jìn)行查找,猶如大海撈針,這對(duì)每一個(gè)人的耐心、時(shí)間、數(shù)字信息素養(yǎng)等,都提出了很高的要求。而大模型與智能助手的融合,就是解藥。

智能助手可以調(diào)度手機(jī)、耳機(jī)、汽車、平板、智慧屏、電腦PC、智能家居等物聯(lián)網(wǎng)設(shè)備,是用戶和AIoT之間的最短路徑。

而依靠大模型的加持,智能助手的分析理解能力、知識(shí)水平、記憶水平、生成能力,都大大得到了提升,讓手機(jī)廠商說了多年的“千人千機(jī)”真的可實(shí)現(xiàn)、可感知。

640 (1).png

但很長一段時(shí)間以來,用戶并沒有覺得智能助手是不可或缺的,有的人還會(huì)覺得跟智能助手對(duì)話很尷尬、人工智障等,甚至覺得有點(diǎn)雞肋。

毫不夸張地說,大模型好不好用,普通用戶不一定關(guān)心,但智能助手好不好用,一句對(duì)話就能試出差距,將是接下來手機(jī)廠商的競爭焦點(diǎn)。

總結(jié)一下,僅有大模型還不夠,智能助手才是觸達(dá)用戶的最短路徑,也是手機(jī)廠商的必爭之地。

第三步

應(yīng)用繁榮,一群開發(fā)者

在手機(jī)和用戶已經(jīng)具備了接入大模型的前提條件之后,下一步就是如何讓開發(fā)者真正走入大模型的世界。

今天,在華為、vivo、OPPO等廠商的發(fā)布會(huì)上,我看到的基于大模型的AI應(yīng)用已經(jīng)不少,但都偏向于示范,比如自然語言的智慧搜索、一句話生成圖像、AI作曲等。這些功能對(duì)于大眾用戶來說,還是太過于基礎(chǔ)了。

就拿火爆的AIGC應(yīng)用來說,生成最美證件照、為寵物作畫、制作漫畫頭像、寫一段小紅薯分享文案、賽博菩薩、拍圖做數(shù)學(xué)題、生成智能手表壁紙……都是需求極為細(xì)分的。手機(jī)廠商不能,也不應(yīng)該,將這些AI應(yīng)用都全部自己干了,這就必須引入千千萬萬開發(fā)者,去發(fā)揮創(chuàng)意,去基于大模型做無數(shù)小而美的AI應(yīng)用。

但是,從開發(fā)端到市場端,大模型AI應(yīng)用的路看似很有誘惑力,但對(duì)于開發(fā)者來說,還是面臨著技術(shù)、學(xué)習(xí)成本、市場壓力等各種顧慮,需要廠商強(qiáng)有力的技術(shù)體系、工具平臺(tái)、賦能方案以及商業(yè)勢能的加持。

目前,我們能看到幾種生態(tài)策略:

鴻蒙的技術(shù)之路。為全場景智慧的市場空間,以及鴻蒙分布式系統(tǒng)的產(chǎn)業(yè)容納能力,對(duì)開發(fā)者的吸引力還是很大的。華為已經(jīng)準(zhǔn)備開啟全新的HarmonyOS NEXT,全面啟動(dòng)鴻蒙原生應(yīng)用。

vivo的開源之路。Vivo走上了一條開源共建之路,70億藍(lán)心大模型成為業(yè)界首個(gè)中文開源大模型,開源的好處是可以吸引群體智慧,更適合在技術(shù)探索期,進(jìn)行廣泛、不設(shè)邊界的探索,從而催生出更多更新更好的創(chuàng)意應(yīng)用。vivo也發(fā)布了對(duì)應(yīng)的微調(diào)框架以及大模型開發(fā)套件BlueKit,為開發(fā)者提供全方位的支持。

OPPO的伙伴之路。此前OPPO公布了2023 OPPO開發(fā)者大會(huì)的內(nèi)容前瞻,其中潘塔納爾系統(tǒng)能力向開發(fā)者全面開放,支持一次開發(fā)、多形態(tài)多模態(tài)多入口的快速適配,并提供相應(yīng)的工具資源,幫助開發(fā)者快速接入泛在服務(wù),吸引更多合作伙伴來提供多元化的智能服務(wù)。

640 (1).png

可以肯定,接下來大模型越來越多、手機(jī)基礎(chǔ)軟硬件逐步成熟、平臺(tái)能力工具接口更加完善,基于大模型的移動(dòng)AI應(yīng)用會(huì)變得越來越普及,這時(shí)候各家應(yīng)用生態(tài)能拉開差距的,就只有開發(fā)者的數(shù)量和質(zhì)量——開發(fā)者能釋放出多少精彩的想象力,手機(jī)的使用價(jià)值就有多大。

開發(fā)者生態(tài),是移動(dòng)互聯(lián)時(shí)代的護(hù)城河,這一定律在AI大模型時(shí)代也同樣適用。

對(duì)于手機(jī)廠商來說,幸運(yùn)的是,大模型手機(jī)才剛剛開始,應(yīng)用開發(fā)者不希望錯(cuò)過機(jī)遇窗口,還有時(shí)間積攢籌碼。

總結(jié)一下,2023是大模型手機(jī)的修煉之年,三座基建、一個(gè)入口、一群人,都逐漸匯聚在端側(cè),變化或許在瞬息之間。

當(dāng)大模型的殺手級(jí)應(yīng)用步入手機(jī),讓用戶發(fā)出“哇”的尖叫。這個(gè)大模型手機(jī)的“aha時(shí)刻”,說明移動(dòng)互聯(lián)網(wǎng)的下一個(gè)春天,真的來臨了。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無評(píng)論