圖片來(lái)源@視覺(jué)中國(guó)
本文來(lái)自鈦媒體,文|第一新聲,作者|夏雨,編輯|也行。
據(jù)IDC預(yù)測(cè),中國(guó)數(shù)字人市場(chǎng)規(guī)模預(yù)計(jì)到2026年達(dá)102.4億元。這其中不僅包括正在快速發(fā)展中的B端市場(chǎng),還有被視為潛力股的C端市場(chǎng)。尤其是在AIGC大模型高速發(fā)展的當(dāng)下節(jié)點(diǎn),數(shù)字人的滲透率將會(huì)增強(qiáng)。
目前,諸多廠商已經(jīng)入局。今年8月,華為宣布推出盤(pán)古數(shù)字人大模型,可幫助用戶(hù)12小時(shí)完成數(shù)字人生成。此前騰訊推出了一些基于特定場(chǎng)景的虛擬數(shù)字人,如平安普惠數(shù)字員工、新華社主播“新小微”、航天員“小諍”、3D手語(yǔ)翻譯官“聆語(yǔ)”、故宮博物館導(dǎo)游“福大人”等。阿里巴巴的虛擬數(shù)字人為自身業(yè)務(wù)需求服務(wù),仍是以直播帶貨為主......
那么,在AIGC大模型浪潮下的數(shù)字人發(fā)展情況究竟如何?數(shù)字人將會(huì)應(yīng)用到哪些場(chǎng)景?面臨哪些技術(shù)挑戰(zhàn)?成本多少?本篇內(nèi)容對(duì)話(huà)了心識(shí)宇宙產(chǎn)品VP陳陽(yáng)、世優(yōu)科技創(chuàng)始人&CEO紀(jì)智輝、行業(yè)從業(yè)者李元(化名)等,試圖解答上述問(wèn)題。
01 AIGC加持下,數(shù)字人開(kāi)始狂飆?
騰訊發(fā)布《數(shù)字人產(chǎn)業(yè)報(bào)告》中,將數(shù)字人界定為“以數(shù)字形式存在于數(shù)字空間中,具有擬人或真人的外貌、行為和特點(diǎn)的虛擬人物。”
2023年,隨著AIGC的強(qiáng)勢(shì)崛起和類(lèi)ChatGPT語(yǔ)言大模型的問(wèn)世,數(shù)字人賽道變得越發(fā)熱鬧起來(lái)。開(kāi)始頻繁出現(xiàn)在各大應(yīng)用場(chǎng)景,以及文旅、電商、金融等多個(gè)行業(yè),形形色色的虛擬數(shù)字人正代替真人,充當(dāng)著代言人、主播、播報(bào)員、客服和智能助理的角色。
市場(chǎng)的參與者也肉眼可見(jiàn)變多?;ヂ?lián)網(wǎng)大廠、創(chuàng)業(yè)公司、老牌AI公司和一些此前做智能客服營(yíng)銷(xiāo)的數(shù)字服務(wù)商和資方都躬身入局。
銳觀網(wǎng)數(shù)據(jù)顯示,截至2022年12月,中國(guó)數(shù)字人行業(yè)投融資事件超過(guò)140件。據(jù)IDC發(fā)布的《中國(guó)AI數(shù)字人市場(chǎng)現(xiàn)狀與機(jī)會(huì)分析2022》報(bào)告中,預(yù)計(jì)到2026年中國(guó)AI數(shù)字人市場(chǎng)規(guī)模將達(dá)到102.4億元。
對(duì)于數(shù)字人產(chǎn)業(yè)越來(lái)越熱的現(xiàn)象,多位受訪(fǎng)人總結(jié)出三個(gè)原因。
一是從技術(shù)上來(lái)看,AIGC的出現(xiàn)解決了數(shù)字人“只會(huì)念稿、不能交互”等諸多痛點(diǎn)。生成算法提高了內(nèi)容創(chuàng)作的效率和便捷性,降低了成本和門(mén)檻,同時(shí)還豐富了內(nèi)容創(chuàng)作的多樣性和個(gè)性化,滿(mǎn)足了用戶(hù)的不同需求和喜好。自然語(yǔ)言處理大模型有助于提升數(shù)字人交互體驗(yàn),讓數(shù)字人從過(guò)去的“沒(méi)有大腦沒(méi)有靈魂”找到了一個(gè)比較好的出口。
與此同時(shí),建模渲染、AI生成動(dòng)作捕捉等技術(shù)也在不斷的進(jìn)步,讓整個(gè)數(shù)字人的表現(xiàn)比普通的AI機(jī)器人更加像自然人,對(duì)信息、知識(shí)的挖掘和梳理更充分,對(duì)語(yǔ)句的處理更加貼近人類(lèi)的日常交流表達(dá)習(xí)慣。
二是90后、00后為代表的“網(wǎng)絡(luò)原住民”,對(duì)虛擬角色的接受程度逐漸深入,很容易對(duì)虛擬角色投入情感。
三是國(guó)內(nèi)數(shù)字經(jīng)濟(jì)的進(jìn)一步發(fā)展趨勢(shì)下,讓企業(yè)降本增效的經(jīng)營(yíng)需求起到了助推作用。
行業(yè)從業(yè)者李元(化名)同意該觀點(diǎn),并以直播場(chǎng)景為例解釋?zhuān)嫒酥辈バ枰ㄙM(fèi)一定成本來(lái)搭建直播場(chǎng)景,而且隨著抖音、美團(tuán)等平臺(tái)開(kāi)啟本地生活直播,人才缺口也是一個(gè)問(wèn)題,數(shù)字人恰好能填補(bǔ)這個(gè)缺口,而且能夠做到7×24小時(shí)無(wú)休。
“公司通過(guò)AI技術(shù)在數(shù)字人‘造人、養(yǎng)人、用人’三個(gè)不同階段均實(shí)現(xiàn)成本控制、規(guī)?;a(chǎn)能力。在AI產(chǎn)品方面,今年世優(yōu)科技推出了世優(yōu)BOTA、世優(yōu)AI數(shù)字人直播系統(tǒng)AI數(shù)字人產(chǎn)品體系。通過(guò)AI與數(shù)字人的結(jié)合應(yīng)用,實(shí)現(xiàn)批量化打造虛擬人,為行業(yè)降本增效。”世優(yōu)科技創(chuàng)始人&CEO紀(jì)智輝說(shuō)道。
當(dāng)前,數(shù)字人的應(yīng)用越來(lái)越廣泛,無(wú)論是B端還是C端都出現(xiàn)了數(shù)字人的身影。清華大學(xué)發(fā)布的《虛擬數(shù)字人研究報(bào)告2.0版》顯示,數(shù)字人已經(jīng)滲透到各行各業(yè),成為新一代的生產(chǎn)力和創(chuàng)造力。從頭部企業(yè)的布局來(lái)看,數(shù)字人產(chǎn)品服務(wù)在B端占有79%的市場(chǎng),而在C端占比36%。
在數(shù)字人的B端應(yīng)用場(chǎng)景方面,心識(shí)宇宙產(chǎn)品VP陳陽(yáng)坦言:“主要是做客服、營(yíng)銷(xiāo)、文旅導(dǎo)游以及AI直播等,因?yàn)锳I直播本質(zhì)上也是在與觀看直播的用戶(hù)互動(dòng)、回答用戶(hù)提出的問(wèn)題。難點(diǎn)在于數(shù)字人客服如何快速的為交流對(duì)象提供正確的答案?基于ChatGPT大語(yǔ)言模型,數(shù)字人可以得到很多信息,但同時(shí)也會(huì)出現(xiàn)無(wú)法準(zhǔn)確回答交流對(duì)象、甚至是編造答案的現(xiàn)象。這對(duì)客服場(chǎng)景會(huì)帶來(lái)致命的傷害。”
在數(shù)字人的行業(yè)應(yīng)用落地方面,IDC的相關(guān)報(bào)告介紹,金融行業(yè)是當(dāng)下數(shù)字人應(yīng)用相對(duì)更成熟的領(lǐng)域,到2025年,超過(guò)80%的銀行都將部署數(shù)字人,承擔(dān)90%的客服和理財(cái)咨詢(xún)服務(wù)。例如浦發(fā)銀行是國(guó)內(nèi)最早“聘用”數(shù)字員工的銀行,目前3D數(shù)字人“小浦”已經(jīng)在20多個(gè)崗位任職,包括財(cái)富規(guī)劃師、文檔審核員、大堂經(jīng)理、電話(huà)客服等。
此外,企業(yè)的數(shù)字人可以與內(nèi)部系統(tǒng)綁定,員工可以跟它交流了解公司的規(guī)章制度,查詢(xún)各種信息等。
未來(lái),數(shù)字人將在醫(yī)療、教育、制造等多個(gè)領(lǐng)域發(fā)揮作用,例如在醫(yī)療領(lǐng)域,數(shù)字人可以作為認(rèn)知智能大模型,輔助醫(yī)生進(jìn)行診斷和治療;在教育領(lǐng)域,數(shù)字人可以作為個(gè)性化教學(xué)助手,幫助學(xué)生提高學(xué)習(xí)效果。
接受采訪(fǎng)的幾位業(yè)內(nèi)人士都表示,未來(lái)C端也是一個(gè)比較有潛力的市場(chǎng),未來(lái)可能人人都會(huì)有一個(gè)屬于自己的數(shù)字人,但從成本、技術(shù)、設(shè)備來(lái)看,還需要經(jīng)歷一段時(shí)間的發(fā)展。
02難以逾越的成本高墻,3D數(shù)字人成本達(dá)100萬(wàn)
想要躬身入局的企業(yè),需要懂得計(jì)算投入產(chǎn)出比。
目前,數(shù)字人分為兩類(lèi),一類(lèi)是由人驅(qū)動(dòng)的“中之人”,是指依靠人力驅(qū)動(dòng)虛擬主播進(jìn)行直播,這種驅(qū)動(dòng)方式需要進(jìn)行大量的拍攝及后期工作,成本較高,眾多3D虛擬人采用的便是中之人驅(qū)動(dòng)。
另一類(lèi)是AI驅(qū)動(dòng)數(shù)字人,指通過(guò)使用機(jī)器學(xué)習(xí),喂養(yǎng)數(shù)據(jù)等方式訓(xùn)練數(shù)字人完成特定的任務(wù)。這類(lèi)數(shù)字人通常應(yīng)用于工作重復(fù)量高的服務(wù)型場(chǎng)景,目前在直播間帶貨的2D真人數(shù)字人大都屬于該類(lèi)。
3D數(shù)字人往往以動(dòng)畫(huà)人物形象出現(xiàn),適用于虛擬IP的打造。對(duì)于該類(lèi)型數(shù)字人來(lái)說(shuō),從面部輪廓到服飾場(chǎng)景都需要自定義打造,成本通常會(huì)更高,制作周期也會(huì)更長(zhǎng),報(bào)價(jià)超過(guò)20萬(wàn)元。
例如英偉達(dá)曾在官方博客中稱(chēng),黃仁勛虛擬人在發(fā)布會(huì)上出鏡的14秒視頻,共有34位3D美術(shù)師和15位軟件工程師協(xié)同參與,總計(jì)近千工時(shí)。
這樣高昂的成本得到了李元的證實(shí),“在傳統(tǒng)的3D建模技術(shù)下,一個(gè)能看得過(guò)去的定制數(shù)字人,需要幾十萬(wàn)的成本,這還只是冰山一角。”
據(jù)世優(yōu)科技CEO紀(jì)智輝介紹稱(chēng),市場(chǎng)一般將數(shù)字人成本分為3部分,即造人、養(yǎng)人、用人。第一部分是造人,通過(guò)角色創(chuàng)意、原畫(huà)、建模、綁定、表情、實(shí)時(shí)渲染等環(huán)節(jié),可按照風(fēng)格生產(chǎn)出卡通Q版,迪士尼人形、二次元、次世代、美型寫(xiě)實(shí)、超寫(xiě)實(shí)等不同風(fēng)格。價(jià)格從幾萬(wàn)到上百萬(wàn)不等。
第二部分是養(yǎng)人,當(dāng)數(shù)字人被造出之后,還需要低成本、高頻不斷的輸出內(nèi)容,用數(shù)字人生成內(nèi)容,養(yǎng)出IP認(rèn)知度。例如數(shù)字人需要出一條短視頻或者一條TVC廣告片,其成本則是根據(jù)內(nèi)容的精度、效果以及腳本內(nèi)容不同等因素來(lái)決定,一分鐘成本從幾千、幾萬(wàn)到幾十萬(wàn)不等,主要取決于腳本的難易程度。
第三部分是用人,主要是指數(shù)字人生產(chǎn)內(nèi)容后所應(yīng)用的場(chǎng)景。“目前,世優(yōu)科技在用人方面涉及十大應(yīng)用場(chǎng)景,包括廣電媒體、品牌營(yíng)銷(xiāo)、電商直播、短視頻、政府文旅、教育娛樂(lè)、影視劇、AR/VR/AI、NFT、元宇宙等各類(lèi)線(xiàn)上線(xiàn)下場(chǎng)景。比如數(shù)字人做虛擬主播、媒體記者、活動(dòng)主持人、線(xiàn)下展廳接待員等等。根據(jù)客戶(hù)的項(xiàng)目需求,涉及相關(guān)執(zhí)行的成本。”紀(jì)智輝說(shuō)道。
不同類(lèi)型的數(shù)字人所產(chǎn)生的成本差異較大,應(yīng)用AI生成技術(shù)研發(fā)的2D數(shù)字人相比之下,成本便宜很多。“整體來(lái)說(shuō),2D數(shù)字人的成本只有3D的1/10或者1/20,這是目前相對(duì)接地氣、市場(chǎng)上容易接受的水平。”紀(jì)智輝說(shuō)道。
世優(yōu)科技擁有2D數(shù)字人相關(guān)產(chǎn)品線(xiàn)。2D不需要建模,生產(chǎn)過(guò)程也相對(duì)簡(jiǎn)單,主要是通過(guò)拍攝一段真人視頻后通過(guò)AI技術(shù)訓(xùn)練而成,造人成本只需要幾千塊錢(qián)。在養(yǎng)人生成內(nèi)容方面也只需要輸入腳本,數(shù)字人就能講話(huà)做到對(duì)外輸出,養(yǎng)人成本只需要幾塊錢(qián)/分鐘,之后會(huì)接近于0。
當(dāng)然,2D數(shù)字人并不能適用于所有場(chǎng)景,在游戲場(chǎng)景和虛擬偶像這樣的賽道中,企業(yè)只能使用高價(jià)的3D數(shù)字人,成本負(fù)擔(dān)可想而知。而且無(wú)論2D數(shù)字人還是3D數(shù)字人,都面臨著內(nèi)容劣勢(shì)。
今年5月抖音發(fā)布AI標(biāo)識(shí)令,開(kāi)始監(jiān)管數(shù)字人這一新物種。在內(nèi)容上沒(méi)有競(jìng)爭(zhēng)力,只會(huì)重復(fù)口播的大量2D數(shù)字人被封禁。紀(jì)智輝提到,因?yàn)槎兑?、快手、微信是?nèi)容與電商平臺(tái),所以主播必須提供高質(zhì)量的內(nèi)容。而AI生成的部分內(nèi)容質(zhì)量不高,平臺(tái)就不給流量,最終導(dǎo)致了東西賣(mài)不出去。所以數(shù)字人實(shí)現(xiàn)高銷(xiāo)量的帶貨,是需要配備運(yùn)營(yíng)團(tuán)隊(duì)、好的貨盤(pán)等好幾個(gè)因素疊加才能把帶貨ROI做好。
至于大眾對(duì)于AI所引發(fā)的“換臉”、“永生”等風(fēng)險(xiǎn)的擔(dān)憂(yōu),李元表示:“任何新技術(shù)的出現(xiàn)和應(yīng)用都需要一些相應(yīng)的規(guī)范,監(jiān)管也在做出反應(yīng)。今年1月份,有關(guān)部門(mén)就出臺(tái)了AI生成內(nèi)容的一些監(jiān)管政策。市場(chǎng)內(nèi)的正規(guī)廠商對(duì)此也很重視,這些廠商都有自我規(guī)范和要求。”
03三個(gè)技術(shù)難題,數(shù)字人無(wú)法像人“生動(dòng)靈活”
值得注意的是,當(dāng)下大模型驅(qū)動(dòng)的數(shù)字人產(chǎn)品仍處于應(yīng)用落地的早期階段。除了上述提到的成本制約因素以外外,業(yè)界普遍認(rèn)為現(xiàn)階段,技術(shù)成熟度和效率也仍然是數(shù)字人的難題之一。
有研究報(bào)告將數(shù)字人的特征總結(jié)為3點(diǎn),但技術(shù)在這些特征上的呈現(xiàn)均有許多不足之處。
一是數(shù)字人擁有人的外觀,具有特定的相貌、性別和性格等人物特征。
“如果客戶(hù)不選擇超寫(xiě)實(shí)數(shù)字人,即完全復(fù)刻一個(gè)真人的狀態(tài),那么數(shù)字人的外觀技術(shù)已經(jīng)較為成熟了,只是數(shù)字人的表情、動(dòng)作仍有卡點(diǎn)。但是在沒(méi)有真人動(dòng)捕而是完全通過(guò)自我驅(qū)動(dòng)的情況下,數(shù)字人很難呈現(xiàn)出自然的表情和動(dòng)作。”陳陽(yáng)說(shuō)道。
二是數(shù)字人擁有人的行為,具有用語(yǔ)言、面部表情和肢體動(dòng)作表達(dá)的能力。但不少數(shù)字人產(chǎn)品在語(yǔ)音、表情、互動(dòng)表現(xiàn)上目前還比較生硬。
李元認(rèn)為,由于數(shù)字人缺乏情緒、情感的表達(dá)能力,例如在感到生氣或委屈時(shí),無(wú)法用更豐富面部表情和更大的肢體動(dòng)作來(lái)呈現(xiàn),導(dǎo)致數(shù)字人雖然擁有了人的外貌、聲音,卻無(wú)法像人一樣生動(dòng)靈活的原因。
三是擁有人的思想,具有識(shí)別外界環(huán)境、并能與人交流互動(dòng)的能力。
“雖然ChatGPT的出現(xiàn)賦予了數(shù)字人大腦,但如果市場(chǎng)希望刻畫(huà)一個(gè)有特定個(gè)性,甚至有自己成長(zhǎng)經(jīng)歷、世界觀的一個(gè)角色,單純使用ChatGPT很難實(shí)現(xiàn),目前整個(gè)技術(shù)還不能很好的支持這個(gè)事情。”李元說(shuō)道。
據(jù)悉,目前AI還不夠智能,這導(dǎo)致智能驅(qū)動(dòng)型(TTSA人物模型)的交互型數(shù)字人只能作為補(bǔ)充型的角色存在(游戲場(chǎng)景除外),市面上仍以真人驅(qū)動(dòng)的為主,比如在視頻直播和展臺(tái)上的充當(dāng)主播的數(shù)字人。
陳陽(yáng)觀察稱(chēng),展臺(tái)會(huì)用全息技術(shù)投訴一個(gè)角色與訪(fǎng)客互動(dòng)。AI驅(qū)動(dòng)的數(shù)字人則主要是充當(dāng)文旅導(dǎo)游,同時(shí)在一些淘寶直播間也會(huì)出現(xiàn),在真人主播無(wú)法覆蓋的時(shí)間段,會(huì)使用這樣的數(shù)字人,應(yīng)用場(chǎng)景比較有限。
不過(guò)紀(jì)智輝認(rèn)為,隨著AI技術(shù)發(fā)展,未來(lái)AI驅(qū)動(dòng)型的交互型數(shù)字人市場(chǎng)可能會(huì)比較廣闊。真人驅(qū)動(dòng)型數(shù)字人會(huì)更適合進(jìn)3D空間實(shí)時(shí)互動(dòng),比如3D數(shù)字人實(shí)時(shí)互動(dòng)直播、元宇宙這樣的應(yīng)用場(chǎng)景。
從年初熱鬧至今,從業(yè)者與客戶(hù)們也觀察到,市場(chǎng)已經(jīng)在呈現(xiàn)理性回歸狀態(tài)。一些喧囂和割韭菜類(lèi)的廠商與代理商等角色在加速出清,希望未來(lái)數(shù)字人真正為企業(yè)實(shí)現(xiàn)降本增效。