AI虛擬人“驚艷”亮相,多模態(tài)融合技術再起波瀾

企業(yè)服務部
AI虛擬人幾乎復刻了一個真實的人,其外形、表情、動作形態(tài)逼真,語調、語氣、說話風格自然流暢,還能通過多感官實時關注和識別用戶的情緒、表情、語氣,根據(jù)對話內容及時作出反應。

10cc1ff9abd24c50ba6b4889bf9e4457(1).jpg

才藝精湛、情感豐富、又美又颯……這樣的AI虛擬人,你喜歡嗎?

AI虛擬人幾乎復刻了一個真實的人,其外形、表情、動作形態(tài)逼真,語調、語氣、說話風格自然流暢,還能通過多感官實時關注和識別用戶的情緒、表情、語氣,根據(jù)對話內容及時作出反應。同時,利用人工智能技術實現(xiàn)人體從微觀到宏觀的結構和機能的數(shù)字化,可視化,最終達到將現(xiàn)實生活中的人精確的在數(shù)字世界中模擬構建出來。

隨著人工智能技術的不斷發(fā)展,每一次迭代新功能出現(xiàn)的AI虛擬人都會引來諸多關注的目光。甚至有觀點預測,未來的AI虛擬人類將成為人類和機器之外的第三類的存在。

如今,AI虛擬人的時代已經(jīng)到來,這其中的技術取得了哪些突破?在人工智能從感知智能時代向認知智能時代邁進的過程中,有哪些發(fā)力的方向又面臨哪些挑戰(zhàn)?

01

AI虛擬人時代已到來

“大家好,我是華智冰,從誕生起我就對文學和藝術很感興趣,不僅能寫詩作畫,還會根據(jù)不用場景創(chuàng)作歌曲……”

近日,清華大學計算機科學系迎來了一位“特殊”的學生,作為中國第一位原創(chuàng)虛擬學生,華智冰以視頻形式登臺亮相,不僅驚艷了觀眾,也引發(fā)了廣泛的關注。

除了華智冰外,今年5月,騰訊AI虛擬人艾靈再秀新技能,首次展示AI作詩、AI書法等國風才藝,還能一展歌喉,與歌手展開跨次元合作。

10cc1ff9abd24c50ba6b4889bf9e4457(1).jpg

中國軟件網(wǎng)根據(jù)公開信息整理

根據(jù)中國軟件網(wǎng)不完全統(tǒng)計,僅今年以來,已有近10位AI虛擬人面世。其中,搜狗和科大訊飛推出的AI虛擬人側重于新聞播報,甚至是可定制化的方言播報,將內容多元化與場景多元化有效結合,讓新聞資訊更接地氣,呈現(xiàn)千人千面的特點。

值得關注的是,技能得到顯著升級也是近期AI虛擬人的一大特點。除了寫詩作畫、唱歌舞蹈外,在所有的對話式人工智能系統(tǒng)中,華智冰也是目前掌握交互數(shù)據(jù)最多的AI虛擬人。

02

AI虛擬人背后的技術革新

在人工智能高速發(fā)展的十年時間里,自然語言處理、計算機視覺及機器學習等技術都取得了重大突破。如今它已被多數(shù)人認可為最有可能深刻變革人類社會的顛覆性技術。

華智冰的才華背后離不開人工智能技術的支持。根據(jù)媒體報道,華智冰“脫胎”于中國“悟道”超大規(guī)模人工智能模型,其形象、聲音,甚至“才藝”,都是通過該人工智能模型生成。

值得一提的是,目前新發(fā)布的“悟道2.0”達到了1.75萬億參數(shù),可以同時處理中英文和圖片數(shù)據(jù)。該模型還引入大規(guī)模的知識圖譜,構建了數(shù)據(jù)與知識雙輪驅動的人工智能框架,并通過這種框架分析、理解富含前沿技術信息的知識。正是依托這一模型,華智冰不僅可以作詩作曲、生成圖畫,還具有一定的推理和情感交互能力。

誕生在騰訊AI Lab的艾靈,背后也離不開機器學習、計算機視覺、自然語言處理等多種核心AI能力融合。艾靈具備的唱歌、表情、作詞、書法等多項才藝,均來自于對海量數(shù)據(jù)的深度學習,這幫助她快速掌握更多技能,向全能AI不斷接近。其中,美妙的歌聲來源于騰訊AI Lab研發(fā)的DurIAN聲學模型。寫藏頭詩的能力,來自文本創(chuàng)作模型SongNet。最新掌握的新技能書法,則是依托前沿的圖像生成技術,通過訓練AI書法學習模型,模仿書法的形體及神韻。

“現(xiàn)在的深度學習和機器學習,是在原有自動化規(guī)則上多了學習能力,即自己發(fā)現(xiàn)規(guī)律。換言之,由于人類很難發(fā)現(xiàn)規(guī)律中的細節(jié),而AI可通過大量訓練讓電腦學習去發(fā)現(xiàn)內在規(guī)律及細節(jié)。”華為人工智能算法工程師張侗表示。

如今,AI技術已日趨成熟化和規(guī)模化。然而要真正實現(xiàn)通用人工智能,必然要將在視覺、自然語言處理等細分領域各自所針對的信息模態(tài)整合利用,即實現(xiàn)多模態(tài)融合。多模態(tài)融合的目標是建立在圖像、文字、語音等的多模態(tài)信息識別的基礎上,實現(xiàn)不同模態(tài)信息的統(tǒng)一表征框架,從而起到1+1>2的作用。

除了圖文融合等跨域模態(tài)融合,同域內的不同信息維度同樣可以融合,隨著人工智能認知能力的提升,多模態(tài)融合也將會從圖文等實質性模態(tài),逐漸拓展到如物理關系,邏輯推斷,因果分析等知識性模態(tài),從感知智能邁向認知智能。

10cc1ff9abd24c50ba6b4889bf9e4457(1).jpg

騰訊AI Lab的多模態(tài)虛擬人合成技術

03

人工智能從感知智能向認知智能邁進

雖然現(xiàn)有的AI虛擬人已較此前相比在專業(yè)技能等方面有了長足進展,新一代人工智能正在逐步從感知智能向認知智能轉化。但從目前看,現(xiàn)有的認知智能研究剛剛起步,遠遠沒有達到人類水平。

感知智能是指機器具備了視覺、聽覺、觸覺等感知能力,能將多元數(shù)據(jù)結構化,并用人類熟悉的方式去溝通和互動;而認知智能則是指從類腦的研究和認知科學當中來汲取靈感,并且結合跨領域的知識圖譜進行因果推理與持續(xù)學習等,為機器賦予類似人類的思維邏輯和認識能力,特別是理解、歸納和應用知識的能力。

智源研究院學術副院長、清華大學教授唐杰認為,未來AI虛擬人不僅需要可持續(xù)學習能力,創(chuàng)造能力和推理能力也是同樣重要的技能。這就需要AI虛擬人寫詩、作畫,甚至會回答一些數(shù)學問題,還會編程。

值得期待的是,對AI虛擬人進行情感能力的培養(yǎng)已在進行。如今人和世界的關系正在發(fā)生變化,從過去到現(xiàn)在是人和人的交互,從現(xiàn)在到未來則是每個人通過億萬個虛擬人類與世界發(fā)生交互。虛擬人類和人類之間的關系不是替代的關系,而是協(xié)同的關系。

在人工智能從感知智能向認知智能演進中,“數(shù)據(jù)+算力+算法=模型”是其顯著特點,模型濃縮了訓練數(shù)據(jù)的內部規(guī)律,是實現(xiàn)人工智能應用的載體。通過設計先進的算法整合盡可能多的數(shù)據(jù),匯聚大量算力,并集約化地訓練大模型供大量企業(yè)使用,已成為必然趨勢。

與此同時,在新基建政策的導向下,新基建的核心是數(shù)字化基建,而數(shù)字化的核心除了互聯(lián)網(wǎng)技術之外便是人工智能技術。在人工智能被擺放在首要位置的背景下,互聯(lián)網(wǎng)巨頭以及相關類型的公司都加大了在人工智能領域的投入。

例如,百度不僅計劃在未來5年培養(yǎng)500萬的AI人才,更推出包括對話式人工智能操作系統(tǒng)DuerOS等在內的多款人工智能類產品。科大訊飛、商湯科技等人工智能專業(yè)企業(yè)分別在智能語音技術、智能圖像識別技術等領域加大研發(fā),取得了重大突破。

此外,AI虛擬人在當前的發(fā)展中也面臨著一些現(xiàn)實挑戰(zhàn):

第一是投入成本極高。以科大訊飛為例,科大訊飛2019年度研發(fā)投入金額為21.43億元,較2018年增長了20.91%。換句話說,科大訊飛把超過五分之一的企業(yè)營收放在了研發(fā)上。這樣的高成本、高投入、高研發(fā)促使人民日報首位虛擬主播“果果”和全球首個人工智能多語種虛擬主播“小晴”成功上線;

第二是場景單一。從目前的AI虛擬人看,大多數(shù)僅限于新聞播報、多語種播報、氣象播報等單一場景,沒有進一步的下沉推廣;

第三是認可度較低。目前的AI虛擬人雖然才藝廣泛,但還很難做到結合自身的理解和感受,即興組織語言。同時,缺少情感互動,無法感知關懷、溫暖,難以產生真正的共鳴。

總體來看,以人工智能為核心的新一代信息技術正在改變著各個領域,成為千行萬業(yè)實現(xiàn)創(chuàng)新發(fā)展的新動能。但從AI虛擬人應用現(xiàn)狀來看,如何降低研發(fā)成本,開發(fā)新的應用場景等方面,成為相關科技企業(yè)和科研院所亟需解決的難題。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論