亚洲国产精品不卡在线,亚洲图片欧美图片日本av

多模態(tài)大模型推動(dòng)AI邁向“通感”時(shí)代

2023-07-20 15:07

文匯網(wǎng)

沈湫莎

當(dāng)ChatGPT橫空出世，專家就預(yù)言它將改變?nèi)藱C(jī)交互的“接口”。當(dāng)下，多模態(tài)理解、生成和交互能力正成為大模型新一輪演化的重要方向，一個(gè)人人都能用語(yǔ)音“指揮”AI的低門檻時(shí)代或許已近在咫尺。

本文來自文匯網(wǎng)，作者/沈湫莎。

如同人類的“五感”互相連通密不可分，人工智能（AI）的視覺、語(yǔ)言、音頻等模態(tài)間的邊界也在日漸融合。隨著人工智能感知、交互和生成能力的快速發(fā)展，多模態(tài)大模型正推動(dòng)人工智能邁進(jìn)“通感”時(shí)代。

記者昨天從上海人工智能實(shí)驗(yàn)室獲悉，該實(shí)驗(yàn)室發(fā)布的書生多模態(tài)大模型在全球80多種多模態(tài)和視覺評(píng)測(cè)任務(wù)中性能領(lǐng)先，超過谷歌、微軟、OpenAI等研發(fā)的同類模型。

書生多模態(tài)大模型包含200億個(gè)參數(shù)，由80億個(gè)海量多模態(tài)樣本訓(xùn)練而成，支持350萬(wàn)語(yǔ)義標(biāo)簽的識(shí)別和理解，覆蓋開放世界常見的類別和概念，已具備開放世界理解、跨模態(tài)生成、多模態(tài)交互3方面核心能力。

從預(yù)定義任務(wù)到開放任務(wù)，解鎖真實(shí)世界理解力

在快速增長(zhǎng)的各類應(yīng)用場(chǎng)景需求下，傳統(tǒng)計(jì)算機(jī)視覺已無法處理真實(shí)世界中數(shù)不勝數(shù)的特定任務(wù)和場(chǎng)景需求，迫切需要一種具備通用場(chǎng)景感知和復(fù)雜問題處理能力的高級(jí)視覺系統(tǒng)。書生多模態(tài)大模型融合了視覺、語(yǔ)言及多任務(wù)建模三大模型能力，即通用視覺大模型、用于文本理解的超大語(yǔ)言預(yù)訓(xùn)練模型（LLM）和用于多任務(wù)的兼容解碼建模大模型，這使它能夠更接近人類的感知和認(rèn)知能力。

在人工智能研究中，“開放世界”是指非預(yù)設(shè)、非學(xué)術(shù)集或封閉集定義的真實(shí)世界。傳統(tǒng)研究中，AI僅能完成預(yù)定義任務(wù)，即學(xué)術(shù)集或封閉集定義的任務(wù)，而這種任務(wù)范圍與真實(shí)的開放世界存在很大差距。例如，ImageNet-1K學(xué)術(shù)集包含1000種物體，其中約有兩種花、48種鳥和21種魚；而在真實(shí)世界中，花、鳥、魚的種類分別約為45萬(wàn)、1萬(wàn)和2萬(wàn)。

在開放世界中，書生多模態(tài)大模型正通過不斷學(xué)習(xí)，獲得更接近人類的感知和認(rèn)知能力。在語(yǔ)義開放方面，它可以識(shí)別和理解開放世界中超過350萬(wàn)種語(yǔ)義，覆蓋日常生活中常見的物體類別、物體動(dòng)作和光學(xué)字符等，完成了從解決預(yù)定義任務(wù)到執(zhí)行開放任務(wù)的蛻變，為未來多模態(tài)通用人工智能（AGI）模型研究提供了有力支持。

看圖寫詩(shī)，跨模態(tài)生成同時(shí)給出“創(chuàng)作思路”

眼下，AI技術(shù)的發(fā)展正面臨著大量跨模態(tài)任務(wù)的挑戰(zhàn)。如在自動(dòng)駕駛場(chǎng)景下，需準(zhǔn)確輔助車輛判斷交通燈狀態(tài)、道路標(biāo)志牌等信息，為車輛的決策規(guī)劃提供有效信息輸入。

看圖寫作是一種經(jīng)典的模態(tài)轉(zhuǎn)換能力。在“欣賞”了張大千的《湖山清夏圖》后，書生多模態(tài)大模型根據(jù)要求創(chuàng)作了一首七言絕句，詩(shī)篇如下：“山峰高聳入云天，云霧繚繞自成煙。忘身物外心自適，靜聽松濤入畫眠。”上海人工智能實(shí)驗(yàn)室表示，書生多模態(tài)大模型已經(jīng)具備了由圖像到文本的跨模態(tài)生成能力，最后一句還借鑒了唐代詩(shī)人韋莊的名句“春水碧于天，畫船聽雨眠”，體現(xiàn)出一定文化積累。

生成文本的同時(shí)，書生大模型還給出了“創(chuàng)作思路”：首先確定圖片中描繪的元素；其次，從畫面中尋找能夠表達(dá)出詩(shī)人思想情感的元素，如山峰高聳、云霧繚繞、松濤等；第三，根據(jù)元素構(gòu)思詩(shī)句；最后，根據(jù)詩(shī)句的韻律和格律完善表達(dá)。

將圖像視為新語(yǔ)言，多模態(tài)交互降低使用門檻

當(dāng)人工智能邁入“通感”時(shí)代，對(duì)人們最近的影響是什么？上海人工智能實(shí)驗(yàn)室有關(guān)專家表示，書生多模態(tài)大模型可以將圖像視為一種新的語(yǔ)言，用戶可利用自然語(yǔ)言指令，靈活定義和管理任意視覺任務(wù)。

打個(gè)比方，當(dāng)你輸入一張照片，并用語(yǔ)音“指揮”AI將其轉(zhuǎn)換成一段文字并發(fā)送給父母時(shí)，它能立即理解并完成指令。多模態(tài)交互功能降低了AI任務(wù)的門檻，使AI有望成為萬(wàn)千大眾都能使用的生產(chǎn)工具。

也就是說，人機(jī)交互的“接口”即將改變。過去，我們?cè)诓煌瑘?chǎng)景中借助不同軟件與虛擬世界相連，這意味著我們還處于圖形界面用戶時(shí)代；未來，多模態(tài)大模型將把我們帶入自然語(yǔ)言對(duì)話界面時(shí)代，如鋼鐵俠擁有了AI助手賈維斯。

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點(diǎn)資訊

議政論法丨信息時(shí)代，如何保護(hù)我們的肖像權(quán)

多模態(tài)大模型推動(dòng)AI邁向“通感”時(shí)代

2024 信息化觀察網(wǎng)

長(zhǎng)按掃描二維碼閱讀原文

多模態(tài)大模型推動(dòng)AI邁向“通感”時(shí)代

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

網(wǎng)絡(luò)犯罪分子利用人工智能手段進(jìn)行發(fā)票欺詐

熱點(diǎn)丨“AI大模型”已經(jīng)成創(chuàng)業(yè)熱點(diǎn)

ChatGPT技術(shù)或加劇釣魚郵件攻擊

2023年的科技趨勢(shì)，除了ChatGPT還有哪些看點(diǎn)？

本月熱門

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國(guó)際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會(huì)即將啟幕!

網(wǎng)博會(huì)革新升級(jí)：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬(wàn)億賽道!AI算力趨勢(shì)發(fā)展深度分析 2024

精選文章

2024中國(guó)信息技術(shù)應(yīng)用創(chuàng)新榜重磅發(fā)布

新一代醫(yī)院數(shù)據(jù)中心建設(shè)-貴州省骨科醫(yī)院

2023中國(guó)大數(shù)據(jù)創(chuàng)新優(yōu)秀案例公布，華為云兩大案例入選

2022（第四屆）中國(guó)電子政務(wù)安全大會(huì)在京成功召開

宏誠(chéng)創(chuàng)新獲2023行業(yè)信息技術(shù)應(yīng)用創(chuàng)新大會(huì)兩項(xiàng)大獎(jiǎng)

芯軟智控與中興通訊共同攜手：筑路數(shù)字經(jīng)濟(jì) 共贏云網(wǎng)生態(tài)

熱點(diǎn)資訊

什么是 OSI 模型？OSI 模型的七層是哪些？

自動(dòng)化測(cè)試有哪些常見的挑戰(zhàn)和解決方案？

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標(biāo)桿案例”

共筑數(shù)字未來|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

數(shù)據(jù)要素X政策寶：引領(lǐng)企業(yè)和政策數(shù)據(jù)服務(wù)的新浪潮

議政論法丨信息時(shí)代，如何保護(hù)我們的肖像權(quán)

數(shù)據(jù)中心鮮為人知的十大事實(shí)

多模態(tài)大模型推動(dòng)AI邁向“通感”時(shí)代

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

欄目推薦

網(wǎng)絡(luò)犯罪分子利用人工智能手段進(jìn)行發(fā)票欺詐

熱點(diǎn)丨“AI大模型”已經(jīng)成創(chuàng)業(yè)熱點(diǎn)

ChatGPT技術(shù)或加劇釣魚郵件攻擊

2023年的科技趨勢(shì)，除了ChatGPT還有哪些看點(diǎn)？

本月熱門

精選文章

熱點(diǎn)資訊

議政論法丨信息時(shí)代，如何保護(hù)我們的肖像權(quán)

數(shù)據(jù)中心鮮為人知的十大事實(shí)

2023年的科技趨勢(shì)，除了ChatGPT還有哪些看點(diǎn)？