本文來(lái)自騰訊研究院,作者/徐思彥。
當(dāng)OpenAI在2022年11月30日發(fā)布ChatGPT的時(shí)候,沒(méi)有人會(huì)意識(shí)到,新一代人工智能浪潮將在接下來(lái)的6個(gè)月給人類社會(huì)帶來(lái)一場(chǎng)眩暈式的變革。自2010年代初深度學(xué)習(xí)問(wèn)世以來(lái),人工智能進(jìn)入到第三次高潮。而2017年Transformer算法將深度學(xué)習(xí)推向了大模型時(shí)代。OpenAI基于Transformer的Decoder部分建立起來(lái)了GPT家族。
ChatGPT一經(jīng)面世便風(fēng)靡全球,人們驚訝于其能夠進(jìn)行連貫、有深度對(duì)話的同時(shí),也驚異地發(fā)現(xiàn)了它涌現(xiàn)了推理、思維鏈等體現(xiàn)智能的能力。伴隨AI預(yù)訓(xùn)練大模型持續(xù)發(fā)展、人工智能生成內(nèi)容(AIGC)算法不斷創(chuàng)新以及多模態(tài)AI日益主流化,以ChatGPT為代表的AIGC技術(shù)加速成為AI領(lǐng)域的最新發(fā)展方向,推動(dòng)AI迎來(lái)下一個(gè)大發(fā)展、大繁榮的時(shí)代,將對(duì)經(jīng)濟(jì)社會(huì)發(fā)展產(chǎn)生重大的影響。
AIGC技術(shù)的定義及背景
AIGC(Artificial Inteligence Generated Content),指的是通過(guò)人工智能技術(shù)自動(dòng)生成內(nèi)容的生產(chǎn)方式。通過(guò)訓(xùn)練模型來(lái)生成新的、與訓(xùn)練數(shù)據(jù)相似的內(nèi)容。與傳統(tǒng)類型的AI主要關(guān)注識(shí)別和預(yù)測(cè)現(xiàn)有數(shù)據(jù)的模式不同,AIGC著重于創(chuàng)造新的、有創(chuàng)意的數(shù)據(jù),其關(guān)鍵原理在于學(xué)習(xí)和理解數(shù)據(jù)的分布,進(jìn)而生成具有相似特征的新數(shù)據(jù),在圖像、文本、音頻、視頻等多種領(lǐng)域都有廣泛的應(yīng)用。AIGC目前最引人注目的應(yīng)用當(dāng)屬ChatGPT。ChatGPT是基于OpenAI公司的大型語(yǔ)言模型GPT-3.5訓(xùn)練、調(diào)試、優(yōu)化的聊天機(jī)器人應(yīng)用,同一個(gè)AI模型可以處理各種各樣的文字和推理任務(wù)。ChatGPT發(fā)布僅兩個(gè)月即獲得1億月活用戶,超越了歷史上所有互聯(lián)網(wǎng)消費(fèi)者應(yīng)用軟件的用戶增長(zhǎng)速度。以大型語(yǔ)言模型、圖像生成模型為代表的AIGC技術(shù),成為新一代人工智能的平臺(tái)型技術(shù),助力不同行業(yè)實(shí)現(xiàn)價(jià)值躍升。
AIGC大爆發(fā)的背后,普遍認(rèn)為三個(gè)領(lǐng)域的AI技術(shù)的發(fā)展為其提供了肥沃的土壤,分別是生成算法、預(yù)訓(xùn)練模型和多模態(tài)技術(shù)。
第一,隨著各種生成算法的不斷創(chuàng)新突破,AI現(xiàn)在已經(jīng)可以生成文字、代碼、圖像、語(yǔ)音、視頻物體等各種類型的內(nèi)容和數(shù)據(jù)。AIGC與過(guò)去最顯著的區(qū)別是從分析式AI(Analytical AI)發(fā)展為生成式AI(Generative AI)。分析式AI模型是根據(jù)已有數(shù)據(jù)進(jìn)行分析、判斷、預(yù)測(cè),最典型的應(yīng)用之一是內(nèi)容智能推薦;生成式AI模型則是學(xué)習(xí)已有數(shù)據(jù)后進(jìn)行演繹、生成創(chuàng)造全新內(nèi)容。
第二,預(yù)訓(xùn)練模型,也就是我們常說(shuō)的大模型,引發(fā)了AIGC技術(shù)能力的質(zhì)變。在過(guò)去,研究人員需要針對(duì)每一個(gè)類型的任務(wù)單獨(dú)訓(xùn)練AI模型,訓(xùn)練好的模型只能從事特定任務(wù),不具有通用性。而預(yù)訓(xùn)練的大模型技術(shù)顯著提升了AIGC模型的通用化能力和工業(yè)化水平,讓AIGC模型成為自動(dòng)化內(nèi)容生產(chǎn)的“工廠”和“流水線”。生成式AI模型,包括ChatGPT、GPT-4等大語(yǔ)言模型(Large Language Models,LLM)和Midjourney、Stable Diffusion等圖像生成模型,又被稱為基礎(chǔ)模型(Foundation Models),其作為基于種類豐富的海量數(shù)據(jù)預(yù)訓(xùn)練的深度學(xué)習(xí)算法,展現(xiàn)出強(qiáng)大的、更加泛化的語(yǔ)言理解和內(nèi)容生成能力。
以大型語(yǔ)言模型(LLM)為例,經(jīng)過(guò)海量的互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)的訓(xùn)練,語(yǔ)言模型的參數(shù)可以達(dá)到萬(wàn)億甚至百萬(wàn)億級(jí)別。這大大增強(qiáng)了語(yǔ)言模型的生成能力,同一個(gè)語(yǔ)言模型可以高質(zhì)量地完成各種各樣的文字和推理任務(wù),例如作詩(shī)、寫文章、講故事、寫代碼、提供專業(yè)知識(shí)等等。因此,大模型已經(jīng)成為了各大企業(yè)競(jìng)相追逐的AI方向。
第三,多模態(tài)AI技術(shù)的發(fā)展。多模態(tài)技術(shù)讓AIGC模型可以跨模態(tài)地去生成各種類型的內(nèi)容,比如把文字轉(zhuǎn)化為圖片、視頻等等。進(jìn)一步增強(qiáng)了AIGC模型的通用能力。[1]
以下是AIGC領(lǐng)域的一些基本技術(shù):
1)生成對(duì)抗網(wǎng)絡(luò)(GAN,Generative Adversarial Networks):GAN是由Ian Goodfellow等人于2014年提出的一種生成式模型。它由生成器(Generator)和判別器(Discriminator)兩部分組成。生成器負(fù)責(zé)生成新的數(shù)據(jù),判別器負(fù)責(zé)判斷生成數(shù)據(jù)與真實(shí)數(shù)據(jù)的相似程度。通過(guò)不斷的訓(xùn)練,生成器能夠生成越來(lái)越逼真的數(shù)據(jù)。
2)變分自編碼器(VAE,Variational Autoencoders):VAE是一種基于概率生成模型的生成式方法,它通過(guò)編碼器(Encoder)和解碼器(Decoder)兩部分來(lái)實(shí)現(xiàn)數(shù)據(jù)的生成。編碼器負(fù)責(zé)將輸入數(shù)據(jù)映射到潛在空間中的一個(gè)分布,解碼器負(fù)責(zé)從潛在空間中的分布采樣數(shù)據(jù)并生成新的數(shù)據(jù)。
3)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,Recurrent Neural Networks):RNN是一種用于處理序列數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。RNN具有記憶功能,能夠捕捉序列數(shù)據(jù)中的時(shí)序信息。在生成式人工智能中,RNN可以用于生成文本、音樂(lè)等序列數(shù)據(jù)。
4)Transformer模型:Transformer是一種基于自注意力(Self-Attention)機(jī)制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它在自然語(yǔ)言處理領(lǐng)域取得了顯著的成果。Transformer模型可以用于生成式任務(wù),如文本生成、機(jī)器翻譯等。
其他相關(guān)技術(shù):除了上述技術(shù)外,還有一些其他的生成式模型和技術(shù),如PixelRNN、PixelCNN、WaveNet等。這些技術(shù)在圖像和音頻生成等領(lǐng)域也取得了一定的成果。
大語(yǔ)言模型等生成式AI技術(shù)帶來(lái)了新的AI發(fā)展范式,其應(yīng)用前景十分廣闊。。對(duì)于大眾而言,生成式AI意味著新的創(chuàng)造力工具,將在更大程度上解放個(gè)體的創(chuàng)造力和創(chuàng)意生產(chǎn)。除此之外,AIGC還將改變獲取信息的主要方式。ChatGPT在尋找答案、解決問(wèn)題的效率上已經(jīng)部分的超越了如今的搜索引擎,ChatGPT或許在未來(lái)會(huì)改變我們獲取信息、輸出內(nèi)容的方式,AIGC有望成為數(shù)字經(jīng)濟(jì)時(shí)代驅(qū)動(dòng)需求爆發(fā)的殺手級(jí)應(yīng)用。
比爾·蓋茨將人工智能的發(fā)展和微處理器、個(gè)人電腦、互聯(lián)網(wǎng)以及智能手機(jī)相提并論,認(rèn)為其將重塑所有的行業(yè)。微軟公司首席執(zhí)行官Satya Nadella認(rèn)為,ChatGPT是知識(shí)工作者的“工業(yè)革命”,斷言人工智能將徹底改變所有類型的軟件服務(wù)。目前,搜索、辦公、在線會(huì)議等諸多軟件服務(wù)都已融入了生成式AI的能力。OpenAI公司首席執(zhí)行官Sam Altman稱,多模態(tài)的AI大模型有望成為繼移動(dòng)互聯(lián)網(wǎng)之后的新的技術(shù)平臺(tái)。這意味著,開(kāi)發(fā)人員基于預(yù)訓(xùn)練的AI大模型,可以通過(guò)模型微調(diào)快速開(kāi)發(fā)出垂直領(lǐng)域的模型應(yīng)用并予以部署使用,人工智能的革命性正在于此。[2]
AIGC的應(yīng)用領(lǐng)域及案例
1.文本生成領(lǐng)域
自然語(yǔ)言生成是一種AIGC技術(shù),可以生成逼真的自然語(yǔ)言文本。生成式AI可以編寫文章、故事、詩(shī)歌等,為作家和內(nèi)容創(chuàng)作者提供新的創(chuàng)作方式。同時(shí),它還可以用于智能對(duì)話系統(tǒng),提高用戶與AI的交流體驗(yàn)。
ChatGPT(全名:Chat Generative Pre-trained Transformer對(duì)話生成式預(yù)訓(xùn)練變換模型)是由OpenAI開(kāi)發(fā)的一個(gè)人工智能聊天機(jī)器人程序,于2022年11月推出。該程序使用基于GPT-3.5架構(gòu)的大型語(yǔ)言模型并通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練。ChatGPT目前仍以文字方式互動(dòng),可以解決包括自動(dòng)文本生成、自動(dòng)問(wèn)答、自動(dòng)摘要等在內(nèi)的多種任務(wù)。
Jasper已經(jīng)開(kāi)始為谷歌、臉書等知名公司提供文案AIGC的商業(yè)服務(wù)。
2.圖像生成領(lǐng)域
圖像生成是AIGC技術(shù)中最為普遍的應(yīng)用之一。Stability AI發(fā)布了穩(wěn)定擴(kuò)散(Stable Diffusion)模型,通過(guò)開(kāi)源快速迭代大幅降低了AI繪畫的技術(shù)使用門檻,消費(fèi)者可以通過(guò)訂閱旗下產(chǎn)品DreamStudio來(lái)輸入文本提示詞生成繪畫作品,產(chǎn)品已經(jīng)吸引全球50多個(gè)國(guó)家超過(guò)100萬(wàn)的用戶注冊(cè)。
3.音視頻創(chuàng)作與生成
AIGC技術(shù)可以用于語(yǔ)音合成,即生成逼真的語(yǔ)音。例如,通過(guò)學(xué)習(xí)人類的語(yǔ)音特征,生成式模型可以生成逼真的語(yǔ)音,從而用于虛擬助手、語(yǔ)音翻譯等應(yīng)用。AIGC技術(shù)可以用于生成音樂(lè)。生成式AI可以根據(jù)給定的風(fēng)格和旋律創(chuàng)作新的音樂(lè)作品,為音樂(lè)家提供新的創(chuàng)作靈感。這種技術(shù)還可以幫助音樂(lè)家更有效地探索音樂(lè)風(fēng)格和元素的組合。這些曲目可以用于音樂(lè)創(chuàng)作、廣告音樂(lè)等應(yīng)用。
4.電影與游戲
生成式AI可以用于生成虛擬角色、場(chǎng)景和動(dòng)畫,為電影和游戲制作帶來(lái)更多的創(chuàng)意可能。此外,AI還可以根據(jù)用戶的喜好和行為生成個(gè)性化的故事情節(jié)和游戲體驗(yàn)。
2023年3月,騰訊AI Lab在GDC上提出了3D虛擬場(chǎng)景自動(dòng)生成解決方案,能夠幫助游戲開(kāi)發(fā)者以更低成本創(chuàng)造風(fēng)格多樣、貼近現(xiàn)實(shí)的虛擬城市,提升3D虛擬場(chǎng)景的生產(chǎn)效率。其中重點(diǎn)分享了城市布局生成、建筑外觀生成和室內(nèi)映射生成三大能力。整個(gè)路網(wǎng)生成和微調(diào)過(guò)程僅需要不到30分鐘,相比手動(dòng)設(shè)計(jì)效率提升近100倍;而單個(gè)獨(dú)特建筑的制作時(shí)間也降低至17.5分鐘,大大提升了場(chǎng)景制作的效率。
5.科研與創(chuàng)新
生成式AI可以在化學(xué)、生物學(xué)、物理學(xué)等領(lǐng)域探索新的理論和實(shí)驗(yàn)方法,幫助科學(xué)家發(fā)現(xiàn)新的知識(shí)。此外,生成式AI還可以用于藥物設(shè)計(jì)、材料科學(xué)等領(lǐng)域,加速技術(shù)創(chuàng)新和發(fā)展。
6.代碼生成領(lǐng)域
經(jīng)過(guò)自然語(yǔ)言和數(shù)十億行代碼的訓(xùn)練。部分生成式AI模型精通十幾種語(yǔ)言,包括Python、JavaScript、Go、Perl、PHP、Ruby等等。能夠根據(jù)自然語(yǔ)言的指令生成相應(yīng)的代碼。
GitHub Copilot是一個(gè)GitHub和OpenAI合作產(chǎn)生的AI代碼生成工具,可根據(jù)命名或者正在編輯的代碼上下文為開(kāi)發(fā)者提供代碼建議。官方介紹其已經(jīng)接受了來(lái)自GitHub上公開(kāi)可用存儲(chǔ)庫(kù)的數(shù)十億行代碼的訓(xùn)練,支持大多數(shù)編程語(yǔ)言。
騰訊云新一代AI代碼助手CODING Wise:將大模型AI能力賦能給開(kāi)發(fā)者,增強(qiáng)開(kāi)發(fā)體驗(yàn),提升開(kāi)發(fā)效率。CODING Wise支持多種編程語(yǔ)言、主流開(kāi)發(fā)框架和常用IDE。具備代碼補(bǔ)全、生成單元測(cè)試、代碼糾錯(cuò)等能力,能輔助開(kāi)發(fā)者加速開(kāi)發(fā)過(guò)程,提升開(kāi)發(fā)質(zhì)量。CODING Wise能力覆蓋溝通、編碼、評(píng)審等關(guān)鍵環(huán)節(jié),包括:溝通環(huán)節(jié):通過(guò)對(duì)話方式,進(jìn)行上下文推理給出代碼回復(fù),幫助開(kāi)發(fā)者理解代碼邏輯;研發(fā)環(huán)節(jié):根據(jù)當(dāng)前代碼類型、代碼上下文等信息進(jìn)行代碼補(bǔ)全;能根據(jù)代碼反向生成注釋和單元測(cè)試代碼;排錯(cuò)環(huán)節(jié):進(jìn)行代碼查錯(cuò)、定位問(wèn)題并輔助生成建議;隨后給出建議代碼、替換錯(cuò)誤的代碼塊;評(píng)審環(huán)節(jié):輔助開(kāi)發(fā)者生成代碼提交信息,也可以輔助評(píng)審者生成評(píng)審建議;調(diào)試環(huán)節(jié):可通過(guò)自然語(yǔ)言指令實(shí)現(xiàn)快速的代碼修改和調(diào)優(yōu)。
7.內(nèi)容理解與分析
騰訊會(huì)議·AI小助手:只需通過(guò)簡(jiǎn)單自然的會(huì)議指令,基于對(duì)會(huì)議內(nèi)容的理解,就可以完成信息提取、內(nèi)容分析、會(huì)管會(huì)控等多種復(fù)雜任務(wù)。會(huì)后可以自動(dòng)生成智能總結(jié)摘要,還能基于智能錄制的能力,幫助用戶高效回顧,提升用戶開(kāi)會(huì)和信息流轉(zhuǎn)效率。
彭博社于近期發(fā)布了為金融界打造的大語(yǔ)言模型(LLM)——BloombergGPT。它使用了類似于ChatGPT的技術(shù)原理,即使用Transformer模型和大規(guī)模預(yù)訓(xùn)練技術(shù)來(lái)實(shí)現(xiàn)自然語(yǔ)言處理,擁有500億參數(shù)。BloombergGPT的預(yù)訓(xùn)練數(shù)據(jù)集主要來(lái)自彭博社的新聞和金融數(shù)據(jù),構(gòu)建了一個(gè)3630億個(gè)標(biāo)簽的數(shù)據(jù)集,支持金融行業(yè)的各種任務(wù)。
BloombergGPT的目標(biāo)是幫助用戶更好地理解和分析金融數(shù)據(jù)和新聞。它可以根據(jù)用戶的輸入,生成與金融相關(guān)的自然語(yǔ)言文本,例如新聞?wù)⑹袌?chǎng)分析、投資建議等。它的應(yīng)用場(chǎng)景主要包括金融分析、投資咨詢、資產(chǎn)管理等領(lǐng)域。例如,在資產(chǎn)管理領(lǐng)域,它可以根據(jù)歷史數(shù)據(jù)和市場(chǎng)情況,預(yù)測(cè)未來(lái)的股票價(jià)格和交易量,為投資經(jīng)理提供投資建議和決策支持。在財(cái)經(jīng)新聞?lì)I(lǐng)域,BloombergGPT可以根據(jù)市場(chǎng)數(shù)據(jù)和事件,自動(dòng)生成新聞?wù)头治鰣?bào)告,為讀者提供及時(shí)、準(zhǔn)確的金融信息。
8.AI智能體(AI Agent)
AI智能體(AI Agent)被認(rèn)為是OpenAI的下一個(gè)方向。從今年3月AutoGPT推出后,Generative Agent、GPT-Engineer、BabyAGI項(xiàng)目的爆發(fā)將LLM的敘事代入了新的階段,從“超級(jí)大腦”到真正有可能成為“全能助手”。
2023年4月,一個(gè)名叫AutoGPT的開(kāi)源項(xiàng)目在Github上發(fā)布了,截止至2023年4月16日,該項(xiàng)目已經(jīng)獲得70K+星。AutoGPT是一個(gè)由GPT-4驅(qū)動(dòng)的可以自主實(shí)現(xiàn)用戶設(shè)定的任何目標(biāo)的開(kāi)源應(yīng)用程序。當(dāng)用戶提出一個(gè)需求或任務(wù)時(shí),AutoGPT會(huì)自主分析問(wèn)題,給出具體的執(zhí)行計(jì)劃并開(kāi)始執(zhí)行,直到完成用戶提出的要求。
Auto-GPT的出現(xiàn)意味著AGI正逐漸向更加自主化和智能化的方向發(fā)展。首先,它可以使人工智能應(yīng)用更加普及和便利?,F(xiàn)Auto-GPT能夠自主分析和執(zhí)行任務(wù),大大降低了應(yīng)用的門檻和成本,讓更多的人能夠輕松地使用人工智能技術(shù)來(lái)解決問(wèn)題。其次,Auto-GPT能夠提高人工智能應(yīng)用的效率和精度。傳統(tǒng)的人工智能模型需要從頭到尾地執(zhí)行整個(gè)任務(wù),這會(huì)浪費(fèi)很多時(shí)間和計(jì)算資源,并且容易出現(xiàn)錯(cuò)誤。AutoGPT可以自主分析任務(wù),并且提出具體的執(zhí)行計(jì)劃,這樣可以大大縮短執(zhí)行時(shí)間,并且減少錯(cuò)誤率。[3]
盡管Auto-GPT還在非常早期的實(shí)驗(yàn)階段,但其開(kāi)創(chuàng)了一種全新的AI交互方式,即由機(jī)器主動(dòng)提出任務(wù)和計(jì)劃,人類只需要給出任務(wù)目標(biāo)。這種交互方式不僅提高了AI智能體的自主性和靈活性,同時(shí)也拓展了人與AI之間的交互方式,打破了人類對(duì)于人工智能的“控制”想象,使得人工智能技術(shù)能從“工具”走向人類的“伙伴”。
除了獨(dú)立的AI Agent之外,未來(lái)還可能出現(xiàn)由多個(gè)AI智能體組成的“虛擬智能社會(huì)”。GenerativeAgents—在由斯坦福大學(xué)和谷歌聯(lián)合發(fā)表的一篇名叫《GenerativeAgents:InterativeSimulacra of Human Behavior》論文中,研究者們成功地構(gòu)建了一個(gè)“虛擬小鎮(zhèn)”,其中的25個(gè)智能體在小鎮(zhèn)上生存。借助AIGC,其中的NPC具備了可信人類行為,并對(duì)周圍環(huán)境變化做出適當(dāng)?shù)姆磻?yīng),使得可以用現(xiàn)實(shí)社會(huì)現(xiàn)象去填充賽博空間。
國(guó)外商業(yè)咨詢機(jī)構(gòu)預(yù)測(cè),到2030年AIGC和生成式AI市場(chǎng)規(guī)模將達(dá)到1100億美元。正如“互聯(lián)網(wǎng)+”一樣,“AIGC+”有望滲透到各行各業(yè),在教育、醫(yī)療、金融、政務(wù)、制造、機(jī)器人、數(shù)字人、元宇宙、廣告營(yíng)銷、電子商務(wù)、市場(chǎng)和戰(zhàn)略咨詢等眾多領(lǐng)域帶來(lái)新的應(yīng)用形式,深度賦能千行百業(yè),助力高質(zhì)量發(fā)展。
AIGC的產(chǎn)業(yè)應(yīng)用中的挑戰(zhàn)與問(wèn)題
1.可解釋性與可靠性
生成式人工智能的可解釋性問(wèn)題是指生成式人工智能(Generative Artificial Intelligence)所產(chǎn)生的結(jié)果難以解釋或理解。生成式人工智能是一種基于深度學(xué)習(xí)的人工智能技術(shù),其通過(guò)學(xué)習(xí)大量數(shù)據(jù)來(lái)生成新的數(shù)據(jù)或圖像。但是,生成式人工智能所產(chǎn)生的結(jié)果通常很難理解和解釋,因?yàn)槠鋬?nèi)部的運(yùn)作過(guò)程非常復(fù)雜,而且很難直觀地描述。
這種可解釋性問(wèn)題對(duì)于許多應(yīng)用場(chǎng)景都非常重要,比如醫(yī)療診斷、金融風(fēng)控、自動(dòng)駕駛等領(lǐng)域。在這些領(lǐng)域中,人們需要了解生成式人工智能的內(nèi)部運(yùn)作過(guò)程,以便更好地理解其產(chǎn)生的結(jié)果,并且能夠?qū)ζ溥M(jìn)行調(diào)整和優(yōu)化。
解決生成式人工智能的可解釋性問(wèn)題是當(dāng)前人工智能研究的一個(gè)重要方向,研究人員正在探索各種方法來(lái)使生成式人工智能的結(jié)果更加可解釋和可理解。這些方法包括可視化技術(shù)、可解釋性模型、對(duì)抗性樣本等等。
2.AI大模型的價(jià)值對(duì)齊問(wèn)題
所謂人工智能的價(jià)值對(duì)齊(AI Alignment),就是讓人工智能系統(tǒng)的行為符合人類的目標(biāo)、偏好或倫理原則。價(jià)值對(duì)齊是AI安全研究的一個(gè)核心議題。在理論上,如果一個(gè)強(qiáng)大的AI系統(tǒng)所追求的目標(biāo)和人類的真實(shí)目的意圖和價(jià)值不一致,就有可能給人類帶來(lái)災(zāi)難性后果。就目前而言,大語(yǔ)言模型的價(jià)值對(duì)齊問(wèn)題主要表現(xiàn)為,如何在模型層面讓人工智能理解人類的價(jià)值和倫理原則,盡可能地防止模型的有害輸出,從而打造出更加有用同時(shí)更加符合人類價(jià)值觀的AI模型。在這方面,RLHF是一個(gè)有效的方法,通過(guò)小量的數(shù)據(jù)就可能實(shí)現(xiàn)比較好的效果。簡(jiǎn)言之,RLHF要求人類專家對(duì)模型輸出內(nèi)容的適當(dāng)性進(jìn)行評(píng)估,并基于人類提供的反饋對(duì)模型進(jìn)行優(yōu)化。其目標(biāo)是減少模型在未來(lái)生產(chǎn)有害內(nèi)容的可能性。實(shí)際上,RLHF算法不僅是確保AI模型具有正確價(jià)值觀的關(guān)鍵所在,而且對(duì)于生成式AI領(lǐng)域的長(zhǎng)期健康可持續(xù)發(fā)展也十分重要。[4]
3.塑造負(fù)責(zé)任的AI創(chuàng)新生態(tài)
大語(yǔ)言模型等生成式AI的進(jìn)展,在讓人們看到AGI曙光的同時(shí),也帶來(lái)更加復(fù)雜難控的風(fēng)險(xiǎn),包括對(duì)人類未來(lái)生存的潛在風(fēng)險(xiǎn)。AI時(shí)代需要成為一個(gè)負(fù)責(zé)任創(chuàng)新的時(shí)代,而非另一個(gè)“快速行動(dòng)、打破陳規(guī)”的時(shí)代。人們需要建立合理審慎的AI倫理和治理框架,塑造負(fù)責(zé)任的AI生態(tài),打造人機(jī)和諧共生的未來(lái)。生成式AI領(lǐng)域的創(chuàng)新主體則需要積極探索技術(shù)上和管理上的安全保障措施,為生成式AI的健康發(fā)展和安全可控應(yīng)用構(gòu)筑起防護(hù)欄。
在科技向善理念之下,人工智能時(shí)代不應(yīng)成為另一個(gè)“快速行動(dòng)、打破陳規(guī)”的時(shí)代(即先快速把產(chǎn)品做出來(lái),事后再通過(guò)修補(bǔ)、補(bǔ)救等方式解決其社會(huì)問(wèn)題),而應(yīng)成為一個(gè)負(fù)責(zé)任創(chuàng)新的時(shí)代,通過(guò)建立合理審慎的AI倫理和治理框架,塑造負(fù)責(zé)任的AI生態(tài),打造人機(jī)和諧共生的未來(lái)。[5]
AIGC在產(chǎn)業(yè)應(yīng)用中的未來(lái)趨勢(shì)
1.多模態(tài)帶來(lái)創(chuàng)新應(yīng)用藍(lán)海
多模態(tài)AI是指能夠處理和理解多種類型信息的人工智能,如文本、圖像、音頻、視頻等。這種AI不僅能夠處理單一數(shù)據(jù)類型的任務(wù),而且可以在不同數(shù)據(jù)類型間建立聯(lián)系和融合,從而實(shí)現(xiàn)一個(gè)綜合、全面的理解多模態(tài)。AI能夠?qū)Ω鞣N不同類型的數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析,為解決復(fù)雜問(wèn)題提供支持。
在多模態(tài)技術(shù)發(fā)展初期,不同模態(tài)的AI開(kāi)始進(jìn)行集成,比如圖像識(shí)別和自然語(yǔ)言處理技術(shù)的結(jié)合。除了ImageBind打通六種模態(tài)外,多數(shù)仍在探索文本與圖像的融合,但進(jìn)展飛快。UniDiffuser:除了單向文生圖,還能實(shí)現(xiàn)圖生問(wèn)、圖文聯(lián)合生產(chǎn)、無(wú)條件圖文生成等多種功能
OpenAI開(kāi)發(fā)了許多多模態(tài)AI案例如DALL-E、CLIP等,可以識(shí)別圖像中的對(duì)象,同時(shí)生成與圖像相關(guān)的描述性文本,或由文本指導(dǎo)生成有關(guān)物品的新圖像。
隨著多模態(tài)技術(shù)的進(jìn)展,多模態(tài)AI在理解和處理不同類型數(shù)據(jù)時(shí)能夠?qū)崿F(xiàn)更高程度的融合。算法和模型可以在不同數(shù)據(jù)類型之間建立聯(lián)系,提取跨模態(tài)的共享信息。這使得AI能夠深度理解和解決復(fù)雜問(wèn)題。未來(lái)在諸多創(chuàng)新領(lǐng)域,多模態(tài)技術(shù)的發(fā)展將帶來(lái)創(chuàng)新應(yīng)用的藍(lán)海。[6]
2.生成式AI帶來(lái)更貼近人的交互方式
從使用鍵盤-鼠標(biāo)等方式跟電腦交互,到使用手指滑動(dòng)屏幕跟手機(jī)交互,再到人們用喚醒詞跟智能音箱等交互,人機(jī)交互從識(shí)別機(jī)器指令,到識(shí)別人的動(dòng)作,語(yǔ)音,不斷朝著更貼近人的習(xí)慣的交互方式演進(jìn)。生成式AI的發(fā)展,讓人類有史以來(lái)第一次有機(jī)會(huì)用自然語(yǔ)言的方式,來(lái)跟機(jī)器對(duì)話,而機(jī)器也借由大模型擁有了極強(qiáng)的理解人類語(yǔ)言的能力,有望帶來(lái)一場(chǎng)全新的交互變革。正如歷次交互變革帶來(lái)從終端、到連接,到各類應(yīng)用的顛覆式變革,生成式AI也必將帶來(lái)產(chǎn)業(yè)鏈、價(jià)值鏈和生態(tài)的重塑。
生成式AI的技術(shù)突破,帶來(lái)了大模型理解能力的大幅提升。大模型可以更好地理解人類表達(dá)的含義,并生成更符合人類價(jià)值觀的回答。其技術(shù)成熟度已經(jīng)可以在很多場(chǎng)景下達(dá)到可用,甚至好用的程度。在科技公司不斷投入對(duì)齊工作的進(jìn)展中,大模型的“幻覺(jué)”被持續(xù)降低,從而讓人類第一次有可能完全以自然語(yǔ)言對(duì)話的方式來(lái)跟機(jī)器交流。這也是人去發(fā)掘機(jī)器智能最簡(jiǎn)單直接,最有效的交互方式。
在這個(gè)背景下,所有APP都可以用生成式AI重做一遍,并可能產(chǎn)生原生AI APP。一方面,當(dāng)前的所有軟件,在后端不變的情況下,前端的交互可以直接換成自然語(yǔ)言對(duì)話的方式,這樣讓更多的APP擁有了智能對(duì)話的能力,給用戶帶來(lái)全新的體驗(yàn)?,F(xiàn)在已經(jīng)有很多應(yīng)用軟件和硬件,開(kāi)始往這個(gè)方向升級(jí)。另一方面,未來(lái)更具市場(chǎng)想象力的,是原生的AI APP,例如未來(lái)很可能出現(xiàn)一個(gè)萬(wàn)能的個(gè)人助理,他可以回答人的各種問(wèn)題,幫人出主意,甚至做會(huì)議預(yù)定、文章撰寫、藝術(shù)創(chuàng)作等更多的工作。“機(jī)器生成+人腦篩選”在可預(yù)見(jiàn)的將來(lái),會(huì)成為人機(jī)協(xié)作的重要方式。[7]
結(jié)論
綜上所述,生成式人工智能在發(fā)展演進(jìn)過(guò)程中取得了顯著的成果,為人類社會(huì)的進(jìn)步和發(fā)展提供了強(qiáng)大的技術(shù)支持。從深度學(xué)習(xí)、自然語(yǔ)言處理等技術(shù)的發(fā)展,再到生成式人工智能在各個(gè)產(chǎn)業(yè)中的應(yīng)用,都展示了其強(qiáng)大的潛力和價(jià)值。然而,伴隨著技術(shù)的不斷創(chuàng)新和突破,生成式人工智能在應(yīng)用過(guò)程中也暴露出了一些問(wèn)題,如數(shù)據(jù)安全、隱私保護(hù)、倫理等方面的挑戰(zhàn)。因此,未來(lái)的研究應(yīng)關(guān)注如何在保障技術(shù)創(chuàng)新的同時(shí),解決這些潛在問(wèn)題,以實(shí)現(xiàn)生成式人工智能的可持續(xù)發(fā)展。此外,各國(guó)政府、企業(yè)、研究機(jī)構(gòu)等應(yīng)加強(qiáng)合作,共同推動(dòng)生成式人工智能的研究與應(yīng)用,以實(shí)現(xiàn)人類社會(huì)的共同繁榮與進(jìn)步。
本文首發(fā)于《人工智能》2023年第四期
參考資料:
[1]騰訊研究院.AIGC發(fā)展趨勢(shì)報(bào)告2023[R].2023
[2]陳楚儀、曹建峰.AIGC技術(shù)的發(fā)展趨勢(shì)、影響和展望[J].2023.中國(guó)銀行業(yè)
[3]宋嘉吉等.Auto-GPT評(píng)測(cè)——更聰明的AGI[R].2023
[4]曹建峰.邁向可信AI:ChatGPT類生成式人工智能的治理挑戰(zhàn)及應(yīng)對(duì)[J].2023.上政學(xué)報(bào)
[5][6][7]騰訊研究院.大模型時(shí)代的AI十大趨勢(shì)2023[R].2023