圖片來(lái)源@視覺(jué)中國(guó)
本文來(lái)自鈦媒體,文|陳根。
人工智能的發(fā)展應(yīng)用離不開(kāi)數(shù)據(jù)。比如,訓(xùn)練當(dāng)前大火的ChatGPT,就需要大量的數(shù)據(jù)——根據(jù)OpenAI披露,ChatGPT的訓(xùn)練使用了45TB的數(shù)據(jù)、近1萬(wàn)億個(gè)單詞,大概是1351萬(wàn)本牛津詞典所包含的單詞數(shù)量。
基于龐大數(shù)據(jù)集訓(xùn)練而成的ChatGPT獲得了前所未有的成功,而ChatGPT想要向前迭代,就需要更多的數(shù)據(jù)進(jìn)行訓(xùn)練。但真實(shí)世界的數(shù)據(jù)總歸是有限的,并且面臨著難以獲取、質(zhì)量差、標(biāo)準(zhǔn)不統(tǒng)一等諸多問(wèn)題。在這樣的情況下,計(jì)算機(jī)模擬技術(shù)或算法生成的合成數(shù)據(jù)受到了愈發(fā)廣泛的關(guān)注。作為真實(shí)世界數(shù)據(jù)的廉價(jià)替代品,合成數(shù)據(jù)正日益被用于創(chuàng)造精準(zhǔn)的AI模型。
為什么需要合成數(shù)據(jù)?
顧名思義,合成數(shù)據(jù)就是通過(guò)計(jì)算機(jī)模擬或人工智能算法合成的數(shù)據(jù),這樣的數(shù)據(jù)并不基于現(xiàn)實(shí)世界的現(xiàn)象和事件,但由于在數(shù)學(xué)上或統(tǒng)計(jì)學(xué)上,合成數(shù)據(jù)也能夠反映真實(shí)世界數(shù)據(jù)的屬性,因此,合成數(shù)據(jù)可以作為真實(shí)世界數(shù)據(jù)的替代品,來(lái)訓(xùn)練、測(cè)試、驗(yàn)證AI模型。
2022年以來(lái),F(xiàn)orrester、埃森哲(Accenture)、Gartner、CB Insights等研究咨詢公司都已經(jīng)將合成數(shù)據(jù)列為人工智能未來(lái)發(fā)展的核心要素,認(rèn)為合成數(shù)據(jù)對(duì)于人工智能的未來(lái)而言是“必選項(xiàng)”和“必需品”。
比如,F(xiàn)orrester將合成數(shù)據(jù)和強(qiáng)化學(xué)習(xí)、Transformer網(wǎng)絡(luò)、聯(lián)邦學(xué)習(xí)、因果推理視為實(shí)現(xiàn)人工智能2.0的五項(xiàng)關(guān)鍵技術(shù)進(jìn)展,可以解決人工智能1.0所面臨的一些限制和挑戰(zhàn),諸如數(shù)據(jù)、準(zhǔn)確性、速度、安全性、可擴(kuò)展性等。
Gartner預(yù)測(cè)稱,到2024年,用于開(kāi)發(fā)人工智能和分析項(xiàng)目的數(shù)據(jù)60%將是生成式合成數(shù)據(jù),到2030年合成數(shù)據(jù)將徹底取代真實(shí)數(shù)據(jù),成為AI模型所使用的數(shù)據(jù)的主要來(lái)源。MIT科技評(píng)論將AI合成數(shù)據(jù)列為2022年十大突破性技術(shù)之一,稱其有望解決AI領(lǐng)域的數(shù)據(jù)鴻溝問(wèn)題。
數(shù)據(jù)對(duì)于人工智能發(fā)展的意義不言自明——如果說(shuō)以深度學(xué)習(xí)為代表的智能算法是人工智能應(yīng)用和發(fā)展的“引擎”,那么數(shù)據(jù)就是用于驅(qū)動(dòng)“引擎”的“燃料”。而合成數(shù)據(jù)之所以在今天會(huì)受到關(guān)注,正是因?yàn)槟壳艾F(xiàn)實(shí)世界的數(shù)據(jù)已經(jīng)難以滿足人工智能繼續(xù)迭代,并向前發(fā)展的數(shù)據(jù)需求。
要知道,現(xiàn)實(shí)世界的數(shù)據(jù)收集和處理是一種昂貴且緩慢的過(guò)程,公司通常無(wú)法在短時(shí)間內(nèi)獲取大量的數(shù)據(jù)來(lái)訓(xùn)練準(zhǔn)確的模型,就算是獲取現(xiàn)實(shí)世界的數(shù)據(jù)也要符合隱私規(guī)定,然而,除去獲取成本高昂以外,特定領(lǐng)域的數(shù)據(jù)集還受限于用戶隱私,極難采集??梢哉f(shuō),現(xiàn)實(shí)世界數(shù)據(jù)的稀缺性已經(jīng)成為人工智能發(fā)展的最大瓶頸——如何高效、廉價(jià)并在不侵犯隱私的情況下獲取大量數(shù)據(jù),成為當(dāng)前人工智能領(lǐng)域的關(guān)鍵問(wèn)題之一。
合成數(shù)據(jù)就是這個(gè)關(guān)鍵問(wèn)題的解法。首先,合成數(shù)據(jù)能夠?qū)崿F(xiàn)數(shù)據(jù)增強(qiáng)和數(shù)據(jù)模擬,解決數(shù)據(jù)匱乏、數(shù)據(jù)質(zhì)量等問(wèn)題,包括通過(guò)合成數(shù)據(jù)來(lái)改善基準(zhǔn)測(cè)試數(shù)據(jù)的質(zhì)量等;其次,避免數(shù)據(jù)隱私問(wèn)題,利用合成數(shù)據(jù)訓(xùn)練AI模型可以避免用戶隱私問(wèn)題,這對(duì)于金融、醫(yī)療等領(lǐng)域而言尤其具有意義;第三,合成數(shù)據(jù)還能最大限度地確保數(shù)據(jù)多樣性,更多反映真實(shí)世界,提升AI的公平性,以及糾正歷史數(shù)據(jù)中的偏見(jiàn),消除算法歧視;第四,合成數(shù)據(jù)能夠應(yīng)對(duì)長(zhǎng)尾、邊緣案例,提高AI的準(zhǔn)確性、可靠性,因?yàn)橥ㄟ^(guò)合成數(shù)據(jù)可以自動(dòng)創(chuàng)建、生成現(xiàn)實(shí)世界中難以或者無(wú)法采集的數(shù)據(jù)場(chǎng)景,更好確保AI模型的準(zhǔn)確性。
不僅如此,合成數(shù)據(jù)還具有低成本的特點(diǎn)。合成數(shù)據(jù)服務(wù)商AI.Reverie指出,人工標(biāo)注一張圖片可能需要6美元,但人工合成的話只需要6美分。總的來(lái)說(shuō),利用合成數(shù)據(jù)可以更廉價(jià)、更高效、更準(zhǔn)確、更安全可靠地訓(xùn)練AI模型,進(jìn)而極大擴(kuò)展AI的應(yīng)用可能性,將人工智能推向新的發(fā)展階段。
用計(jì)算機(jī)訓(xùn)練計(jì)算機(jī)
2021年,尼日利亞數(shù)據(jù)科學(xué)公司的研究人員就注意到,旨在訓(xùn)練計(jì)算機(jī)視覺(jué)算法的工程師可以選用大量以西方服裝為特色的數(shù)據(jù)集,但卻沒(méi)有非洲服裝的數(shù)據(jù)集。于是,這個(gè)團(tuán)隊(duì)通過(guò)人工智能算法成功實(shí)現(xiàn)了人為生成由非洲時(shí)尚服裝的圖像組成的數(shù)據(jù)來(lái)解決這一不平衡問(wèn)題。
可以說(shuō),合成數(shù)據(jù)真正實(shí)現(xiàn)了用計(jì)算機(jī)訓(xùn)練計(jì)算機(jī),這也讓機(jī)器智能向前更進(jìn)一步。實(shí)際上,人類(lèi)的學(xué)習(xí)正是遵循著這樣的方式,一方面,我們可以從外部信息來(lái)源收集知識(shí)和觀點(diǎn),比如,通過(guò)閱讀一本書(shū)。但我們也可以通過(guò)思考一個(gè)問(wèn)題,自發(fā)產(chǎn)生想法和見(jiàn)解,換言之,我們能夠通過(guò)內(nèi)部反思和分析來(lái)加深對(duì)世界的理解,而不直接依賴于任何新的外部輸入。
而人工智能通過(guò)合成數(shù)據(jù)來(lái)自我訓(xùn)練,就像是人工智能也無(wú)需任何新的外部輸入,而是通過(guò)合成數(shù)據(jù)來(lái)有效地引導(dǎo)它們自己的智能。
試想一下,今天的人工智能大模型吸收了世界上存在的大量信息和數(shù)據(jù),比如維基百科、書(shū)籍、新聞文章等。如果人工智能能夠根據(jù)這些數(shù)據(jù)合成新的數(shù)據(jù),然后再將這些合成數(shù)據(jù)進(jìn)一步訓(xùn)練來(lái)改進(jìn)自己,那人工智能就將不斷迭代,且功能愈發(fā)強(qiáng)大。換言之,AI在合成數(shù)據(jù)構(gòu)建的虛擬仿真世界中自我學(xué)習(xí)、進(jìn)化,這將極大擴(kuò)展AI的應(yīng)用可能性。
實(shí)際上,用計(jì)算機(jī)訓(xùn)練計(jì)算機(jī)的想法并不新鮮,例如,無(wú)人駕駛汽車(chē)已經(jīng)在虛擬街道上進(jìn)行了許多訓(xùn)練。要知道,由于實(shí)際道路交通場(chǎng)景千變?nèi)f化,因此,讓自動(dòng)駕駛汽車(chē)通過(guò)實(shí)際道路測(cè)試來(lái)窮盡其在道路上可能遇到的每一個(gè)場(chǎng)景是不現(xiàn)實(shí)的,必須借助于合成數(shù)據(jù)才能更好地訓(xùn)練、開(kāi)發(fā)自動(dòng)駕駛系統(tǒng)。
為此,許多自動(dòng)駕駛企業(yè)都開(kāi)發(fā)了復(fù)雜的仿真引擎來(lái)“虛擬地合成”自動(dòng)駕駛系統(tǒng)訓(xùn)練所需的海量數(shù)據(jù),并高效地應(yīng)對(duì)駕駛場(chǎng)景中的“長(zhǎng)尾”問(wèn)題和“邊緣案例”。比如,騰訊自動(dòng)駕駛實(shí)驗(yàn)室開(kāi)發(fā)的自動(dòng)駕駛仿真系統(tǒng)TAD Sim可以自動(dòng)生成無(wú)需標(biāo)注的各種交通場(chǎng)景數(shù)據(jù),助力自動(dòng)駕駛系統(tǒng)開(kāi)發(fā)。
在安全的、合成的仿真環(huán)境中,計(jì)算機(jī)可以模擬任何人類(lèi)想象得到的駕駛場(chǎng)景,諸如調(diào)節(jié)天氣狀況、添加或移除行人、改變其他車(chē)輛的位置等等。可以說(shuō),合成數(shù)據(jù)和仿真技術(shù)是自動(dòng)駕駛的核心支撐技術(shù)。實(shí)際上,最早涌現(xiàn)的一批合成數(shù)據(jù)創(chuàng)業(yè)公司就瞄準(zhǔn)的是自動(dòng)駕駛汽車(chē)市場(chǎng),幫助自動(dòng)駕駛企業(yè)解決其在自動(dòng)駕駛系統(tǒng)開(kāi)發(fā)過(guò)程中所面臨的數(shù)據(jù)和測(cè)試難題。
目前,合成數(shù)據(jù)還在向金融、醫(yī)療、零售、工業(yè)等諸多產(chǎn)業(yè)領(lǐng)域拓展應(yīng)用,用計(jì)算機(jī)訓(xùn)練計(jì)算機(jī)正在成為人工智能發(fā)展的必經(jīng)之路。
下一次飛躍
由于對(duì)人工智能未來(lái)發(fā)展的巨大價(jià)值,合成數(shù)據(jù)也加速成為AI領(lǐng)域的一個(gè)新產(chǎn)業(yè)賽道。
一方面,國(guó)外的主流科技公司紛紛瞄準(zhǔn)合成數(shù)據(jù)領(lǐng)域加大投入與布局。微軟的Azure云服務(wù)則推出了airSIM平臺(tái),可以創(chuàng)建高保真的(high fidelity)的3D虛擬環(huán)境來(lái)訓(xùn)練、測(cè)試AI驅(qū)動(dòng)的自主飛行器,微軟還開(kāi)發(fā)了可以生成合成和聚合數(shù)據(jù)集的開(kāi)源工具Synthetic Data Showcase,并創(chuàng)建了合成人臉數(shù)據(jù)庫(kù),和國(guó)際移民組織(IOM)合作打擊人口販賣(mài)。亞馬遜則在多個(gè)場(chǎng)景探索合成數(shù)據(jù)的應(yīng)用,例如使用合成數(shù)據(jù)來(lái)訓(xùn)練、調(diào)試其虛擬助手Alexa,以避免用戶隱私問(wèn)題;其合成數(shù)據(jù)技術(shù)Wordforge工具可以用來(lái)創(chuàng)建合成場(chǎng)景(synthetic scenes)。
另一方面,合成數(shù)據(jù)作為AI領(lǐng)域的新型產(chǎn)業(yè),相關(guān)創(chuàng)新創(chuàng)業(yè)方興未艾,合成數(shù)據(jù)創(chuàng)業(yè)公司不斷涌現(xiàn),合成數(shù)據(jù)領(lǐng)域的投資并購(gòu)持續(xù)升溫。據(jù)國(guó)外研究者統(tǒng)計(jì),目前全球合成數(shù)據(jù)創(chuàng)業(yè)企業(yè)已達(dá)100家。在過(guò)去的18個(gè)月,公眾視野中已知的合成數(shù)據(jù)公司融資總額達(dá)到3.28億美元,比2020年高出2.75億美元。
看起來(lái),合成數(shù)據(jù)是對(duì)真實(shí)數(shù)據(jù)稀缺性的重要解法,但這并不代表合成數(shù)據(jù)毫無(wú)問(wèn)題。首先,雖然高質(zhì)量的合成數(shù)據(jù)集不僅可以作為真實(shí)數(shù)據(jù)集的補(bǔ)充,更可以作為訓(xùn)練人工智能模型的主要數(shù)據(jù)來(lái)源,但在全面應(yīng)用合成數(shù)據(jù)集之前,需要充分研究合成數(shù)據(jù)集與真實(shí)數(shù)據(jù)集的差異,從而避免應(yīng)用合成數(shù)據(jù)集帶來(lái)的偏差。因此,如何評(píng)估合成數(shù)據(jù)集與真實(shí)數(shù)據(jù)集的差異仍是一個(gè)有待解決的問(wèn)題。
其次,合成數(shù)據(jù)仍存在“非自然數(shù)據(jù)”的問(wèn)題。目前大多合成數(shù)據(jù)技術(shù)是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法的,由于經(jīng)典統(tǒng)計(jì)學(xué)只關(guān)注了數(shù)據(jù)中蘊(yùn)含的相關(guān)性,而忽視了因果性,因此有可能會(huì)生成不合邏輯的數(shù)據(jù)。比如,合成圖像中可能會(huì)出現(xiàn)具有異常背景的圖像,這類(lèi)數(shù)據(jù)被稱為“非自然數(shù)據(jù)”。“非自然數(shù)據(jù)”對(duì)智能算法的影響目前仍然未知??坍?huà)影響的邊界并提早思考應(yīng)對(duì)辦法將會(huì)是合成數(shù)據(jù)能否進(jìn)入風(fēng)險(xiǎn)敏感領(lǐng)域的關(guān)鍵。
最后,合成數(shù)據(jù)仍然涉及的隱式隱私泄露問(wèn)題。雖然“合成數(shù)據(jù)”并不由某個(gè)用戶產(chǎn)生,但是目前的合成數(shù)據(jù)仍然需要借用數(shù)據(jù)來(lái)訓(xùn)練用于合成數(shù)據(jù)的模型,比如生成對(duì)抗網(wǎng)絡(luò)。由于生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度較高,因此在模型訓(xùn)練的過(guò)程中,存在記憶原始訓(xùn)練樣本分布的可能。已經(jīng)有最新研究結(jié)果表明,可以通過(guò)合成的數(shù)據(jù)反向推斷出原始訓(xùn)練樣本。所以,數(shù)據(jù)合成技術(shù)存在上述“隱式隱私”泄露問(wèn)題,如何更嚴(yán)密地保護(hù)隱私仍是有待探究的問(wèn)題。
從數(shù)據(jù)到合成數(shù)據(jù),當(dāng)人工智能能夠合成數(shù)據(jù),并使用它來(lái)繼續(xù)自我改變,這可能會(huì)使迫在眉睫的數(shù)據(jù)短缺變得無(wú)關(guān)緊要。對(duì)于人工智能來(lái)說(shuō),這將代表下一次的飛躍。