国产精品自产18禁,亚洲卡5卡6卡7卡2021入口

用計(jì)算機(jī)訓(xùn)練計(jì)算機(jī)，人工智能如何自我學(xué)習(xí)？

2023-02-27 10:45

鈦媒體

陳根

數(shù)據(jù)對(duì)于人工智能發(fā)展的意義不言自明——如果說(shuō)以深度學(xué)習(xí)為代表的智能算法是人工智能應(yīng)用和發(fā)展的“引擎”，那么數(shù)據(jù)就是用于驅(qū)動(dòng)“引擎”的“燃料”。而合成數(shù)據(jù)之所以在今天會(huì)受到關(guān)注，正是因?yàn)槟壳艾F(xiàn)實(shí)世界的數(shù)據(jù)已經(jīng)難以滿足人工智能繼續(xù)迭代，并向前發(fā)展的數(shù)據(jù)需求。

圖片來(lái)源@視覺(jué)中國(guó)

本文來(lái)自鈦媒體，文|陳根。

人工智能的發(fā)展應(yīng)用離不開(kāi)數(shù)據(jù)。比如，訓(xùn)練當(dāng)前大火的ChatGPT，就需要大量的數(shù)據(jù)——根據(jù)OpenAI披露，ChatGPT的訓(xùn)練使用了45TB的數(shù)據(jù)、近1萬(wàn)億個(gè)單詞，大概是1351萬(wàn)本牛津詞典所包含的單詞數(shù)量。

基于龐大數(shù)據(jù)集訓(xùn)練而成的ChatGPT獲得了前所未有的成功，而ChatGPT想要向前迭代，就需要更多的數(shù)據(jù)進(jìn)行訓(xùn)練。但真實(shí)世界的數(shù)據(jù)總歸是有限的，并且面臨著難以獲取、質(zhì)量差、標(biāo)準(zhǔn)不統(tǒng)一等諸多問(wèn)題。在這樣的情況下，計(jì)算機(jī)模擬技術(shù)或算法生成的合成數(shù)據(jù)受到了愈發(fā)廣泛的關(guān)注。作為真實(shí)世界數(shù)據(jù)的廉價(jià)替代品，合成數(shù)據(jù)正日益被用于創(chuàng)造精準(zhǔn)的AI模型。

為什么需要合成數(shù)據(jù)？

顧名思義，合成數(shù)據(jù)就是通過(guò)計(jì)算機(jī)模擬或人工智能算法合成的數(shù)據(jù)，這樣的數(shù)據(jù)并不基于現(xiàn)實(shí)世界的現(xiàn)象和事件，但由于在數(shù)學(xué)上或統(tǒng)計(jì)學(xué)上，合成數(shù)據(jù)也能夠反映真實(shí)世界數(shù)據(jù)的屬性，因此，合成數(shù)據(jù)可以作為真實(shí)世界數(shù)據(jù)的替代品，來(lái)訓(xùn)練、測(cè)試、驗(yàn)證AI模型。

2022年以來(lái)，F(xiàn)orrester、埃森哲（Accenture）、Gartner、CB Insights等研究咨詢公司都已經(jīng)將合成數(shù)據(jù)列為人工智能未來(lái)發(fā)展的核心要素，認(rèn)為合成數(shù)據(jù)對(duì)于人工智能的未來(lái)而言是“必選項(xiàng)”和“必需品”。

比如，F(xiàn)orrester將合成數(shù)據(jù)和強(qiáng)化學(xué)習(xí)、Transformer網(wǎng)絡(luò)、聯(lián)邦學(xué)習(xí)、因果推理視為實(shí)現(xiàn)人工智能2.0的五項(xiàng)關(guān)鍵技術(shù)進(jìn)展，可以解決人工智能1.0所面臨的一些限制和挑戰(zhàn)，諸如數(shù)據(jù)、準(zhǔn)確性、速度、安全性、可擴(kuò)展性等。

Gartner預(yù)測(cè)稱，到2024年，用于開(kāi)發(fā)人工智能和分析項(xiàng)目的數(shù)據(jù)60%將是生成式合成數(shù)據(jù)，到2030年合成數(shù)據(jù)將徹底取代真實(shí)數(shù)據(jù)，成為AI模型所使用的數(shù)據(jù)的主要來(lái)源。MIT科技評(píng)論將AI合成數(shù)據(jù)列為2022年十大突破性技術(shù)之一，稱其有望解決AI領(lǐng)域的數(shù)據(jù)鴻溝問(wèn)題。

要知道，現(xiàn)實(shí)世界的數(shù)據(jù)收集和處理是一種昂貴且緩慢的過(guò)程，公司通常無(wú)法在短時(shí)間內(nèi)獲取大量的數(shù)據(jù)來(lái)訓(xùn)練準(zhǔn)確的模型，就算是獲取現(xiàn)實(shí)世界的數(shù)據(jù)也要符合隱私規(guī)定，然而，除去獲取成本高昂以外，特定領(lǐng)域的數(shù)據(jù)集還受限于用戶隱私，極難采集?？梢哉f(shuō)，現(xiàn)實(shí)世界數(shù)據(jù)的稀缺性已經(jīng)成為人工智能發(fā)展的最大瓶頸——如何高效、廉價(jià)并在不侵犯隱私的情況下獲取大量數(shù)據(jù)，成為當(dāng)前人工智能領(lǐng)域的關(guān)鍵問(wèn)題之一。

合成數(shù)據(jù)就是這個(gè)關(guān)鍵問(wèn)題的解法。首先，合成數(shù)據(jù)能夠?qū)崿F(xiàn)數(shù)據(jù)增強(qiáng)和數(shù)據(jù)模擬，解決數(shù)據(jù)匱乏、數(shù)據(jù)質(zhì)量等問(wèn)題，包括通過(guò)合成數(shù)據(jù)來(lái)改善基準(zhǔn)測(cè)試數(shù)據(jù)的質(zhì)量等；其次，避免數(shù)據(jù)隱私問(wèn)題，利用合成數(shù)據(jù)訓(xùn)練AI模型可以避免用戶隱私問(wèn)題，這對(duì)于金融、醫(yī)療等領(lǐng)域而言尤其具有意義；第三，合成數(shù)據(jù)還能最大限度地確保數(shù)據(jù)多樣性，更多反映真實(shí)世界，提升AI的公平性，以及糾正歷史數(shù)據(jù)中的偏見(jiàn)，消除算法歧視；第四，合成數(shù)據(jù)能夠應(yīng)對(duì)長(zhǎng)尾、邊緣案例，提高AI的準(zhǔn)確性、可靠性，因?yàn)橥ㄟ^(guò)合成數(shù)據(jù)可以自動(dòng)創(chuàng)建、生成現(xiàn)實(shí)世界中難以或者無(wú)法采集的數(shù)據(jù)場(chǎng)景，更好確保AI模型的準(zhǔn)確性。

不僅如此，合成數(shù)據(jù)還具有低成本的特點(diǎn)。合成數(shù)據(jù)服務(wù)商AI.Reverie指出，人工標(biāo)注一張圖片可能需要6美元，但人工合成的話只需要6美分。總的來(lái)說(shuō)，利用合成數(shù)據(jù)可以更廉價(jià)、更高效、更準(zhǔn)確、更安全可靠地訓(xùn)練AI模型，進(jìn)而極大擴(kuò)展AI的應(yīng)用可能性，將人工智能推向新的發(fā)展階段。

用計(jì)算機(jī)訓(xùn)練計(jì)算機(jī)

2021年，尼日利亞數(shù)據(jù)科學(xué)公司的研究人員就注意到，旨在訓(xùn)練計(jì)算機(jī)視覺(jué)算法的工程師可以選用大量以西方服裝為特色的數(shù)據(jù)集，但卻沒(méi)有非洲服裝的數(shù)據(jù)集。于是，這個(gè)團(tuán)隊(duì)通過(guò)人工智能算法成功實(shí)現(xiàn)了人為生成由非洲時(shí)尚服裝的圖像組成的數(shù)據(jù)來(lái)解決這一不平衡問(wèn)題。

可以說(shuō)，合成數(shù)據(jù)真正實(shí)現(xiàn)了用計(jì)算機(jī)訓(xùn)練計(jì)算機(jī)，這也讓機(jī)器智能向前更進(jìn)一步。實(shí)際上，人類(lèi)的學(xué)習(xí)正是遵循著這樣的方式，一方面，我們可以從外部信息來(lái)源收集知識(shí)和觀點(diǎn)，比如，通過(guò)閱讀一本書(shū)。但我們也可以通過(guò)思考一個(gè)問(wèn)題，自發(fā)產(chǎn)生想法和見(jiàn)解，換言之，我們能夠通過(guò)內(nèi)部反思和分析來(lái)加深對(duì)世界的理解，而不直接依賴于任何新的外部輸入。

而人工智能通過(guò)合成數(shù)據(jù)來(lái)自我訓(xùn)練，就像是人工智能也無(wú)需任何新的外部輸入，而是通過(guò)合成數(shù)據(jù)來(lái)有效地引導(dǎo)它們自己的智能。

試想一下，今天的人工智能大模型吸收了世界上存在的大量信息和數(shù)據(jù)，比如維基百科、書(shū)籍、新聞文章等。如果人工智能能夠根據(jù)這些數(shù)據(jù)合成新的數(shù)據(jù)，然后再將這些合成數(shù)據(jù)進(jìn)一步訓(xùn)練來(lái)改進(jìn)自己，那人工智能就將不斷迭代，且功能愈發(fā)強(qiáng)大。換言之，AI在合成數(shù)據(jù)構(gòu)建的虛擬仿真世界中自我學(xué)習(xí)、進(jìn)化，這將極大擴(kuò)展AI的應(yīng)用可能性。

實(shí)際上，用計(jì)算機(jī)訓(xùn)練計(jì)算機(jī)的想法并不新鮮，例如，無(wú)人駕駛汽車(chē)已經(jīng)在虛擬街道上進(jìn)行了許多訓(xùn)練。要知道，由于實(shí)際道路交通場(chǎng)景千變?nèi)f化，因此，讓自動(dòng)駕駛汽車(chē)通過(guò)實(shí)際道路測(cè)試來(lái)窮盡其在道路上可能遇到的每一個(gè)場(chǎng)景是不現(xiàn)實(shí)的，必須借助于合成數(shù)據(jù)才能更好地訓(xùn)練、開(kāi)發(fā)自動(dòng)駕駛系統(tǒng)。

為此，許多自動(dòng)駕駛企業(yè)都開(kāi)發(fā)了復(fù)雜的仿真引擎來(lái)“虛擬地合成”自動(dòng)駕駛系統(tǒng)訓(xùn)練所需的海量數(shù)據(jù)，并高效地應(yīng)對(duì)駕駛場(chǎng)景中的“長(zhǎng)尾”問(wèn)題和“邊緣案例”。比如，騰訊自動(dòng)駕駛實(shí)驗(yàn)室開(kāi)發(fā)的自動(dòng)駕駛仿真系統(tǒng)TAD Sim可以自動(dòng)生成無(wú)需標(biāo)注的各種交通場(chǎng)景數(shù)據(jù)，助力自動(dòng)駕駛系統(tǒng)開(kāi)發(fā)。

在安全的、合成的仿真環(huán)境中，計(jì)算機(jī)可以模擬任何人類(lèi)想象得到的駕駛場(chǎng)景，諸如調(diào)節(jié)天氣狀況、添加或移除行人、改變其他車(chē)輛的位置等等。可以說(shuō)，合成數(shù)據(jù)和仿真技術(shù)是自動(dòng)駕駛的核心支撐技術(shù)。實(shí)際上，最早涌現(xiàn)的一批合成數(shù)據(jù)創(chuàng)業(yè)公司就瞄準(zhǔn)的是自動(dòng)駕駛汽車(chē)市場(chǎng)，幫助自動(dòng)駕駛企業(yè)解決其在自動(dòng)駕駛系統(tǒng)開(kāi)發(fā)過(guò)程中所面臨的數(shù)據(jù)和測(cè)試難題。

目前，合成數(shù)據(jù)還在向金融、醫(yī)療、零售、工業(yè)等諸多產(chǎn)業(yè)領(lǐng)域拓展應(yīng)用，用計(jì)算機(jī)訓(xùn)練計(jì)算機(jī)正在成為人工智能發(fā)展的必經(jīng)之路。

下一次飛躍

由于對(duì)人工智能未來(lái)發(fā)展的巨大價(jià)值，合成數(shù)據(jù)也加速成為AI領(lǐng)域的一個(gè)新產(chǎn)業(yè)賽道。

一方面，國(guó)外的主流科技公司紛紛瞄準(zhǔn)合成數(shù)據(jù)領(lǐng)域加大投入與布局。微軟的Azure云服務(wù)則推出了airSIM平臺(tái)，可以創(chuàng)建高保真的（high fidelity）的3D虛擬環(huán)境來(lái)訓(xùn)練、測(cè)試AI驅(qū)動(dòng)的自主飛行器，微軟還開(kāi)發(fā)了可以生成合成和聚合數(shù)據(jù)集的開(kāi)源工具Synthetic Data Showcase，并創(chuàng)建了合成人臉數(shù)據(jù)庫(kù)，和國(guó)際移民組織（IOM）合作打擊人口販賣(mài)。亞馬遜則在多個(gè)場(chǎng)景探索合成數(shù)據(jù)的應(yīng)用，例如使用合成數(shù)據(jù)來(lái)訓(xùn)練、調(diào)試其虛擬助手Alexa，以避免用戶隱私問(wèn)題；其合成數(shù)據(jù)技術(shù)Wordforge工具可以用來(lái)創(chuàng)建合成場(chǎng)景（synthetic scenes）。

另一方面，合成數(shù)據(jù)作為AI領(lǐng)域的新型產(chǎn)業(yè)，相關(guān)創(chuàng)新創(chuàng)業(yè)方興未艾，合成數(shù)據(jù)創(chuàng)業(yè)公司不斷涌現(xiàn)，合成數(shù)據(jù)領(lǐng)域的投資并購(gòu)持續(xù)升溫。據(jù)國(guó)外研究者統(tǒng)計(jì)，目前全球合成數(shù)據(jù)創(chuàng)業(yè)企業(yè)已達(dá)100家。在過(guò)去的18個(gè)月，公眾視野中已知的合成數(shù)據(jù)公司融資總額達(dá)到3.28億美元，比2020年高出2.75億美元。

看起來(lái)，合成數(shù)據(jù)是對(duì)真實(shí)數(shù)據(jù)稀缺性的重要解法，但這并不代表合成數(shù)據(jù)毫無(wú)問(wèn)題。首先，雖然高質(zhì)量的合成數(shù)據(jù)集不僅可以作為真實(shí)數(shù)據(jù)集的補(bǔ)充，更可以作為訓(xùn)練人工智能模型的主要數(shù)據(jù)來(lái)源，但在全面應(yīng)用合成數(shù)據(jù)集之前，需要充分研究合成數(shù)據(jù)集與真實(shí)數(shù)據(jù)集的差異，從而避免應(yīng)用合成數(shù)據(jù)集帶來(lái)的偏差。因此，如何評(píng)估合成數(shù)據(jù)集與真實(shí)數(shù)據(jù)集的差異仍是一個(gè)有待解決的問(wèn)題。

其次，合成數(shù)據(jù)仍存在“非自然數(shù)據(jù)”的問(wèn)題。目前大多合成數(shù)據(jù)技術(shù)是基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法的，由于經(jīng)典統(tǒng)計(jì)學(xué)只關(guān)注了數(shù)據(jù)中蘊(yùn)含的相關(guān)性，而忽視了因果性，因此有可能會(huì)生成不合邏輯的數(shù)據(jù)。比如，合成圖像中可能會(huì)出現(xiàn)具有異常背景的圖像，這類(lèi)數(shù)據(jù)被稱為“非自然數(shù)據(jù)”。“非自然數(shù)據(jù)”對(duì)智能算法的影響目前仍然未知?？坍?huà)影響的邊界并提早思考應(yīng)對(duì)辦法將會(huì)是合成數(shù)據(jù)能否進(jìn)入風(fēng)險(xiǎn)敏感領(lǐng)域的關(guān)鍵。

最后，合成數(shù)據(jù)仍然涉及的隱式隱私泄露問(wèn)題。雖然“合成數(shù)據(jù)”并不由某個(gè)用戶產(chǎn)生，但是目前的合成數(shù)據(jù)仍然需要借用數(shù)據(jù)來(lái)訓(xùn)練用于合成數(shù)據(jù)的模型，比如生成對(duì)抗網(wǎng)絡(luò)。由于生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜度較高，因此在模型訓(xùn)練的過(guò)程中，存在記憶原始訓(xùn)練樣本分布的可能。已經(jīng)有最新研究結(jié)果表明，可以通過(guò)合成的數(shù)據(jù)反向推斷出原始訓(xùn)練樣本。所以，數(shù)據(jù)合成技術(shù)存在上述“隱式隱私”泄露問(wèn)題，如何更嚴(yán)密地保護(hù)隱私仍是有待探究的問(wèn)題。

從數(shù)據(jù)到合成數(shù)據(jù)，當(dāng)人工智能能夠合成數(shù)據(jù)，并使用它來(lái)繼續(xù)自我改變，這可能會(huì)使迫在眉睫的數(shù)據(jù)短缺變得無(wú)關(guān)緊要。對(duì)于人工智能來(lái)說(shuō)，這將代表下一次的飛躍。

THEEND

免責(zé)聲明：凡注明為其它來(lái)源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類(lèi)作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來(lái)源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門(mén)

精選文章

熱點(diǎn)資訊

淘寶、抖音、視頻號(hào)直播電商“賽馬”

用計(jì)算機(jī)訓(xùn)練計(jì)算機(jī)，人工智能如何自我學(xué)習(xí)？

2024 信息化觀察網(wǎng)

長(zhǎng)按掃描二維碼閱讀原文

用計(jì)算機(jī)訓(xùn)練計(jì)算機(jī)，人工智能如何自我學(xué)習(xí)？

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

AI 時(shí)代，語(yǔ)音會(huì)成為主流交互方式嗎

工業(yè)智能化背景下，大數(shù)據(jù)的應(yīng)用與智能工廠的發(fā)展

生成式人工智能：人人可用的新時(shí)代

人工智能將如何允許我們與汽車(chē)交談

本月熱門(mén)

云計(jì)算的江湖，風(fēng)云再起

揭秘，IOTE國(guó)際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車(chē)涂裝工藝技術(shù)研討會(huì)即將啟幕!

網(wǎng)博會(huì)革新升級(jí)：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬(wàn)億賽道!AI算力趨勢(shì)發(fā)展深度分析 2024

精選文章

數(shù)字驅(qū)動(dòng)未來(lái) 引領(lǐng)智慧浪潮- 智慧視通榮獲2023數(shù)字化轉(zhuǎn)型突出貢獻(xiàn)企業(yè)和數(shù)字化創(chuàng)新突破技術(shù)獎(jiǎng)

立即報(bào)名 | 「數(shù)智驅(qū)動(dòng) 研發(fā)創(chuàng)新」企業(yè)研發(fā)數(shù)智化轉(zhuǎn)型研討會(huì) · 北京站

李天白：用“數(shù)字細(xì)胞”技術(shù)全面推進(jìn)區(qū)塊鏈技術(shù)應(yīng)用

中冶賽迪信息全流程智能工廠解決方案：開(kāi)啟全流程智能新時(shí)代

《2021中國(guó)數(shù)字化轉(zhuǎn)型優(yōu)秀方案集》征集活動(dòng)正在進(jìn)行中

中冶賽迪信息亮相2022行業(yè)信息化技術(shù)創(chuàng)新發(fā)展峰會(huì)

熱點(diǎn)資訊

“皇冠丹麥曲奇”勝訴 “藍(lán)罐曲奇”敗訴——市場(chǎng)競(jìng)爭(zhēng)需遵守法律底線

什么是 OSI 模型？OSI 模型的七層是哪些？

自動(dòng)化測(cè)試有哪些常見(jiàn)的挑戰(zhàn)和解決方案？

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標(biāo)桿案例”

共筑數(shù)字未來(lái)|深度解析數(shù)字化轉(zhuǎn)型與建設(shè)的戰(zhàn)略指南

淘寶、抖音、視頻號(hào)直播電商“賽馬”

2023年我國(guó)數(shù)字經(jīng)濟(jì)發(fā)展將呈現(xiàn)十大趨勢(shì) 傳統(tǒng)產(chǎn)業(yè)鏈將全面數(shù)字化轉(zhuǎn)型

用計(jì)算機(jī)訓(xùn)練計(jì)算機(jī)，人工智能如何自我學(xué)習(xí)？

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

欄目推薦

AI 時(shí)代，語(yǔ)音會(huì)成為主流交互方式嗎

工業(yè)智能化背景下，大數(shù)據(jù)的應(yīng)用與智能工廠的發(fā)展

生成式人工智能：人人可用的新時(shí)代

人工智能將如何允許我們與汽車(chē)交談

本月熱門(mén)

精選文章

熱點(diǎn)資訊

淘寶、抖音、視頻號(hào)直播電商“賽馬”

2023年我國(guó)數(shù)字經(jīng)濟(jì)發(fā)展將呈現(xiàn)十大趨勢(shì) 傳統(tǒng)產(chǎn)業(yè)鏈將全面數(shù)字化轉(zhuǎn)型

用計(jì)算機(jī)訓(xùn)練計(jì)算機(jī)，人工智能如何自我學(xué)習(xí)？

AI 時(shí)代，語(yǔ)音會(huì)成為主流交互方式嗎

工業(yè)智能化背景下，大數(shù)據(jù)的應(yīng)用與智能工廠的發(fā)展

淘寶、抖音、視頻號(hào)直播電商“賽馬”