合成數(shù)據(jù)和真實(shí)數(shù)據(jù)對(duì)比:各有千秋

信息化觀察網(wǎng)
編譯
合成數(shù)據(jù)會(huì)成為快速訓(xùn)練AI算法的解決方案嗎?合成數(shù)據(jù)中的優(yōu)缺點(diǎn)并存,然而很多的技術(shù)專家認(rèn)為合成數(shù)據(jù)是讓機(jī)器學(xué)習(xí)大眾化、加快測(cè)試AI算法以及將AI算法融入到我們?nèi)粘I钪械年P(guān)鍵。 什么是合成數(shù)據(jù)? 合...

合成數(shù)據(jù)會(huì)成為快速訓(xùn)練AI算法的解決方案嗎?合成數(shù)據(jù)中的優(yōu)缺點(diǎn)并存,然而很多的技術(shù)專家認(rèn)為合成數(shù)據(jù)是讓機(jī)器學(xué)習(xí)大眾化、加快測(cè)試AI算法以及將AI算法融入到我們?nèi)粘I钪械年P(guān)鍵。

什么是合成數(shù)據(jù)?

合成數(shù)據(jù)指的是由計(jì)算機(jī)使用人為手段生成的數(shù)據(jù),而不是從現(xiàn)實(shí)世界的環(huán)境中測(cè)量和收集的數(shù)據(jù)。這一數(shù)據(jù)是匿名的,并且是基于用戶指定的參數(shù)而創(chuàng)建的,因此可以盡可能地和現(xiàn)實(shí)情境下的數(shù)據(jù)有著相同的特征。

創(chuàng)造合成數(shù)據(jù)的方式之一是使用真實(shí)數(shù)據(jù),但是需要去除數(shù)據(jù)集中能夠識(shí)別出個(gè)人信息的方面,如姓名、郵件地址、社保號(hào)碼和地址,從而確保數(shù)據(jù)是匿名的。生成模型(generative model)能夠從真實(shí)數(shù)據(jù)中學(xué)習(xí),并能創(chuàng)造和真實(shí)數(shù)據(jù)極為相似的數(shù)據(jù)集。隨著技術(shù)的進(jìn)步,合成數(shù)據(jù)和真實(shí)數(shù)據(jù)的差距也在縮小。

在很多的情況下,合成數(shù)據(jù)都是很有用的。研究人員會(huì)使用合成材料來(lái)低風(fēng)險(xiǎn)從而完成實(shí)驗(yàn),數(shù)據(jù)科學(xué)家則采用了類似的方法,即利用合成數(shù)據(jù)來(lái)最大限度地減少時(shí)間、成本和風(fēng)險(xiǎn)。有時(shí)候數(shù)據(jù)集的數(shù)量不足以用來(lái)高效地訓(xùn)練機(jī)器學(xué)習(xí)算法,因此就創(chuàng)建了一個(gè)能夠確保綜合訓(xùn)練的數(shù)據(jù)集。在其它的情況下,出于對(duì)隱私的考慮,真實(shí)數(shù)據(jù)不能用于測(cè)試、訓(xùn)練或者保證質(zhì)量,因?yàn)檫@一數(shù)據(jù)很敏感,或者是只適用于受到高度監(jiān)管的行業(yè)。

合成數(shù)據(jù)的優(yōu)點(diǎn)

深度學(xué)習(xí)機(jī)器和人工智能算法有望解決非常棘手的難題,而驅(qū)動(dòng)它們的正是龐大的數(shù)據(jù)集。谷歌、Facebook和亞馬遜等公司在業(yè)務(wù)方面每天都能創(chuàng)造出很多的數(shù)據(jù),因此這也算是他們的競(jìng)爭(zhēng)優(yōu)勢(shì)。合成數(shù)據(jù)讓任意規(guī)模和擁有任意資源數(shù)量的公司可以利用由深度數(shù)據(jù)集驅(qū)動(dòng)的學(xué)習(xí),并最終通過(guò)深度數(shù)據(jù)集將機(jī)器學(xué)習(xí)大眾化。

在很多情況下,創(chuàng)建合成數(shù)據(jù)要比收集真實(shí)數(shù)據(jù)的效率更高,并更有成本效益。合成數(shù)據(jù)也能夠與真實(shí)數(shù)據(jù)進(jìn)行互補(bǔ),即使在真實(shí)數(shù)據(jù)集中沒(méi)有很好的例子,但是也能夠?qū)γ恳粋€(gè)可想象變量進(jìn)行測(cè)試。這能夠加快企業(yè)對(duì)系統(tǒng)性能的測(cè)試以及對(duì)新系統(tǒng)的訓(xùn)練。

當(dāng)使用偽造的假數(shù)據(jù)時(shí),使用真實(shí)數(shù)據(jù)來(lái)學(xué)習(xí)和測(cè)試的限制就會(huì)減少。近期的研究表明,使用合成數(shù)據(jù)產(chǎn)生的結(jié)果有可能和使用真實(shí)數(shù)據(jù)集產(chǎn)生的結(jié)果一樣。

合成數(shù)據(jù)的缺點(diǎn)

創(chuàng)建高質(zhì)量的合成數(shù)據(jù),尤其是當(dāng)系統(tǒng)復(fù)雜的時(shí)候,是很有挑戰(zhàn)性的。創(chuàng)建合成數(shù)據(jù)的生成模型很好,或者說(shuō)生成的數(shù)據(jù)會(huì)被影響,了解這一點(diǎn)很重要。如果合成數(shù)據(jù)和真實(shí)數(shù)據(jù)集大相徑庭,那么它就能夠影響到基于數(shù)據(jù)所做出的決策的質(zhì)量。

即使真實(shí)數(shù)據(jù)確實(shí)很好,但仍然是真實(shí)數(shù)據(jù)集特定特征的復(fù)制品。模型會(huì)尋找趨勢(shì)來(lái)進(jìn)行復(fù)制,因此可能會(huì)忽視一些隨機(jī)的行為。

合成數(shù)據(jù)的應(yīng)用

每當(dāng)隱私問(wèn)題成為金融和醫(yī)療保健等行業(yè)的問(wèn)題時(shí),或者需要大量數(shù)據(jù)集來(lái)訓(xùn)練機(jī)器學(xué)習(xí)算法時(shí),合成數(shù)據(jù)集都能夠推動(dòng)發(fā)展。下面是合成數(shù)據(jù)的一些應(yīng)用:

●醫(yī)療組織能夠使用合成數(shù)據(jù)(記錄數(shù)據(jù))來(lái)保護(hù)病人的隱私,同時(shí)為護(hù)理協(xié)議提供信息。模擬的X射線結(jié)合了真實(shí)的X射線來(lái)訓(xùn)練AI算法,從而識(shí)別病人的健康狀況;

●在不需要公開個(gè)人財(cái)務(wù)記錄的情況下,就能夠?qū)ζ墼p行為檢測(cè)系統(tǒng)進(jìn)行測(cè)試和訓(xùn)練;

●DevOps團(tuán)隊(duì)使用合成數(shù)據(jù)來(lái)測(cè)試軟件,并保證質(zhì)量;

●機(jī)器學(xué)習(xí)算法通常是使用合成數(shù)據(jù)來(lái)訓(xùn)練的;

●Waymo通過(guò)讓自動(dòng)駕駛汽車在真實(shí)的道路上跑800萬(wàn)英里,以及在模擬道路上跑50億英里的方式對(duì)汽車進(jìn)行測(cè)試。其它的自動(dòng)駕駛汽車生產(chǎn)商使用了《俠盜飛車》等電子游戲來(lái)輔助其自動(dòng)駕駛技術(shù)。

合成數(shù)據(jù)并非“萬(wàn)金油”,但是由于收集真實(shí)數(shù)據(jù)的成本太高,而且真實(shí)數(shù)據(jù)也會(huì)因?yàn)殡[私問(wèn)題或者不完整的問(wèn)題而無(wú)法訪問(wèn),因此合成數(shù)據(jù)也是增強(qiáng)機(jī)器學(xué)習(xí)算法的重要工具。

原文作者:Bernard Marr

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論