大數(shù)據(jù)“軼事”:數(shù)據(jù)不夠用,“偽”數(shù)據(jù)來(lái)湊數(shù)

工業(yè)互聯(lián)網(wǎng)
令人稱奇的大神級(jí)AI,都曾經(jīng)歷過(guò)無(wú)數(shù)次訓(xùn)練,AI訓(xùn)練的核心是數(shù)據(jù),盡管數(shù)據(jù)驅(qū)動(dòng)并不是AI算法訓(xùn)練的唯一方式,但不能否認(rèn)的是,相對(duì)來(lái)說(shuō),擁有海量數(shù)據(jù)的領(lǐng)域,是AI滋生的更好溫床。

令人稱奇的大神級(jí)AI,都曾經(jīng)歷過(guò)無(wú)數(shù)次訓(xùn)練,AI訓(xùn)練的核心是數(shù)據(jù),盡管數(shù)據(jù)驅(qū)動(dòng)并不是AI算法訓(xùn)練的唯一方式,但不能否認(rèn)的是,相對(duì)來(lái)說(shuō),擁有海量數(shù)據(jù)的領(lǐng)域,是AI滋生的更好溫床。

舉一個(gè)簡(jiǎn)單的例子,與其他多個(gè)小語(yǔ)種翻譯比起來(lái),英漢翻譯器的翻譯能力往往會(huì)更強(qiáng),就是因?yàn)橛h互譯的使用頻率遠(yuǎn)遠(yuǎn)高于其他各語(yǔ)種的互譯。同理,人臉識(shí)別技術(shù)應(yīng)用率遠(yuǎn)高于虹膜識(shí)別,因?yàn)槿四様?shù)據(jù)更方便收集。

數(shù)據(jù)匱乏或是采集成本高,是阻礙AI發(fā)展的一個(gè)重要原因。面對(duì)這種情況,數(shù)據(jù)增強(qiáng)技術(shù)應(yīng)運(yùn)而生。

所謂數(shù)據(jù)增強(qiáng)技術(shù),就像是數(shù)據(jù)的繁殖皿,可以讓數(shù)據(jù)進(jìn)行“有絲分裂”,增強(qiáng)樣本擴(kuò)大數(shù)據(jù)集。

就拿圖像數(shù)據(jù)來(lái)說(shuō),當(dāng)圖像數(shù)據(jù)不足時(shí),可以對(duì)原圖像做一些改動(dòng),例如裁剪、旋轉(zhuǎn)、鏡像反轉(zhuǎn)、輕微的扭曲、增加噪點(diǎn)、增加遮擋物等等。也許對(duì)人類來(lái)說(shuō),被改動(dòng)過(guò)的圖像很容易被識(shí)別,看出與原圖的差異。但對(duì)于AI來(lái)說(shuō),即使幾個(gè)像素點(diǎn)的變動(dòng),也是一個(gè)全新的數(shù)據(jù)樣本。

而應(yīng)用于文本數(shù)據(jù),則有互譯和詞向量替換兩種方法。通過(guò)機(jī)器翻譯,將一句話從中文翻譯成英文,再由英文翻譯成中文,就可以實(shí)現(xiàn)語(yǔ)序、同義詞等等的調(diào)整替換,得到語(yǔ)料乘二的效果。以及通過(guò)自然語(yǔ)言生成技術(shù),將一句話中的不同對(duì)象進(jìn)行劃分并替換生成新的句子,就像同義詞、近義詞替換。

令人驚喜的是,這些數(shù)據(jù)增強(qiáng)技術(shù)也開(kāi)始通過(guò)深度學(xué)習(xí)的加持逐漸提升效率。

去年4月,谷歌的AutoAugment技術(shù),設(shè)計(jì)了一個(gè)自動(dòng)搜索空間,利用搜索算法來(lái)確定適合數(shù)據(jù)集的圖像增強(qiáng)策略,制定執(zhí)行的順序并且自動(dòng)執(zhí)行。比如將一個(gè)動(dòng)物或植物照片數(shù)據(jù)集輸入給AutoAugment,AutoAugment通過(guò)計(jì)算會(huì)確定出先平移再剪裁是讓AI對(duì)于數(shù)據(jù)“陌生感”最大化的解決方案,然后開(kāi)始自動(dòng)執(zhí)行。是不是很精妙?

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論