7月26日消息,據(jù)國(guó)外媒體報(bào)道,Alphabet旗下的無人駕駛汽車公司W(wǎng)aymo進(jìn)行了大量訓(xùn)練來改良驅(qū)動(dòng)其自動(dòng)駕駛軟件的人工智能。最近,它與另一家Alphabet子公司DeepMind合作開發(fā)了一種模擬進(jìn)化論的新訓(xùn)練方法,來提高訓(xùn)練質(zhì)量和效率。
正如Waymo所解釋的那樣,人工智能算法通過反復(fù)試驗(yàn)來自我改進(jìn)。一個(gè)模型被提出一個(gè)任務(wù),它通過不斷地嘗試和根據(jù)它收到的反饋進(jìn)行調(diào)整,來學(xué)習(xí)執(zhí)行這個(gè)任務(wù)。執(zhí)行表現(xiàn)在很大程度上依賴于訓(xùn)練方案——被稱為超級(jí)參數(shù)機(jī)制——而找到最佳訓(xùn)練方案的任務(wù)要有經(jīng)驗(yàn)的研究人員和工程師親自去完成。他們精心挑選正在接受訓(xùn)練的人工智能模型,剔除表現(xiàn)最差的模型,并釋放資源從頭開始訓(xùn)練新的算法。
DeepMind設(shè)計(jì)了一種不那么勞動(dòng)密集型的訓(xùn)練方法:基于群體的訓(xùn)練(以下簡(jiǎn)稱“PBT”),它從多個(gè)由隨機(jī)變量(超級(jí)參數(shù))啟動(dòng)的機(jī)器學(xué)習(xí)模型開始運(yùn)作。這些模型會(huì)定期被評(píng)估,并以一種進(jìn)化的方式相互競(jìng)爭(zhēng),這樣,表現(xiàn)不佳的群體成員就會(huì)被“后代”(表現(xiàn)較好的成員的副本,其中的變量略有變化)所取代。PBT不需要重新開始訓(xùn)練,因?yàn)槊總€(gè)后代都繼承了父網(wǎng)絡(luò)的狀態(tài),并且在整個(gè)訓(xùn)練過程中會(huì)主動(dòng)更新超級(jí)參數(shù)。最終的結(jié)果是,PBT有了“良好的”超級(jí)參數(shù)值,用上多數(shù)的資源進(jìn)行訓(xùn)練。這就是進(jìn)化的由來,因?yàn)檫@是一種人工自然選擇的過程。
PBT并不完美——它傾向于對(duì)當(dāng)前進(jìn)行優(yōu)化,而沒有考慮長(zhǎng)期結(jié)果,對(duì)發(fā)展遲緩的人工智能模型不利。為了緩解這種情況,DeepMind的研究人員訓(xùn)練了一個(gè)更大的群體,并創(chuàng)建了一個(gè)叫做“利基”的亞群體,在這個(gè)群體中,算法只允許在自己的子群體中競(jìng)爭(zhēng)。最后,團(tuán)隊(duì)通過為更獨(dú)特的模型提供競(jìng)爭(zhēng)優(yōu)勢(shì)來直接獎(jiǎng)勵(lì)多樣性。
最近,Waymo和DeepMind讓PBT接受Waymo創(chuàng)造更好的虛擬司機(jī)的挑戰(zhàn),訓(xùn)練結(jié)果令人印象深刻——DeepMind在一篇博客文章中表示,借助PBT,負(fù)責(zé)標(biāo)識(shí)區(qū)分由Waymo汽車的諸多傳感器發(fā)現(xiàn)的行人、騎車者和摩托車騎手的網(wǎng)絡(luò)誤報(bào)率下降了24%。不僅如此,與Waymo以前使用的標(biāo)準(zhǔn)方法相比,PBT還節(jié)省了大約50%的訓(xùn)練時(shí)間和資源。
使用這種方法時(shí),為了避免潛在的缺陷,DeepMind經(jīng)過早期研究以后進(jìn)行了一些調(diào)整,其中包括每隔15分鐘就對(duì)模型進(jìn)行評(píng)估,構(gòu)建強(qiáng)大的驗(yàn)證標(biāo)準(zhǔn)和示例集,以便確保測(cè)試能夠?yàn)檎鎸?shí)世界構(gòu)建表現(xiàn)更好的神經(jīng)網(wǎng)絡(luò),而不只是僅適用于它們被灌輸?shù)奶囟〝?shù)據(jù)的良好模式識(shí)別引擎。
Waymo表示,它已經(jīng)將PBT直接納入了Waymo的技術(shù)基礎(chǔ)設(shè)施中,使得來自整個(gè)公司的研究人員只需點(diǎn)擊一個(gè)按鈕就可以應(yīng)用PBT。該公司寫道,“自這些實(shí)驗(yàn)完成以來,PBT已被應(yīng)用于許多不同的Waymo車型,并有望幫助創(chuàng)造出更適合道路行駛的汽車。”