谷歌大腦AI飛速解鎖雅達(dá)利,訓(xùn)練不用兩小時:預(yù)測能力前所未有

量子位
谷歌大腦給自家的強化學(xué)習(xí)AI,建造了一個有的放矢的高效學(xué)習(xí)環(huán)境:基于視頻預(yù)測的模擬器SimPLe。

不是訓(xùn)練兩小時,是相當(dāng)于人類玩兩小時。

AI玩?zhèn)€游戲,一定要打幾十萬上百萬局才能學(xué)會?

谷歌大腦給自家的強化學(xué)習(xí)AI,建造了一個有的放矢的高效學(xué)習(xí)環(huán)境:基于視頻預(yù)測的模擬器SimPLe。

團隊說,模擬器的預(yù)測能力前所未有,有時可以一幀都不錯:

左為模擬器,中為Ground Truth,右為差別

有了它,AI的學(xué)習(xí)壓力明顯減輕,只需要相當(dāng)于人類玩兩小時的訓(xùn)練強度,就能解鎖雅達(dá)利游戲。

與優(yōu)秀的無模型前輩Rainbow相比,基于模型的SimPLE要訓(xùn)練到相同的成績,運動量能減少一個數(shù)量級。

乒乓球21:0

怎樣的模擬器?

和許多游戲AI前輩不同,SimPLe的智能體不是在真實游戲里訓(xùn)練的。

它的游戲策略,完全是在模擬器里煉成的。

這里,有個視頻預(yù)測模型,會給AI的每個動作預(yù)測一個結(jié)果。按照谷歌的傳統(tǒng),它也叫世界模型 (World Model) 。

為什么要有這個模型?

在許多雅達(dá)利游戲里面,隨機探索是很難獲得足夠多樣化的數(shù)據(jù)的:

有些地方智能體可能沒去過,有些動作智能體可能沒做過。

環(huán)境數(shù)據(jù)不夠豐富,AI就不能更有效地學(xué)習(xí)。

所以,要讓智能體用更高效的方法探索世界:

團隊用了一個迭代過程,由數(shù)據(jù)收集、模型訓(xùn)練、策略訓(xùn)練三個階段交替而成。

這樣,隨著智能體的策略 (Policy) 變得越來越好用,模擬器的預(yù)測能力也越來越強。

相輔相成之間,智能體不用像沒頭蒼蠅隨性試錯,便能更快解鎖游戲技能了。

怎樣預(yù)測?

試用了幾種不同的架構(gòu),團隊發(fā)現(xiàn)最好的模型是前饋CNN,用一疊卷積編碼了一個輸入幀 (Input Frames) 的序列。

給定智能體做出的動作,模型就能依靠一疊反卷積 (Deconvolution) ,解碼下一幀。

研究人員還發(fā)現(xiàn),給模型引入隨機性(Stochasticity) 非常有效,可以讓策略在更加豐富的場景里,得到訓(xùn)練。

具體做法是,加入一個潛在變量(Latent Variable) ,把它的樣本加到瓶頸表征 (Bottleneck Representation) 里面去。

在這項研究的設(shè)定下,離散變量是最好用的,被編碼成比特序列 (Sequences of Bits) 。

有點像變分自編碼器 (Variational Autoencoder) :潛在變量的后驗,是基于整個序列近似出來的;

從后驗里取出一個值,再用上輸入幀和智能體的動作,來預(yù)測下一幀。

最終,有了一個隨機離散模型(Stochastic Discrete Model) ,長這樣:

成果喜人

注意,團隊并沒有為了雅達(dá)利的不同游戲,特別調(diào)整過模型,也沒有特別調(diào)整過超參數(shù)。

AI玩家表現(xiàn)

訓(xùn)練過程中,環(huán)境變化了40萬幀,智能體和環(huán)境的互動,只有10萬次:相當(dāng)于人類玩耍兩小時。

你看,AI打“乒乓球” (Pong) 已經(jīng)能刷對方一個光頭??赡苷业搅讼到y(tǒng)的弱點:

更有趣的是“過馬路” (Freeway) 游戲。

看上去簡單,但對探索的要求非常高。

在這里,智能體是只小雞,它的進步是很慢的,因為不停地被車撞。

那么,很難成功過一次馬路,所以幾乎得不到獎勵。

不過,SimPLe捕捉到這樣稀有的事件,把它們內(nèi)化到預(yù)測模型里面去,學(xué)習(xí)到優(yōu)秀的策略。

對比一下,發(fā)現(xiàn)在過馬路游戲里,達(dá)到相同的成績,SimPLe和環(huán)境互動的次數(shù)比Rainbow前輩少了一個數(shù)量級。

而在大多數(shù)游戲里,SimPLe和環(huán)境的互動次數(shù),都比Rainbow少了一半以上。

預(yù)測之星

拿到這樣的成績,模擬器的預(yù)測居功至偉。

團隊在AI游戲視頻里,發(fā)現(xiàn)了許多完美預(yù)測的片段,最長達(dá)到50個時間步。

比如,過馬路里有連續(xù)的11秒,模型預(yù)測的每一幀都和Ground Truth一毛一樣。

另外,乒乓球和打磚塊(Brick) 里面,也發(fā)現(xiàn)過這樣的片段。

團隊說,把完美預(yù)測的時間再延長,是個很好的研究方向了。

也遇到了困難

有些游戲里,預(yù)測模型根本生成不了有用的預(yù)測。

研究人員說,最常見的原因,是有些很小的物體,左右了玩家的命運:

比如在亞特蘭提斯 (Atlantis) 和戰(zhàn)區(qū) (Battle Zone) 里,子彈很小,又稍縱即逝。

團隊說,如果想注意到它們,還是讓視頻預(yù)測模型,慢速高清地觀察比賽現(xiàn)場吧。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論