不是訓(xùn)練兩小時,是相當(dāng)于人類玩兩小時。
AI玩?zhèn)€游戲,一定要打幾十萬上百萬局才能學(xué)會?
谷歌大腦給自家的強化學(xué)習(xí)AI,建造了一個有的放矢的高效學(xué)習(xí)環(huán)境:基于視頻預(yù)測的模擬器SimPLe。
團隊說,模擬器的預(yù)測能力前所未有,有時可以一幀都不錯:
左為模擬器,中為Ground Truth,右為差別
有了它,AI的學(xué)習(xí)壓力明顯減輕,只需要相當(dāng)于人類玩兩小時的訓(xùn)練強度,就能解鎖雅達(dá)利游戲。
與優(yōu)秀的無模型前輩Rainbow相比,基于模型的SimPLE要訓(xùn)練到相同的成績,運動量能減少一個數(shù)量級。
乒乓球21:0
怎樣的模擬器?
和許多游戲AI前輩不同,SimPLe的智能體不是在真實游戲里訓(xùn)練的。
它的游戲策略,完全是在模擬器里煉成的。
這里,有個視頻預(yù)測模型,會給AI的每個動作預(yù)測一個結(jié)果。按照谷歌的傳統(tǒng),它也叫世界模型 (World Model) 。
為什么要有這個模型?
在許多雅達(dá)利游戲里面,隨機探索是很難獲得足夠多樣化的數(shù)據(jù)的:
有些地方智能體可能沒去過,有些動作智能體可能沒做過。
環(huán)境數(shù)據(jù)不夠豐富,AI就不能更有效地學(xué)習(xí)。
所以,要讓智能體用更高效的方法探索世界:
團隊用了一個迭代過程,由數(shù)據(jù)收集、模型訓(xùn)練、策略訓(xùn)練三個階段交替而成。
這樣,隨著智能體的策略 (Policy) 變得越來越好用,模擬器的預(yù)測能力也越來越強。
相輔相成之間,智能體不用像沒頭蒼蠅隨性試錯,便能更快解鎖游戲技能了。
怎樣預(yù)測?
試用了幾種不同的架構(gòu),團隊發(fā)現(xiàn)最好的模型是前饋CNN,用一疊卷積編碼了一個輸入幀 (Input Frames) 的序列。
給定智能體做出的動作,模型就能依靠一疊反卷積 (Deconvolution) ,解碼下一幀。
研究人員還發(fā)現(xiàn),給模型引入隨機性(Stochasticity) 非常有效,可以讓策略在更加豐富的場景里,得到訓(xùn)練。
具體做法是,加入一個潛在變量(Latent Variable) ,把它的樣本加到瓶頸表征 (Bottleneck Representation) 里面去。
在這項研究的設(shè)定下,離散變量是最好用的,被編碼成比特序列 (Sequences of Bits) 。
有點像變分自編碼器 (Variational Autoencoder) :潛在變量的后驗,是基于整個序列近似出來的;
從后驗里取出一個值,再用上輸入幀和智能體的動作,來預(yù)測下一幀。
最終,有了一個隨機離散模型(Stochastic Discrete Model) ,長這樣:
成果喜人
注意,團隊并沒有為了雅達(dá)利的不同游戲,特別調(diào)整過模型,也沒有特別調(diào)整過超參數(shù)。
AI玩家表現(xiàn)
訓(xùn)練過程中,環(huán)境變化了40萬幀,智能體和環(huán)境的互動,只有10萬次:相當(dāng)于人類玩耍兩小時。
你看,AI打“乒乓球” (Pong) 已經(jīng)能刷對方一個光頭??赡苷业搅讼到y(tǒng)的弱點:
更有趣的是“過馬路” (Freeway) 游戲。
看上去簡單,但對探索的要求非常高。
在這里,智能體是只小雞,它的進步是很慢的,因為不停地被車撞。
那么,很難成功過一次馬路,所以幾乎得不到獎勵。
不過,SimPLe捕捉到這樣稀有的事件,把它們內(nèi)化到預(yù)測模型里面去,學(xué)習(xí)到優(yōu)秀的策略。
對比一下,發(fā)現(xiàn)在過馬路游戲里,達(dá)到相同的成績,SimPLe和環(huán)境互動的次數(shù)比Rainbow前輩少了一個數(shù)量級。
而在大多數(shù)游戲里,SimPLe和環(huán)境的互動次數(shù),都比Rainbow少了一半以上。
預(yù)測之星
拿到這樣的成績,模擬器的預(yù)測居功至偉。
團隊在AI游戲視頻里,發(fā)現(xiàn)了許多完美預(yù)測的片段,最長達(dá)到50個時間步。
比如,過馬路里有連續(xù)的11秒,模型預(yù)測的每一幀都和Ground Truth一毛一樣。
另外,乒乓球和打磚塊(Brick) 里面,也發(fā)現(xiàn)過這樣的片段。
團隊說,把完美預(yù)測的時間再延長,是個很好的研究方向了。
也遇到了困難
有些游戲里,預(yù)測模型根本生成不了有用的預(yù)測。
研究人員說,最常見的原因,是有些很小的物體,左右了玩家的命運:
比如在亞特蘭提斯 (Atlantis) 和戰(zhàn)區(qū) (Battle Zone) 里,子彈很小,又稍縱即逝。
團隊說,如果想注意到它們,還是讓視頻預(yù)測模型,慢速高清地觀察比賽現(xiàn)場吧。