人禽交vide欧美,亚洲色大成网站www天堂网,国产XXXX99真实实拍

谷歌大腦AI飛速解鎖雅達(dá)利，訓(xùn)練不用兩小時：預(yù)測能力前所未有

2019-03-07 08:33

企鵝號

量子位

谷歌大腦給自家的強化學(xué)習(xí)AI，建造了一個有的放矢的高效學(xué)習(xí)環(huán)境：基于視頻預(yù)測的模擬器SimPLe。

不是訓(xùn)練兩小時，是相當(dāng)于人類玩兩小時。

AI玩?zhèn)€游戲，一定要打幾十萬上百萬局才能學(xué)會？

谷歌大腦給自家的強化學(xué)習(xí)AI，建造了一個有的放矢的高效學(xué)習(xí)環(huán)境：基于視頻預(yù)測的模擬器SimPLe。

團隊說，模擬器的預(yù)測能力前所未有，有時可以一幀都不錯：

左為模擬器，中為Ground Truth，右為差別

有了它，AI的學(xué)習(xí)壓力明顯減輕，只需要相當(dāng)于人類玩兩小時的訓(xùn)練強度，就能解鎖雅達(dá)利游戲。

與優(yōu)秀的無模型前輩Rainbow相比，基于模型的SimPLE要訓(xùn)練到相同的成績，運動量能減少一個數(shù)量級。

乒乓球21：0

怎樣的模擬器？

和許多游戲AI前輩不同，SimPLe的智能體不是在真實游戲里訓(xùn)練的。

它的游戲策略，完全是在模擬器里煉成的。

這里，有個視頻預(yù)測模型，會給AI的每個動作預(yù)測一個結(jié)果。按照谷歌的傳統(tǒng)，它也叫世界模型 (World Model) 。

為什么要有這個模型？

在許多雅達(dá)利游戲里面，隨機探索是很難獲得足夠多樣化的數(shù)據(jù)的：

有些地方智能體可能沒去過，有些動作智能體可能沒做過。

環(huán)境數(shù)據(jù)不夠豐富，AI就不能更有效地學(xué)習(xí)。

所以，要讓智能體用更高效的方法探索世界：

團隊用了一個迭代過程，由數(shù)據(jù)收集、模型訓(xùn)練、策略訓(xùn)練三個階段交替而成。

這樣，隨著智能體的策略 (Policy) 變得越來越好用，模擬器的預(yù)測能力也越來越強。

相輔相成之間，智能體不用像沒頭蒼蠅隨性試錯，便能更快解鎖游戲技能了。

怎樣預(yù)測？

試用了幾種不同的架構(gòu)，團隊發(fā)現(xiàn)最好的模型是前饋CNN，用一疊卷積編碼了一個輸入幀 (Input Frames) 的序列。

給定智能體做出的動作，模型就能依靠一疊反卷積 (Deconvolution) ，解碼下一幀。

研究人員還發(fā)現(xiàn)，給模型引入隨機性(Stochasticity) 非常有效，可以讓策略在更加豐富的場景里，得到訓(xùn)練。

具體做法是，加入一個潛在變量(Latent Variable) ，把它的樣本加到瓶頸表征 (Bottleneck Representation) 里面去。

在這項研究的設(shè)定下，離散變量是最好用的，被編碼成比特序列 (Sequences of Bits) 。

有點像變分自編碼器 (Variational Autoencoder) ：潛在變量的后驗，是基于整個序列近似出來的；

從后驗里取出一個值，再用上輸入幀和智能體的動作，來預(yù)測下一幀。

最終，有了一個隨機離散模型(Stochastic Discrete Model) ，長這樣：

成果喜人

注意，團隊并沒有為了雅達(dá)利的不同游戲，特別調(diào)整過模型，也沒有特別調(diào)整過超參數(shù)。

AI玩家表現(xiàn)

訓(xùn)練過程中，環(huán)境變化了40萬幀，智能體和環(huán)境的互動，只有10萬次：相當(dāng)于人類玩耍兩小時。

你看，AI打“乒乓球” (Pong) 已經(jīng)能刷對方一個光頭?？赡苷业搅讼到y(tǒng)的弱點：

更有趣的是“過馬路” (Freeway) 游戲。

看上去簡單，但對探索的要求非常高。

在這里，智能體是只小雞，它的進步是很慢的，因為不停地被車撞。

那么，很難成功過一次馬路，所以幾乎得不到獎勵。

不過，SimPLe捕捉到這樣稀有的事件，把它們內(nèi)化到預(yù)測模型里面去，學(xué)習(xí)到優(yōu)秀的策略。

對比一下，發(fā)現(xiàn)在過馬路游戲里，達(dá)到相同的成績，SimPLe和環(huán)境互動的次數(shù)比Rainbow前輩少了一個數(shù)量級。

而在大多數(shù)游戲里，SimPLe和環(huán)境的互動次數(shù)，都比Rainbow少了一半以上。

預(yù)測之星

拿到這樣的成績，模擬器的預(yù)測居功至偉。

團隊在AI游戲視頻里，發(fā)現(xiàn)了許多完美預(yù)測的片段，最長達(dá)到50個時間步。

比如，過馬路里有連續(xù)的11秒，模型預(yù)測的每一幀都和Ground Truth一毛一樣。

另外，乒乓球和打磚塊(Brick) 里面，也發(fā)現(xiàn)過這樣的片段。

團隊說，把完美預(yù)測的時間再延長，是個很好的研究方向了。

也遇到了困難

有些游戲里，預(yù)測模型根本生成不了有用的預(yù)測。

研究人員說，最常見的原因，是有些很小的物體，左右了玩家的命運：

比如在亞特蘭提斯 (Atlantis) 和戰(zhàn)區(qū) (Battle Zone) 里，子彈很小，又稍縱即逝。

團隊說，如果想注意到它們，還是讓視頻預(yù)測模型，慢速高清地觀察比賽現(xiàn)場吧。

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對此類作品本站僅提供交流平臺，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來源標(biāo)注錯誤或侵犯了您的合法權(quán)益，請作者持權(quán)屬證明與本站聯(lián)系，我們將及時更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點資訊

2019年21大汽車技術(shù)趨勢：V2X、機器人、自動駕駛……還有哪些高科技？

谷歌大腦AI飛速解鎖雅達(dá)利，訓(xùn)練不用兩小時：預(yù)測能力前所未有

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

谷歌大腦AI飛速解鎖雅達(dá)利，訓(xùn)練不用兩小時：預(yù)測能力前所未有

最新評論（評論僅代表用戶觀點）

數(shù)字孿生應(yīng)用被忽略的內(nèi)容和技術(shù)

上海低空經(jīng)濟新政策：重點建設(shè)5G-A低空通信網(wǎng)絡(luò)，探索星地一體融合通信網(wǎng)絡(luò)

博泰車聯(lián)網(wǎng)榮登“全球科創(chuàng)新銳50”，展現(xiàn)中國科技力量

2023第二屆長三角G60科創(chuàng)走廊智能制造創(chuàng)新生態(tài)合作大會隆重召開

本月熱門

云計算的江湖，風(fēng)云再起

揭秘，IOTE國際物聯(lián)網(wǎng)展2025年巡展預(yù)告!

防勒索病毒攻擊關(guān)鍵措施

匯聚行業(yè)精英，探討前沿技術(shù) 第十九屆汽車涂裝工藝技術(shù)研討會即將啟幕!

網(wǎng)博會革新升級：“區(qū)域頻道”精準(zhǔn)選型引領(lǐng)，引領(lǐng)智能制造新風(fēng)潮

萬億賽道!AI算力趨勢發(fā)展深度分析 2024

精選文章

載譽而歸!北京中控國數(shù)榮獲“2023國資國企數(shù)字化轉(zhuǎn)型領(lǐng)先服務(wù)商”，入刊《2023中國大數(shù)據(jù)應(yīng)用樣板工程100例》

用“客戶成功”擁抱數(shù)字化新春天，藍(lán)凌3.0美好啟程

中冶賽迪信息亮相2022行業(yè)信息化技術(shù)創(chuàng)新發(fā)展峰會

首屆2024“數(shù)據(jù)要素×”行業(yè)推進大會在京召開，易方智慧榮獲2024數(shù)商TOP50強

重慶市政務(wù)云容災(zāi)備份解決方案

DataOps實踐典范! 「國盛證券實時數(shù)據(jù)融合平臺」入選2021-2022大數(shù)據(jù)創(chuàng)新成果與實踐

熱點資訊

榮耀應(yīng)用市場攜手?jǐn)?shù)智融合應(yīng)用伙伴共創(chuàng)綠色生態(tài)

“皇冠丹麥曲奇”勝訴 “藍(lán)罐曲奇”敗訴——市場競爭需遵守法律底線

什么是 OSI 模型？OSI 模型的七層是哪些？

自動化測試有哪些常見的挑戰(zhàn)和解決方案？

政策寶閃耀2024數(shù)智融合應(yīng)用論壇，榮獲“數(shù)智融合標(biāo)桿案例”

2019年21大汽車技術(shù)趨勢：V2X、機器人、自動駕駛……還有哪些高科技？

對話主線科技張?zhí)炖祝喝绾未疗浦悄荞{駛的泡沫丨智行新動能

谷歌大腦AI飛速解鎖雅達(dá)利，訓(xùn)練不用兩小時：預(yù)測能力前所未有

最新評論（評論僅代表用戶觀點）

欄目推薦

數(shù)字孿生應(yīng)用被忽略的內(nèi)容和技術(shù)

上海低空經(jīng)濟新政策：重點建設(shè)5G-A低空通信網(wǎng)絡(luò)，探索星地一體融合通信網(wǎng)絡(luò)

博泰車聯(lián)網(wǎng)榮登“全球科創(chuàng)新銳50”，展現(xiàn)中國科技力量

2023第二屆長三角G60科創(chuàng)走廊智能制造創(chuàng)新生態(tài)合作大會隆重召開

本月熱門

精選文章

熱點資訊

2019年21大汽車技術(shù)趨勢：V2X、機器人、自動駕駛……還有哪些高科技？

對話主線科技張?zhí)炖祝喝绾未疗浦悄荞{駛的泡沫丨智行新動能

谷歌大腦AI飛速解鎖雅達(dá)利，訓(xùn)練不用兩小時：預(yù)測能力前所未有

博泰車聯(lián)網(wǎng)榮登“全球科創(chuàng)新銳50”，展現(xiàn)中國科技力量

2019年21大汽車技術(shù)趨勢：V2X、機器人、自動駕駛……還有哪些高科技？