玩游戲勝過(guò)人類:全新增強(qiáng)學(xué)習(xí)算法,或助AI向真正智能學(xué)習(xí)體進(jìn)化

學(xué)術(shù)頭條
近年來(lái),人工智能(AI)在強(qiáng)化學(xué)習(xí)算法的加持下,取得了令人矚目的成就。比如在圍棋、星際爭(zhēng)霸II和Dota 2等諸多策略、競(jìng)技類游戲中,AI都有著世界冠軍級(jí)的表現(xiàn),以及在機(jī)器人跑步、跳躍和抓握等技能的自主學(xué)習(xí)方面,也起到了顯著的推動(dòng)作用。

2345截圖20200908083720.png

近年來(lái),人工智能(AI)在強(qiáng)化學(xué)習(xí)算法的加持下,取得了令人矚目的成就。比如在圍棋、星際爭(zhēng)霸II和Dota 2等諸多策略、競(jìng)技類游戲中,AI都有著世界冠軍級(jí)的表現(xiàn),以及在機(jī)器人跑步、跳躍和抓握等技能的自主學(xué)習(xí)方面,也起到了顯著的推動(dòng)作用。

如今,AI可能要變得更“聰明”了。

作為機(jī)器學(xué)習(xí)的一大關(guān)鍵領(lǐng)域,強(qiáng)化學(xué)習(xí)側(cè)重如何基于環(huán)境而行動(dòng),其靈感來(lái)源于心理學(xué)中的行為主義理論,即有機(jī)體如何在環(huán)境給予的獎(jiǎng)勵(lì)或懲罰的刺激下,逐步形成對(duì)刺激的預(yù)期,產(chǎn)生能獲得最大利益的習(xí)慣性行為。

但是,這種算法思路有著明顯的短板:許多成功案例都要通過(guò)精心設(shè)計(jì)、信息量大的獎(jiǎng)勵(lì)機(jī)制才能實(shí)現(xiàn),當(dāng)遇到很少給予反饋的復(fù)雜環(huán)境時(shí),強(qiáng)化學(xué)習(xí)算法就很容易碰壁。因此,過(guò)往的AI難以解決探索困難(hard-exploration)的問(wèn)題,這類問(wèn)題通常伴隨著獎(jiǎng)勵(lì)稀疏(sparse)且會(huì)有欺騙性(deceptive)的獎(jiǎng)勵(lì)存在。

今天,一項(xiàng)發(fā)表在《自然》(Nature)雜志的研究提出了一類全新的增強(qiáng)學(xué)習(xí)算法,該算法在雅達(dá)利(Atari 2600)經(jīng)典游戲中的得分超過(guò)了人類頂級(jí)玩家和以往的AI系統(tǒng),在《蒙特祖馬的復(fù)仇》(Montezuma’s Revenge)和《陷阱》(Pitfall!)等一系列探索類游戲中達(dá)到了目前最先進(jìn)的水平。

2345截圖20200908083720.png

論文的主要作者來(lái)分別來(lái)自O(shè)penAI和Uber AI Labs,他們將這類算法統(tǒng)稱為Go-Explore,該類算法改善了對(duì)復(fù)雜環(huán)境的探索方式,或是AI向真正智能學(xué)習(xí)體進(jìn)化邁出的重要一步。事實(shí)上,Uber AI Labs早在2018年就對(duì)外展示了Go-Explore算法在探索游戲中的表現(xiàn)。

2345截圖20200908083720.png

圖|Go-Explore在探索游戲中的表現(xiàn)(來(lái)源:YouTube)

AI探索能力受阻的癥結(jié)

論文的第一作者和通訊作者阿德里安???品铺兀ˋdrien Ecoffet)目前是OpenAI的研究科學(xué)家,其興趣是強(qiáng)化學(xué)習(xí)(特別是探索和質(zhì)量多樣性激發(fā)的方法)和人工智能安全(特別是道德一致性),近年來(lái)的側(cè)重一直在研究多代理環(huán)境中的緊急復(fù)雜性,在進(jìn)入OpenAI之前,他還曾在Uber AI實(shí)驗(yàn)室就職。

想要讓強(qiáng)化學(xué)習(xí)算法更進(jìn)一步,就需要對(duì)癥下藥。??品铺睾屯聜兎治稣J(rèn)為,有兩個(gè)主要問(wèn)題阻礙了以前算法的探索能力。

第一是“分離”(detachment),算法過(guò)早地停止返回狀態(tài)空間的某些區(qū)域,盡管有證據(jù)表明這些區(qū)域仍是有希望的。當(dāng)有多個(gè)區(qū)域需要探索時(shí),分離尤其可能發(fā)生,因?yàn)橹悄荏w可能會(huì)部分探索一個(gè)區(qū)域,切換到第二個(gè)區(qū)域,并且忘記如何訪問(wèn)第一個(gè)區(qū)域。

第二個(gè)是“脫軌”(derailment),算法的探索機(jī)制阻止智能體返回到以前訪問(wèn)過(guò)的狀態(tài),直接阻止探索或迫使將探索機(jī)制最小化,從而不會(huì)發(fā)生有效的探索。

怎么理解這些概念呢?這還得從Go-Explore算法推出之前說(shuō)起。簡(jiǎn)單來(lái)講,為了解決探索類游戲中獎(jiǎng)勵(lì)稀疏的問(wèn)題,算法科學(xué)家們通常采用內(nèi)在獎(jiǎng)勵(lì)(intrinsic motivation,IM)的方法,即獎(jiǎng)勵(lì)被人為均勻地分布在整個(gè)環(huán)境中,以鼓勵(lì)智能體探索新區(qū)域和新?tīng)顟B(tài)。

2345截圖20200908083720.png

圖|“分離”狀態(tài)的圖解(來(lái)源:arXiv)

如上圖所示,綠色區(qū)域表示內(nèi)在獎(jiǎng)勵(lì),白色區(qū)域表示沒(méi)有內(nèi)在獎(jiǎng)勵(lì)的區(qū)域,紫色區(qū)域表示算法當(dāng)前正在探索的區(qū)域。

舉個(gè)例子,當(dāng)智能體處在兩個(gè)迷宮入口之間,它先從左邊的迷宮開(kāi)始隨機(jī)搜索,由于IM算法要求智能體隨機(jī)嘗試新行為以找到更多的內(nèi)在獎(jiǎng)勵(lì)的機(jī)制,在搜索完左邊迷宮的50%時(shí),智能體可能會(huì)在任意時(shí)刻開(kāi)始對(duì)右邊的迷宮進(jìn)行搜索。

但是,深度學(xué)習(xí)自身有著“災(zāi)難性遺忘”(Catastrophic Forgetting)的問(wèn)題,這指的是利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)一個(gè)新任務(wù)的時(shí)候,需要更新網(wǎng)絡(luò)中的參數(shù),但是上一個(gè)任務(wù)提取出來(lái)的知識(shí)也是儲(chǔ)存在這些參數(shù)上的,于是每當(dāng)學(xué)習(xí)新的任務(wù)時(shí),智能體就會(huì)把學(xué)習(xí)舊任務(wù)得到的知識(shí)給遺忘掉,而不能像人類那樣在學(xué)習(xí)中可以利用先前學(xué)習(xí)過(guò)的經(jīng)驗(yàn)和知識(shí),快速地進(jìn)行相似技能的學(xué)習(xí)。

所以,在完成右邊的搜索后,智能體并不記得在左邊迷宮中探索的事情,更糟糕的情況是,左邊迷宮前期的一部分區(qū)域已經(jīng)被探索過(guò)了,因而幾乎沒(méi)有可獲得的內(nèi)在獎(jiǎng)勵(lì)去刺激智能體深入探索。研究人員將這種狀況總結(jié)為:算法從提供內(nèi)在動(dòng)機(jī)的狀態(tài)范圍分離開(kāi)了。當(dāng)智能體認(rèn)為已經(jīng)訪問(wèn)過(guò)這些區(qū)域了,深入探索行為可能就會(huì)停滯,因而錯(cuò)過(guò)那些仍未探索到的大片區(qū)域。

天真地遵循獎(jiǎng)勵(lì)機(jī)制可能會(huì)導(dǎo)致智能體進(jìn)入死胡同。因此,探索問(wèn)題的癥結(jié)就在于明確避免“分離”和“脫軌”情況的發(fā)生,讓智能體通過(guò)顯式“記住”有希望的狀態(tài)和區(qū)域,并在探索新領(lǐng)域前能返回到這些狀態(tài)。

Go-Explore的算法邏輯

為了避免分離,Go-Explore建立了一個(gè)智能體在環(huán)境中訪問(wèn)過(guò)的不同狀態(tài)的“檔案”,從而確保狀態(tài)不會(huì)被遺忘。如下圖,從一個(gè)只包含初始狀態(tài)的存檔開(kāi)始,它不斷迭代構(gòu)建這個(gè)存檔。

2345截圖20200908083720.png

圖|Go-Explore方法概覽(來(lái)源:Nature)

首先,它可能從存檔中選擇要返回的狀態(tài)(a),返回到所選狀態(tài)(b),然后從該狀態(tài)探索(c),將返回和探索過(guò)程中遇到的每個(gè)狀態(tài)映射到低維單元表示(d),用遇到的所有新?tīng)顟B(tài)更新存檔(e)。

整個(gè)過(guò)程讓人想起經(jīng)典的規(guī)劃算法,在深度強(qiáng)化學(xué)習(xí)研究中,這些算法的潛力相對(duì)未被重視。然而,對(duì)于強(qiáng)化學(xué)習(xí)領(lǐng)域所關(guān)注的問(wèn)題(如上述在Atari游戲中的探索困難問(wèn)題),這些問(wèn)題是高維的,具有稀疏的獎(jiǎng)勵(lì)和/或隨機(jī)性,沒(méi)有已知的規(guī)劃方法是有效的,且由于需要探索的狀態(tài)空間太大,無(wú)法進(jìn)行徹底搜索,而隨機(jī)轉(zhuǎn)換使得不可能知道節(jié)點(diǎn)是否已經(jīng)完全擴(kuò)展。

Go-Explore可以看作是將規(guī)劃算法的原理移植到這些具有挑戰(zhàn)性的問(wèn)題上。

以往的強(qiáng)化學(xué)習(xí)算法并沒(méi)有將返回和探索分開(kāi),而是在整個(gè)過(guò)程中混合探索,通常是在一小部分時(shí)間內(nèi)添加隨機(jī)動(dòng)作,或者從隨機(jī)“策略”中采樣——這是一個(gè)決定在每個(gè)狀態(tài)下采取哪種動(dòng)作的函數(shù),通常是一個(gè)神經(jīng)網(wǎng)絡(luò)。

通過(guò)在探索之前先返回,Go-Explore通過(guò)在返回時(shí)最小化探索來(lái)避免脫軌發(fā)生,之后它可以純粹專注于更深入的探索未知區(qū)域。

Go-Explore還提供了一個(gè)獨(dú)特的機(jī)會(huì)來(lái)實(shí)現(xiàn)模擬器在強(qiáng)化學(xué)習(xí)任務(wù)中的可用性和廣泛性,模擬機(jī)是“可恢復(fù)的環(huán)境”,因?yàn)橐郧暗臓顟B(tài)可以保存并立即返回,從而完全消除了脫軌。

在利用可恢復(fù)環(huán)境的這一特性時(shí),Go-Explore在其“探索階段”通過(guò)不斷恢復(fù)(從其檔案中的一個(gè)狀態(tài)采取探索行動(dòng))以徹底探索環(huán)境的各個(gè)區(qū)域,它最終返回它找到的得分最高的軌跡(動(dòng)作序列)。

這樣的軌跡對(duì)隨機(jī)性或意外的結(jié)果并不可靠。例如,機(jī)器人可能會(huì)滑倒并錯(cuò)過(guò)一個(gè)關(guān)鍵的轉(zhuǎn)彎,使整個(gè)軌跡失效。為了解決這個(gè)問(wèn)題,Go-Explore還通過(guò)“從演示中學(xué)習(xí)”(learning from demonstrations,LFD)的方式來(lái)訓(xùn)練一個(gè)健壯的策略,其中探索階段的軌跡取代了通常的人類專家演示,在一個(gè)具有足夠隨機(jī)性的環(huán)境變體中確保健壯性。

成效如何?

Atari benchmark套件是強(qiáng)化學(xué)習(xí)算法的一個(gè)重要基準(zhǔn),是Go-Explore的一個(gè)合適的測(cè)試平臺(tái),因?yàn)樗艘幌盗胁煌?jí)別的獎(jiǎng)勵(lì)稀疏性和欺騙性的游戲。

在測(cè)試中,Go-Explore的平均表現(xiàn)都是“超級(jí)英雄”,在11個(gè)游戲比賽測(cè)試中都超過(guò)了之前算法的最高水平。在Montezuma’s Revenge中,Go-Explore的戰(zhàn)績(jī)是此前最先進(jìn)分?jǐn)?shù)的四倍;在Pitfall!中,Go-Explore的探索能力超過(guò)了人類的平均表現(xiàn),而以前的諸多算法根本無(wú)法得分,實(shí)驗(yàn)結(jié)果展現(xiàn)出了實(shí)質(zhì)性的突破,這是強(qiáng)化學(xué)習(xí)多年來(lái)研究的焦點(diǎn)。

5f9ae6c1f7ec4dc7bed275091fc640ef.webp(1)(1)(2).jpg

圖|Go-Explore在游戲Montezuma’s Revenge中的表現(xiàn)(來(lái)源:YouTube)

5f9ae6c1f7ec4dc7bed275091fc640ef.webp(1)(1)(1).jpg

圖|Go-Explore在游戲Pitfall!中的表現(xiàn)(來(lái)源:YouTube)

值得關(guān)注的是,不同的算法需要使用不同的計(jì)算能力。Go-Explore處理的幀數(shù)(300億)與其他分布式強(qiáng)化學(xué)習(xí)算法,比如Ape-X(220億)和NGU(350億)很相似,盡管舊的算法處理的幀數(shù)通常較少,但其中許多算法顯示出收斂的跡象(這意味著預(yù)計(jì)不會(huì)有進(jìn)一步的進(jìn)展),而且對(duì)于其中的許多算法來(lái)說(shuō),尚不清楚它們是否能夠在合理的時(shí)間內(nèi)處理數(shù)十億幀。

2345截圖20200908083720.png

圖|Go-Explore在Atari平臺(tái)游戲中的強(qiáng)力表現(xiàn)(來(lái)源:Nature)

此外,Go-Explore的能力不僅限于困難的探索問(wèn)題,它也為OpenAI gym提供的所有55款A(yù)tari游戲找到了具有超人得分的軌跡,這是前所未有的壯舉,在這些游戲中,85.5%的游戲軌跡得分高于此前最先進(jìn)的強(qiáng)化學(xué)習(xí)算法。

研究人員表示,在實(shí)際應(yīng)用中,通??梢愿鶕?jù)領(lǐng)域知識(shí)定義有用的特征,Go-Explore可以利用這些易于提供的領(lǐng)域知識(shí),通過(guò)構(gòu)造只包含與探索相關(guān)的功能單元來(lái)顯著提高性能,Go-Explore生成的策略,在Montezuma’s Revenge中平均得分超過(guò)170萬(wàn),超過(guò)了現(xiàn)有技術(shù)的150倍。

不僅在探索類游戲中的表現(xiàn)突出,Go-Explore還能用于機(jī)器人。

機(jī)器人技術(shù)是強(qiáng)化學(xué)習(xí)一個(gè)很有前途的應(yīng)用,通常很容易定義機(jī)器人任務(wù)的高層次目標(biāo)(比如,將杯子放在櫥柜中),但定義一個(gè)足夠密集的獎(jiǎng)勵(lì)函數(shù)要困難得多(比如,獎(jiǎng)賞所有低級(jí)別的運(yùn)動(dòng)指令,以便形成向杯子移動(dòng)、抓住杯子等操作)。

而Go-Explore允許放棄這樣一個(gè)密集的獎(jiǎng)勵(lì)函數(shù),只考慮高級(jí)任務(wù)的稀疏獎(jiǎng)勵(lì)函數(shù)。

2345截圖20200908083720.png

圖|Go-Explore可以解決一個(gè)具有挑戰(zhàn)性的、稀疏獎(jiǎng)勵(lì)的模擬機(jī)器人任務(wù)(來(lái)源:Nature)

研究人員通過(guò)一個(gè)機(jī)械臂模擬實(shí)驗(yàn),演示了Go-Explore可以解決一個(gè)實(shí)際的艱難探索任務(wù):機(jī)器人手臂必須拿起一個(gè)物體并將其放在四個(gè)架子中的一個(gè)架子內(nèi),其中兩個(gè)架子在閂鎖的門后,只有當(dāng)物品被放入指定的目標(biāo)貨架時(shí),才會(huì)給予獎(jiǎng)勵(lì)。

用于連續(xù)控制的最先進(jìn)的強(qiáng)化學(xué)習(xí)算法近端策略優(yōu)化(PPO)在這種環(huán)境中訓(xùn)練了10億幀后,不會(huì)遇到任何獎(jiǎng)勵(lì),顯示了這個(gè)任務(wù)的艱難探索性質(zhì),而Go-Explore在探索階段就能快速而可靠地發(fā)現(xiàn)將物體放入四個(gè)架子的軌跡,通過(guò)對(duì)Go-Explore發(fā)現(xiàn)的軌跡進(jìn)行穩(wěn)健性分析,發(fā)現(xiàn)可以在99%的情況下產(chǎn)生穩(wěn)健的策略。

更多可能性

基于策略的Go-Explore還包括促進(jìn)探索和穩(wěn)定學(xué)習(xí)的其他創(chuàng)新,其中最重要的例如自模仿學(xué)習(xí)、動(dòng)態(tài)熵增加、軟軌跡和動(dòng)態(tài)事件限制,在論文方法部分進(jìn)行了詳細(xì)討論。

研究人員表示,這項(xiàng)工作提出的Go-Explore算法家族的有效性表明,它將在許多領(lǐng)域取得進(jìn)展,包括機(jī)器人技術(shù)、語(yǔ)言理解和藥物設(shè)計(jì)等,論文中提到的實(shí)例只代表了Go-Explore可能實(shí)現(xiàn)的一小部分能力,為未來(lái)的算法研究打開(kāi)許多令人興奮的可能性。

據(jù)論文描述,未來(lái)工作的一個(gè)關(guān)鍵方向是改進(jìn)學(xué)習(xí)單元表征,比如通過(guò)基于壓縮的方法、對(duì)比預(yù)測(cè)編碼或輔助任務(wù),這將使Go-Explore能夠推廣到更復(fù)雜的領(lǐng)域。

此外,Go-Explore探索階段的規(guī)劃性質(zhì)也突出了將其他強(qiáng)大的規(guī)劃算法(如MCTS、RRT等)移植到高維狀態(tài)空間的潛力,這些新的思路結(jié)合提供了豐富的可能性,以提高算法的通用性、性能、魯棒性和效率。

這項(xiàng)工作中提出的見(jiàn)解讓人們發(fā)現(xiàn),記憶以前發(fā)現(xiàn)的狀態(tài),回到它們,然后從中探索的簡(jiǎn)單邏輯對(duì)于人工智能算法不可或缺,這可能是智能體進(jìn)階的一個(gè)基本特征。這些見(jiàn)解,無(wú)論是在Go-Explore內(nèi)部還是外部,對(duì)于人類創(chuàng)建更強(qiáng)AI系統(tǒng)的能力都有新的啟示作用。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論