近年來,越來越多的研究人員開發(fā)了基于人工神經(jīng)網(wǎng)絡(luò)的模型,這些模型可以使用強(qiáng)化學(xué)習(xí)(RL)技術(shù)進(jìn)行訓(xùn)練。RL需要訓(xùn)練人工智能體來解決各種各樣的任務(wù),當(dāng)它們表現(xiàn)良好,例如正確地對(duì)圖像進(jìn)行分類時(shí),給予它們“獎(jiǎng)勵(lì)”。
到目前為止,大多數(shù)基于ANN的模型都是使用在線RL方法進(jìn)行訓(xùn)練的。在這種方法中,一個(gè)從未接觸過目標(biāo)任務(wù)的Agent(能自主活動(dòng)的軟件或者硬件實(shí)體),通過與在線虛擬環(huán)境交互來學(xué)習(xí)。然而,這種方法相當(dāng)昂貴、耗時(shí)且效率低下。
最近,一些研究探討了離線訓(xùn)練模型的可能性。在這種情況下,Agent通過分析固定的數(shù)據(jù)集來學(xué)習(xí)完成給定的任務(wù),因此不會(huì)主動(dòng)與虛擬環(huán)境交互。而這種方法雖然在某些任務(wù)上取得了很好的效果,但它們不允許代理實(shí)時(shí)主動(dòng)學(xué)習(xí)。
加州大學(xué)伯克利分校的研究人員最近引入了一種新的算法,融合了在線和離線RL方法對(duì)AI進(jìn)行訓(xùn)練。該算法是在arXiv上預(yù)先發(fā)表的一篇論文中提出的,它最初是在大量離線數(shù)據(jù)的基礎(chǔ)上進(jìn)行訓(xùn)練的,但同時(shí)也完成了一系列的在線訓(xùn)練試驗(yàn)。
在回顧過去的RL文獻(xiàn)時(shí),研究人員意識(shí)到,以前開發(fā)的模型在離線訓(xùn)練和在線微調(diào)時(shí)表現(xiàn)不佳,通常是因?yàn)樗麄儗W(xué)習(xí)太慢或在培訓(xùn)期間沒有充分利用離線數(shù)據(jù)集。
他們指出,過去的一個(gè)問題是,工程師總是讓模型從零開始學(xué)習(xí)任務(wù),而不是能夠利用現(xiàn)有的數(shù)據(jù)集進(jìn)行RL,他們花費(fèi)了太長的時(shí)間和太多的精力來評(píng)估機(jī)器人上在真實(shí)世界中的運(yùn)行。新方法則是通過已有數(shù)據(jù)對(duì)模型進(jìn)行預(yù)訓(xùn)練,只進(jìn)行少量額外的真實(shí)世界交互。
他們觀察到,在諸如優(yōu)勢(shì)加權(quán)回歸(AWR)和演示增強(qiáng)策略梯度(DAPG)等策略技術(shù)上,通常用于在線微調(diào)模型,與非策略方法相比,學(xué)習(xí)速度通常非常慢。
非策略方法,如軟角色批評(píng)(SAC)方法,在離線數(shù)據(jù)集上訓(xùn)練時(shí),通常沒有太大改善。
離線訓(xùn)練模型的技術(shù),如bootstrap錯(cuò)誤累積減少(BEAR)、行為規(guī)則化演員批評(píng)(BRAC)和優(yōu)勢(shì)行為模型(ABM)通常在離線預(yù)訓(xùn)練階段效果良好,但在線訓(xùn)練后,它們的表現(xiàn)并沒有太大改善,這主要是因?yàn)樗鼈円蕾囉谛袨槟P汀?/p>
面對(duì)這些挑戰(zhàn),研究人員開發(fā)了優(yōu)勢(shì)加權(quán)Actor評(píng)價(jià)(AWAC)算法,這是一種非策略性的Actor評(píng)價(jià)算法,它不依賴行為模型來接近數(shù)據(jù)分布。相反,它可以通過抽樣得出一種隱式地接近數(shù)據(jù)的算法。
研究人員評(píng)估了他們的算法在不同的操作任務(wù)中的性能,這些任務(wù)有三個(gè)關(guān)鍵方面,即復(fù)雜的不連續(xù)接觸、極稀疏的二進(jìn)制獎(jiǎng)勵(lì)和30個(gè)關(guān)節(jié)的控制。
更具體地說,他們的算法被訓(xùn)練來控制機(jī)器人的運(yùn)動(dòng),讓它旋轉(zhuǎn)手中的筆、打開門以及拿起一個(gè)球并將其移動(dòng)到所需的位置。對(duì)于每一項(xiàng)任務(wù),奈爾和他的同事們?cè)谝粋€(gè)離線數(shù)據(jù)集上訓(xùn)練該算法,該數(shù)據(jù)集包含25個(gè)人類演示和500個(gè)非策略數(shù)據(jù)的軌跡,這些數(shù)據(jù)是通過行為克隆技術(shù)獲得的。
第1個(gè)任務(wù)筆旋轉(zhuǎn)相對(duì)來說比較簡單,很多方法最終都能解決這個(gè)問題,但AWAC是最快的,第2和第3個(gè)任務(wù)只有AWAC能解決了。老方法失敗的原因有很多,但主要是無法獲得合理的初始策略來收集良好的勘探數(shù)據(jù),或者無法從交互數(shù)據(jù)中在線學(xué)習(xí)。
在9種方法中,AWAC是唯一一種能夠持續(xù)解決他們測(cè)試過的復(fù)雜操作任務(wù)的方法。
在未來,該算法可以使用RL在更廣泛的任務(wù)范圍內(nèi)訓(xùn)練模型。其他研究團(tuán)隊(duì)也可以從他們的工作中獲得靈感,并設(shè)計(jì)出類似的RL方法,將離線和在線培訓(xùn)結(jié)合起來。
編譯/前瞻經(jīng)濟(jì)學(xué)人APP資訊組