亚洲黄色免费网站,亚洲三级天堂在线

不用從零開始訓(xùn)練融合離線/在線強(qiáng)化學(xué)習(xí)的新算法能更好控制機(jī)器人

2020-07-20 11:30

前瞻網(wǎng)

黃琨

近年來，越來越多的研究人員開發(fā)了基于人工神經(jīng)網(wǎng)絡(luò)的模型，這些模型可以使用強(qiáng)化學(xué)習(xí)(RL)技術(shù)進(jìn)行訓(xùn)練。RL需要訓(xùn)練人工智能體來解決各種各樣的任務(wù)，當(dāng)它們表現(xiàn)良好，例如正確地對(duì)圖像進(jìn)行分類時(shí)，給予它們“獎(jiǎng)勵(lì)”。

到目前為止，大多數(shù)基于ANN的模型都是使用在線RL方法進(jìn)行訓(xùn)練的。在這種方法中，一個(gè)從未接觸過目標(biāo)任務(wù)的Agent(能自主活動(dòng)的軟件或者硬件實(shí)體)，通過與在線虛擬環(huán)境交互來學(xué)習(xí)。然而，這種方法相當(dāng)昂貴、耗時(shí)且效率低下。

最近，一些研究探討了離線訓(xùn)練模型的可能性。在這種情況下，Agent通過分析固定的數(shù)據(jù)集來學(xué)習(xí)完成給定的任務(wù)，因此不會(huì)主動(dòng)與虛擬環(huán)境交互。而這種方法雖然在某些任務(wù)上取得了很好的效果，但它們不允許代理實(shí)時(shí)主動(dòng)學(xué)習(xí)。

加州大學(xué)伯克利分校的研究人員最近引入了一種新的算法，融合了在線和離線RL方法對(duì)AI進(jìn)行訓(xùn)練。該算法是在arXiv上預(yù)先發(fā)表的一篇論文中提出的，它最初是在大量離線數(shù)據(jù)的基礎(chǔ)上進(jìn)行訓(xùn)練的，但同時(shí)也完成了一系列的在線訓(xùn)練試驗(yàn)。

在回顧過去的RL文獻(xiàn)時(shí)，研究人員意識(shí)到，以前開發(fā)的模型在離線訓(xùn)練和在線微調(diào)時(shí)表現(xiàn)不佳，通常是因?yàn)樗麄儗W(xué)習(xí)太慢或在培訓(xùn)期間沒有充分利用離線數(shù)據(jù)集。

他們指出，過去的一個(gè)問題是，工程師總是讓模型從零開始學(xué)習(xí)任務(wù)，而不是能夠利用現(xiàn)有的數(shù)據(jù)集進(jìn)行RL，他們花費(fèi)了太長的時(shí)間和太多的精力來評(píng)估機(jī)器人上在真實(shí)世界中的運(yùn)行。新方法則是通過已有數(shù)據(jù)對(duì)模型進(jìn)行預(yù)訓(xùn)練，只進(jìn)行少量額外的真實(shí)世界交互。

他們觀察到，在諸如優(yōu)勢(shì)加權(quán)回歸(AWR)和演示增強(qiáng)策略梯度(DAPG)等策略技術(shù)上，通常用于在線微調(diào)模型，與非策略方法相比，學(xué)習(xí)速度通常非常慢。

非策略方法，如軟角色批評(píng)(SAC)方法，在離線數(shù)據(jù)集上訓(xùn)練時(shí)，通常沒有太大改善。

離線訓(xùn)練模型的技術(shù)，如bootstrap錯(cuò)誤累積減少(BEAR)、行為規(guī)則化演員批評(píng)(BRAC)和優(yōu)勢(shì)行為模型(ABM)通常在離線預(yù)訓(xùn)練階段效果良好，但在線訓(xùn)練后，它們的表現(xiàn)并沒有太大改善，這主要是因?yàn)樗鼈円蕾囉谛袨槟Ｐ汀?/p>

面對(duì)這些挑戰(zhàn)，研究人員開發(fā)了優(yōu)勢(shì)加權(quán)Actor評(píng)價(jià)(AWAC)算法，這是一種非策略性的Actor評(píng)價(jià)算法，它不依賴行為模型來接近數(shù)據(jù)分布。相反，它可以通過抽樣得出一種隱式地接近數(shù)據(jù)的算法。

研究人員評(píng)估了他們的算法在不同的操作任務(wù)中的性能，這些任務(wù)有三個(gè)關(guān)鍵方面，即復(fù)雜的不連續(xù)接觸、極稀疏的二進(jìn)制獎(jiǎng)勵(lì)和30個(gè)關(guān)節(jié)的控制。

更具體地說，他們的算法被訓(xùn)練來控制機(jī)器人的運(yùn)動(dòng)，讓它旋轉(zhuǎn)手中的筆、打開門以及拿起一個(gè)球并將其移動(dòng)到所需的位置。對(duì)于每一項(xiàng)任務(wù)，奈爾和他的同事們?cè)谝粋€(gè)離線數(shù)據(jù)集上訓(xùn)練該算法，該數(shù)據(jù)集包含25個(gè)人類演示和500個(gè)非策略數(shù)據(jù)的軌跡，這些數(shù)據(jù)是通過行為克隆技術(shù)獲得的。

第1個(gè)任務(wù)筆旋轉(zhuǎn)相對(duì)來說比較簡單，很多方法最終都能解決這個(gè)問題，但AWAC是最快的，第2和第3個(gè)任務(wù)只有AWAC能解決了。老方法失敗的原因有很多，但主要是無法獲得合理的初始策略來收集良好的勘探數(shù)據(jù)，或者無法從交互數(shù)據(jù)中在線學(xué)習(xí)。

在9種方法中，AWAC是唯一一種能夠持續(xù)解決他們測(cè)試過的復(fù)雜操作任務(wù)的方法。

在未來，該算法可以使用RL在更廣泛的任務(wù)范圍內(nèi)訓(xùn)練模型。其他研究團(tuán)隊(duì)也可以從他們的工作中獲得靈感，并設(shè)計(jì)出類似的RL方法，將離線和在線培訓(xùn)結(jié)合起來。

編譯/前瞻經(jīng)濟(jì)學(xué)人APP資訊組

THEEND

免責(zé)聲明：凡注明為其它來源的信息均轉(zhuǎn)自其它平臺(tái)，由網(wǎng)友自主投稿和發(fā)布、編輯整理上傳，對(duì)此類作品本站僅提供交流平臺(tái)，不為其版權(quán)負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。若有來源標(biāo)注錯(cuò)誤或侵犯了您的合法權(quán)益，請(qǐng)作者持權(quán)屬證明與本站聯(lián)系，我們將及時(shí)更正、刪除，謝謝。聯(lián)系郵箱：xiali@infoobs.com

本月熱門

精選文章

熱點(diǎn)資訊

揭秘暗網(wǎng)經(jīng)濟(jì)騰飛的“加速器”

不用從零開始訓(xùn)練融合離線/在線強(qiáng)化學(xué)習(xí)的新算法能更好控制機(jī)器人

2024 信息化觀察網(wǎng)

長按掃描二維碼閱讀原文

不用從零開始訓(xùn)練融合離線/在線強(qiáng)化學(xué)習(xí)的新算法能更好控制機(jī)器人

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

到2028年，人工智能在心理健康市場(chǎng)將達(dá)到40億美元

生成式人工智能在農(nóng)業(yè)中的應(yīng)用

火山引擎丟出視頻大模型「王炸」，云廠商從「價(jià)格戰(zhàn)」回歸「卷性能」

2022年值得關(guān)注的六大AI趨勢(shì)

本月熱門

AI 原生時(shí)代，字節(jié)想要復(fù)刻第三次增長奇跡

2024 年預(yù)防網(wǎng)絡(luò)攻擊的 12 項(xiàng)網(wǎng)絡(luò)安全最佳實(shí)踐措施

從5G到6G：開啟無線通信的未來

2024年上半年中國云終端市場(chǎng)跟蹤報(bào)告：出貨量達(dá)到166.3萬臺(tái)，同比增長22.4%

QuestMobile2024 中國移動(dòng)互聯(lián)網(wǎng)秋季大報(bào)告：一線、新一線、二線城市月活用戶重回凈增，數(shù)字增長“內(nèi)生動(dòng)力”已然改變!

DevSecOps建設(shè)標(biāo)桿丨民生證券攜手懸鏡安全，共建敏捷安全開發(fā)體系

精選文章

深信服科技應(yīng)邀出席首屆中國電子政務(wù)安全大會(huì)，助力構(gòu)建智能高效政務(wù)安全新體系

榮耀應(yīng)用市場(chǎng)攜手?jǐn)?shù)智融合應(yīng)用伙伴共創(chuàng)綠色生態(tài)

芯軟智控與中興通訊共同攜手：筑路數(shù)字經(jīng)濟(jì) 共贏云網(wǎng)生態(tài)

華磊迅拓黃睿：適時(shí)而變、主動(dòng)出擊，全面助力企業(yè)數(shù)字化轉(zhuǎn)型

企業(yè)接入物聯(lián)網(wǎng)開發(fā)平臺(tái)時(shí)最容易踩的幾個(gè)雷點(diǎn)!快來看看你中招了沒？

三度合作!光伏加工裝備產(chǎn)品市場(chǎng)占有率全球No.1高測(cè)股份又雙叒叕簽約華磊迅拓

熱點(diǎn)資訊

深圳市物聯(lián)傳媒有限公司榮膺廣東省會(huì)展企業(yè)百強(qiáng)，IOTE物聯(lián)網(wǎng)展再獲殊榮!

監(jiān)管嚴(yán)字當(dāng)頭，智慧合規(guī)管理系統(tǒng)如何助力銀行破局合規(guī)挑戰(zhàn)？

實(shí)力獲贊 | 品高軟件成功入選“2024廣東省數(shù)字經(jīng)濟(jì)服務(wù)百強(qiáng)企業(yè)”

第六屆中國仿真技術(shù)應(yīng)用大會(huì)暨天津（寧河）低空產(chǎn)業(yè)發(fā)展峰會(huì)成功舉辦

QuestMobile2024 中國移動(dòng)互聯(lián)網(wǎng)秋季大報(bào)告：一線、新一線、二線城市月活用戶重回凈增，數(shù)字增長“內(nèi)生動(dòng)力”已然改變!

揭秘暗網(wǎng)經(jīng)濟(jì)騰飛的“加速器”

除了5G基站，你家門口的燈桿上還有很多黑科技

不用從零開始訓(xùn)練 融合離線/在線強(qiáng)化學(xué)習(xí)的新算法能更好控制機(jī)器人

最新評(píng)論（評(píng)論僅代表用戶觀點(diǎn)）

欄目推薦

到2028年，人工智能在心理健康市場(chǎng)將達(dá)到40億美元

生成式人工智能在農(nóng)業(yè)中的應(yīng)用

火山引擎丟出視頻大模型「王炸」，云廠商從「價(jià)格戰(zhàn)」回歸「卷性能」

2022年值得關(guān)注的六大AI趨勢(shì)

本月熱門

精選文章

熱點(diǎn)資訊

揭秘暗網(wǎng)經(jīng)濟(jì)騰飛的“加速器”

除了5G基站，你家門口的燈桿上還有很多黑科技

不用從零開始訓(xùn)練融合離線/在線強(qiáng)化學(xué)習(xí)的新算法能更好控制機(jī)器人

除了5G基站，你家門口的燈桿上還有很多黑科技