人工智能(AI)研究組織OpenAI在制造具有通用性、能夠自我學習的機器人方面取得了新的里程碑。該組織的機器人部門表示,其去年首次亮相的機器人手Dactyl已經(jīng)學會了單手解魔方。OpenAI將這個壯舉視為一次飛躍,這既體現(xiàn)在機器人手的靈巧性上,也體現(xiàn)在其自主研發(fā)的AI軟件上。這種軟件允許Dactyl在面臨真正的物理挑戰(zhàn)之前,利用虛擬模擬來學習如何執(zhí)行新任務。
在展示Dactyl新才藝的演示視頻中,我們可以看到機器人手以摸索的方式逐漸破解魔方,雖然其動作顯得有點兒笨拙,但卻十分精確。盡管破解的過程有點兒長,但Dactyl最終解決了這個難題。這個機器人手的動作看起來明顯不如真正的人手靈活,甚至有點兒脫節(jié),更無法與那些能在短短幾秒鐘內(nèi)破解魔方的人的驚人速度和敏捷相比。
但對于OpenAI而言,Dactyl的成就使其向更廣泛的AI和機器人行業(yè)令人向往的目標又邁進了一步。這個行業(yè)希望研發(fā)出能夠?qū)W習執(zhí)行各種現(xiàn)實世界任務的機器人,它們無需培訓數(shù)月乃至數(shù)年時間,也無需專門進行編程。
OpenAI的研究科學家和機器人技術負責人彼得·韋林德(Peter Welinder)說:“很多機器人都可以非??斓仄平饽Х健5鼈兯龅氖虑楹臀覀冋谧龅氖虑橹g存在重要區(qū)別,那些機器人都有著特定任務目標。顯然,你不可能使用相同的機器人或相同的方法來執(zhí)行另一項任務。OpenAI的機器人團隊有著截然不同的雄心壯志,我們正在嘗試建造通用機器人,比如像人手那樣可以做很多不同的事情,而不僅僅是執(zhí)行特定的任務,我們正在試圖在一定范圍內(nèi)能夠通用的東西。”
韋林德指的是過去幾年中出現(xiàn)的各種機器人,這些機器人已經(jīng)將破解魔方的方法推向遠遠超越人類雙手和思維的極限。2016年,半導體制造商英飛凌(Infineon)開發(fā)了一款專門用于以超快速度破解魔方的機器人,該機器人成功地在一秒鐘內(nèi)完成了這個任務。這打破了當時由人類保持的世界紀錄(不到5秒)。兩年后,麻省理工學院開發(fā)的一臺機器在不到0.4秒的時間破解了魔方。
換句話說,為某一特定任務而設計的機器人,并被編程為盡可能高效地執(zhí)行該任務,通常最適合人類,而破解魔方是軟件很久以前就掌握的東西。因此,開發(fā)機器人來破解魔方,即使是與人手相似的機器人,本身也并不是那么引人注目。Dactyl操作的速度十分緩慢,這讓其取得的成就更顯得不起眼兒。
但是OpenAI的Dactyl機器人和驅(qū)動它的軟件,在設計和用途上與專用的魔防破解及其有很大的不同。正如韋林德所說的那樣,OpenAI正在進行的機器人研發(fā)工作并不是為了在狹隘任務中獲得卓越的結果,因為這只需要你開發(fā)更好的機器人并相應地對它進行編程就可做到。這甚至可以在沒有現(xiàn)代AI支持的情況下完成。
取而代之的是,Dactyl是從頭開始、逐漸掌握自學能力的機器人手,它可以像人類那樣處理新的任務。Dactyl同樣需要接受軟件訓練,目前正試圖以一種初級方式復制數(shù)百萬年的進化經(jīng)驗,這些經(jīng)驗也曾幫助我們學習如何在孩提時代本能地使用自己的手。OpenAI希望將來能幫助人類發(fā)展出我們只能從科幻小說中看到的類人機器人,這些機器人可以在不危及我們安全的情況下融入社會中,并在城市街道和工廠車間這樣的混亂環(huán)境中執(zhí)行各種各樣的任務。
為了學習如何單手破解魔方,OpenAI沒有對Dactyl進行顯式編程來幫助其破解魔方,互聯(lián)網(wǎng)上的免費軟件可以幫解決這一問題。OpenAI還選擇不為機器人手的個別動作進行編程,因為該組織想讓Dactyl自己識別這些動作。取而代之的是,機器人團隊給機器人手的底層軟件設定了破解魔方的最終目標,并使用現(xiàn)代AI(特別是名為強化學習的基于激勵的深度學習技術)來幫助它自學如何解決問題。利用同樣的AI訓練方法,OpenAI曾開發(fā)出世界上最先進的《DOTA 2》游戲機器人。
但直到最近,訓練AI代理做些虛擬的事情(例如玩電腦游戲)比訓練它執(zhí)行現(xiàn)實世界任務要容易得多。這是因為,研究人員可以加快訓練軟件在虛擬世界中做某些事情的速度,這樣AI就可以在現(xiàn)實世界的短短幾個月時間內(nèi)接受相當于數(shù)萬年的訓練,這得益于數(shù)千個高端CPU和超強大GPU并行工作的結果。
用物理機器人進行同樣水平的訓練并執(zhí)行物理任務是不可行的。這就是為何OpenAI試圖用模擬環(huán)境代替現(xiàn)實世界來開創(chuàng)機器人訓練新方法的理由,這也是機器人行業(yè)幾乎沒有嘗試過的東西。在這種情況下,該軟件可以同時在許多不同的計算機上以加速方式進行廣泛的練習,并希望它在開始控制真正的機器人時保留這些知識。
由于訓練的局限性和存在明顯的安全問題,今天商業(yè)中使用的機器人不使用AI,而是用非常具體的指令進行編程。韋林德解釋稱:“過去的方法是,你需要使用非常專業(yè)的算法來解決特定任務,你可以對機器人模型和環(huán)境進行精確操控。對于工廠機器人來說,你有非常精確的模型,而且你也確切地知道自己所處的工作環(huán)境,因此你非常了解它將如何執(zhí)行特定的任務。”
這也是為何當前機器人遠沒有人類那么多才多藝的最重要原因。人們需要大量的時間、精力和金錢來重新給特定的機器人編程,比如組裝汽車特定部件或計算機組件的機器人。沒有經(jīng)過適當訓練的機器人,即使是在執(zhí)行人類看起來非常簡單的任務,它都會經(jīng)歷慘敗。然而,有了現(xiàn)代AI技術,機器人可以模仿人類,這樣它們就可以使用對世界同樣直觀的理解來做從開門到煎蛋等各種事情。至少,這是我們的夢想。
我們距離機器人能夠執(zhí)行這種復雜程度的任務仍然有幾十年的距離,AI社區(qū)在軟件方面所取得的飛躍,比如自動駕駛汽車、機器翻譯和圖像識別,還沒有完全轉(zhuǎn)化為下一代機器人身上。目前,OpenAI只是試圖模仿人體某一部位的復雜性,并讓機器人的模擬操作變得更自然。
這就是為何Dactyl會被模仿人手設計成擁有24個關節(jié)機械手的原因,它與我們在工廠里看到的機械爪或機械鉗完全不同。對于支持Dactyl學習如何以人類的方式利用所有這些關節(jié)的軟件,OpenAI嘗試在現(xiàn)實世界中破解魔方之前,已經(jīng)在模擬環(huán)境中對其進行了數(shù)千年的訓練。
韋林德指出:“如果你正在對現(xiàn)實世界的機器人進行某種訓練,很明顯,你所訓練的東西都是在你想要部署算法的領域發(fā)揮作用。這樣,事情就簡單多了。但是現(xiàn)在的算法需要大量數(shù)據(jù)訓練。要在真實世界中訓練機器人,做任何復雜的事情,你需要多年的經(jīng)驗。即使對人來說,也需要幾年的時間才能掌握人類經(jīng)過數(shù)百萬年進化來的經(jīng)驗,進而學會如何操控手部。”
然而,韋林德稱,在模擬中,這種訓練可以加速,就像游戲和完成其他廣受歡迎的AI基準任務一樣。他補充說:“通常情況下,往往需要幾千年的時間來訓練算法。但在虛擬環(huán)境中,這只需要現(xiàn)實世界幾天的時間,因為我們可以將訓練并行化。在你訓練這些算法時,你也不必擔心機器人會破壞或傷害別人。”然而,研究人員過去在試圖讓虛擬訓練在實體機器人上工作時遇到了相當大的麻煩。OpenAI表示,它是第一批在這方面真正看到取得進展的組織之一。
當被給予真正的魔方時,Dactyl利用了自己接受的訓練,并自己解決了這個問題,并且它是在各種從未明確接受過訓練的條件下做到的。這包括戴著手套單手破解魔方,兩根手指需要緊緊夾起來,而OpenAI成員不斷地用其他物體戳它,并用氣泡和像五彩紙屑一樣的紙片不斷干擾它。
韋林德的同事、OpenAI機器人團隊負責人馬蒂亞斯·普拉佩特(Matthias Plappert)說:“我們發(fā)現(xiàn),在所有這些擾動中,機器人仍然能夠成功地轉(zhuǎn)動魔方,盡管它在訓練中沒有經(jīng)歷過這些。當我們在物理機器人上嘗試這種方法時,這些發(fā)現(xiàn)讓我們感到驚訝。”
這就是為何OpenAI認為Dactyl新獲得的技能對于機器人硬件的發(fā)展和AI培訓至關重要的原因。即使是世界上最先進的機器人,比如由行業(yè)領軍者波士頓動力公司(Boston Dynamics)開發(fā)的人形機器人和類狗機器人,也不能自主操作,它們需要廣泛的特定任務編程和頻繁的人工干預才能執(zhí)行最基本的操作。
OpenAI表示,Dactyl朝著未來機器人邁出了一小步,這種機器人可能將來會獨立執(zhí)行體力勞動或家務活,甚至可以與人類一起工作,而不僅僅是待在封閉的環(huán)境中,也無需對它們進行任何編程。在未來的愿景中,機器人學習新任務和適應不斷變化環(huán)境的能力,將與AI的靈活性以及物理機器的健壯性同樣重要。普拉佩特說:“這些方法真的開始證明,這是處理我們物理世界所有固有復雜性和混亂的最佳解決方案之一。”(選自:theverge 作者:Nick Statt 編譯:網(wǎng)易智能 參與:小?。?/p>