OpenAI機(jī)械手臂 無需訓(xùn)練就能完成人類動(dòng)作

信息化觀察網(wǎng)
編譯
在嬰兒時(shí)期,我們學(xué)的第一件事就是用手抓東西,但是這個(gè)動(dòng)作并不簡單,并且會(huì)隨著人類的成長而變得更加復(fù)雜多樣,這一復(fù)雜性讓機(jī)器很難學(xué)習(xí)這一人類行為。Elon Musk和Sam Altman等人聯(lián)合建立的人工智能非營利組...

在嬰兒時(shí)期,我們學(xué)的第一件事就是用手抓東西,但是這個(gè)動(dòng)作并不簡單,并且會(huì)隨著人類的成長而變得更加復(fù)雜多樣,這一復(fù)雜性讓機(jī)器很難學(xué)習(xí)這一人類行為。Elon Musk和Sam Altman等人聯(lián)合建立的人工智能非營利組織OpenAI的研究人員創(chuàng)建了一個(gè)系統(tǒng),這個(gè)系統(tǒng)不僅能夠像人類一樣抓握和控制物體,還能夠自己領(lǐng)悟出類似人類的行為。

很多的機(jī)器人和機(jī)械手臂已經(jīng)能夠熟練地完成特定的抓握或者其它動(dòng)作——工廠里的機(jī)器人能夠比人類更加靈活地使用螺釘槍。但是能夠讓機(jī)器人很好地完成這一任務(wù)的軟件似乎是手寫的,而且是特別針對(duì)這個(gè)應(yīng)用程序所編寫。例如,你并不能給機(jī)器人一支筆,然后讓它去寫東西。即使在同一生產(chǎn)線上,像焊接等任務(wù)就需要一個(gè)全新的系統(tǒng)。

但是對(duì)于人類來說,拿起一個(gè)蘋果和拿起一個(gè)杯子的動(dòng)作大同小異。其中會(huì)有些不同,但是我們的大腦會(huì)自動(dòng)地填補(bǔ)這一空缺,我們也能夠隨機(jī)應(yīng)變,想出一個(gè)新的抓取動(dòng)作,安全地握住一個(gè)不熟悉的物體等等。在這一領(lǐng)域,機(jī)器人遠(yuǎn)遠(yuǎn)地落后于人類模型。甚至,你不能訓(xùn)練機(jī)器人去做人類能夠做的事——你必須向它提供上百萬種案例,以便充分地顯示人類會(huì)對(duì)上千種物體做出哪些動(dòng)作。

OpenAI的研究人員認(rèn)為,解決方案就是不使用人類數(shù)據(jù)。相反,他們讓計(jì)算機(jī)在模擬中一次次地嘗試,一次次地失敗,慢慢地學(xué)習(xí)如何移動(dòng)手指,以便在機(jī)器人手中握住的物體能夠按照想要的方式移動(dòng)。

他們將這個(gè)系統(tǒng)稱為Dactyl,研究人員只為該系統(tǒng)提供了手指的位置和手中物體的三個(gè)攝像頭視角——但是要記住,當(dāng)這個(gè)系統(tǒng)經(jīng)過訓(xùn)練之后,會(huì)對(duì)所有的數(shù)據(jù)進(jìn)行模擬,而且這一模擬是在虛擬的環(huán)境下進(jìn)行。因此,計(jì)算機(jī)并不需要實(shí)時(shí)工作——它能夠在數(shù)秒之內(nèi)嘗試上千種不同抓取物體的方式、分析結(jié)果、實(shí)時(shí)更新數(shù)據(jù),以便進(jìn)行下一次試驗(yàn)。(這個(gè)手臂是Shadow Dexterous Hand,要比大多數(shù)的機(jī)械手臂復(fù)雜得多。)

系統(tǒng)需要學(xué)習(xí)的東西,除了不同的物體和手勢,還有一些隨機(jī)的參數(shù),如指尖的摩擦力大小,模擬場景的顏色和燈光等。你不能對(duì)現(xiàn)實(shí)生活的每一個(gè)方面都進(jìn)行模擬,但是你要確保這個(gè)系統(tǒng)并不是只能在藍(lán)色的房間里工作,或者只能移動(dòng)有特殊標(biāo)記的方塊。

為了解決這一問題,研究人員使用了6144顆CPU和8顆GPU,“在50小時(shí)之內(nèi)就能完成100年的訓(xùn)練經(jīng)驗(yàn)。”然后他們將這個(gè)系統(tǒng)首次應(yīng)用到現(xiàn)實(shí)世界中,這個(gè)系統(tǒng)也展示了和人類類似的行為。

我們一般不會(huì)察覺,在我們用手完成一些動(dòng)作時(shí),如轉(zhuǎn)動(dòng)蘋果看蘋果有沒有擦傷,或者給朋友遞一大杯咖啡,都使用了手上的很多細(xì)小部位來使物體保持穩(wěn)定或者移動(dòng)物體。Dactyl自己也重新創(chuàng)造了其它的動(dòng)作,例如用大拇指和手指頭來托起物體,然后使用剩余的手指來撥動(dòng)物體朝向目標(biāo)方向。

這個(gè)系統(tǒng)的強(qiáng)大之處不僅僅是能夠自然地完成動(dòng)作,并且在經(jīng)歷過試驗(yàn)和失敗之后也能獨(dú)立的完成,但是這個(gè)系統(tǒng)還沒有涉及到物體具體的形狀或者種類。就和人類一樣,Dactyl能夠理所當(dāng)然地抓住和控制放置在它手上的任何東西。

我們將這種靈活性稱之為泛化,對(duì)于必須和現(xiàn)實(shí)世界交互的機(jī)器人來說,這是很重要的。為現(xiàn)實(shí)世界中每一個(gè)物體和場景都編寫?yīng)毩⒌男袨榇a是不現(xiàn)實(shí)的,但是機(jī)器人能夠依靠一套其自身的核心理解方式來適應(yīng)和彌補(bǔ)這一空缺。

描寫試驗(yàn)結(jié)果(包括OpenAI所完成其它任務(wù))的論文現(xiàn)在可以免費(fèi)使用,以及研究人員用于創(chuàng)建和測試Dactyl的工具也可以免費(fèi)使用。

原文作者:Devin Coldewey

THEEND