Meta研究員創(chuàng)造出人工視覺皮層,可以讓機(jī)器人通過視覺進(jìn)行操作

極客AI
Meta公司AI研究部門的研究人員日前發(fā)布一項公告,宣布在機(jī)器人自適應(yīng)技能協(xié)調(diào)和視覺皮層復(fù)制方面取得關(guān)鍵進(jìn)展。他們表示,這些進(jìn)展允許AI驅(qū)動的機(jī)器人通過視覺在現(xiàn)實世界中操作,并且不需要獲取現(xiàn)實世界的任何數(shù)據(jù)。

本文來自極客網(wǎng),作者/極客AI。

Meta公司AI研究部門的研究人員日前發(fā)布一項公告,宣布在機(jī)器人自適應(yīng)技能協(xié)調(diào)和視覺皮層復(fù)制方面取得關(guān)鍵進(jìn)展。他們表示,這些進(jìn)展允許AI驅(qū)動的機(jī)器人通過視覺在現(xiàn)實世界中操作,并且不需要獲取現(xiàn)實世界的任何數(shù)據(jù)。

360截圖16251112669372.png

他們聲稱,這是在創(chuàng)建通用的“具象AI(Embodied AI)”機(jī)器人方面的一個重大進(jìn)步,這種機(jī)器人能夠在沒有人類干預(yù)的情況下與現(xiàn)實世界互動。研究人員還表示,他們創(chuàng)建了一種名為“VC-1”的人工視覺皮層,這個視覺皮層在Ego4D數(shù)據(jù)集上訓(xùn)練,而Ego4D數(shù)據(jù)集來自全球各地的數(shù)千名研究參與者記錄日?;顒拥囊曨l。

正如研究人員在之前發(fā)表的一篇博客文章中解釋的那樣,視覺皮層是大腦中使生物能夠?qū)⒁曈X轉(zhuǎn)化為運動的區(qū)域。因此,對于任何需要根據(jù)眼前景象來執(zhí)行任務(wù)的機(jī)器人來說,具備人工視覺皮層是一個關(guān)鍵要求。

由于“VC-1”的人工視覺皮層需要在各種環(huán)境中很好地執(zhí)行一系列不同的感覺運動任務(wù),Ego4D數(shù)據(jù)集發(fā)揮了特別重要的作用,因為它包含了研究參與者通過可穿戴攝像頭記錄日常活動的數(shù)千小時視頻,這些活動包括烹飪、清潔、運動、手工制作等。

研究人員稱:“生物有機(jī)體有一個通用的視覺皮層,這就是我們所尋找的具象代理。因此,我們開始創(chuàng)建一個在多個任務(wù)中表現(xiàn)良好的數(shù)據(jù)集,以Ego4D作為核心數(shù)據(jù)集,并通過添加額外的數(shù)據(jù)集來改進(jìn)VC-1。由于Ego4D主要關(guān)注烹飪、園藝和手工制作等日?;顒樱覀冞€采用了探索房屋和公寓的以自我為中心的視頻數(shù)據(jù)集。”

然而,視覺皮層只是“具象AI”的一個元素,機(jī)器人要想在現(xiàn)實世界中完全自主地工作,還必須能夠操縱現(xiàn)實世界中的物體。機(jī)器人需要視覺進(jìn)行導(dǎo)航,找到并搬運物體將它移動到另一個位置,然后正確放置——所有這些動作都是基于它所看到和聽到的情況自主實施。

為了解決這個問題,Meta的AI專家與佐治亞理工學(xué)院的研究人員合作開發(fā)了一種被稱為“自適應(yīng)技能協(xié)調(diào)”(ASC)的新技術(shù),機(jī)器人采用這種技術(shù)進(jìn)行模擬訓(xùn)練,然后將這些技能復(fù)制到現(xiàn)實世界的機(jī)器人身上。

Meta公司還與波士頓動力開展合作,展示了其ASC技術(shù)的有效性。這兩家公司將ASC技術(shù)與波士頓動力的Spot機(jī)器人相結(jié)合,使其機(jī)器人具有強(qiáng)大的傳感、導(dǎo)航和操作能力,盡管還需要大量的人工干預(yù)。例如挑選一個物體,還需要有人點擊機(jī)器人平板電腦上顯示的物體。

研究人員在文章中寫道:“我們的目標(biāo)是建立一個可以通過波士頓動力API從機(jī)載傳感和電機(jī)命令中感知世界的AI模型。”

Spot機(jī)器人使用Habitat模擬器進(jìn)行測試,其模擬環(huán)境采用HM3D和ReplicaCAD數(shù)據(jù)集構(gòu)建,其中包含1000多個家庭的室內(nèi)3D掃描數(shù)據(jù)。然后,訓(xùn)練Spot機(jī)器人在一個它以前沒見過的房子里活動,搬運物體,并將它們放在合適的位置。然后將受過訓(xùn)練的Spot機(jī)器人獲得的知識和信息復(fù)制到在現(xiàn)實世界操作的Spot機(jī)器人上,這些機(jī)器人根據(jù)他們對房屋布局的了解,自動執(zhí)行同樣的任務(wù)。

360截圖16251112669372.png

研究人員寫道:“我們使用了一個185平方米的家具齊全的公寓和一個65平方米的大學(xué)實驗室這兩個截然不同的現(xiàn)實環(huán)境對Spot機(jī)器人進(jìn)行測試,要求Spot機(jī)器人重新放置各種物品??傮w而言,采用ASC技術(shù)的Spot機(jī)器人的表現(xiàn)近乎完美,在60次測試中成功了59次,克服了硬件不穩(wěn)定、拾取故障以及移動障礙物或阻塞路徑等對抗性干擾。”

Meta的研究人員表示,他們還開放了VC-1模型的源代碼,并在另一篇的論文中分享了如何縮放模型大小、數(shù)據(jù)集大小等方面的詳細(xì)情況。與此同時,該團(tuán)隊的下一個重點將是嘗試將VC-1與ASC集成,以創(chuàng)建一個更接近人類的具象AI系統(tǒng)。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論