本文來自微信公眾號“麻省理工科技評論APP”,【作者】Adam Zewe。
(來源:MIT News)
在經(jīng)典動(dòng)畫《杰森一家》中,機(jī)器人女傭Rosie可以輕松地從打掃房間切換到做飯、倒垃圾。然而在現(xiàn)實(shí)中,訓(xùn)練一個(gè)通用機(jī)器人卻是極大的挑戰(zhàn)。
通常,工程師會(huì)為某一特定的機(jī)器人和任務(wù)收集專門的數(shù)據(jù),在一個(gè)受控環(huán)境中對其進(jìn)行訓(xùn)練。然而,這種數(shù)據(jù)收集不僅成本高昂且耗時(shí),并且機(jī)器人在陌生環(huán)境或新任務(wù)下往往難以適應(yīng)。
為了訓(xùn)練更高效的通用機(jī)器人,MIT的研究人員開發(fā)了一種靈活的技術(shù),將來自多種來源的大量異質(zhì)數(shù)據(jù)整合到一個(gè)系統(tǒng)中,以此來教授機(jī)器人多種任務(wù)。
這種方法通過對來自不同領(lǐng)域的數(shù)據(jù)(如仿真數(shù)據(jù)和實(shí)際機(jī)器人數(shù)據(jù))以及多種模態(tài)(如視覺傳感器和機(jī)械臂位置編碼器)進(jìn)行對齊,將它們轉(zhuǎn)化為一種“通用語言”,使得生成式AI模型可以處理。
通過整合大量數(shù)據(jù),這一方法可以用于訓(xùn)練機(jī)器人執(zhí)行多種任務(wù),而不必每次都從頭開始訓(xùn)練。
這種方法不僅比傳統(tǒng)技術(shù)更快速、成本更低,而且在模擬和現(xiàn)實(shí)實(shí)驗(yàn)中,相比從零開始的訓(xùn)練提高了超過20%的性能。
“在機(jī)器人學(xué)領(lǐng)域,大家常說訓(xùn)練數(shù)據(jù)不足。但在我看來,另一個(gè)大問題是數(shù)據(jù)來自于太多不同的領(lǐng)域、模態(tài)和機(jī)器人硬件。我們的研究展示了如何將這些數(shù)據(jù)整合起來訓(xùn)練機(jī)器人。”電氣工程與計(jì)算機(jī)科學(xué)(EECS)專業(yè)的研究生、論文第一作者Lirui Wang說道。
Wang的合作者包括同為EECS研究生的Jialiang Zhao、Meta研究科學(xué)家Xinlei Chen,以及資深作者、EECS副教授和計(jì)算機(jī)科學(xué)與人工智能實(shí)驗(yàn)室(CSAIL)成員Kaiming He。該研究將在神經(jīng)信息處理系統(tǒng)會(huì)議上展示。
01 借鑒LLM
機(jī)器人“策略”會(huì)接收來自傳感器的觀測數(shù)據(jù),例如攝像頭圖像或機(jī)械臂的速度和位置測量數(shù)據(jù),進(jìn)而指導(dǎo)機(jī)器人如何移動(dòng)、去往何處。
通常,策略通過模仿學(xué)習(xí)進(jìn)行訓(xùn)練,即由人類演示操作或遠(yuǎn)程控制機(jī)器人生成數(shù)據(jù),再將這些數(shù)據(jù)輸入AI模型中進(jìn)行學(xué)習(xí)。然而,由于這種方法使用的任務(wù)數(shù)據(jù)量較少,機(jī)器人在環(huán)境或任務(wù)發(fā)生變化時(shí)往往表現(xiàn)不佳。
為此,Wang和他的團(tuán)隊(duì)借鑒了GPT-4等大型語言模型的理念。
這些模型在訓(xùn)練初期使用大量多樣化的語言數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,隨后再通過少量的任務(wù)數(shù)據(jù)進(jìn)行微調(diào),如此大量的預(yù)訓(xùn)練數(shù)據(jù)使得模型能適應(yīng)多種任務(wù)。
“語言領(lǐng)域中的數(shù)據(jù)都是句子,而機(jī)器人數(shù)據(jù)的多樣性極大。如果想以類似的方式進(jìn)行預(yù)訓(xùn)練,我們就需要不同的架構(gòu)。”他說道。
機(jī)器人的數(shù)據(jù)形式多樣,從攝像頭圖像到語言指令,再到深度圖像。同時(shí),每臺(tái)機(jī)器人在機(jī)械上也各不相同,臂數(shù)、夾持器和傳感器的排列各異,數(shù)據(jù)收集的環(huán)境也千差萬別。
MIT的研究人員因此開發(fā)了一種新架構(gòu),稱為異質(zhì)預(yù)訓(xùn)練變換器(HPT),將這些不同模態(tài)和領(lǐng)域的數(shù)據(jù)統(tǒng)一起來。
他們在架構(gòu)的核心部分引入了一種名為變換器的機(jī)器學(xué)習(xí)模型,用于處理視覺和本體感受(proprioception)輸入。變換器正是大型語言模型的基礎(chǔ)。
研究人員將視覺和本體感受數(shù)據(jù)對齊為一種統(tǒng)一的輸入形式,稱為“token”,變換器可以處理,每種輸入都以相同數(shù)量的token表示。
接著,變換器將所有輸入映射到一個(gè)共享空間中,隨著數(shù)據(jù)處理和學(xué)習(xí)量的增加,逐漸發(fā)展為一個(gè)大型預(yù)訓(xùn)練模型。變換器的規(guī)模越大,其表現(xiàn)也越好。
用戶只需向HPT提供少量關(guān)于機(jī)器人設(shè)計(jì)、設(shè)置和目標(biāo)任務(wù)的數(shù)據(jù),HPT便能將預(yù)訓(xùn)練期間獲得的知識(shí)轉(zhuǎn)移,學(xué)習(xí)新的任務(wù)。
02 實(shí)現(xiàn)靈活操作
開發(fā)HPT面臨的最大挑戰(zhàn)之一是建立用于預(yù)訓(xùn)練的龐大數(shù)據(jù)集,涵蓋了52個(gè)數(shù)據(jù)集,包含超過20萬條機(jī)器人軌跡,分為四個(gè)類別,包括人類示范視頻和仿真數(shù)據(jù)。
研究人員還需要開發(fā)一種高效的方法,將來自傳感器陣列的原始本體感受信號轉(zhuǎn)化為變換器可處理的數(shù)據(jù)。
“本體感受對于實(shí)現(xiàn)很多靈巧的動(dòng)作至關(guān)重要。由于在我們的架構(gòu)中token數(shù)量總是相同,我們賦予本體感受和視覺相同的重要性,”Wang解釋道。
在測試中,HPT在模擬和現(xiàn)實(shí)任務(wù)中的機(jī)器人表現(xiàn)相比每次從零開始的訓(xùn)練提升了超過20%。即使任務(wù)與預(yù)訓(xùn)練數(shù)據(jù)差異較大,HPT的性能仍然得到了提升。
“這篇論文為跨多種機(jī)器人結(jié)構(gòu)訓(xùn)練單一策略提供了新的方法。這使得能夠在多樣的數(shù)據(jù)集上進(jìn)行訓(xùn)練,并大幅擴(kuò)大了機(jī)器人學(xué)習(xí)方法的數(shù)據(jù)集規(guī)模。同時(shí),這種方法還能快速適應(yīng)新的機(jī)器人結(jié)構(gòu),這對于新型機(jī)器人設(shè)計(jì)的不斷出現(xiàn)尤為重要。”未參與該研究的卡內(nèi)基梅隆大學(xué)機(jī)器人研究所副教授David Held說道。
未來,研究人員希望探索數(shù)據(jù)多樣性對HPT性能的提升作用,同時(shí)計(jì)劃增強(qiáng)HPT,使其能夠像GPT-4和其他大型語言模型一樣處理無標(biāo)注數(shù)據(jù)。
“我們的夢想是擁有一個(gè)通用的機(jī)器人‘大腦’,用戶無需任何訓(xùn)練就能直接下載使用。雖然我們現(xiàn)在還處在起步階段,但會(huì)繼續(xù)努力,希望像大型語言模型的突破一樣,在機(jī)器人策略上取得突破性進(jìn)展。”他表示。
該研究部分由亞馬遜大波士頓技術(shù)計(jì)劃和豐田研究院資助。
原文鏈接:
https://news.mit.edu/2024/training-general-purpose-robots-faster-better-1028