本文來自微信公眾號“電子發(fā)燒友網(wǎng)”,作者/李彎彎。
作為人工智能發(fā)展的一個重要分支,具身智能常被人提及。簡單來說,人工智能系統(tǒng)主要關(guān)注于數(shù)據(jù)處理和算法的優(yōu)化,好比是人的大腦,而具身智能則更加注重機器與環(huán)境的互動和交流,是大腦和身體的結(jié)合。
那么具身智能終端有哪些?在日前芯原AI專題技術(shù)研討會上,神頂科技(南京)有限公司董事長兼CEO袁帝文展示了一些例子,如工業(yè)機器人、人形機器人、自動駕駛、低空飛行、MR/AR、AGV/AMR等。而且,袁帝文認為,具身智能終端的發(fā)展需要大模型和3D空間計算。
國內(nèi)外科技企業(yè)致力于將大模型接入機器人
自從2022年底大模型技術(shù)進入大眾視野以來,國內(nèi)外科技企業(yè)都在積極推進大模型的技術(shù)和應(yīng)用,而將大模型接入機器人也是各大科技企業(yè)、機器人公司重點研究的方向。
早在2023年7月,AI科學家李飛飛帶領(lǐng)的團隊發(fā)布了具身智能最新成果,即大模型接入機器人,把復雜指令轉(zhuǎn)化成具體行動規(guī)劃,人類可以很隨意地用自然語言給機器人下達指令,機器人也無需額外數(shù)據(jù)和訓練。
李飛飛團隊將該系統(tǒng)命名為VoxPoser,相比傳統(tǒng)方法需要進行額外的預(yù)訓練,這個方法用大模型指導機器人如何與環(huán)境進行交互,直接解決了機器人訓練數(shù)據(jù)稀缺的問題。
可以看到,隨著大模型技術(shù)的發(fā)展,過去一年多時間來,從OpenAI到Google DeepMind,幾乎所有掌握人工智能技術(shù)的大型科技公司,都在致力于將支持聊天機器人的多功能學習算法接入機器人中。這樣做的目的是讓機器人具備常識性知識,從而能夠處理各種任務(wù)。
如有消息稱,隨著對人工智能機器人投資的升溫,OpenAI將重啟其機器人業(yè)務(wù),目前正在積極招募研究工程師,以重建曾經(jīng)解散的機器人團隊。
特斯拉的人形機器人也是備受關(guān)注,6月14日凌晨,特斯拉在美國得克薩斯州總部舉行2024年股東大會,馬斯克在大會上表示,特斯拉將于2025年開始“限量生產(chǎn)”人形機器人Optimus,并于明年在自有工廠測試類人機器人。他預(yù)測,明年特斯拉將擁有“超過1000個,甚至數(shù)千個在運行的Optimus機器人”。
近期,國產(chǎn)機器人領(lǐng)域也動作頻頻,全球首例純電驅(qū)全尺寸人形機器人“天工”首次在北京人形機器人創(chuàng)新中心實現(xiàn)“擬人奔跑”、宇樹科技發(fā)布瞄準老年人陪護市場的新型人形機器人Unitree G1、工業(yè)版人形機器人Walker S進入蔚來總裝車間“實訓”當起“見習廠工”等。
科大訊飛近日也表示,公司已于2023年全球“1024開發(fā)者節(jié)”上正式發(fā)布了“大模型+具身智能”的人形機器人技術(shù)原型。2024年5月31日,公司啟動訊飛機器人超腦平臺2.0項目,將以視聽融合的多模感知交互和基于大模型的機器人大腦,通過軟硬件一體的方式構(gòu)建機器人新交互,將訊飛星火大模型進一步賦能機器人領(lǐng)域。
過去大半年時間,手機和PC大模型迅猛發(fā)展,手機和PC通過大語言模型可以提供非常多服務(wù),如智能辦公助手、個性化推薦系統(tǒng)、圖象與視頻處理、健康監(jiān)測與管理、教育與學習、創(chuàng)意寫作與內(nèi)容創(chuàng)作。袁帝文在日前的大會上談到,大模型在手機和PC上的發(fā)展,其實也有助于機器人大模型的發(fā)展。因為機器人本身就是一個終端,它所需要的功能包含了手機和PC的基本功能。
不過,袁帝文認為,機器人大模型的挑戰(zhàn)要高于手機和PC。首先是,機器人需要多模態(tài)數(shù)據(jù)處理,使機器人綜合利用多種感知信息,全面理解環(huán)境和任務(wù)需求;其次是自主導航和定位需求,機器人需要自主移動,進行路程規(guī)劃和障礙物避讓;第三是物理空間交互,機器人不僅處理信息,還要能與物理環(huán)境交互,執(zhí)行搬運、組裝、清潔等物理任務(wù);第四,實時性要求,機器人執(zhí)行任務(wù)時需要低延遲的控制系統(tǒng),確保動作的準確性和及時性,特別是在高速移動或精細操作時。
大模型機器人對芯片有更高要求
據(jù)袁帝文介紹,機器人部署AI大模型面臨3D空間計算、多傳感器融合、高實時性的要求。
3D空間計算,即機器人在真實的物理空間中自主導航,進行各種操作,需要精確和高幀率的空間計算能力;多傳感器融合,即需要對不同傳感器產(chǎn)生的數(shù)據(jù),進行空間及時間上的同步和融合;高實時性,即高精度、高實時性的3D空間計算能力軟硬件協(xié)同優(yōu)化。
這使得機器人對計算資源、內(nèi)存和帶寬、功耗要求較高。計算資源方面:機器人大模型通常包含數(shù)十億以上的參數(shù),需要具備強大算力來實時處理這些模型的推理和計算;內(nèi)存和帶寬方面:由于模型參數(shù)量大,需要大量的內(nèi)存來存儲和訪問模型參數(shù)和中間計算結(jié)果;功耗方面:對于移動機器人來說,電池壽面是一個關(guān)鍵問題,芯片需要平衡計算和功耗,保證電池供電。
機器人大模型端側(cè)芯片的關(guān)鍵技術(shù)之一是高實時性NPU。一是需要有更高算力·多核并行,以提升多模型運行的并發(fā)性能,提升運算的吞吐量;二是高效Transforme運算,提升Transformer的運算效率和利用率,提升大模型的實時性能;三是低比特量化,降低內(nèi)存需求、降低存儲需求、降低帶寬需求、提升運行的實時性;四是權(quán)重壓縮,提升帶寬利用率、降低系統(tǒng)帶寬需求、降低數(shù)據(jù)搬運的延時、提升模型運行的實時性。
機器人大模型端側(cè)芯片關(guān)鍵技術(shù)二是3D空間計算處理能力。其一,空間計算專用處理單元——深度計算引擎,同等計算算力資源遠超嵌入式CPU;最先進的3D感知處理器,提供工業(yè)級別三維點云信息;類人化融合數(shù)據(jù)信息、賦予同步多維度感知能力。
其二,空間計算專用處理單元——感知融合引擎,對于三維世界的感知,可以通過多個3D傳感器,融合出質(zhì)量更高、細節(jié)更豐富的三維世界信息;獨特的時間融合單元,使得多個傳感器之間的感知時刻偏差小于0.1ms,使得精細多傳感器感知和控制精度大幅提高。沒有一個傳感器在任何場景下都適用,所以多傳感器融合非常重要。
寫在最后
最近,人們都在談“物理智能”“物理AI”,Meta人工智能研究員之前說過,“真正智能的最后一步必須是物理智能(physical intelligence)。”而機器人與之前的手機、PC有所不同,它會進一步推進人工智能的發(fā)展,讓人工智能從數(shù)字世界走向物理世界。