熊貓機(jī)器人優(yōu)悠在迪拜世博會中國館教游客打太極
本文來自微信公眾號“中國電子報(bào)”,作者/宋婧。
近日,伴隨微軟ChatGPT、谷歌Bard、百度“文心一言”等AI大模型之爭愈演愈烈,生成式AI在全球范圍內(nèi)掀起軒然大波。與此同時(shí),人形機(jī)器人賽道也悄悄升溫了。ChatGPT背后的造物主OpenAI領(lǐng)投人形機(jī)器人公司,引發(fā)投資熱。浙商證券中性預(yù)估,2030年全球人形機(jī)器人市場規(guī)模有望達(dá)855億元,未來十年市場規(guī)模料將增長超120倍。多位業(yè)內(nèi)專家指出,依托大型語言模型的訓(xùn)練,機(jī)器對人類意圖的理解有了跨越式的質(zhì)變提升,人形機(jī)器人即將迎來新一輪“進(jìn)化”。
AI大模型為人形機(jī)器人注入“靈魂”
1928年,在美國紐約市的一家高級俱樂部,一個由墻板制成的粗糙類人形體(頭部、鉸接的手臂和腿)開啟了人類對于人形機(jī)器人的無限想象。這個類人形體被稱為“Herbert Televox”,由美國西屋公司打造,身體的核心部分是Televox控制單元。1928年的廣告是這樣描述Televox的:“這是未來會成為仆人的一款新設(shè)備。”
經(jīng)過近百年的發(fā)展,從粗糙的外形到越來越接近人類的外表,從沒有行動能力到可以行走、攀爬、跳躍,人形機(jī)器人的進(jìn)化之路越走越快。然而,由于算法復(fù)雜度和數(shù)據(jù)規(guī)模的限制,目前,市面上多數(shù)人形機(jī)器人還只能在少量垂直應(yīng)用方向上實(shí)現(xiàn)接近或超越人類的智能表現(xiàn),無法在更加開放、復(fù)雜的領(lǐng)域?qū)崿F(xiàn)從“弱人工智能”向“強(qiáng)人工智能”的關(guān)鍵一躍。
民生證券研報(bào)指出,以ChatGPT為代表的AI大模型將為人形機(jī)器人注入“靈魂”,有望大幅推動產(chǎn)業(yè)的商業(yè)化落地。“人機(jī)交互最好的載體就是人形機(jī)器人。人形機(jī)器人的發(fā)展離不開語音、視覺、運(yùn)動控制等多方面的研究,通過引入ChatGPT在人形機(jī)器人中的應(yīng)用,人形機(jī)器人與人類的交互體驗(yàn)將會指數(shù)上升。以ChatGPT為代表的語言大模型是人形機(jī)器人的第一個殺手級應(yīng)用,代表通用AI賦能通用服務(wù)機(jī)器人的開始。”優(yōu)必選科技副總裁、人形機(jī)器人事業(yè)部負(fù)責(zé)人付春江對《中國電子報(bào)》記者說道。
在他看來,大模型關(guān)鍵技術(shù)可拓展到人形機(jī)器人的視覺、決策、推理、動作等方面,使人形機(jī)器人能部署到更復(fù)雜的開放環(huán)境中,使人形機(jī)器人的感知和動作形成閉環(huán),讓其能夠在日常生活中發(fā)揮更大作用。比如,可以彌補(bǔ)語言模型和真實(shí)世界的鴻溝,讓它更會“說話”;可以提升模型推理能力,利用環(huán)境反饋形成閉環(huán),讓它可以探索更多應(yīng)用環(huán)境。
Forrester分析師盧冠男在接受《中國電子報(bào)》記者采訪時(shí)指出,長期而言,大模型不僅能夠更好地訓(xùn)練機(jī)器人學(xué)習(xí)算法和處理更復(fù)雜和更大規(guī)模的數(shù)據(jù)集,而且有助于機(jī)器人更好地理解人類語言、行為和環(huán)境,通過與包括智能仿生材料在內(nèi)的其他軟硬件技術(shù)發(fā)展的融合,加速人形機(jī)器人在任務(wù)完成、自主學(xué)習(xí)、適應(yīng)能力、仿生體驗(yàn)等領(lǐng)域的進(jìn)化。但在短期內(nèi),ChatGPT并不會為人形機(jī)器人帶來實(shí)質(zhì)影響。
盧冠男坦言:“ChatGPT會改善的AWA(自動化辦公助手)的能力。但AWA并不依賴人形機(jī)器人的形態(tài)呈現(xiàn),更多是以RPA(機(jī)器人流程自動化)、NLP(自然語言處理)、DPA(數(shù)字流程自動化)和AIOps(智能運(yùn)維)等產(chǎn)品形態(tài)體現(xiàn)。”
新一輪進(jìn)化方向已顯現(xiàn)
人形機(jī)器人的新一輪進(jìn)化方向是怎樣的?在“強(qiáng)人工智能”時(shí)代,人形機(jī)器人又該如何學(xué)習(xí)和進(jìn)步,不斷刷新能力與體驗(yàn)上限?Forrester VP研究總監(jiān)戴鯤在接受《中國電子報(bào)》記者采訪時(shí)分析說:“下一代人形機(jī)器人的進(jìn)化方向?qū)⒕劢褂谌齻€方面:更高的智能水平,實(shí)現(xiàn)自主決策和動態(tài)交互;更強(qiáng)的感知能力,獲取環(huán)境與人類行為信息,更好地完成任務(wù);更靈活的操控能力,實(shí)現(xiàn)多種姿態(tài)和運(yùn)動模式,與人類和其他機(jī)器人進(jìn)行協(xié)作。”
正在展示中的達(dá)闥人形機(jī)器人
達(dá)闥創(chuàng)始人、CEO黃曉慶對《中國電子報(bào)》記者表示,基于“云(云端大腦)、網(wǎng)(安全網(wǎng)絡(luò))和端(機(jī)器人終端)”架構(gòu)的云端機(jī)器人將會成為5G時(shí)代的“殺手級”的應(yīng)用,如果可以量產(chǎn)出會做飯、會清潔、會對話、會照顧老人小孩的家庭保姆級機(jī)器人,這將會是數(shù)萬億的市場。
機(jī)器人的“云”大腦通過在云、邊、端分布式算法、算力和大數(shù)據(jù)形成機(jī)器人智能;通過5G等無線安全高速“網(wǎng)”絡(luò)連接云端大腦和機(jī)器人本體;機(jī)器人本體在“端”側(cè)完成各種任務(wù)。云端大腦通過人工增強(qiáng)、多模態(tài)融合AI和數(shù)字孿生等先進(jìn)技術(shù),實(shí)現(xiàn)機(jī)器人智能地自我學(xué)習(xí)、不斷進(jìn)化與成長。
黃曉慶指出,ChatGPT的出現(xiàn),恰恰證明機(jī)器人需要一個云端大腦。因?yàn)镃hatGPT是不可能裝在一個小小的計(jì)算機(jī)里的,它必須裝在一個云里面,變成個云服務(wù)。ChatGPT本身是單模態(tài)的,所以它無法支持機(jī)器人。而基于多模態(tài)的人工智能大模型要能夠支持多模態(tài),文字、語言、視覺、運(yùn)動都要支持,這就是達(dá)闥在做的RobotGPT。
“人形機(jī)器人是一個多任務(wù)、通用型機(jī)器人平臺,未來它在工業(yè)生產(chǎn)、社會服務(wù)等領(lǐng)域?qū)⒂蟹浅6嗟膽?yīng)用場景。”付春江說道。他認(rèn)為,具身智能是人形機(jī)器人下一階段的重點(diǎn)進(jìn)化方向,ChatGPT可以認(rèn)為是人類創(chuàng)造出一個超級語言大腦,人形機(jī)器人是超級大腦載體,ChatGPT通過人形機(jī)器人與物理世界發(fā)生聯(lián)系,交流和互動,根據(jù)物理世界中真實(shí)的反饋,利用比如強(qiáng)化學(xué)習(xí)來學(xué)習(xí)在世界游走,抓取行為,推理和決策的能力,學(xué)會在現(xiàn)實(shí)世界里生存。
多模態(tài)大語言模型(LLM)可以ChatGPT發(fā)展成GPT-X(GPT-4,GPT-5...),給予GPT-X視覺、聽覺、觸覺、味覺和嗅覺,具身智能給予GPT-X身體。GPT-X使人形機(jī)器人和人類及周圍環(huán)境交互自然,依托于GPT-X強(qiáng)大的自主學(xué)習(xí)能力,人形機(jī)器人走進(jìn)千家萬戶和服務(wù)各行各業(yè)就會成為現(xiàn)實(shí)。
距離規(guī)模化量產(chǎn)還有多遠(yuǎn)?
人形機(jī)器人是全球科技創(chuàng)新領(lǐng)域最重要的一個方向,也是機(jī)器人的最高級形態(tài)。戴鯤分析稱,與普通機(jī)器人相比,人形機(jī)器人一方面可以通過面部表情、語音和身體語言等多種方式來與人類進(jìn)行交流,更加自然和準(zhǔn)確地理解人類情感,更好地適應(yīng)人類需求,特別是在人口老齡化加速,對精神陪伴和物理陪護(hù)需求日益增加的社會背景下具有日益增加的迫切性。
另一方面,一般情況下人形機(jī)器人具備常規(guī)的普通機(jī)器人所沒有的靈活性和柔韌性,如手腕關(guān)節(jié)的運(yùn)動和抓取力度等,從而更好地完成特殊場景的操作任務(wù)。技術(shù)層面的穩(wěn)定性與可靠性及用戶需求層面的仿生體驗(yàn)真實(shí)性與安全性都是人形機(jī)器人需要解決的關(guān)鍵問題。
隨著科技的發(fā)展及社會生產(chǎn)對效率要求的提高,人形機(jī)器人產(chǎn)業(yè)發(fā)展迎來窗口期。弗若斯特沙利文預(yù)測,到2026年,全球人形機(jī)器人市場規(guī)模將達(dá)到80億美元;高盛預(yù)計(jì),到2035年,在藍(lán)海市場情景下,人形機(jī)器人市場能夠達(dá)到1540億美元的規(guī)模,接近截至2021年全球電動汽車市場及全球智能手機(jī)市場的1/3。
特斯拉人形機(jī)器人
放眼國際市場,波士頓動力Atlas機(jī)器人憑借優(yōu)異的運(yùn)動性能引領(lǐng)技術(shù)發(fā)展;特斯拉推出的人形機(jī)器人“擎天柱”驚艷四座,特斯拉CEO埃隆·馬斯克稱擎天柱未來產(chǎn)量可達(dá)數(shù)百萬臺,預(yù)計(jì)價(jià)格不到2萬美元;亞馬遜、三星等也紛紛注資賽道。
再看國內(nèi),小米自研的首款全尺寸人形機(jī)器人CyberOne(鐵大)已經(jīng)做好了面向海外市場的準(zhǔn)備;優(yōu)必選自主研發(fā)的大型人形機(jī)器人Walker X和熊貓機(jī)器人優(yōu)悠等已經(jīng)出現(xiàn)在世博會、兩會等重要場合,正在沖刺人形機(jī)器人第一股;達(dá)闥推出的人形機(jī)器人Gingerxr-1,已經(jīng)發(fā)展到2.0的版本,柔性關(guān)節(jié)從1.0版本的34個增加至41個,續(xù)航時(shí)間超過24小時(shí),還能切換不同角色,通過視覺和語音感知人類情緒。
盡管賽道競爭火熱,付春江坦言,人形機(jī)器人要從“可用”走向“實(shí)用”,并達(dá)到理想的商業(yè)化狀態(tài),在軟件或AI方面,需要解決人形機(jī)器人多維感知和決策能力,解決通用智能問題,來滿足半結(jié)構(gòu)化環(huán)境的適應(yīng)能力和完成任務(wù)能力。在硬件方面,要解決高功率密度,實(shí)現(xiàn)低能耗,關(guān)鍵元器件性能提升,整機(jī)量產(chǎn)導(dǎo)入和成本控制。
比如,制約人形機(jī)器人運(yùn)動性能的關(guān)鍵模塊——伺服驅(qū)動器占據(jù)了一半以上的整機(jī)成本。盡管近年來,在多方努力下,人形機(jī)器人的核心零部件成本一直在穩(wěn)步下降,像優(yōu)必選已經(jīng)率先將雙足真人尺寸人形機(jī)器人的成本降至10萬美元以下,但要讓人形機(jī)器人真正走進(jìn)千家萬戶仍然任重道遠(yuǎn)。
再比如,制作柔性關(guān)節(jié)需要用的減速器長期被國外機(jī)器人“四大家族”壟斷。人形機(jī)器人所用的減速器體積更小、重量更輕,而且材質(zhì)也不相同。達(dá)闥自主研發(fā)生產(chǎn)的智能柔性關(guān)節(jié)(SCA),在同樣性能下,體積只有傳統(tǒng)伺服器系統(tǒng)的1/10。
與此同時(shí),人形機(jī)器人對軟件方面的關(guān)鍵技術(shù)依賴度極高。AI算法及軟件平臺能力決定了最終人形機(jī)器人的核心服務(wù)能力。過去傳統(tǒng)機(jī)器人架構(gòu)下,人形機(jī)器人產(chǎn)業(yè)化部署面臨智能化水平低、價(jià)格高、難量產(chǎn)、隱私安全和數(shù)據(jù)保護(hù)無法保障等難題。
不過,黃曉慶指出,這些難題都將隨著“云—網(wǎng)—端”架構(gòu)的推廣而得以解決。一個可為智能機(jī)器人共享的云端大腦,將支持海量的機(jī)器人共同進(jìn)行訓(xùn)練和學(xué)習(xí),不斷進(jìn)化,最終實(shí)現(xiàn)機(jī)器人通用智能服務(wù)。
ChatGPT、多模態(tài)融合AI的RobotGPT等先進(jìn)技術(shù),將從“質(zhì)”上促進(jìn)機(jī)器人從“功能”進(jìn)階到“智能”,讓機(jī)器人智能地自我學(xué)習(xí)、不斷進(jìn)化與成長。如同手機(jī)“功能機(jī)”向“智能機(jī)”的升級,伴隨新一輪進(jìn)化,人形機(jī)器人將走入千家萬戶,真正改變我們的生活。
賽迪顧問報(bào)告顯示,盡管目前各家人形機(jī)器人仍處于原型機(jī)研發(fā)的早期階段,但它所帶來的潛在技術(shù)變革和對某些生產(chǎn)生活場景的改變值得高度關(guān)注。目前較有潛力的人形機(jī)器人發(fā)展方向主要面向制造業(yè)、航天探索、生活服務(wù)業(yè)、高??蒲械?,預(yù)計(jì)2025年,人形機(jī)器人將有望實(shí)現(xiàn)制造業(yè)場景應(yīng)用的突破,小批量應(yīng)用于電子、汽車等生產(chǎn)制造環(huán)境。