本文來自微信公眾號(hào)“天翼智庫(kù)”,作者/李春輝、張媛玥。
大模型可增強(qiáng)自動(dòng)駕駛感知系統(tǒng)感知精度、提升決策控制系統(tǒng)的記憶和理解能力,拓展并豐富復(fù)雜道路Corner-Case(長(zhǎng)尾問題)場(chǎng)景,提高單車融合定位精度,降低對(duì)成本高、鮮度要求高和法律門檻高的高精度地圖的依賴,促進(jìn)車輛在復(fù)雜城市道路場(chǎng)景落地高等級(jí)自動(dòng)駕駛。同時(shí)大模型可提高數(shù)據(jù)標(biāo)注精度和仿真訓(xùn)練的效率,目前多家企業(yè)正積極部署適用于自動(dòng)駕駛系統(tǒng)的大模型,如毫末智行Drive GPT”雪湖.海若“。另一方面,4月18日上海車展,商湯發(fā)布“日日新Sense nova”大模型,并展示“商量Sense Chat”以及”如影Sense Avtar“等與車輛座艙的結(jié)合,大模型將賦予智能座艙多種生成式AI能力。
引入大模型后新一代智能車的技術(shù)趨勢(shì)
大模型將推動(dòng)端到端的自動(dòng)駕駛技術(shù)路線落地,為車輛提供更加豐富的圖片與語義信息給車輛決策,使車輛更加接近高等級(jí)自動(dòng)駕駛。同時(shí)大模型有望為智能座艙注入更加豐富的情感功能,使傳統(tǒng)人與座艙被動(dòng)交互變?yōu)槿伺c座艙主動(dòng)交互,如圖1-1,大模型有望使智能網(wǎng)聯(lián)車更加“智能”。
圖1-1大模型將賦能新一代智能網(wǎng)聯(lián)車
大模型將使自動(dòng)駕駛系統(tǒng)更加“擬人”,引入語言大模型的端到端的自動(dòng)駕駛技術(shù)將是未來趨勢(shì)。大模型的接入將取代用于感知、預(yù)測(cè)和規(guī)劃相關(guān)功能模塊,使自動(dòng)駕駛系統(tǒng)直接通過輸入感知數(shù)據(jù),然后輸出控制操作,更接近于人類的駕駛。未來語言類大模型或許將與純計(jì)算機(jī)視覺模型加強(qiáng)關(guān)聯(lián),為純視覺模型對(duì)障礙物監(jiān)測(cè)和識(shí)別注入了豐富的語義推理信息,提升自動(dòng)駕駛系統(tǒng)決策可解釋性的能力。如特斯拉于今年5月發(fā)布的最新自動(dòng)駕駛技術(shù)首次采用自研純視覺端到端自動(dòng)駕駛技術(shù)路線,但面對(duì)復(fù)雜道路環(huán)境場(chǎng)景仍出現(xiàn)系統(tǒng)識(shí)別和控制故障導(dǎo)致人工切換駕駛,如圖1-2。
圖1-2演示視頻中的一次自動(dòng)駕駛系統(tǒng)故障導(dǎo)致人工切換操作
擁有海量數(shù)據(jù)的語言模型可在復(fù)雜的道路場(chǎng)景下提高自動(dòng)駕駛系統(tǒng)識(shí)別與推理的精度和可解釋性。自動(dòng)駕駛系統(tǒng)在預(yù)測(cè)和規(guī)劃的過程中,除對(duì)道路軌跡進(jìn)行預(yù)測(cè)和規(guī)劃外,還需要對(duì)其他周邊物體的狀態(tài)和軌跡進(jìn)行并行預(yù)測(cè)和規(guī)劃,在相對(duì)復(fù)雜的道路環(huán)境場(chǎng)景下采用傳統(tǒng)的方法(如分析多維度的運(yùn)動(dòng)狀態(tài)表征等)進(jìn)行物體的軌跡預(yù)測(cè)時(shí)往往容易出現(xiàn)實(shí)時(shí)性差、組合爆炸等問題。引入大語言模型可以對(duì)周邊物體的運(yùn)動(dòng)行為進(jìn)行駕駛目標(biāo)分解和對(duì)應(yīng)的推理假設(shè),提高物體軌跡預(yù)測(cè)精度,升級(jí)自動(dòng)駕駛系統(tǒng)的推理上限。
目前行業(yè)內(nèi)已有類似的大語言模型出現(xiàn),近日上海OpenDriveLab攜手合作伙伴發(fā)布語言+自動(dòng)駕駛?cè)珬i_源數(shù)據(jù)集DriveLM,語義標(biāo)注覆蓋感知、預(yù)測(cè)和規(guī)劃等模塊,梳理從環(huán)境障礙物識(shí)別、物體運(yùn)動(dòng)狀態(tài)、到軌跡判斷和自車運(yùn)動(dòng)規(guī)劃步驟的邏輯鏈,增強(qiáng)決策過程中的合理性和可解釋性,如圖1-3。
圖1-3 DriveLM將提升自動(dòng)駕駛系統(tǒng)的推理能力
大模型降低自動(dòng)駕駛訓(xùn)練數(shù)據(jù)標(biāo)注成本并優(yōu)化仿真效果。一是大模型可以顯著降低人工標(biāo)注成本。毫末智行發(fā)布了自動(dòng)駕駛界首個(gè)生成式預(yù)訓(xùn)練大模型——DriveGPT雪湖.海若,據(jù)了解,DriveGPT標(biāo)注一張圖片大約需要0.5元人民幣,而普通的方案標(biāo)注一張圖片卻需要約5元人民幣,降低了近10倍成本。二是大模型可提高仿真環(huán)境與真實(shí)環(huán)境的相似度,提高主機(jī)廠自動(dòng)駕駛算法的迭代效率。華為盤古大模型通過自研的NeRF算法重建高精準(zhǔn)3D空間,生成新的Corner-Case,降低原始數(shù)據(jù)采集難度。盤古大模型對(duì)場(chǎng)景重建可按需編輯,仿真場(chǎng)景重建實(shí)現(xiàn)厘米級(jí)精度。
大模型將助力自動(dòng)駕駛系統(tǒng)“脫高精度地圖”。高精度地圖當(dāng)下應(yīng)用過程中存在更新周期長(zhǎng),法規(guī)風(fēng)險(xiǎn)高,成本高等三大問題,BEV+Transformer提供了技術(shù)上“脫圖”的可能性。理想發(fā)布了大模型MindGPT,建立全自動(dòng)閉環(huán)的訓(xùn)練平臺(tái),推出“無圖城市”NOA,通過建立NPN特征與TIN網(wǎng)絡(luò)增強(qiáng)BEV大模型,降低對(duì)高精度地圖的依賴。
智能座艙進(jìn)入“擁抱”大模型階段,大模型有望賦予智能座艙包括情緒感知、智能助手、基于感情的對(duì)話、創(chuàng)意內(nèi)容生成、個(gè)性化交互等一系列功能,場(chǎng)景覆蓋辦公、購(gòu)物、游戲、旅行等。如蔚來的人車交互系統(tǒng)NOMI具有較強(qiáng)的學(xué)習(xí)功能和語音指令識(shí)別功能,可與車主進(jìn)行簡(jiǎn)單的對(duì)話;華為計(jì)劃在AITO問界M9新車上部署大模型,其語音助手“小藝”可提供通勤道路異常提醒,自動(dòng)識(shí)別駕駛員疲勞程度開啟座位按摩,根據(jù)駕駛狀態(tài)推薦駕駛模式,自動(dòng)停車找位等功能,升級(jí)與用戶的交互體驗(yàn)。
大模型將促進(jìn)“車云”深度融合。一方面,目前車端芯片算力最多在1,000 TOPS,無法滿足自動(dòng)駕駛大模型未來萬億TOPS算力需求,同時(shí)大模型在車端的部署還需要通過嚴(yán)格的車規(guī)級(jí)相關(guān)標(biāo)準(zhǔn),車端部署大模型還需要較為漫長(zhǎng)的過程,因此將大模型部署在不受能耗和算力限制的云端,成為當(dāng)下相對(duì)可行的解決方案。另一方面,高等級(jí)智能網(wǎng)聯(lián)車將產(chǎn)生海量且復(fù)雜的數(shù)據(jù)與云端交互,云端需要對(duì)車端的數(shù)據(jù)進(jìn)行存儲(chǔ),監(jiān)控,運(yùn)維和分析,分布式混合云將成為剛需,同時(shí)保障低延時(shí)的邊緣云也需納入進(jìn)來。未來車輛軟件架構(gòu)也許會(huì)變成Kubernetes這樣一主多從或多主多從的架構(gòu),進(jìn)而實(shí)現(xiàn)“云隨車動(dòng)”,改善整體系統(tǒng)的運(yùn)維環(huán)境,使智能網(wǎng)聯(lián)車更好的與云原生態(tài)結(jié)合。
端到端自動(dòng)駕駛需要更高可靠的通信技術(shù)。在復(fù)雜的道路環(huán)境現(xiàn)有的5G通信網(wǎng)絡(luò)難以滿足車輛進(jìn)行端到端的低延時(shí)高可靠通信,特別是涉及到自動(dòng)駕駛相關(guān)感知和推理功能的應(yīng)用。目前由信通院牽頭華為參與的星閃(Near Link)短距通信技術(shù),具備強(qiáng)干擾、大帶寬以及更低的時(shí)延(<10ms),有望更好結(jié)合5G網(wǎng)絡(luò),也許使端到端自動(dòng)駕駛應(yīng)用在復(fù)雜道路特定路段的通信迎來轉(zhuǎn)機(jī),解決多徑復(fù)雜道路環(huán)境下車輛與云端通信可靠性的問題。
運(yùn)營(yíng)商的發(fā)展建議
1.繼續(xù)做大做強(qiáng)通信網(wǎng)絡(luò),探索新通信技術(shù)業(yè)務(wù)可能性
一是進(jìn)一步加強(qiáng)5G網(wǎng)絡(luò)和邊緣云建設(shè),在較為復(fù)雜的城市道路場(chǎng)景實(shí)現(xiàn)5G、5.5G冗余建設(shè)、并加強(qiáng)邊緣云的建設(shè)應(yīng)用。二是多關(guān)注和運(yùn)用新一代的通信技術(shù),探索最新通信技術(shù)在智能網(wǎng)聯(lián)車業(yè)務(wù)應(yīng)用可能性,如目前由華為主導(dǎo)的星閃Release 2.0標(biāo)準(zhǔn)正在推進(jìn)中,Release 2.0將加入高精定位、感知、覆蓋增強(qiáng)(sub-1GHz)、超高速率(毫米波)等接入層特性。
2.擴(kuò)建智算中心和提供大模型產(chǎn)品服務(wù),探索新一代智能網(wǎng)聯(lián)車架構(gòu)
一是抓住機(jī)遇拓展IAAS層相關(guān)能力,積極與車企、自動(dòng)駕駛供應(yīng)商合作,探索聯(lián)合建設(shè)符合智能網(wǎng)聯(lián)車功能安全標(biāo)準(zhǔn)的智算中心。二是根據(jù)主機(jī)廠及客戶相關(guān)的需求建設(shè)支持自動(dòng)駕駛和智能座艙功能的大模型產(chǎn)品,為車企或自動(dòng)駕駛供應(yīng)商提供標(biāo)注,仿真,推理,語言助手,娛樂等出行服務(wù)。三是聯(lián)合主機(jī)廠與系統(tǒng)集成商探索新一代的智能網(wǎng)聯(lián)車軟件架構(gòu)可行性,強(qiáng)化端到端的運(yùn)維能力。
3.重視單車自動(dòng)駕駛技術(shù)路線中的重要能力提升
一是升級(jí)高精度地圖產(chǎn)品相關(guān)能力。目前主流車企無圖化算法方案仍不成熟,同時(shí)未來生成式AI可以快速標(biāo)注并迭代高精地圖,降低成本。騰訊智慧交通團(tuán)隊(duì)已建立了端到端的主動(dòng)學(xué)習(xí)AI系統(tǒng),使高精地圖迭代速度提升10倍以上,短期內(nèi)高精度地圖仍不可替代。
二是強(qiáng)化基于GNSS的增強(qiáng)定位能力。GNSS增強(qiáng)定位既可作為實(shí)時(shí)矯正高精地圖精度真值系統(tǒng),也可實(shí)時(shí)對(duì)智能網(wǎng)聯(lián)車進(jìn)行精準(zhǔn)定位。目前千尋、時(shí)空道宇等各大廠家紛紛建設(shè)和部署了符合自動(dòng)駕駛單車應(yīng)用的精密單點(diǎn)定位系統(tǒng)服務(wù)網(wǎng)絡(luò)。