本文來自半導(dǎo)體行業(yè)觀察,作者/李壽鵬。
隨著汽車智能化程度的增加,對芯片的要求越來越高。
以所需的算力為例,地平線聯(lián)合創(chuàng)始人&CTO黃暢博士早前在接受半導(dǎo)體行業(yè)觀察等媒體采訪的時候曾表示,如果我們想要汽車智能駕駛靠近L4或者L5級別,就要求芯片至少有1000TOPS的算力。
黃暢博士進一步指出,在進入包括自動駕駛在內(nèi)的智能計算時代,我們需要的不僅僅是芯片本身的算力,而是需要硬件、軟件和算法緊密結(jié)合。只有這樣做,才能獲得所需的最終真實算力,這也正是地平線自成立以來一直推崇的“AI計算的新摩爾定律”的完美體現(xiàn)。
通用計算捉襟見肘
在過去多年的發(fā)展里,芯片產(chǎn)業(yè)一直在追逐一個目標是PPA,那就是希望在芯片提供性能的同時,在功耗和面積上能做到更好的控制。在工藝制程發(fā)展的初級階段,天才的工程師能夠很好地兼顧這幾點,但進入到最近幾年,PPA帶來的挑戰(zhàn)空前嚴峻,這就讓芯片公司有了新的思考。同樣地,在一個芯片使用上,也有著類似的權(quán)衡。
眾所周知,在智能駕駛市場,英偉達的Orin備受歡迎。按照黃暢博士所說,之所以會出現(xiàn)這種情況,一方面是因為英偉達為這個產(chǎn)品堆疊了足夠強悍的性能。同時,英偉達的CUDA生態(tài)給開發(fā)者者帶來了便利。
然而,天下并沒有免費的午餐。當開發(fā)者們在享受英偉達所提供的這種高可編程性、高通用性的計算架構(gòu)提供便利的同時,還要接受付出更多的功耗和芯片的成本,這是他要付出的代價。更重要的,汽車芯片算力需求背后,也正在發(fā)生的潛移默化,這也許會讓通用算力的短板進一步放大。
黃暢表示,過去十年里,因為深度學(xué)習(xí)的發(fā)展,我們逐漸從基于知識、規(guī)則和經(jīng)驗的傳統(tǒng)專家系統(tǒng)越遷移到機器學(xué)習(xí)(尤其是以深度學(xué)習(xí)為代表的大計算量、大數(shù)據(jù)量)AI系統(tǒng)構(gòu)建中去,這就帶來了不同的開發(fā)范式——這也就是地平線所倡導(dǎo)的“軟件2.0”。“如果說‘軟件1.0’是基于高級語言或者匯編語言,基于人的規(guī)則經(jīng)驗所構(gòu)建的一套系統(tǒng),那么軟件2.0則是基于數(shù)據(jù)驅(qū)動的方式。而數(shù)據(jù)驅(qū)動的整個大背景是人類通過數(shù)學(xué)的方式,對問題進行建模。”黃暢解析說。
在黃暢看來,上述的轉(zhuǎn)變,也正發(fā)生在汽車領(lǐng)域。
他指出,過去,我們僅僅依賴于一個毫米波雷達或者一個單目攝像頭就完成了一個最基本的L1或者L2級別的輔助駕駛。但現(xiàn)在,我們已經(jīng)進化到了多種傳感器(包括高精度的雷達和高分辨率攝像頭),這使得我們在端測捕獲的數(shù)據(jù)量、數(shù)據(jù)類型大幅地豐富和提升;另外一方面,自動駕駛所能夠覆蓋的應(yīng)用場景也不斷拓展,場景變得越來越復(fù)雜;而隨著高等級的自動駕駛落地,大規(guī)模并行運算的AI計算也形成了一個趨勢,以神經(jīng)網(wǎng)絡(luò)為代表的機器學(xué)習(xí),再加上我們前面提到更高階、更豐富功能、覆蓋更多場景、接入更多傳感器的高等級輔助駕駛的方案持續(xù)不斷落地,使得我們對計算需求在不斷提高。
正是在這多點因素的推動下,黃暢認為自動駕駛也逐漸從傳統(tǒng)的基于規(guī)則的計算的方式加速遷移到基于數(shù)據(jù)的方式。“總而言之,AI計算會逐步取代邏輯計算,成為車載計算的核心。”黃暢強調(diào)。他指出,自動駕駛的新技術(shù)范式要與之相匹配一個全新的計算架構(gòu),這個計算架構(gòu)使得整個機器更加自主,使得開發(fā)更加簡單,讓計算更智能。
“如果我們說基于規(guī)則實現(xiàn)通用計算的典型是CPU,用邏輯驅(qū)動的方式進行編程,我們稱之為智能計算的1.0時代。那么,通過端云數(shù)據(jù)不斷的聚合,并且化繁為簡的開發(fā)范式和算法,以及軟硬結(jié)合的計算架構(gòu)的不斷迭代,我們會推演到智能計算架構(gòu)的2.0時代,這是典型的數(shù)據(jù)驅(qū)動,尤其以深度學(xué)習(xí)、增強學(xué)習(xí)為代表的這種全新的計算架構(gòu)的衍生。”黃暢說。
AI計算應(yīng)運而生
基于上述的觀察與思考,黃暢強調(diào),新范式級別的架構(gòu)革新將會和與它支撐的軟件、硬件的計算架構(gòu)相結(jié)合,從而加速實現(xiàn)機器的自編程和應(yīng)用的自適應(yīng)。這也就是所提到的智能計算架構(gòu)2.0——讓機器更自主、讓開發(fā)更簡單、讓計算更智能。
同時,我們也必須看到,在硬件和軟件方面,都有一些顯而易見的趨勢。首先,在硬件方面,我們會看到,未來的芯片將會形成一個統(tǒng)一的神經(jīng)計算架構(gòu),去滿足包括智能駕駛在內(nèi)的自主機器人應(yīng)用場景;來到軟件方面,則越來越多的傳統(tǒng)算法被AI算法和深度學(xué)習(xí)算法取代,這使得我們在圖像處理比如ISP、視頻的編解碼Codec,甚至包括GPU的應(yīng)用中越來越多可以用神經(jīng)網(wǎng)絡(luò)算法去替代。
在這些趨勢驅(qū)動下,地平線有信心和決心將芯片上的絕大多數(shù)的計算、存儲、面積、功耗用于神經(jīng)網(wǎng)絡(luò)的統(tǒng)一計算架構(gòu),其中只有不超過5%的芯片區(qū)域為專用指令,為特定領(lǐng)域的應(yīng)用、算法去做服務(wù)。這使得地平線可以長期持續(xù)維護一個基于神經(jīng)計算的一套非常好的軟件架構(gòu)之上的開發(fā)平臺、開發(fā)范式。
這也是地平線從創(chuàng)建之初,就提出了“AI計算的新摩爾定律”的原因。如下圖表示,黃暢表示,我們衡量一顆AI芯片的性能,不能簡單地直接通過TOPS來衡量,而是需要綜合考慮TOPS/Watt、TOPS/$和FPS/TOPS這三個因素。其中,TOPS/Watt和TOPS/$是一個傳統(tǒng)的硬件架構(gòu)和設(shè)計實現(xiàn)的指標,F(xiàn)PS/TOPS則是單位的有效算力所能夠帶來的算法的處理速度和效率。
換而言之,只有綜合考量了軟件、算法、硬件架構(gòu)的設(shè)計,我們就可以持續(xù)推進端到端整體的計算架構(gòu)計算效率持續(xù)往前演進。正是這樣的一個理念,指導(dǎo)了地平線過去幾年做芯片設(shè)計、軟件平臺、開發(fā)工具和編譯器等方面的工作。搭載了第三代處理器架構(gòu)貝葉斯的征程5芯片就是地平線這個產(chǎn)品思路的一個典型。據(jù)了解,征程5的計算核BPU是一個深度學(xué)習(xí)的專用引擎,具有高精度、高效率、低延遲的特點。而作為一個SOC,該芯片不僅僅有AI計算核,它還有整個端到端的全套硬件加速方案,包括ISP、DSP,還有其他專用的處理單元。
黃暢同時介紹說,這個全新的架構(gòu)聚焦了最新的神經(jīng)網(wǎng)絡(luò)架構(gòu)設(shè)計,能滿足自動駕駛場景需求,它本身的近存計算體系、脈動張量陣列和大并發(fā)的數(shù)據(jù)橋,使得它有很好的計算密度和能效。值得一提的是,在芯片沒有變,算法沒有變,征程5的性能在過去一年時間里提升了20%,這主要得益于地平線在編譯器、調(diào)度、軟件架構(gòu)上的演進,使得其可以有持續(xù)的提升動力。
黃暢同時強調(diào),因為自動駕駛或者說智能汽車它對于安全性的要求特別高,當中包括功能的安全、預(yù)期功能安全、網(wǎng)絡(luò)安全、車規(guī)級別的可靠性,而地平線在這方面是走得比較快且比較早的,且是國內(nèi)首個獲得功能安全流程認證的公司。“征程5也是國內(nèi)第一個完成了完整的功能安全產(chǎn)品級認證的AI芯片產(chǎn)品。在預(yù)期功能安全、網(wǎng)絡(luò)安全的行業(yè)最高標準規(guī)范方面,我們都是走在國內(nèi)的最前面。”黃暢說。
受惠于這些軟硬件的布局,地平線迄今已經(jīng)跟20多家車企定點合作,并和70多個車型確定了前裝定點合作,公司也實現(xiàn)了上百萬的車規(guī)芯片出貨,有超過100家生態(tài)合作伙伴,而且合作伙伴里有很多是軟件開發(fā)者。
“現(xiàn)在英偉達Orin來勢洶洶,但實際上大量的中端甚至高端車型的車載計算平臺正在采用征程5。因為我們想用更低的成本、更低的功耗去交付一個相同甚至更好的自動駕駛芯片解決方案。”黃暢告訴記者。