AI技術(shù)成熟度越來越高,NPU大時代來臨

現(xiàn)在的AI技術(shù)已經(jīng)開始滲透進人們?nèi)粘I畹姆椒矫婷媪耍敲词裁礃拥腁I最有前景,最容易被市場所接受呢?其實未來的AI落地應(yīng)用可能更多的是一些碎片化的市場,能夠在性能和成本之間取得良好平衡的應(yīng)用可能更加有市場前景。

本文來自電子發(fā)燒友網(wǎng),作者/程文智。

隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng),以及物聯(lián)網(wǎng)的發(fā)展,人類創(chuàng)造的數(shù)據(jù)量在快速增加,這些海量的數(shù)據(jù)為AI的發(fā)展提供了肥沃的土壤。加上神經(jīng)網(wǎng)絡(luò)算法的進步,及CPU、GPU、NPU、FPGA等各種芯片性能的快速提升,極大地提升了計算機處理海量視頻、圖像等數(shù)據(jù)的計算能力。也就是說,在算力、算法和數(shù)據(jù)三要素快速發(fā)展的背景下,AI技術(shù)的成熟度越來越高,AI產(chǎn)業(yè)不斷演進,落地應(yīng)用也變得更加豐富,AI正在與各行各業(yè)的典型應(yīng)用場景相融合。

這些年,可以明顯看到AI在智能手機、智能音箱等消費類電子產(chǎn)品,以及互聯(lián)網(wǎng)應(yīng)用等To C端的應(yīng)用場景中大量落地后,開始向工業(yè)制造、能源、交通、金融、醫(yī)療、教育、零售、汽車等傳統(tǒng)To B端行業(yè)滲透。

現(xiàn)在的AI技術(shù)已經(jīng)開始滲透進人們?nèi)粘I畹姆椒矫婷媪耍敲词裁礃拥腁I最有前景,最容易被市場所接受呢?其實未來的AI落地應(yīng)用可能更多的是一些碎片化的市場,能夠在性能和成本之間取得良好平衡的應(yīng)用可能更加有市場前景。

碎片化將增加企業(yè)成本

不論是工業(yè)制造、能源、金融、還是交通行業(yè),很多應(yīng)用場景都是需要根據(jù)具體的場景做更多定制化的服務(wù),這必然會增加AI企業(yè)的成本負擔(dān)。比如在工業(yè)場景中,AI企業(yè)需要幫助工廠設(shè)計并訓(xùn)練工業(yè)級的高性能AI模型,這就需要AI企業(yè)大量的成本投入和深厚的技術(shù)沉淀,包括多場景海量數(shù)據(jù)收集、復(fù)雜模型的設(shè)計和算法訓(xùn)練、以及包括軟件框架和硬件系統(tǒng)在內(nèi)的AI基礎(chǔ)設(shè)施來支持大規(guī)模運算。而且,由于每個工廠制造的產(chǎn)品是不一樣的,產(chǎn)線環(huán)境也各不相同,開發(fā)的解決方案可能只適用于一家客戶,成本得不到均攤,自然就會更高。

還有在交通領(lǐng)域,AI需要對特殊的交通事故、道路塌陷、以及火災(zāi)等不同場景進行識別、分析、評估損失等,這些都是極其具體的要求。

碎片化的應(yīng)用場景還可能會帶來另一個問題,由于單個場景發(fā)生的頻次比較低,可用的數(shù)據(jù)量會偏少。加上每種模型的生產(chǎn)都需要大量的算力和人力,AI行業(yè)的人力投入將會增加,相應(yīng)AI企業(yè)的成本也會增加。

當(dāng)然,這些碎片化的應(yīng)用場景,也會有一些好處,那就是大部分的客戶其實是不懂AI的,他們需要的不是一個AI模塊,或者開發(fā)包,而是一整套定制化的解決方案,而且,因為這種定制化的方案確實也幫助他們解決了實際問題,因此,他們也更愿意為此類解決方案付費。

AI背后的NPU

所有落地AI應(yīng)用中,都需要硬件的算力支持,包括目前市場比較火熱的自動駕駛。隨著汽車中攝像頭、毫米波雷達、激光雷達,以及超聲波雷達等環(huán)境感知傳感器的增多,自動駕駛系統(tǒng)收集的傳感器數(shù)據(jù)將會更多,自動駕駛計算芯片需要通過算法處理、匯算這些數(shù)據(jù),實現(xiàn)車、路、人等信息融合,對駕駛控制做出決策。而傳感器數(shù)量的增多,對自動駕駛計算芯片的算力要求將顯著提升。

而算力的提升,離不開NPU(Neural-network Processing Unit,神經(jīng)網(wǎng)絡(luò)處理器)的支持。它是一類基于DSA(Domain Specific Architecture)領(lǐng)域?qū)S眉軜?gòu)技術(shù)的專用于人工智能(特別是人工神經(jīng)網(wǎng)絡(luò)、機器視覺、機器學(xué)習(xí)等)硬件加速的微處理器。相比于CPU、GPU,NPU在硬件架構(gòu)上就是針對AI設(shè)計的,非常適合神經(jīng)網(wǎng)絡(luò)運算。

NPU與CPU和GPU等通用處理器設(shè)計思路不同。通用處理器考慮到計算的通用性,提升的計算能力大部分不能直接轉(zhuǎn)化為神經(jīng)網(wǎng)絡(luò)處理能力的提升,比如沒有針對MAC運算做專門的提升,而NPU針對神經(jīng)網(wǎng)絡(luò)設(shè)計,無需考慮神經(jīng)網(wǎng)絡(luò)并不需要一些計算單元。相較于CPU擅長處理任務(wù)和發(fā)號施令,GPU擅長進行圖像處理、并行計算,NPU更擅長處理人工智能任務(wù)。NPU通過突觸權(quán)重實現(xiàn)存儲和計算一體化,從而提高運行效率。

因此,我們可以在很多支持AI應(yīng)用的處理器,或者SoC中發(fā)現(xiàn)NPU的身影,比如蘋果的A15、特斯拉的FSD芯片、地平線的征程系列芯片、OPPO的馬里亞納X芯片等等。除了這些規(guī)模較大,性能較高的SoC芯片,其實現(xiàn)在有些MCU產(chǎn)品也開始集成NPU模塊了,以滿足一些邊緣智能應(yīng)用的需求。

其實,很多支持AI的SoC芯片都是通過集成神經(jīng)網(wǎng)絡(luò)IP來實現(xiàn)的,一般來說,神經(jīng)網(wǎng)絡(luò)IP會于神經(jīng)網(wǎng)絡(luò)算法同步發(fā)展,能夠進一步擴展,以應(yīng)對神經(jīng)網(wǎng)絡(luò)性能日益增長的需求。

新思科技ARC NPX6 NPU IP

新思科技最近推出了全新的NPU IP核和工具鏈,以滿足神經(jīng)網(wǎng)絡(luò)不斷發(fā)展的需求。同時提供了強大的可擴展性,單個NPU處理器支持從4K MAC到96K MAC的擴展,可以滿足不同的應(yīng)用需求,比如:ADAS,監(jiān)控,數(shù)據(jù)電視,攝像頭,自然語言處理等等。其ARC NPX6和NPX6FS NPU IP可滿足面向AI應(yīng)用的具有超低功耗的實時計算需求,提供業(yè)界最佳性能,并支持最新、復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型。

QQ截圖20211119092508.png

圖:ARC NPX6 NPU IP

單個NPU可在5nm工藝中以每秒1.3GHz的速率提供高達250TOPS的算力,或通過使用全新稀疏特征提供高達440TOPS的算力,因此可以提高執(zhí)行神經(jīng)網(wǎng)絡(luò)性能并降低能耗需求;新IP集成了硬件和軟件鏈接功能,支持實施多個NPU實例,在單個SoC上可以實現(xiàn)高達3500TOPS的性能;在神經(jīng)處理硬件內(nèi)部提供可選的16位浮點支持,以極大提高層性能,并簡化了從用于AI原型設(shè)計的GPU向大容量功耗和面積優(yōu)化型SoC的過渡。

ARC NPX6FS NPU IP是針對功能安全應(yīng)用的神經(jīng)網(wǎng)絡(luò)處理器IP,它滿足嚴格的隨機硬件故障檢測和系統(tǒng)功能安全開發(fā)流程要求,完全符合ISO 26262汽車安全完整性等級(ASIL)D級標準。并且,這些處理器包含全面的安全文檔,具有符合ISO 26262標準的專用安全機制,并滿足下一代區(qū)域架構(gòu)的混合關(guān)鍵性和虛擬化要求。

此外,為了方便工程師使用,加快產(chǎn)品上市時間,新思科技還提供了全新的DesignWare ARC MetaWare MX開發(fā)工具包,該工具包包括了編譯器和調(diào)試器、神經(jīng)網(wǎng)絡(luò)軟件開發(fā)工具包、虛擬平臺軟件開發(fā)工具包、運行時庫以及先進仿真模型。

MetaWare MX提供的單一工具鏈在MAC資源中自動劃分算法以實現(xiàn)高效處理,幫助工程師加速應(yīng)用開發(fā)。另外,對于安全關(guān)鍵型汽車應(yīng)用,該MetaWare MX安全開發(fā)工具包包含了安全手冊和安全指南,可幫助開發(fā)者滿足ISO 26262要求并為ISO 26262合規(guī)性測試做好準備。

結(jié)語

AI技術(shù)正在跟各個細分行業(yè)緊密結(jié)合,以發(fā)揮其優(yōu)勢,在AI技術(shù)落地應(yīng)用越來越多的時候,NPU也變得越來越重要,未來對NPU的需求也將會進一步提升,相信NPU的大時代正在來臨。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論