都說(shuō)人工智能落地難。難在哪里?
“目前的平臺(tái)框架,不管是tensorFlow或是其他,都無(wú)法做到對(duì)不同的芯片實(shí)現(xiàn)全部支持,因此做算法、做方案的公司,在解決最后1公里的落地問(wèn)題時(shí),甚至需要把前面99公里的東西都再學(xué)一遍,因此增加了很大的工作量,造成了落地困難。”ARm中國(guó)生態(tài)發(fā)展副總裁/OPEN AI LAB創(chuàng)始人兼CEO金勇斌表示。
如何扭轉(zhuǎn)這一局面?需實(shí)現(xiàn)從芯片、算法到解決方案全部打通,使后端設(shè)計(jì)人員無(wú)需關(guān)注底層的差異——這是Arm“周易”平臺(tái)希望帶來(lái)的改變。
IoT設(shè)備實(shí)現(xiàn)人工智能是必然趨勢(shì)
軟銀孫正義曾提出,2035年全球?qū)⒂腥f(wàn)億級(jí)IoT設(shè)備在線。在這些設(shè)備上實(shí)現(xiàn)本地人工智能,是未來(lái)的必然趨勢(shì)。要做到這一點(diǎn),必須進(jìn)一步將降低人工智能的算力成本。Arm“周易”平臺(tái),主打適用性、兼容性、安全性,希望大幅降低人工智能算力、芯片和應(yīng)用成本、加快應(yīng)用研發(fā)周期,在更多的IoT設(shè)備上實(shí)現(xiàn)人工智能。“AI要想普及化,必須實(shí)現(xiàn)85%以上的智能化都在終端實(shí)現(xiàn)。”金勇斌表示。
讓端側(cè)芯片集成AI能力更容易
“周易”平臺(tái)的核心包含兩部分,一是Tengine軟件框架,二是AIPU(人工智能處理單元),主要處理卷積神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)為代表的AI計(jì)算。
圖 1 ,人工智能平臺(tái)“周易”
從優(yōu)化端側(cè)芯片開(kāi)發(fā)的角度看,“周易”平臺(tái)降低了兩個(gè)門(mén)檻:一方面是SoC集成AI功能的設(shè)計(jì)門(mén)檻,另一方面是上層軟件的開(kāi)發(fā)門(mén)檻。
金勇斌強(qiáng)調(diào),之所以叫AIPU而不是AI Chip,主要因?yàn)樗皇荢oC中的一個(gè)處理單元,像傳統(tǒng)的cpu、gpu一樣,只是功能有所不同,能夠?qū)崿F(xiàn)終端SoC的高度集成化,實(shí)現(xiàn)靈活性和高效率的平衡。
圖2,周易人工智能處理單元AIPU
對(duì)于已有的芯片,“周易”平臺(tái)可以通過(guò)Tengine軟件框架,進(jìn)行統(tǒng)一推理,通過(guò)定義標(biāo)準(zhǔn)的Tengine API,人工智能應(yīng)用程序可以使用標(biāo)準(zhǔn)API在不同的硬件上部署,大大節(jié)省了移植或者在特定的硬件上進(jìn)行優(yōu)化的工作量。
而對(duì)于新開(kāi)發(fā)的芯片,“周易”平臺(tái)可以讓芯片合作伙伴使用AIPU IP設(shè)計(jì)新的SoC,并提供了驗(yàn)證測(cè)試向量、參考用例和后端實(shí)現(xiàn)參考流程等全面支持,以加速新的SoC設(shè)計(jì);同時(shí),周易AIPU 仿真軟件用于軟件應(yīng)用程序前期開(kāi)發(fā)。這將大大加快產(chǎn)品的上市時(shí)間。
當(dāng)芯片設(shè)計(jì)出來(lái)后,周易Tengine軟件框架內(nèi)包含不同的library,包括Arm全球library,OPEN AI LAB library等。通過(guò)這些高性能的library,可以對(duì)不同算力做分布和調(diào)度。而在上層支持不同的主流算法,比如Caffe、PyTorch等?;谶@些框架開(kāi)發(fā)出來(lái)的算法可以無(wú)縫地應(yīng)用在Tengine上。
如何賦能現(xiàn)有AI產(chǎn)業(yè)?
“在2020年之前,誰(shuí)的軟件最好用,誰(shuí)就能真正掌控市場(chǎng)”,金勇斌表示,“只要軟件工具好用,就能夠幫助下游合作伙伴迅速開(kāi)發(fā)產(chǎn)品,搶占落地先機(jī)。”也正是如此,Arm提供整套完整的工具鏈,從IP開(kāi)發(fā)到軟件開(kāi)發(fā),其中包括編譯器、性能優(yōu)化庫(kù)等。對(duì)芯片廠商來(lái)說(shuō),可以通過(guò)其中包含的仿真器和算法示例等來(lái)幫助軟件開(kāi)發(fā)。因此,“周易”AI處理引擎對(duì)用戶來(lái)說(shuō)相當(dāng)于是一鍵式開(kāi)發(fā)服務(wù),可以把他們想實(shí)現(xiàn)的算法一鍵式地部署到“周易”上。
圖3,“一鍵式”軟件工具鏈
芯片公司不必專門(mén)開(kāi)發(fā)基于AIPU的專用AI芯片,或是包含AIPU單元的芯片。哪怕是基于現(xiàn)有的成熟芯片,通過(guò)Tengine把算力提取出來(lái),可以直接實(shí)現(xiàn)更多現(xiàn)成的算法,能夠大幅度提高性能,改善用戶體驗(yàn)。如下圖所示,可以帶來(lái)順流而下的改變,“在上游把一個(gè)根本問(wèn)題解決了,下游的普及速度就會(huì)非常快。”金勇斌說(shuō)道。
圖4,Tengine賦能產(chǎn)業(yè)鏈上下游
“周易”平臺(tái)作為Arm中國(guó)首款自主研發(fā)產(chǎn)品,在去年11月的世界互聯(lián)網(wǎng)大會(huì)上首次亮相。半年過(guò)去了,這款產(chǎn)品取得了哪些實(shí)質(zhì)性的進(jìn)展?
據(jù)了解,一些基于“周易”平臺(tái)Tengine的使用場(chǎng)景已經(jīng)落地。比如行車記錄、智能停車、ADAS等,包括對(duì)司機(jī)的行為檢測(cè)。另外還有一個(gè)重要的應(yīng)用就是安防,比如人臉識(shí)別的門(mén)禁和閘機(jī)。以前需要把采集的人臉數(shù)據(jù)交由后端服務(wù)器處理,而現(xiàn)在通過(guò)Tengine,無(wú)需硬件改動(dòng),可自動(dòng)在前端進(jìn)行人臉識(shí)別,只需將匹配結(jié)果上傳。這樣極大地降低了網(wǎng)絡(luò)的部署成本,數(shù)據(jù)流量實(shí)現(xiàn)了指數(shù)級(jí)減小。根據(jù)一個(gè)做前端人臉布控系統(tǒng)的用戶案例,布一點(diǎn)一線綜合成本需要一萬(wàn)八,而基于“周易”成本基本控制在了兩千元以內(nèi),整體成本幾乎實(shí)現(xiàn)了十倍節(jié)省。據(jù)透露,最快明年年中會(huì)有基于“周易”AIPU的SoC產(chǎn)品問(wèn)世。
AI生態(tài)需要交叉合作、競(jìng)爭(zhēng)
金勇斌作為Arm中國(guó)生態(tài)發(fā)展副總裁,同時(shí)也是OPEN AI LAB創(chuàng)始人兼CEO。談及AI目前的生態(tài)建設(shè)時(shí),他表示,很多AI公司處理器、框架、應(yīng)用等都是自己垂直在做,這樣的做法有點(diǎn)像IBM早期做PC的模式,獨(dú)立開(kāi)發(fā)處理器、指令集、芯片、設(shè)備、應(yīng)用、系統(tǒng)等。而為什么微軟的Windows就能夠非常普及?主要因?yàn)樗_(kāi)放給第三方做應(yīng)用程序,這樣就形成了巨大的生態(tài)。他認(rèn)為,AIoT時(shí)代也一樣,一家公司從沙子做到云的模式一定是行不通的,AI生態(tài)需要在每個(gè)層級(jí)上進(jìn)行交叉合作、競(jìng)爭(zhēng),這樣才能夠把成本降下來(lái),把普及率提高,把滲透性做好,這樣才能盡早實(shí)現(xiàn)未來(lái)的1萬(wàn)億市場(chǎng)。
也許這是AI創(chuàng)業(yè)最好的時(shí)代。大量涌入的資本,加之強(qiáng)大的平臺(tái)支持,值得創(chuàng)業(yè)者能夠更加快速地開(kāi)發(fā)出SoC芯片。但是,即使芯片開(kāi)發(fā)的門(mén)檻有所降低,芯片開(kāi)發(fā)一定要謹(jǐn)慎,并且要在設(shè)計(jì)之初做好產(chǎn)品規(guī)劃、明確市場(chǎng)應(yīng)用空間,否則,最終還是難免慘遭淘汰。