圖片來(lái)源@Unsplash
近幾年來(lái),城市大腦概念可謂如火如荼。
相比于前兩年大家對(duì)這一概念比較陌生,如今相信大部分讀者應(yīng)該都已經(jīng)知道,所謂城市大腦的基本內(nèi)涵,是指用公路上的大量攝像頭,來(lái)識(shí)別車流、車牌和車輛,以及一些路段廣場(chǎng)上機(jī)遇攝像頭執(zhí)行人臉識(shí)別和人流判斷。
這些“城市之眼”收集的數(shù)據(jù),一方面可以幫助提升城市安防的智能化水準(zhǔn),比如預(yù)判人群擁堵、識(shí)別交通事故與可疑車輛等等;另一方面,城市大腦的作用主要體現(xiàn)在和交通燈、高架橋準(zhǔn)入閘口的互動(dòng)上。通過(guò)對(duì)車輛數(shù)據(jù)的識(shí)別和判斷,進(jìn)而用城市大腦進(jìn)行交通指揮,被廣泛相信是治理城市擁堵的有效方式。
這些技術(shù)邏輯近兩年被反復(fù)討論,加之科技巨頭的不斷加注與宣傳,很可能讓大眾覺(jué)得城市大腦已經(jīng)非常完善,可以真正承擔(dān)一座城市的“AI交通指揮官”。然而事實(shí)上并非如此,從一種產(chǎn)業(yè)構(gòu)思到實(shí)際落地,城市大腦,或者稱作智慧城市系統(tǒng),還面臨著非常多物理世界中客觀存在的困難與障礙。尤其是城市攝像頭體系本身,與后加入的AI大腦,二者其實(shí)存在著無(wú)法忽視的“代溝”。
這個(gè)問(wèn)題應(yīng)該如何解決,近兩年也有相當(dāng)多的學(xué)術(shù)討論。比如中國(guó)工程院院士、中國(guó)計(jì)算機(jī)學(xué)會(huì)理事長(zhǎng),北京大學(xué)教授、博導(dǎo)高文提出的“數(shù)字視網(wǎng)膜”理念,就廣為產(chǎn)學(xué)各界重視。在這一問(wèn)題中構(gòu)成了一種代表性的解題方案。
我們似乎可以從數(shù)字視網(wǎng)膜應(yīng)運(yùn)而生的現(xiàn)實(shí)問(wèn)題,以及其發(fā)展思路中,共同探討這樣兩個(gè)問(wèn)題:城市的智能,距離我們究竟有多遠(yuǎn)?而如果希望拉進(jìn)這個(gè)距離,目前有哪些急需開(kāi)展的工作?
從這個(gè)角度思考,我們或許會(huì)發(fā)現(xiàn)數(shù)字視網(wǎng)膜既是一種學(xué)術(shù)創(chuàng)新,也是一個(gè)新的產(chǎn)業(yè)機(jī)遇。
“眼疾”未愈,城市大腦依舊幼稚
城市大腦概念,在現(xiàn)實(shí)執(zhí)行中面臨的第一個(gè)問(wèn)題,也可能是最根源的問(wèn)題之一,就是原本并不用于智能計(jì)算的城市攝像頭,如何與AI帶來(lái)的識(shí)別,甚至智能分析能力連接在一起?
這個(gè)問(wèn)題涉及一個(gè)基本矛盾,就是智能發(fā)生在哪里。
今天一般的城市大腦與智慧城市項(xiàng)目,主要是將攝像頭收集來(lái)的視頻數(shù)據(jù)進(jìn)行存儲(chǔ),從而在云端用算法就行識(shí)別和分析。
而這里就有很多矛盾滋生了出來(lái),比如傳統(tǒng)攝像頭收集的視頻數(shù)據(jù)過(guò)于龐大,清晰度也欠佳,AI算法很難識(shí)別。
即使攝像頭能夠提供高清數(shù)據(jù),但由于拍攝的視頻沒(méi)有進(jìn)行特征提取,于是從提取到識(shí)別、檢索,再到推理的全鏈計(jì)算都必須發(fā)生在云端。這帶來(lái)的數(shù)據(jù)量非常龐大,云端將承受難以負(fù)載的數(shù)據(jù)壓力,從而影響識(shí)別精度與數(shù)據(jù)處理準(zhǔn)確度。同時(shí),把基礎(chǔ)視頻數(shù)據(jù)堆積到云端,客觀上也會(huì)造成過(guò)大的延遲,很難滿足交通場(chǎng)景里實(shí)時(shí)反應(yīng)的剛性需求。
同時(shí),城市綜合體每天產(chǎn)生的視頻數(shù)據(jù),其本質(zhì)上堪稱一個(gè)“數(shù)據(jù)包袱”。這些數(shù)據(jù)存在哪?存多久?誰(shuí)來(lái)看?如何檢索?在海量數(shù)據(jù)面前,這些問(wèn)題一一成為了城市數(shù)據(jù)管理體系的重?fù)?dān)。
那么如果讓攝像頭自己具備識(shí)別能力呢?這是如今智慧城市的主要解決方案,但是由于此前的原版攝像頭不便拆卸,想要加入新的識(shí)別能力就要加裝一個(gè)新的攝像頭。于是我們看到了拍照攝像頭、人臉識(shí)別攝像頭、車牌識(shí)別攝像頭、車輛識(shí)別攝像頭等等;在路口抬頭一看,簡(jiǎn)直能激發(fā)密集恐懼癥。
這些“智能攝像頭”識(shí)別出的數(shù)據(jù),本質(zhì)上無(wú)法做到匯融與底層打通,而是只能各自為政。后端的AI也就只能偏聽(tīng)偏信,無(wú)法進(jìn)行完整的交通場(chǎng)景分析,給出真正的“智能建議”。
那么如果讓識(shí)別和推理的全套AI能力都發(fā)生在攝像頭里呢?這帶來(lái)的最大問(wèn)題就是端側(cè)算力不夠充沛,無(wú)法支撐復(fù)雜的計(jì)算。如果在每個(gè)攝像頭都加載大量AI算力和專用硬件模組,那將是一筆無(wú)法負(fù)擔(dān)的成本。而且想要讓AI全局化理解城市,各攝像頭也必須進(jìn)行全局匯總。
這樣左右為難的問(wèn)題,就是今天城市智能從理想到現(xiàn)實(shí)的差距。高文院士將之總結(jié)成“存儲(chǔ)難,檢索難,識(shí)別難和功能多樣化”四個(gè)問(wèn)題,并且形象地比喻為城市的“自閉癥”和“弱視”。
那么如何破解城市的種種“眼疾”呢?如果也用仿生學(xué)來(lái)比喻,那就是今天城市有了云計(jì)算和AI作為大腦,也有了攝像頭作為眼睛,但是二者之間缺少一樣?xùn)|西:視網(wǎng)膜。
未來(lái)城市,需要一場(chǎng)“數(shù)字視網(wǎng)膜”安裝手術(shù)
哺乳動(dòng)物的視網(wǎng)膜,可稱得上一件造物主的奇瑰之作。
視網(wǎng)膜的一個(gè)特性,是它隱藏在大腦和雙眼之間,沉默著充當(dāng)人類智慧與世間萬(wàn)物的翻譯。我們的視網(wǎng)膜,其實(shí)并沒(méi)有傳遞給大腦真實(shí)的畫(huà)面和色彩,而是對(duì)這些“數(shù)據(jù)”進(jìn)行了優(yōu)化,讓我們的大腦直接處理可感可理解的視覺(jué)信息。
在高文院士看來(lái),今天城市大腦與萬(wàn)千攝像頭之間,需要加裝的就是這樣一層“數(shù)字視網(wǎng)膜”。
當(dāng)然,數(shù)字視網(wǎng)膜并非真的要做一種仿生視網(wǎng)膜的硬件,而是希望能夠改變目前攝像頭只能看或者單一鏈路識(shí)別的功能。讓攝像頭本身?yè)碛幸欢ǖ腁I處理能力,能夠?qū)ψR(shí)別到的車、人、場(chǎng)景進(jìn)行主動(dòng)特征提取。
從而讓攝像頭上傳到云端的視頻數(shù)據(jù),一路通過(guò)高效編碼作為數(shù)據(jù)存儲(chǔ);另一路經(jīng)過(guò)特征提取直接作為智能大腦的“可讀物”。
這樣既把識(shí)別和推理等智能計(jì)算保留在了云端,又讓端側(cè)完成了初步的智能化解析,平衡了兩側(cè)的成本與效率關(guān)系。而云大腦與攝像頭的智慧結(jié)合,就是給城市安裝了一層新的“數(shù)字視網(wǎng)膜”。
這個(gè)技術(shù)設(shè)想,是希望從計(jì)算和視頻編碼的可行性上,將城市的“大腦”和無(wú)數(shù)“眼睛”結(jié)合為一體。而設(shè)想想要變成現(xiàn)實(shí),需要建立在端側(cè)設(shè)備具有優(yōu)化的視頻編碼能力,以及AI領(lǐng)域高強(qiáng)度的視頻特征抽取能力。從而創(chuàng)造一個(gè)功能集成,能集編碼和特征編碼為一體的視頻和圖象感知系統(tǒng)。
換言之,軟件層的創(chuàng)新將帶給城市硬件系統(tǒng)更好的成本比值以及更優(yōu)化的效率。與目前大多數(shù)產(chǎn)業(yè)方案相比,這套系統(tǒng)的特點(diǎn)在于平衡了理想目標(biāo)和現(xiàn)實(shí)中的可執(zhí)行性:攝像頭完成特征抽取,云端只負(fù)責(zé)識(shí)別和推理。云計(jì)算和終端各負(fù)擔(dān)一部分計(jì)算任務(wù),合理分配算力。用更優(yōu)化的視頻解碼技術(shù),以及AI帶來(lái)的視頻特征抽取能力,讓整套體系能夠在有限算力與帶寬條件下執(zhí)行。
即便如此,給城市做一場(chǎng)“安裝數(shù)字視網(wǎng)膜”的手術(shù)也并不容易。
挑戰(zhàn)、路徑與產(chǎn)業(yè)機(jī)遇:數(shù)字視網(wǎng)膜的未來(lái)棋路
想要在新興的城市大腦技術(shù),與中國(guó)技術(shù)龐大、種類繁雜的城市攝像頭體系之間做出“智慧融合”。雖然具有強(qiáng)烈的必要性,以及技術(shù)可行性,但現(xiàn)實(shí)中還是要應(yīng)對(duì)眾多挑戰(zhàn)。
比如說(shuō),數(shù)字視網(wǎng)膜的創(chuàng)新邏輯在于,用領(lǐng)先的視頻編碼標(biāo)準(zhǔn)與編碼技術(shù),換取硬件門(mén)檻的降低。而這就要求在視頻編碼技術(shù)和機(jī)器視覺(jué)技術(shù)上達(dá)成一系列新的突破,讓數(shù)字視網(wǎng)膜真正“以內(nèi)功贏人”。
更重要的挑戰(zhàn)在于,數(shù)字視網(wǎng)膜體系,需要端側(cè)攝像頭具備相對(duì)通用化的視頻處理能力,尤其是AI相關(guān)的視頻特征提取能力。根據(jù)行業(yè)目前的普遍理解,這需要建立在專用芯片給攝像頭提供更有針對(duì)性的AI算力基礎(chǔ)上。這就需要一個(gè)從基礎(chǔ)硬件到算法層,再到產(chǎn)業(yè)層的整體配合。
其次,必須正視的一點(diǎn),是數(shù)字視網(wǎng)膜體系不可能朝夕功成。全國(guó)龐大的城市攝像頭技術(shù),必須逐步替換。這需要優(yōu)先在現(xiàn)實(shí)場(chǎng)景中建立更多邊緣技術(shù)節(jié)點(diǎn),通過(guò)邊緣計(jì)算來(lái)滿足端側(cè)AI算力的需求,逐漸向完全的數(shù)字視網(wǎng)膜體系過(guò)度。并且,如何針對(duì)已經(jīng)存儲(chǔ)的視頻數(shù)據(jù)進(jìn)行重新的特征抽取與識(shí)別也是個(gè)問(wèn)題,這可能需要具備更優(yōu)能力的視頻編碼軟件來(lái)執(zhí)行。
總而言之,我們可以看到“數(shù)字視網(wǎng)膜”這場(chǎng)城市大腦的新升級(jí),將牽動(dòng)硬件、軟件與產(chǎn)業(yè)層的多條線索。而走到現(xiàn)實(shí)當(dāng)中,這為今天的智慧城市、城市大腦等項(xiàng)目提出的第一個(gè)挑戰(zhàn),就是城市大腦類項(xiàng)目整合者、AI算法公司、智能攝像頭廠商,包括芯片廠商和云計(jì)算廠商的通力合作,構(gòu)筑基于數(shù)字視網(wǎng)膜目標(biāo)的新興產(chǎn)業(yè)鏈。
在這個(gè)命題中,今天可以看到,計(jì)算基礎(chǔ)設(shè)施與解決方案供應(yīng)商、安防硬件廠商、城市大腦項(xiàng)目執(zhí)行者,比如阿里、騰訊、京東等互聯(lián)網(wǎng)巨頭,包括機(jī)器視覺(jué)相關(guān)的AI算法公司,都將獲得新的產(chǎn)業(yè)機(jī)遇。
同時(shí),如果我們將數(shù)字視網(wǎng)膜規(guī)劃的未來(lái)城市,看作是智能城市產(chǎn)業(yè)的下一步,那么這個(gè)未來(lái)變化同樣將為創(chuàng)業(yè)者打開(kāi)機(jī)遇。因?yàn)槠浔厝恍枰⑿碌臋C(jī)器視覺(jué)任務(wù)開(kāi)發(fā)生態(tài),并且產(chǎn)業(yè)鏈粘合過(guò)程中,需要大量的新的企業(yè)級(jí)服務(wù)公司。
由此可見(jiàn),醫(yī)治城市大腦的眼疾,也是一場(chǎng)城市智能產(chǎn)業(yè)升級(jí)的開(kāi)始。據(jù)了解,目前數(shù)字視網(wǎng)膜體系已經(jīng)在多個(gè)地區(qū)與產(chǎn)業(yè)端口中開(kāi)始了應(yīng)用。從學(xué)術(shù)創(chuàng)新到產(chǎn)業(yè)突破,“智能+”時(shí)代正在構(gòu)筑越來(lái)越多這樣的產(chǎn)業(yè)升級(jí)軌跡。
讓城市之眼看到未來(lái)的同時(shí),身處城市中的我們,也應(yīng)該看到未來(lái)的腳印。