高文:城市大腦2.0已來,數(shù)字視網(wǎng)膜是核心驅(qū)動力

2020年年初國家提出的“新基建”,為技術(shù)變遷和行業(yè)發(fā)展,帶來了新的時代機遇,而智慧城市也成為全國城市發(fā)展變革的重要一環(huán)。城市大腦是現(xiàn)有智慧城市中的一個核心系統(tǒng),它將算力及數(shù)據(jù)匯聚到一起,加上算法,就能發(fā)揮巨大的作用。

2020年年初國家提出的“新基建”,為技術(shù)變遷和行業(yè)發(fā)展,帶來了新的時代機遇,而智慧城市也成為全國城市發(fā)展變革的重要一環(huán)。

城市大腦是現(xiàn)有智慧城市中的一個核心系統(tǒng),它將算力及數(shù)據(jù)匯聚到一起,加上算法,就能發(fā)揮巨大的作用。

比如,將網(wǎng)絡(luò)數(shù)據(jù)、政務(wù)數(shù)據(jù)、社會數(shù)據(jù)等等,匯集到一起,然后提供一個云計算服務(wù),就可以提升政府效率、加速企業(yè)創(chuàng)新、促進(jìn)生活便捷。

在智慧城市系統(tǒng)之中,匯集了各類各樣的數(shù)據(jù),其中有90%左右的數(shù)據(jù)都與圖像、視頻相關(guān)聯(lián),如何處理好圖像和視頻數(shù)據(jù),在城市大腦系統(tǒng)中是非常關(guān)鍵的要素。

那么,現(xiàn)在城市大腦系統(tǒng)的發(fā)展到了哪個階段?從系統(tǒng)1.0到2.0,哪些痛點被解決了?技術(shù)又有哪些創(chuàng)新呢?

在8月7日第五屆全球人工智能與機器人峰會(CCF-GAIR 2020)上,中國工程院院士、鵬城實驗室主任高文,分享了主題為《城市大腦2.0-邊端云處理分工的人工智能賦能系統(tǒng)》的報告。

高文院士在報告中,從城市大腦1.0的現(xiàn)狀、問題,談到城市大腦2.0的創(chuàng)新、優(yōu)勢,以及智慧城市發(fā)展的關(guān)鍵技術(shù)和能力。

1、城市大腦1.0的現(xiàn)狀

城市大腦是智慧城市的核心系統(tǒng),是算力和數(shù)據(jù)的匯聚地,是生產(chǎn)力和生產(chǎn)資料的集中展現(xiàn)。

它也是超大規(guī)模的人工視覺系統(tǒng)應(yīng)用,通過數(shù)據(jù)的匯聚、治理、計算、分析、挖掘和調(diào)度,完成數(shù)據(jù)的全流程加工,面向行業(yè)提供不同層次的產(chǎn)品和服務(wù)。

所以,視覺認(rèn)知計算(VCC)是城市大腦的核心。目前,視頻存儲、分析與識別都在云上完成,分析識別的視頻路數(shù)與云服務(wù)器的算力成正比。

在現(xiàn)有的系統(tǒng)中,數(shù)據(jù)基本以圖像與視頻兩種形式進(jìn)入:

第一種模式:攝像頭就是一個簡單的傳感器,捕捉到圖像或者視頻以后,進(jìn)行一個編碼壓縮,傳送給云端,云端將它存儲起來。

也可能將它解碼之后進(jìn)行分析,識別出人臉、車輛,或者進(jìn)行交通數(shù)據(jù)的分析等等,這是一種信息或者數(shù)據(jù)感知的模式。

另一種模式叫做智能終端,在攝像頭這一端就把人臉或者車牌等信息識別出來,識別出來的信息被傳送到云端,直接可以進(jìn)行分析使用。

這兩種模式是目前城市大腦中數(shù)據(jù)使用的主要模式,當(dāng)然這兩種模式都多多少少存在一些問題。

如果僅僅作為一個感知終端,后面如果需要調(diào)用,除了解碼以外,還要進(jìn)行特征提取等工作,需要大量的計算程序,這些計算非常耗費云計算的算力資源。另外,智能終端還無法識別出未被指定的人或物。

所以,城市大腦需要一個更好的系統(tǒng),這個系統(tǒng)不僅云上算力資源需求不多,而且可以完成一些未經(jīng)規(guī)定的動作。

換句話說,以云計算為核心的城市大腦1.0目前存在的一些問題是,系統(tǒng)各個部分分工協(xié)調(diào)不太好,系統(tǒng)成本比較高,響應(yīng)速度慢,數(shù)據(jù)的可利用度比較低。

如果要從1.0演進(jìn)到2.0,首先要面臨一些挑戰(zhàn):

第一,海量數(shù)據(jù)≠大數(shù)據(jù)

現(xiàn)在的城市大腦1.0,它是一個具有海量數(shù)據(jù)的系統(tǒng),但是這個海量數(shù)據(jù)并不等于大數(shù)據(jù),因為90%的海量數(shù)據(jù)都是沒有結(jié)構(gòu)化的,只是進(jìn)行了一個簡單的編碼壓縮。

第二,數(shù)據(jù)海量 vs 低價值

另外,這些數(shù)據(jù)的價值也比較低,它不是結(jié)構(gòu)化的,你無法在上面進(jìn)行分析,這也是為什么很多智慧城市的視頻數(shù)據(jù),一段時間之后就被覆蓋了。

高文院士表示,問題的實質(zhì)是現(xiàn)有城市大腦里的數(shù)據(jù)表達(dá)是不到位的。

如果只是在感知數(shù)據(jù)后,將編碼壓縮送到云端,它還是一個非結(jié)構(gòu)化的數(shù)據(jù);如果能把它識別出來是張三、李四,或者車牌號多少,雖然它已經(jīng)結(jié)構(gòu)化了,但是它是過度結(jié)構(gòu)化的,對于沒有規(guī)定的任務(wù)就無法執(zhí)行了。

所以需要一種泛化能力更強的數(shù)據(jù)表達(dá),這個數(shù)據(jù)的表達(dá)是一個機緣表達(dá),用這些機緣既可以完成現(xiàn)有的任務(wù),也可以完成現(xiàn)在還沒有定義的一些任務(wù)。

這些數(shù)據(jù)表達(dá)想要得到一個比較好的結(jié)果,整個系統(tǒng)就必須做得好,包括系統(tǒng)的智力、性能(響應(yīng)時間、并發(fā)、吞吐)、效率(耗電多大)等等。

如果某套系統(tǒng)可以通過評測,那就代表這套系統(tǒng)比較智能化了。

城市大腦1.0系統(tǒng)的弊端在于:它的智能代價比較高,要么是造價高、要么就是耗電高。

如果要將城市大腦1.0升級到2.0,高文院士表示,可以借鑒人的視覺系統(tǒng),比如人的視網(wǎng)膜、視覺通道、大腦分工是非常協(xié)調(diào)和高效的。

從視網(wǎng)膜傳到大腦之間,是一個特征壓縮,被稱為:特征編碼,但這個編碼和現(xiàn)在傳統(tǒng)的圖像編碼并不一樣,它是一個特征壓縮編碼的東西送到大腦中去。

城市大腦2.0就是借鑒這樣一個系統(tǒng)提出的一個體系架構(gòu),不僅能傳特征,還能傳壓縮圖像。這個體系架構(gòu)需要數(shù)字視網(wǎng)膜的技術(shù)及其標(biāo)準(zhǔn)化,現(xiàn)在這些思路、技術(shù)、標(biāo)準(zhǔn)化都逐步到位。

2、城市大腦2.0:數(shù)字視網(wǎng)膜

高文院士認(rèn)為,城市大腦2.0是一個邊、端、云合理分工的系統(tǒng),而把邊、端、云結(jié)合的最核心的技術(shù)叫做數(shù)字視網(wǎng)膜,它是整個城市大腦2.0里面一個基本架構(gòu),又被稱為仿生視網(wǎng)膜的計算架構(gòu)。

數(shù)字視網(wǎng)膜目前有8個特征可以定義它:

1、 使用全網(wǎng)統(tǒng)一的時間;

2、 可定位,可標(biāo)識,提供精確地理位置,如GPS、Baidou北斗;

3、 視頻編碼:為了存儲和離線觀看的影像重構(gòu);

4、 特征編碼:為了模式識別和場景理解的緊湊特征表示;

5、 聯(lián)合優(yōu)化:模擬生物視網(wǎng)膜,支持視頻流與特征流聯(lián)合編碼優(yōu)化,城市大腦有兩個碼流,視頻編碼壓縮流和特征編碼壓縮流,這兩個碼流會捆綁到一起進(jìn)行傳輸,所以要有一個優(yōu)化策略,把這個帶寬到底分多少給視頻編碼、分多少給特征編碼,通過一個聯(lián)合優(yōu)化,使得整個系統(tǒng)達(dá)到最優(yōu)。

6、 模型可更新:支持端/邊深度學(xué)習(xí)模型的自適應(yīng)遷移、壓縮、更新與轉(zhuǎn)換;

7、 注意可調(diào)節(jié):模擬視覺注意機制,在端設(shè)備、感知網(wǎng)絡(luò)等層面實現(xiàn)動態(tài)注意調(diào)節(jié);現(xiàn)在的攝像頭沒有“注意”,只能人工拉近拉遠(yuǎn)調(diào)節(jié)它,做不到自動的注意可調(diào)節(jié)。

8、 軟件可定義:支持端邊云協(xié)同計算與推理,實現(xiàn)特征實時匯聚與視頻按需調(diào)取。系統(tǒng)要想升級,可以通過軟件定義的方法,對系統(tǒng)自動升級。

要想把數(shù)字視網(wǎng)膜技術(shù)全部用起來,這里面有一些使能技術(shù)。

第一個使能技術(shù),是視頻編碼。

現(xiàn)在做城市大腦、監(jiān)控系統(tǒng)都離不開視頻編碼,攝像頭里面都有一個視頻編碼芯片,視頻編碼芯片用的標(biāo)準(zhǔn),最早期是H.264,或者用AVS的編碼標(biāo)準(zhǔn)。

最近開始使用H.265或者AVS2的標(biāo)準(zhǔn),未來不久就會用上H.266和AVS3的標(biāo)準(zhǔn),這個標(biāo)準(zhǔn)差不多每10年就會更新一代,效率每10年就會提高一倍。

為什么能夠做到編碼壓縮?一個視頻就是一個圖像序列,圖像序列里面包含了很多數(shù)據(jù)的冗余,基本上有三大類冗余:一類是和空間冗余有關(guān)的,一類是和時間冗余有關(guān)的,另外一類是和編碼冗余有關(guān)的。

現(xiàn)在整個視頻編碼里面用的算法,叫做混合視頻編碼架構(gòu),這個混合就把剛才三種主流的冗余用不同的算法去掉。

比如說為了去除空間冗余,一般我們采用正交變換,比如說DCP變換等把它去除掉。

為了去除時間上的冗余,就是幀和幀上的冗余,一般我們會采取預(yù)測編碼,比如說各種各樣的濾波器,把幀間的冗余去除掉。

為了使得編碼的分配最符合熵的定義,可以使用信息熵編碼來去除編碼上的冗余。

這三個冗余都去除干凈了,整個視頻流里就可以壓得很小,只有有用的信息、有用的數(shù)據(jù)甩出去,這些冗余都被擠壓掉了,這是視頻編碼。

要想把視頻編碼做得好,算法要做得很精,隨著時間的推移,可以用計算、帶寬把這些東西一點點都去除掉。

第二個使能技術(shù),是特征編碼。

這是非常關(guān)鍵的一個使能技術(shù),這個技術(shù)的標(biāo)準(zhǔn)有兩部分核心的內(nèi)容,一部分叫CDVS,一部分叫CDVA,它們也是國際標(biāo)準(zhǔn)MPEG-7里面的兩部分。

為什么要做視覺特征的壓縮呢?因為根據(jù)不同的特征,提取出來的特征數(shù)據(jù)可能很大,如果不壓縮的話,特征數(shù)據(jù)可能比圖像本身都大,所以要么就傳個圖像過去,要傳特征的話數(shù)據(jù)太大,所以就要對它進(jìn)行特征壓縮。

怎么進(jìn)行壓縮?如果是先把圖像編碼傳過去,再提取特征,再進(jìn)行識別,和先把特征提取出來,然后把特征傳過去再識別,這兩個其實有一個剪刀差,可能有時候識別率會相差百分之二三十。

先壓縮了以后,可能有一些比較有用的特征丟了,因為所謂編碼壓縮,它是保留公共部分,把一些非公共的、非常見的東西壓縮掉了,而非常見的部分恰恰可能是特征,所以把這個打磨掉以后,它的識別率可能就下來了,所以要先提特征,再在云端技術(shù)識別這樣一個技術(shù)策略。

當(dāng)然先提特征,怎么樣提的特征體量比較小,我們初期是采用手工作業(yè)的策略,當(dāng)然手工特征怎么支持深度學(xué)習(xí),這是另外一個問題,后面我們做了第一版以后,又專門做了一個面向深度學(xué)習(xí)的編碼壓縮的框架,這個主要是給小視頻來做的,有了這兩個部分以后,基本上可以應(yīng)對圖像特征編碼和視頻特征編碼這兩個需求。

第三個使能技術(shù),叫做聯(lián)合優(yōu)化。

所謂聯(lián)合優(yōu)化,就是在視頻編碼和特征編碼之間,要找到一個最優(yōu)的結(jié)合點,使得這兩個流捆綁到一起的時候,腦力分配是最優(yōu)的,上面這個流是視頻壓縮流,下面這個流是特征壓縮流,這樣送到云里,它倆合起來是最優(yōu)的。

怎么能夠做到最優(yōu)呢?因為各自的優(yōu)化模型都是有的,比如現(xiàn)在看到的這些是上面這部分,它是一個視頻編碼優(yōu)化的流程,上面的虛線是視頻編碼,下面的虛線是特征編碼,這兩個編碼在右端,合成一個流,就是視頻和特征流。

這一個流怎么樣優(yōu)化呢?要設(shè)置一個聯(lián)合優(yōu)化流程,把它放到一起去優(yōu)化。視頻編碼的優(yōu)化模型叫RBO,RBO就是給定碼率損失最小的優(yōu)化模型,它的優(yōu)化曲線就是右下角這個曲線。在識別特征表達(dá)方面,它有一個RAO,就是給定碼率,讓精確度最高的優(yōu)化模型。

這個優(yōu)化模型給的曲線是反過來的,所以把這兩個需要優(yōu)化的東西給它放到一個優(yōu)化函數(shù)里面表達(dá)出來,就是這張圖的表達(dá),根據(jù)這個東西聯(lián)合求解一個優(yōu)化的解。

第四個使能技術(shù),是深度學(xué)習(xí)模型編碼的使能技術(shù)。

就是通過多模型的重用,通過模型壓縮更新來做。這是深度學(xué)習(xí)怎么樣去通過重用,去使得整個模型的重用精度更高。

這個重用既包括現(xiàn)有模型的重復(fù)使用,也根據(jù)目標(biāo)模型訓(xùn)練所得到的提升,使得優(yōu)化做得更好。

多模型重用,如果是在學(xué)習(xí)體系里面把它用好的話,它的性能就可以提高得比較好,所以怎么樣使得這個多模型編碼壓縮,使得在重用當(dāng)中可以快速地更新一個模型,就使得這個性能不停地提升,這兩個就是模型編碼的主要動機,有了這個就可以使得當(dāng)模型訓(xùn)練完了以后,壓縮完了以后就可以快速推到終端去升級模型。

上面這些使能技術(shù),最后它要匯總到一個芯片里面,這個芯片現(xiàn)在在北大杭州研究院下面的一家公司做出來了,第一個數(shù)字視網(wǎng)膜的芯片叫GV9531,剛才的8個特性,這個芯片全都是支持的。

除了數(shù)字視網(wǎng)膜本身以外,現(xiàn)在配合人工智能技術(shù)的推進(jìn),也在推動中國的一些AI技術(shù)的國家標(biāo)準(zhǔn),包括神經(jīng)網(wǎng)絡(luò)模型表示與壓縮的標(biāo)準(zhǔn)、城市級大數(shù)據(jù)匯集關(guān)聯(lián)的規(guī)范和標(biāo)準(zhǔn),包括這些標(biāo)準(zhǔn)研究開發(fā)的路線圖,什么時候要把哪個標(biāo)準(zhǔn)提出來完成等等。

數(shù)字視網(wǎng)膜,簡單來說是三個編碼流合并的系統(tǒng),當(dāng)然前兩個是最主要的,就是視頻流和特征流,這兩個流時時刻刻都是匯集到一起進(jìn)行傳輸?shù)?,第三個是模型編碼,只是在模型需要壓縮的時候,從云端推到邊緣端或者終端上,進(jìn)行一些增量的更新。

3、城市大腦2.0的優(yōu)勢

城市大腦1.0是一個以云計算為核心的系統(tǒng),由于系統(tǒng)各個部分分工協(xié)調(diào)不太好,所以系統(tǒng)成本比較高,響應(yīng)速度慢,數(shù)據(jù)的可利用度比較低。借鑒人的視覺系統(tǒng),比如說人的視網(wǎng)膜、視覺通道、大腦分工非常協(xié)調(diào),非常合理。

城市大腦2.0的核心在于數(shù)字視網(wǎng)膜及其標(biāo)準(zhǔn)化,它相較城市大腦1.0具備四大方面的性能提升:

1、它有先進(jìn)視頻編碼技術(shù):節(jié)省存儲和帶寬50%以上;

2、它可以定制ASIC邊緣計算:節(jié)省云計算資源90%以上;

3、它能在原始圖像上特征提?。旱脱訒r和高精度;

4、它還可以做標(biāo)準(zhǔn)化特征的提取,存儲和復(fù)用:顯著提升信息密度和價值。

現(xiàn)在鵬城實驗室對城市大腦2.0——鵬城云腦,有一些較完整的設(shè)計和規(guī)劃,鵬城云腦到現(xiàn)在為止已經(jīng)投入了幾十億元去打造,鵬城云腦只有100P的算力,雖然說只有100P的算力,這也是到目前為止國內(nèi)作為AI訓(xùn)練算力最大的一套系統(tǒng)。

后面還會有更強的系統(tǒng),現(xiàn)在有一個原型,可以有數(shù)據(jù)進(jìn)來,對數(shù)據(jù)進(jìn)行標(biāo)注、采集,可以進(jìn)行訓(xùn)練,訓(xùn)練完了以后就可以用剛才這些和芯片有關(guān)的系統(tǒng)進(jìn)行提取,然后可以分析和識別。

這個原型系統(tǒng),一般邊緣用的,甚至在云端大數(shù)據(jù)服務(wù)里面用的東西,現(xiàn)在都在逐步進(jìn)入系統(tǒng),上面會有各種各樣的參考軟件,去配合硬件的東西,最上面是開源的算法訓(xùn)練,有這些東西之后,將來在鵬城云腦上就會對城市大腦進(jìn)行比較強有力的支持。

當(dāng)然這個系統(tǒng)要想完善,可能還需要一點時間,還需要在更多的地方去做實驗驗證,等這些技術(shù)都成熟了,標(biāo)準(zhǔn)全都到位了,甚至城市大腦2.0真正運營起來,對中國的城市化、智能城市等等方面會有一個比較大的貢獻(xiàn)。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論