本文來自半導(dǎo)體行業(yè)觀察,作者/杜芹DQ。
過去幾年來,在需求的推動下,互聯(lián)網(wǎng)造芯早已家喻戶曉。尤其是過去幾年云計算、數(shù)據(jù)中心和人工智能的火熱,全球領(lǐng)先的互聯(lián)網(wǎng)企業(yè)似乎都殊途同歸,走向了AI芯片、CPU和DPU等芯片的自研道路。與此同時,他們還會根據(jù)各自業(yè)務(wù)的不同,針對性地打造了不同的芯片矩陣。
在我們還對互聯(lián)網(wǎng)造芯近年發(fā)展之快感到驚嘆之余,諸如谷歌、Meta、字節(jié)跳動和騰訊等互聯(lián)網(wǎng)公司又都無一例外地盯上了一款芯片:那就是視頻處理芯片VPU(Video Processing Unit)。
谷歌、騰訊、字節(jié)和Facebook
均已著手自研
2021年4月,谷歌發(fā)布了自研的Argos VCU(VCU是谷歌的稱法)。Argos有10個用于處理視頻的內(nèi)核,這些內(nèi)核放置在一個相當(dāng)大的散熱器下,每塊板上放置兩個芯片。谷歌聲稱它可以將計算效率提高20到33倍,以往處理4K視頻要幾天,現(xiàn)在只需數(shù)小時就行。Argos的研發(fā)成功替代了多達(dá)數(shù)千萬顆英特爾CPU,僅CPU就節(jié)省超過200億人民幣的資金投入規(guī)模。在構(gòu)建這個芯片的過程中,谷歌甚至創(chuàng)造了他們自己的EDA工具,叫做Taffel。
谷歌Argos VCU
我們正在進(jìn)入一個音視頻蓬勃發(fā)展時代,表現(xiàn)為視頻用戶數(shù)激增、視頻產(chǎn)生量巨大,視頻越來越難以被壓縮和處理。從2003年發(fā)展至今,有許多不同的視頻標(biāo)準(zhǔn)和編解碼器(如下圖所示),如果編解碼器在壓縮視頻時的效率越高,那么最終的文件尺寸更小,流更小。
圖源:谷歌在Hot Chips 33上的演講內(nèi)容
谷歌的Argos芯片能助力其使用VP9的視頻編碼器,相比前一代H.264,其視頻壓縮效率提高了40%。VP9是一種更復(fù)雜的視頻編解碼器,它允許視頻文件變得更小并保持相同的圖片質(zhì)量,它還可以存儲相同大小但質(zhì)量更高的視頻。VP9允許Google節(jié)省大量帶寬,這些帶寬通過他們的內(nèi)容交付網(wǎng)絡(luò)從數(shù)據(jù)中心流出給消費者,這反過來又大大降低了他們的成本。AV1是更高級別的視頻編碼方式,將比VP9再提高30%-40%。更高級別的壓縮通常需要更多的計算。
根據(jù)SemiAnalysis的消息來源,下一代Argos已經(jīng)在開發(fā)中。它將能夠?qū)崿F(xiàn)在CPU或GPU上難以支持的AV1格式,將實現(xiàn)進(jìn)一步的存儲和帶寬節(jié)省。此外,他們還計劃開始在新芯片上添加機(jī)器學(xué)習(xí)推理硬件。最后,他們還將在附加卡本身上添加網(wǎng)絡(luò),以提高效率并減少與主機(jī)CPU的通信。這將允許他們自動生成視頻字幕,檢查是否違反服務(wù)條款,甚至允許在YouTube和Google照片上啟用視頻搜索。
今年6月份,騰訊云發(fā)表了《騰訊的芯事》,從中我們了解到,騰訊自研的視頻轉(zhuǎn)碼芯片——“滄海”,已于2022年3月5日流片回來,并點亮。這是騰訊的第三款芯片,也是完全自主研發(fā)的第一款芯片。騰訊的滄海小分隊的目標(biāo)就是要做一款業(yè)界最強的視頻轉(zhuǎn)碼芯片,把壓縮率發(fā)揮到極致。滄海芯片采用12nm工藝,實現(xiàn)了以更小的數(shù)據(jù)量、更小的帶寬提供相同質(zhì)量的視頻,壓縮率相比行業(yè)最佳表現(xiàn)提高了30%以上。
騰訊滄海點亮
字節(jié)跳動造芯近來再次掀起一波關(guān)注高潮。據(jù)了解,字節(jié)跳動從三年前開始做視頻編解碼硬件研發(fā),去年下半年開始組建SoC團(tuán)隊,年初FPGA上線。7月20日,字節(jié)跳動副總裁楊震原在“2022火山引擎原動力大會”上接受媒體采訪時確認(rèn),字節(jié)跳動正在開展自研芯片,主要用于自身視頻推薦業(yè)務(wù)。研發(fā)團(tuán)隊將為字節(jié)跳動大規(guī)模視頻推薦服務(wù)專用場景定制硬件優(yōu)化,如視頻編解碼、云端推理加速等,以期提升性能,降低成本。
除了字節(jié)以外,另一個國內(nèi)視頻巨頭快手也在相關(guān)視頻芯片產(chǎn)品上有布局。據(jù)筆者了解,他們的相關(guān)芯片已經(jīng)會片,或許應(yīng)該能看到更多的信息披露。
此外,F(xiàn)acebook母公司Meta也正在尋求“控制關(guān)鍵技術(shù)并減少對現(xiàn)有芯片供應(yīng)商的依賴”。據(jù)悉,其也正在開發(fā)定制服務(wù)器芯片,其中一款A(yù)I推理芯片主要用于推薦算法等;另一款則主要進(jìn)行視頻轉(zhuǎn)碼任務(wù),以提高Facebook用戶觀看錄制和直播視頻的質(zhì)量。而且Facebook還聘請了一位來自英特爾的資深網(wǎng)絡(luò)芯片工程師Jon Dama來領(lǐng)導(dǎo)這家互聯(lián)網(wǎng)巨頭的基礎(chǔ)設(shè)施硬件工程組的芯片設(shè)計工作。
CPU和GPU不再經(jīng)濟(jì),
VPU或?qū)⒋蠓女惒?/span>
當(dāng)下,隨著互聯(lián)網(wǎng)內(nèi)容的不斷更新迭代,視頻流媒體已開始取代文字、圖片等形式,直播、點播、短視頻等視頻應(yīng)用正在“侵蝕”每個年齡階段的人,視頻流媒體約攻占互聯(lián)網(wǎng)80%的流量,如國外的Youtube,國內(nèi)的抖音、快手等短視頻。網(wǎng)絡(luò)已經(jīng)在內(nèi)容上走向去中心化的路線,用戶每分鐘向Youtube上傳超過700小時的YouTube視頻,抖音、快手以及騰訊微視頻等亦是如此。消費者更多的是將時間花在了用戶生成的內(nèi)容上。
在這個過程中要做的工作越來越復(fù)雜,視頻的分辨率、質(zhì)量和帶寬消耗等直接決定了用戶的粘性。抖音這幾年來是短視頻領(lǐng)域的贏家之一,很大一個原因在于其能對每個人進(jìn)行定制化的推送,背后有著強大的推薦機(jī)制。用戶對超高清視頻(4K/8K)的追求越來越高,但也帶來了更高的編解碼算力需求和CDN帶寬成本。
多年來,英特爾的CPU+軟件的視頻解碼/編碼方案一直主導(dǎo)著流媒體市場,但是隨著視頻流媒體對高質(zhì)量視頻的需求不斷增長,CPU將不再具有經(jīng)濟(jì)價值,而且會消耗太多的能耗和空間。GPU雖然有稍微更好的TCO(總擁有成本),但缺點是較低的利用率和較低的工作負(fù)載靈活性。使用GPU對于某些應(yīng)用程序來說,運行驅(qū)動程序棧是一件復(fù)雜而混亂的事情,各種版本的Linux或Windows都不能正常工作,這類軟件問題阻礙了英特爾、英偉達(dá)等GPU方案的發(fā)展,比如英特爾被取消的Xe HP tile GPU架構(gòu)。英特爾的Xe-HP計算GPU是該公司多年來啟動的第一款高性能獨立GPU,也是英特爾向公眾展示的第一款獨立Xe GPU。
英特爾的Xe-HP計算GPU
顯然,CPU和GPU都已經(jīng)不適合處理巨量的視頻業(yè)務(wù),因此VPU這種專用的視頻處理芯片應(yīng)運而生。在某種意義上,VPU比其他編碼方法更靈活。
圖源:Semianalysis
VPU是結(jié)合AI技術(shù)專門面向視頻場景優(yōu)化設(shè)計的視頻加速器,內(nèi)置視頻編碼加速專用功能模塊,具有高性能、低功耗、低延時等特性,能為視頻行業(yè)應(yīng)用帶來高效能的加速計算。
圖源:Semianalysis
一般來說,ASIC需要在它們的目標(biāo)工作負(fù)載中提供高一個數(shù)量級的更好的能力才能被行業(yè)認(rèn)可。而據(jù)SemiAnalysis對國產(chǎn)VPU芯片初創(chuàng)企業(yè)镕銘微電子(NETINT)的分析,相比于CPU和GPU,VPU的密度和功耗是CPU和GPU無法比擬的。下圖是使用HEVC編解碼器,镕銘微電子的VPU碾壓英偉達(dá)的上一代T4(有更新的基于安培GPU)和英特爾的Skylake/Cascade Lake服務(wù)器。其設(shè)計的Codensity系列VPU芯片已經(jīng)在中國超過90%的一線互聯(lián)網(wǎng)和視頻內(nèi)容客戶中得到大規(guī)模部署,并在大量海外客戶如微軟、IBM等企業(yè)中得到了廣泛應(yīng)用,他們還面向全球推出世界第一款支持AV1編碼能力的芯片級解決方案。
镕銘微電子VPU產(chǎn)品
(圖源:镕銘微電子)
另外,據(jù)相關(guān)報道,一家名為涌現(xiàn)科技的公司在這方面也有布局。該公司表示提供的Seirios視頻編解碼加速解決方案,核心的ASIC視頻編解碼芯片是由涌現(xiàn)科技研發(fā)團(tuán)隊自主研發(fā)的先進(jìn)制程芯片,通過將其安裝在執(zhí)行編碼和轉(zhuǎn)碼的視頻處理服務(wù)器上,可以在不改變服務(wù)器配置的情況下提升處理性能。減輕數(shù)據(jù)中心服務(wù)器的多媒體處理負(fù)擔(dān),降低整體功耗和成本。
從谷歌自研VPU所獲得的好處,我們也可以看出為何互聯(lián)網(wǎng)廠商紛紛發(fā)力VPU這顆芯片:一方面,互聯(lián)網(wǎng)是最講求TCO(總擁有成本)的地方,使用VPU將大大減少對CPU的使用量;另一方面,能夠根據(jù)自己的需求,打造更低的功耗和更快的芯片,這也將加強他們的戰(zhàn)略優(yōu)勢。還有一個有利條件是,他們這些互聯(lián)網(wǎng)廠商都有自己的視頻產(chǎn)品,豐富的多媒體應(yīng)用場景,以及云覆蓋的眾多直播互動頭部客戶,將為他們的研發(fā)提供得天獨厚的分析和驗證條件。再者,互聯(lián)網(wǎng)巨頭對這個賽道的看好,足以見得VPU這個市場的廣闊前景。
寫在最后
由于VPU芯片是一個對場景處理技術(shù)要求很高的產(chǎn)品,所以目前主攻ASIC VPU的芯片供應(yīng)商中似乎并不多。整體而言,目前只有少數(shù)幾家廠商真正做到了大規(guī)模實際應(yīng)用,互聯(lián)網(wǎng)廠商自研的產(chǎn)品到真正可落地實際應(yīng)用還有2-3年的時間。
中國的各類視頻應(yīng)用已然走在時代前列,同時還有龐大的用戶群體,不止如此,VPU的市場應(yīng)用場景非常多,隨著5G、移動端視頻、云游戲、云桌面、VR/AR、元宇宙等行業(yè)的高速擴(kuò)張,市場對專用視頻處理芯片的需求呈現(xiàn)爆發(fā)式增長,專用于視頻處理的ASIC芯片或?qū)⒂瓉黹L周期的藍(lán)海市場。
有研究分析,預(yù)計在未來幾年內(nèi),VPU市場規(guī)??赡軐⑦_(dá)千億美金。從CPU到GPU,再到DPU,而現(xiàn)在一個屬于VPU的時代似乎正在悄然而來,目測未來這個市場應(yīng)該會扎入更多玩家。