作者 | 阿里文娛算法專家 梵生
責(zé)編 | 李雪敬
頭圖 | CSDN下載自視覺中國
1、視覺AI的內(nèi)容創(chuàng)作理解的背景與機(jī)遇
視聽盛會,劇集、綜藝、短視頻等都是娛樂行業(yè)的主流載體,而高品質(zhì)的長視頻(劇集、綜藝)是內(nèi)容行業(yè)提升用戶粘性的關(guān)鍵,也是娛樂行業(yè)的必爭之地。但是,劇集、綜藝等長視頻面臨嚴(yán)峻的問題:劇綜的拍攝、剪輯投入巨大,制作周期長,但目前行業(yè)很難在播前甚至制作早期進(jìn)行質(zhì)量評價(jià)或品控。高投入和高不確定性的質(zhì)量評估體系形成了主要矛盾。
大數(shù)據(jù)與人工智能已經(jīng)在各個(gè)行業(yè)大展身手,而海量的視頻數(shù)據(jù)、用戶觀看數(shù)據(jù),已經(jīng)為人工智能算法提供了肥沃的土壤;視頻、音頻、文本等非結(jié)構(gòu)化數(shù)據(jù),天然符合人工智能(深度學(xué)習(xí))算法擅長的領(lǐng)域。因此,使用AI技術(shù)來對視聽介質(zhì)進(jìn)行全方位解構(gòu),并利用海量數(shù)據(jù)、發(fā)掘內(nèi)容創(chuàng)作規(guī)律,輔助內(nèi)容質(zhì)量評判是AI技術(shù)落地的一大領(lǐng)域,也是一片AI應(yīng)用的藍(lán)海。
2、內(nèi)容創(chuàng)作理解的體系—成片體檢
成片體檢是我們使用AI算法對內(nèi)容創(chuàng)作質(zhì)量進(jìn)行量化的嘗試。類比人的體檢,成片體檢主要指利用視聽AI技術(shù),計(jì)算出能夠反映內(nèi)容創(chuàng)作質(zhì)量的各個(gè)維度指標(biāo),并根據(jù)不同類型的內(nèi)容,分別計(jì)算出優(yōu)質(zhì)內(nèi)容在各個(gè)維度指標(biāo)上的最佳取值或區(qū)間,形成內(nèi)容的健康標(biāo)準(zhǔn)。我們通過AI算法,對待檢測內(nèi)容在各個(gè)維度上與健康內(nèi)容進(jìn)行比對,給出相應(yīng)維度的預(yù)警、實(shí)現(xiàn)成片質(zhì)量的體檢報(bào)告輔助剪輯優(yōu)化。我們期望做到的就是類比醫(yī)學(xué)中的高精密儀器,全方位、準(zhǔn)確地?cái)?shù)字化掃描整個(gè)內(nèi)容,進(jìn)而賦能整個(gè)內(nèi)容行業(yè)。
成片體檢的整體框架如圖 1所示。整個(gè)框架可以分為指標(biāo)層、指標(biāo)提取算法、融合層、基礎(chǔ)模型層。
1)指標(biāo)層是依賴于內(nèi)容創(chuàng)作體系所總結(jié)歸納出來的,可用以量化內(nèi)容創(chuàng)作的計(jì)算指標(biāo)。為了從原始視頻媒介得到這些指標(biāo),我們需要自下而上分別建立基礎(chǔ)算法層,算法融合層和指標(biāo)提取層;
2)基礎(chǔ)算法層指對原始視頻介質(zhì)的解析,學(xué)術(shù)上屬于典型的視頻理解與視頻解構(gòu)。基礎(chǔ)算法包括典型人物檢測、人物識別、人物重拾、場景識別、動作行為識別,也包括鏡頭切分識別、表情識別、情緒識別、景別識別、背景音樂情緒識別等內(nèi)容行業(yè)特別關(guān)注的基礎(chǔ)模型?;A(chǔ)模型往往得到一些視頻基礎(chǔ)元素級別的結(jié)果,需要經(jīng)過模型融合層的相關(guān)模型,才能形成具有內(nèi)容意義的中間結(jié)果;
3)模型融合層包括角色軌跡識別、故事場景切換,角色情緒發(fā)展模型等。指標(biāo)提取層則直接根據(jù)融合層結(jié)果或者基礎(chǔ)模型結(jié)果,結(jié)合用戶播放、評論數(shù)據(jù)篩選出的優(yōu)質(zhì)內(nèi)容,計(jì)算出內(nèi)容的健康標(biāo)準(zhǔn)。比如,一部正常的電視劇,不同番位的出鏡占比、故事線的占比是怎樣的,一般用怎樣的鏡頭時(shí)長,怎樣的景別占比;角色交互的復(fù)雜度指標(biāo)如何等等。
圖1 成片內(nèi)容體檢報(bào)告技術(shù)體系
3、成片體檢體系下的視覺技術(shù)探索
為了支撐成片體檢體系搭建,我們在音視頻基礎(chǔ)模型上進(jìn)行了一些探索。整個(gè)體檢指標(biāo)體系所需要的基礎(chǔ)模型涉及幾乎視頻理解領(lǐng)域所有的問題,包括但不限于人物(人臉)檢測、識別、跟蹤,人物重拾,人物動作識別,人物表情識別等等。為了充分發(fā)揮阿里巴巴整個(gè)集團(tuán)的技術(shù)優(yōu)勢,我們在部分模型上選取了集團(tuán)或其他團(tuán)隊(duì)的模型,比如人臉識別、動作識別等等;同時(shí),針對內(nèi)容行業(yè)的視頻介質(zhì)特點(diǎn),我們團(tuán)隊(duì)也自研了針對內(nèi)容視頻的定制優(yōu)化的人物匹配框架,視頻情感計(jì)算,劇集場景識別等基礎(chǔ)模型,并在各自領(lǐng)域的接近或者超越業(yè)內(nèi)最佳性能。下面著重介紹人物匹配框架與觀影情緒模擬這兩部分工作。
1. 劇綜人物匹配框架
成片體檢的許多指標(biāo)需要依賴于準(zhǔn)而全的視頻人物角色識別。內(nèi)容行業(yè)的視頻是多機(jī)位、多角度拍攝剪輯而成;同時(shí),根據(jù)拍攝需求,人物妝容、衣著都有著較大差異,這就導(dǎo)致了人物識別問題有別于傳統(tǒng)的人臉識別或者行人檢測。主要體現(xiàn)在:
多機(jī)位的拍攝導(dǎo)致的是非配合式的人臉識別,在側(cè)臉、背面、遠(yuǎn)景下,人臉識別尚無太好的解決方案;
鏡頭切換與剪輯有別于監(jiān)控場景,打破了視頻內(nèi)在邏輯,使得檢測跟蹤的作用有限;
根據(jù)創(chuàng)作需要,經(jīng)常交替出現(xiàn)人物的全身、半身畫面。上述特點(diǎn)會導(dǎo)致大量側(cè)臉、背面、遠(yuǎn)景、半身、全身角度下人物的丟失。無法滿足我們“準(zhǔn)”、“全”的要求。
針對上述問題,我們設(shè)計(jì)了劇綜人物匹配框架。如圖2,我們把劇集內(nèi)的人物“準(zhǔn)全”的識別,拆解為鏡頭內(nèi)和跨鏡頭的問題進(jìn)行分析。在同一鏡頭內(nèi),我們復(fù)用成熟的檢測與跟蹤,那么跨鏡頭則需要人物重拾。對于長時(shí)的多姿態(tài),則需要利用時(shí)空、人臉人體、上下文等整體信息進(jìn)行人物匹配,這就類似于多維信息下人物檢索問題。人物重拾的特征作為基礎(chǔ)特征層,被多維信息人物檢索使用。
圖2 劇集場景下的人物匹配算法框架
在基礎(chǔ)人物重拾模型上,我們提出了適用于影視行業(yè)的 DramaReID 劇集 ReID 數(shù)據(jù)集和 ESA-ReID 模型。DramaReID 數(shù)據(jù)集來自于我們海量的劇綜視頻數(shù)據(jù),覆蓋了上萬個(gè)人物的全身、半身等視角,是目前業(yè)內(nèi)已知的最大的partial reid 數(shù)據(jù)集。針對剛才提到的人物重拾問題特點(diǎn),我們提出了 Entropybased Semantic Alignment Re-ID 模型,模型的整體架構(gòu)如圖3所示。類似與傳統(tǒng)的 re-ID 模型,我們使用 ResNet50 作為主干特征提取網(wǎng)絡(luò),隨后,針對全半身比對時(shí)需要的語義級別的特征和比對,我們分別引入了語義分割多任務(wù),基于語義分割不確定性的置信度模塊和基于置信度的動態(tài)比對模塊,以解決劇綜場景下全半身人物重拾問題,得到的人物形象表征也為后續(xù)多維人物檢索做準(zhǔn)備。
圖3 ESA-ReID 模型架構(gòu)圖
具體地,我們使用成熟的語義分割模型,對待識別的人物進(jìn)行人體部件語義分割,該分割結(jié)果作為監(jiān)督信號,來訓(xùn)練我們的語義分割支路。語義分割支路得到人體各個(gè)部位的分割區(qū)域及其概率后,會經(jīng)過基于熵的不確定性計(jì)算模塊,來獲得人體高確定性和不確定的掩模區(qū)域。我們的方法是業(yè)內(nèi)首個(gè)利用熵來度量人物重拾任務(wù)中的語義分割的不確定的。
通過度量不確定性,一方面減弱語義分割的誤差對模型性能的影響,另一方面,不確定性高的區(qū)域,正好對應(yīng)了人體缺失或被遮擋的部位,可以用于人物相似度計(jì)算。通過基于熵的不確定模塊得到確定性和不確定性掩模后,我們可以得到人體各個(gè)部件的特征,以及對應(yīng)的不確定性。在計(jì)算待匹配的兩個(gè)人物的相似度時(shí),就能夠通過各個(gè)部件一一比對,并用其對應(yīng)的不確定性來做權(quán)重進(jìn)行計(jì)算。一方缺失的部件,其不確定性高,進(jìn)而權(quán)重變低甚至為0,這樣相似度就取決于待比較的兩個(gè)人物共同出現(xiàn)的身體部位的視覺特征。
整體上看,我們的 ESA Re-ID 方法是端到端的模型,在 inference 階段不依賴任何第三方模型;同時(shí),我們引入的基于熵的度量,極大程度降低了語義分割支路的誤差,并在語義部位級別進(jìn)行了對齊比對。我們的模型在業(yè)內(nèi)公開的數(shù)據(jù)集,如 Market1501, DukeMTMC 等達(dá)到了 SOTA 水平,在 Partial-ReID,PartialILID 等 partial 測試集上,大幅超越了 SOTA。在我們自建的 Drama ReID 數(shù)據(jù)集上,我們的方法也和業(yè)內(nèi)主流的 SOTA 方法進(jìn)行了比較,性能上均有巨大提升。具體可見我們后續(xù)將要公開的論文。
人物重拾的特征目前無法解決劇集中長時(shí)場景下,人物變裝變形象的問題。該問題可以定義為多維信息的人物檢索問題。多維信息包括人臉特征、人體特征、場景特征等等,業(yè)內(nèi)也有學(xué)術(shù)論文進(jìn)行了相關(guān)的研究工作。目前,我們設(shè)計(jì)了一種無監(jiān)督的,基于人臉、人體多維特征長時(shí)跨鏡頭層次聚類的方法。具體圖4。整體思路是,我們期望在時(shí)域局部使用人物重拾特征進(jìn)行人物合并,而在全時(shí)域使用人物與人臉特征進(jìn)行合并,這樣綜合人臉和人體重拾特征的層次聚類,在聚類的純度、精度都有巨大提升。
圖4 人物層次聚類示意圖
在使用了上述的人物匹配框架之后,我們的劇綜人物的準(zhǔn)確率、召回率都有10%以上的提升,不僅為成片體檢提供了準(zhǔn)確的人物類數(shù)據(jù)與指標(biāo),還為優(yōu)酷的“只看他“業(yè)務(wù)提供了算法支撐,提升了人物召回率,降低審核成本。
2. 觀影情緒模擬
共情是內(nèi)容拉動觀眾的核心,預(yù)測內(nèi)容能給觀眾帶來的情感體驗(yàn)是內(nèi)容體檢的另一個(gè)重要且直觀的指標(biāo),能夠在內(nèi)容播放前就預(yù)測觀眾的觀看的結(jié)果,比如情緒高點(diǎn)、低谷,或者平局的情緒高點(diǎn)的時(shí)長占比等,將對視頻優(yōu)化有重要指導(dǎo)意義。直接通過視頻內(nèi)容來預(yù)測觀眾的情感狀態(tài)是音視頻和情感計(jì)算交叉領(lǐng)域問題。在情感計(jì)算領(lǐng)域,除了使用典型的7類情感之外,學(xué)術(shù)界會使用 Valence 和 Arousal 二維情緒模型,來細(xì)粒度全面描述人的情感狀態(tài)。Arousal可以理解為是情緒的強(qiáng)度,范圍為(-1,1),1表示最強(qiáng),如激動,-1 表示最弱,比如睡著的狀態(tài)。Valence表示情緒的正負(fù)(-1,1),1表示正向,-1表示負(fù)向。那么任何情感狀態(tài)均可以使用在 Valence 和 Arousal 的坐標(biāo)系中表示。另一方面,視頻表征領(lǐng)域,可以利用視頻的場景、人物、行為姿態(tài)、背景音樂等多個(gè)維度共同表征視頻特點(diǎn)。那么上述觀影情緒模擬就是建立上述視頻表征到情感狀態(tài)的映射函數(shù)。
基于學(xué)術(shù)界的相關(guān)研究和已有的開源數(shù)據(jù)集,我們提出了基于多維視頻表征的情緒預(yù)測模型,模型的輸入是連續(xù)的劇綜片段,輸出預(yù)測的用戶逐時(shí)情緒 Valence 和 Arousal 值。
圖5 觀影情緒模擬模型結(jié)構(gòu)圖
模型的整體結(jié)構(gòu)如圖5所示:首先,將整個(gè)視頻分成連續(xù)的固定長度的片段,隨后,對每個(gè)片段進(jìn)行基礎(chǔ)特征提取。在基礎(chǔ)特征上,我們使用了分別提取了場景特征,人物表情特征,人物行為特征和音頻特征。具體地、場景特征使用了基于 Places365 數(shù)據(jù)集 pretrained 的 Vgg6 作為特征提取器,提取每幀的場景表征;人物表情特征則使用了我們自研的人物幀級別表情模型作為特征提取器,逐幀提取該幀圖片的人物特征;行為特征使用了 OpenPose 的預(yù)訓(xùn)練主干網(wǎng)絡(luò),音頻特征使用了基于梅爾倒譜和 Vggish 的特征提取器提取音頻幀特征。
在得到各個(gè)模態(tài)的逐幀表征后,我們引入了長短時(shí)融合機(jī)制,以反映情緒隨時(shí)間具有依賴性的特點(diǎn),并兼顧長期趨勢和短期波動。在短時(shí)特征融合上,我們將每幀的各個(gè)模態(tài)特征,分別送入各自的 LSTM 層,得到各個(gè)模態(tài)在該視頻段落的最終表征。經(jīng)過 LSTM 之后的多模態(tài)特征經(jīng)過合并后,再次送入第二層 LSTM,該層 LSTM 的輸入是相鄰視頻段的融合后的模態(tài)表征,輸出的是每個(gè)視頻段的 Valence 或 Arousal 值。第一層 LSTM 是短時(shí)時(shí)序融合,第二層 LSTM 則是長時(shí)時(shí)序融合??紤]到 Valence 和 Arousal 存在一定差異,我們對兩者分別進(jìn)行建模。人的情緒強(qiáng)度往往具有更強(qiáng)的平滑性,而 Valence 則可以隨片段快速轉(zhuǎn)變。因此我們對 Arousal 部分進(jìn)行了滑動平均處理,得到最終的 Arousal 結(jié)果。我們的模型在開源的多媒體情感計(jì)算數(shù)據(jù)集上,在 MSE,PCC 等指標(biāo)均超過了業(yè)內(nèi)的 SOTA 水平。模型具體實(shí)現(xiàn)和數(shù)據(jù)測評見我們公開的論文(https://arxiv.org/abs/1909.01763)。
情感模擬反映了用戶對內(nèi)容的真實(shí)感受,我們使用模型的結(jié)果和真實(shí)線上視頻的收視數(shù)據(jù)進(jìn)行了對比,發(fā)現(xiàn)了驚人的一致性。這就充分證明了模型的使用價(jià)值。圖6是在電影《我不是藥神》的 case 和《長安十二時(shí)辰》收視曲線和 Arousal 曲線的比對結(jié)果??梢钥吹剑凇段也皇撬幧瘛返?Valence 預(yù)測中,我們的情感 Valence 正確的反映了電影前喜后悲的情感趨勢。圖7是《長安十二時(shí)辰》的情緒 Arousal 預(yù)測和收視曲線比對,發(fā)現(xiàn)情緒高潮點(diǎn)和低點(diǎn)對應(yīng)了收視高點(diǎn)和低點(diǎn),這進(jìn)一步證實(shí)了用戶情緒模擬的巨大業(yè)務(wù)價(jià)值。
圖7 長安十二時(shí)辰收視曲線與 Arousal 預(yù)測對比
成片體檢的應(yīng)用與未來
目前,我們已經(jīng)建立了基本的基于人物和情感的體檢體系,并根據(jù)全網(wǎng)頭部劇集,建立了各個(gè)題材相應(yīng)的“健康標(biāo)準(zhǔn)“。覆蓋了主要的劇綜播前評估與優(yōu)化。在人物側(cè),通過人物識別得到的故事線、人物出鏡指標(biāo),幫助我們發(fā)現(xiàn)了前期熱播的劇集在第一集主人公故事線缺失的預(yù)警,并得到片方認(rèn)可和修改。我們的情緒模擬曲線,全面在覆蓋優(yōu)酷的自制綜藝、劇集、網(wǎng)大。其中,通過網(wǎng)大開放平臺對業(yè)內(nèi)透出的體檢能力,能夠?yàn)榫W(wǎng)大片方檢測成片的高潮低谷,和相對業(yè)內(nèi)優(yōu)質(zhì)內(nèi)容的水位參考,為平臺帶來了大量的簽約與合作,不少內(nèi)容經(jīng)過體檢和優(yōu)化后成為了網(wǎng)大爆款,如圖8。
圖8 開放平臺內(nèi)容輔助優(yōu)化效果喜報(bào)
未來,整個(gè)成片體檢將會更加深入和精細(xì)化。從應(yīng)用角度看,我們將繼續(xù)擴(kuò)展體檢維度,同時(shí)深入題材特有的細(xì)粒度體檢指標(biāo),形成題材定制化體檢能力。在整個(gè)視覺AI技術(shù)上,圍繞成片體檢,我們將繼續(xù)在多模態(tài)人物檢索,多模態(tài)情感計(jì)算,人物交互片段檢測與關(guān)系屬性識別等理解視頻劇綜內(nèi)容所面臨的特有的問題上深入研究,持續(xù)向文娛行業(yè)輸出算法成果與能力。