3月12日,中國(guó)傳媒大學(xué)信息工程學(xué)院副教授王鑫在CIO時(shí)代APP微講座欄目作了題為《廣播電視個(gè)性化節(jié)目推薦系統(tǒng)》的主題分享,具體從廣播電視大數(shù)據(jù)的由來(lái)、廣播電視大數(shù)據(jù)決策知識(shí)系統(tǒng)及個(gè)性化節(jié)目推薦系統(tǒng)三部分進(jìn)行介紹。
一、廣播電視大數(shù)據(jù)的由來(lái)
傳統(tǒng)廣播電視收視率調(diào)查方法采用抽樣調(diào)查的方法,其中包括日記卡和測(cè)量?jī)x兩種,日記卡數(shù)據(jù)采集的方式為對(duì)4歲以上的人員,人工填寫(xiě),每周進(jìn)行回收;記錄時(shí)間以15分鐘為記錄單位;數(shù)據(jù)提供的速度是15個(gè)工作日,人工進(jìn)行采集。因此,對(duì)于一張記錄卡,一人一周的數(shù)據(jù)采用基于回憶的方法進(jìn)行數(shù)據(jù)統(tǒng)計(jì)。測(cè)量?jī)x則不同,它是采用遙控器特殊操作、儀器調(diào)查,以1秒鐘為測(cè)量單位,24小時(shí)為一個(gè)統(tǒng)計(jì)周期,凌晨固定時(shí)間回傳,但遙控器家庭成員鍵配合度低不能實(shí)時(shí)對(duì)數(shù)據(jù)進(jìn)行采集。
根據(jù)統(tǒng)計(jì)學(xué)理論,樣本數(shù)據(jù)要達(dá)到1067個(gè)以上,允許的誤差才能達(dá)到3%以下。另外,廣播電視對(duì)于測(cè)量的樣本有一定的要求,需要家庭常駐半年以上,周居住超過(guò)5天的,且家里有電視、經(jīng)常收看電視節(jié)目的人群。
1.傳統(tǒng)收視率調(diào)查方法存在的問(wèn)題
1)抽樣誤差
以央視-索福瑞(CSM)為例:全國(guó)650個(gè)城市,總樣本戶<5萬(wàn)戶,平均每城市不足百戶,只有北、上、廣等少數(shù)城市的樣本戶達(dá)到500個(gè)。
2)樣本戶污染
樣本“污染”難以避免。樣本戶相對(duì)固定,隱蔽性差;且日記法、測(cè)量?jī)x要求受眾參與性強(qiáng),可以被“收買(mǎi)”。
3)代表性
樣本更換及跟蹤難度大,要求人員固定,只能是常駐特定居民。
4)數(shù)據(jù)單一
受制于采集手段,往往只有直播數(shù)據(jù),缺乏常見(jiàn)的時(shí)移、回看。
5)只支持傳統(tǒng)指標(biāo)
6)時(shí)效性差;遇到特殊情況,需要人工修改數(shù)據(jù)
7)樣本戶維護(hù)成本越來(lái)越高
2.電視大數(shù)據(jù)采集的要求
1)用戶行為數(shù)據(jù)
誰(shuí)在什么時(shí)間看了什么頻道、節(jié)目、頁(yè)面
2)用戶特征信息
用戶是什么人(地區(qū)、年齡、性別、職業(yè)、學(xué)歷、收入)
3)媒體資源信息
什么渠道、在什么時(shí)間播了什么類(lèi)型的節(jié)目
4)用戶消費(fèi)信息
誰(shuí)購(gòu)買(mǎi)了什么服務(wù)
5)服務(wù)端業(yè)務(wù)信息
誰(shuí)在什么時(shí)間使用了什么服務(wù)
6)終端采集
覆蓋三網(wǎng)、多屏;全網(wǎng)數(shù)據(jù)采集
3.電視大數(shù)據(jù)分析的要求
不僅需要常規(guī)的直播數(shù)據(jù),還需包括點(diǎn)播、時(shí)移回看、廣告業(yè)務(wù)及其他增值業(yè)務(wù)等數(shù)據(jù)。
1)直播
收視時(shí)長(zhǎng)、收視率、到達(dá)率、接觸度、市場(chǎng)份額、觀眾忠誠(chéng)度等。
創(chuàng)新指標(biāo):節(jié)目相對(duì)吸引力、收視率分布等。
2)點(diǎn)播
VOD業(yè)務(wù)使用及VOD節(jié)目指標(biāo)。
各時(shí)段在線戶數(shù)、在線率;到達(dá)戶數(shù)、到達(dá)率、點(diǎn)播戶數(shù)、點(diǎn)播率、收看時(shí)長(zhǎng)、頁(yè)面點(diǎn)擊等。
創(chuàng)新的競(jìng)爭(zhēng)力指標(biāo):時(shí)間轉(zhuǎn)化率、點(diǎn)擊轉(zhuǎn)化率。
按欄目、按供應(yīng)商分別分析。
3)時(shí)移、回看
業(yè)務(wù)各時(shí)段在線戶數(shù)、在線率、頁(yè)面點(diǎn)擊率等。
各頻道及節(jié)目的收視時(shí)長(zhǎng)、收視率、到達(dá)戶數(shù)、到達(dá)率、市場(chǎng)份額等。
4)廣告業(yè)務(wù)
按各廣告位、廣告包進(jìn)行指標(biāo)分析。
各廣告位曝光頻次、n+曝光率、n+到達(dá)戶數(shù)、有效曝光率、有效到達(dá)戶數(shù)等。
5)其它增值業(yè)務(wù)
業(yè)務(wù)各時(shí)段在線戶數(shù)、在線率、頁(yè)面點(diǎn)擊率等。
其它定制指標(biāo)分析。
4.廣播電視大數(shù)據(jù)的特點(diǎn)
1)數(shù)據(jù)準(zhǔn)確、分析計(jì)算誤差小;公正、抗污染、不易造假
全網(wǎng)海量用戶收視數(shù)據(jù)分析,全方位、無(wú)死角,尤其對(duì)弱勢(shì)頻道、非黃金時(shí)段節(jié)目的數(shù)據(jù)分析更準(zhǔn)確,使其數(shù)據(jù)有意義,更能反映實(shí)際情況;
全網(wǎng)雙向用戶可達(dá)千萬(wàn)以上,用戶污染影響微乎其微;
2)指標(biāo)更有價(jià)值
例如忠誠(chéng)度、競(jìng)爭(zhēng)力指標(biāo)等,對(duì)低收視率的頻道和節(jié)目,能提供更多參考依據(jù);
3)能提供輿情分析
根據(jù)全網(wǎng)用戶的收視行為,結(jié)合節(jié)目播出信息,可以分析輿情;
涉及輿情及國(guó)家信息安全,不建議外資公司參與;
4)能了解每一個(gè)用戶的偏好,提供個(gè)性化服務(wù)
5)技術(shù)難度大
采用傳統(tǒng)手段采集海量用戶收視數(shù)據(jù),成本太高;
采用終端數(shù)據(jù)回傳,需要掌握嵌入式設(shè)備、計(jì)算機(jī)、網(wǎng)絡(luò)相關(guān)的關(guān)鍵技術(shù);
全網(wǎng)收視數(shù)據(jù)是海量數(shù)據(jù)(以歌華為例,420萬(wàn)用戶每天>2億條),傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)無(wú)法支撐,需掌握大數(shù)據(jù)處理系統(tǒng)的架構(gòu)、算法、專(zhuān)業(yè)工具等核心技術(shù);
二、廣播電視大數(shù)據(jù)決策知識(shí)系統(tǒng)架構(gòu)
1.系統(tǒng)郵件部署的方式
系統(tǒng)硬件部署采取分級(jí)的方式,包括數(shù)據(jù)采集系統(tǒng)、數(shù)據(jù)傳輸存儲(chǔ)系統(tǒng)及數(shù)據(jù)分析挖掘系統(tǒng)。
第一級(jí)進(jìn)行數(shù)據(jù)采集,通過(guò)雙向網(wǎng)絡(luò)采集雙向機(jī)頂盒數(shù)據(jù)匯集至邊際站點(diǎn);
第二級(jí)進(jìn)行數(shù)據(jù)傳輸、存儲(chǔ)。匯總邊際站點(diǎn)的收視數(shù)據(jù)、以及用戶特征信息和節(jié)目信息及分類(lèi)數(shù)據(jù)形成收視數(shù)據(jù)庫(kù),同時(shí)匯總VOD、時(shí)移等業(yè)務(wù)數(shù)據(jù)、BOSS等經(jīng)營(yíng)數(shù)據(jù)。
第三級(jí)進(jìn)行數(shù)據(jù)挖掘分析。將匯總的各類(lèi)數(shù)據(jù)回傳至數(shù)據(jù)分析中心進(jìn)行數(shù)據(jù)挖掘,將得到的分析結(jié)果以PC機(jī)、iPad、手機(jī)等終端形式呈現(xiàn)。
2.廣播電視大數(shù)據(jù)決策知識(shí)系統(tǒng)的體系結(jié)構(gòu)
由此可以看出,廣播電視大數(shù)據(jù)決策知識(shí)系統(tǒng)包含了不同的體系結(jié)構(gòu):
終端層采集數(shù)據(jù)源包括:標(biāo)清機(jī)頂盒、高清機(jī)頂盒和智能電視
數(shù)據(jù)采集層采集數(shù)據(jù)包括:直播數(shù)據(jù)采集、點(diǎn)播數(shù)據(jù)采集、回看數(shù)據(jù)采集、時(shí)移數(shù)據(jù)采集、廣告數(shù)據(jù)采集、卡拉OK數(shù)據(jù)采集等。
數(shù)據(jù)存儲(chǔ)層通過(guò)管理控制層和數(shù)據(jù)服務(wù)層對(duì)數(shù)據(jù)進(jìn)行綜合綜合傳輸和存儲(chǔ)。
數(shù)據(jù)分析曾是軟件系統(tǒng)架構(gòu)的核心部分:包含實(shí)時(shí)數(shù)據(jù)分析和非實(shí)時(shí)數(shù)據(jù)分析兩大部分。
3.廣播電視大數(shù)據(jù)采集技術(shù)
廣播電視大數(shù)據(jù)采集技術(shù)采用了Hadoop的部署方案,采集服務(wù)器將終端機(jī)頂盒采集得到的數(shù)據(jù)回傳至中心服務(wù)器,并交由不同的服務(wù)器分別實(shí)現(xiàn)實(shí)時(shí)分析和Web展現(xiàn)等功能。
4.廣播電視大數(shù)據(jù)存儲(chǔ)技術(shù)
在大數(shù)據(jù)存儲(chǔ)計(jì)算方面:充分發(fā)揮了Hadoop集群的優(yōu)勢(shì),采用MapReduce的分布式計(jì)算系統(tǒng)。
5.廣播電視大數(shù)據(jù)分析挖掘技術(shù)
廣播電視大數(shù)據(jù)分析挖掘技術(shù)中,采用了SaaS、R、Python、Spss等不同的工具,建立的模型包含了支持向量機(jī)、決策樹(shù)、貝葉斯、神經(jīng)網(wǎng)絡(luò)等多種不同的算法。
6.廣播電視大數(shù)據(jù)分析的常規(guī)案例
1)節(jié)目基因標(biāo)簽標(biāo)注
打破了傳統(tǒng)的廣播電視節(jié)目分類(lèi)體系及“知識(shí)樹(shù)”的結(jié)構(gòu),采用了扁平化的平行關(guān)系,通過(guò)從互聯(lián)網(wǎng)采集節(jié)目的標(biāo)簽數(shù)據(jù),加上廣播節(jié)目的標(biāo)簽信息,采用扁平化的標(biāo)簽對(duì)節(jié)目進(jìn)行標(biāo)注。
2)用戶肖像刻畫(huà)
基于節(jié)目標(biāo)簽,定義用戶興趣度;基于節(jié)目類(lèi)型,分析單個(gè)用戶對(duì)哪類(lèi)節(jié)目最感興趣。
3)用戶分群技術(shù)
將用戶分群,描述為無(wú)收視、低偏好、中偏好、高偏好幾類(lèi);分析群體偏好,精確至下面的小類(lèi)。
三、廣播電視個(gè)性化節(jié)目推薦系統(tǒng)
高度信息化的社會(huì)每天都會(huì)產(chǎn)生海量信息,如何從海量信息中找到用戶所喜愛(ài)的節(jié)目,為用戶進(jìn)行個(gè)性化服務(wù)常常困擾著用戶。目前互聯(lián)網(wǎng)各大視頻網(wǎng)站紛紛推出個(gè)性化節(jié)目推薦系統(tǒng),但廣播電視領(lǐng)域還處于一片空白。為此,基于大數(shù)據(jù)提供廣播電視個(gè)性化節(jié)目推薦系統(tǒng),為用戶提供個(gè)性化服務(wù)。
在陜西省網(wǎng)中收集到40多萬(wàn)雙向用戶,每天凌晨將前一天的用戶的收視數(shù)據(jù)上傳到北京的機(jī)房。在北京,北京歌華有線電視網(wǎng)絡(luò)股份有限公司目前采集到420多萬(wàn)雙向用戶數(shù)據(jù)。
以上圖為例,左邊是節(jié)目收視板塊,可以看到不同用戶在不同收視日期內(nèi)看到的不同節(jié)目,而不同的節(jié)目具有不同的節(jié)目特征,在右邊的用戶偏好板塊中,將用戶的節(jié)目類(lèi)型進(jìn)行偏好,可看到用戶所喜愛(ài)的不同節(jié)目類(lèi)別,當(dāng)定義到某個(gè)用戶時(shí),可以看到該用戶的節(jié)目偏好情況。針對(duì)用戶的不同偏好提供不同的個(gè)性化服務(wù)。
本套系統(tǒng)初期選取陜西省網(wǎng)2萬(wàn)家庭用戶作為本項(xiàng)目的試點(diǎn)用戶,對(duì)其免費(fèi)提供個(gè)性化節(jié)目推薦服務(wù);未來(lái),將對(duì)本套系統(tǒng)進(jìn)行進(jìn)一步擴(kuò)展,擴(kuò)大用戶規(guī)模,向陜西40萬(wàn)用戶和北京420萬(wàn)用戶全面推放本系統(tǒng),擁有廣泛的發(fā)展前景。
個(gè)性化節(jié)目推薦系統(tǒng)面向廣播電視各類(lèi)人群,在為各類(lèi)人群提供不同服務(wù)時(shí),可產(chǎn)生各類(lèi)回報(bào)。對(duì)廣告商而言,在為用戶提供個(gè)性化推薦的同時(shí),可精準(zhǔn)定位用戶偏好,進(jìn)行廣告精準(zhǔn)投放;廣告收益是本項(xiàng)目的主要收入,節(jié)目制作商關(guān)心何種節(jié)目受歡迎,電視臺(tái)關(guān)心頻道收視率如何,從他們那里收取的信息服務(wù)費(fèi)是本項(xiàng)目的增值收入;網(wǎng)絡(luò)運(yùn)營(yíng)商關(guān)心VOD價(jià)值如何以及潛在使用增值業(yè)務(wù)的是,個(gè)性化節(jié)目推薦系統(tǒng)可以完全滿足用戶的需求,視頻點(diǎn)播收入是本項(xiàng)目的另一創(chuàng)收點(diǎn)。另外,本項(xiàng)目彌補(bǔ)了廣播電視領(lǐng)域的技術(shù)空白,政府職能部門(mén)予以一定的支持。
中國(guó)傳媒大學(xué)理工學(xué)部,旗下成立了大數(shù)據(jù)分析挖掘研究院。作為其中的負(fù)責(zé)人,承擔(dān)了很多課題,包括廣播電視個(gè)性化節(jié)目推薦系統(tǒng)、廣播電視輿情分析系統(tǒng)及未來(lái)將進(jìn)行的電影影視大數(shù)據(jù)分析系統(tǒng)。愿各位老師加強(qiáng)合作。