企業(yè)對(duì)AI科技的應(yīng)用不斷增長(zhǎng)和擴(kuò)張,AI開發(fā)人員也在努力證明機(jī)器學(xué)習(xí)為不同業(yè)務(wù)區(qū)間增加價(jià)值的強(qiáng)勁能力??梢韵胍?,作為一個(gè)關(guān)注以文本及視覺形式交流思想的行業(yè),新聞業(yè)必然要積極采用數(shù)據(jù)科學(xué)工具與技術(shù)以支持?jǐn)?shù)據(jù)分析及可視化。
《紐約時(shí)報(bào)》自2012年起就建立起數(shù)據(jù)科學(xué)小組,但這支隊(duì)伍經(jīng)過近十年的發(fā)展才剛剛走出實(shí)驗(yàn)階段,開始在企業(yè)之內(nèi)扮演重要角色——即通過機(jī)器學(xué)習(xí)增加價(jià)值?!都~約時(shí)報(bào)》數(shù)據(jù)科學(xué)總監(jiān)Colin Russel運(yùn)用自己在預(yù)測(cè)建模與設(shè)計(jì)方面的深厚背景,配合機(jī)器學(xué)習(xí)算法將《紐約時(shí)報(bào)》的大量數(shù)據(jù)融入模型及可視化體系當(dāng)中,借此為各個(gè)部門提供有力支持。
AI應(yīng)用
《紐約時(shí)報(bào)》已經(jīng)投資建立起多支機(jī)器學(xué)習(xí)團(tuán)隊(duì),將數(shù)據(jù)科學(xué)、數(shù)據(jù)分析與工程等要素結(jié)合起來。這些團(tuán)隊(duì)又具體分為不同的數(shù)據(jù)科學(xué)小組,一部分面向新聞編輯室工作、一部分面向團(tuán)隊(duì)營(yíng)銷、也有一部分負(fù)責(zé)各類業(yè)務(wù)運(yùn)營(yíng)。雖然各個(gè)小組分別只面向企業(yè)整體業(yè)務(wù)中的特定方面,但他們都在努力構(gòu)建起一套統(tǒng)一的機(jī)器學(xué)習(xí)平臺(tái),將所有彼此重疊的部署與基礎(chǔ)設(shè)施開發(fā)成果集中起來以供整體使用。
在傳統(tǒng)上,由于存在明顯的利益沖突,新聞編輯部及編輯業(yè)務(wù)往往與企業(yè)業(yè)務(wù)部門互不往來,在創(chuàng)收活動(dòng)及新聞活動(dòng)等工作上也明確保持分離。由于這種分離,大型企業(yè)在AI領(lǐng)域的探索往往面臨挑戰(zhàn),特別是難以在AI實(shí)施的流程與目標(biāo)方面進(jìn)行清晰且持續(xù)的跨部門溝通。
但面對(duì)阻力,《紐約時(shí)報(bào)》仍努力將運(yùn)用數(shù)據(jù)推動(dòng)決策及洞見的習(xí)慣在整個(gè)組織內(nèi)傳播,著力通過數(shù)據(jù)分析制定業(yè)務(wù)決策、培養(yǎng)新聞與編輯洞察能力。在如今這個(gè)多數(shù)人每天通過社交媒體獲取新聞的時(shí)代,新聞編輯室自然也需要關(guān)注數(shù)據(jù)、把握《紐約時(shí)報(bào)》受眾的興趣所在。同樣的,運(yùn)營(yíng)部門也高度關(guān)注數(shù)據(jù)驅(qū)動(dòng)型洞見,希望提高廣告宣傳效果、向讀者提供優(yōu)化內(nèi)容,并提升各類運(yùn)營(yíng)及產(chǎn)品宣傳的可見性。
AI技術(shù)
雖然不少企業(yè)選擇AI工具外包,但《紐約時(shí)報(bào)》更強(qiáng)調(diào)原研開發(fā)而非直接購(gòu)買。AI技術(shù)的實(shí)施往往不是項(xiàng)目中最困難的部分,真正的挑戰(zhàn)大多來自在數(shù)據(jù)設(shè)計(jì)、組織及操作層面進(jìn)行有效建模。遙想立項(xiàng)之初,數(shù)據(jù)可謂無處不在,數(shù)據(jù)科學(xué)家只能從浩如煙海的記錄當(dāng)中逐一收集來自企業(yè)內(nèi)不同部門的憑證。數(shù)據(jù)獲取難度再加上確定適用于模型的具體數(shù)據(jù)內(nèi)容,反而令A(yù)I的具體實(shí)現(xiàn)技術(shù)成為相對(duì)簡(jiǎn)單的部分。
由于企業(yè)內(nèi)不同部門間的關(guān)注重點(diǎn)與優(yōu)先事項(xiàng)各不相同,因此AI開發(fā)者必須弄清楚如何在相互競(jìng)爭(zhēng)當(dāng)中取得平衡?!都~約時(shí)報(bào)》最近進(jìn)行了一輪大規(guī)模整改,希望能將數(shù)據(jù)整合至云端。如此一來,他們就能從零起步,輕松上傳不同部門的后續(xù)數(shù)據(jù)。
應(yīng)對(duì)變量
數(shù)據(jù)科學(xué)與機(jī)器學(xué)習(xí)模型都要經(jīng)歷驗(yàn)證與評(píng)估過程,旨在衡量基準(zhǔn)性能并測(cè)試開發(fā)中的模型、確定還有哪些改進(jìn)空間。AI應(yīng)用的一大難題,在于很難量化目標(biāo)并選定需要優(yōu)化的指標(biāo)。在新聞與雜志行業(yè),新聞周期本身就存在巨大的波動(dòng)性。例如,新冠疫情給企業(yè)帶來了突如其來的沖擊,要求民眾隨時(shí)都能免費(fèi)訪問疫情趨勢(shì)的相關(guān)新聞。這意味著原本以吸引付費(fèi)訂閱用戶為核心的業(yè)務(wù)體系,突然就具備了某種程度的公共服務(wù)屬性,甚至需要在發(fā)布大量可以免費(fèi)訪問的信息。這些都是新聞行業(yè)以往從未面對(duì)過的態(tài)勢(shì)。
另外,某些特定推薦算法在不同類型的新聞周期中反應(yīng)更好,因此需要根據(jù)協(xié)議對(duì)模型進(jìn)行重新訓(xùn)練,確保模型性能與新聞周期密切關(guān)聯(lián)。為了評(píng)估模型質(zhì)量,數(shù)據(jù)科學(xué)團(tuán)隊(duì)需要充分評(píng)估新聞周期與環(huán)境影響,這一切又延長(zhǎng)了模型的籌備時(shí)間。目前Colin和他的團(tuán)隊(duì)正在努力攻克不同新聞周期中適用使用哪些模型這道現(xiàn)實(shí)難關(guān)。
對(duì)于任何企業(yè),AI與機(jī)器學(xué)習(xí)算法的實(shí)施和應(yīng)用都絕非易事,與之對(duì)應(yīng)的技術(shù)、指標(biāo)及數(shù)據(jù)確認(rèn)工作同樣復(fù)雜異常。