自動(dòng)文本摘要是機(jī)器學(xué)習(xí)算法正在努力的方向之一,微軟近期發(fā)布的相關(guān)論文也表明了這一趨勢(shì)。對(duì)于那些每天要閱讀大量文字信息的工作者們來(lái)說(shuō),這是一個(gè)值得慶賀的好消息。有調(diào)查顯示,這類工作者每天僅在閱讀信息上就要花費(fèi)大約2.6小時(shí)。
相應(yīng)的,Google Brain和倫敦帝國(guó)理工學(xué)院的一個(gè)團(tuán)隊(duì)構(gòu)建了一個(gè)系統(tǒng)——Pegasus(Pre-training with Extracted Gap-sentences for Abstractive Summarization Sequence-to-sequence),它使用了谷歌的變形金剛架構(gòu),結(jié)合了針對(duì)文本摘要能力的預(yù)訓(xùn)練目標(biāo)。據(jù)稱,它在12種測(cè)試中均達(dá)到了達(dá)到最先進(jìn)的水平,這些測(cè)試包括了科學(xué)、故事、電子郵件、專利和立法法案等。不僅如此,它在材料缺乏的文本整合測(cè)試中也表現(xiàn)驚人。
正如研究人員指出的那樣,文本摘要的目的是總結(jié)輸入的文檔,生成其準(zhǔn)確和簡(jiǎn)潔的摘要。
抽象的摘要也不是簡(jiǎn)單地從輸入的文本中復(fù)制粘貼文字的片段,而是會(huì)產(chǎn)生新單詞或總結(jié)重要信息,從而使輸出的語(yǔ)言保持流暢。
變形金剛是Google Brain (谷歌的人工智能研究部門)的研究人員在介紹的一種神經(jīng)結(jié)構(gòu)。
它提取特征以及學(xué)習(xí)做出預(yù)測(cè)的方式和所有的深度神經(jīng)網(wǎng)絡(luò)一樣:神經(jīng)元被安排在相互連接的層中,這些層傳遞著輸入數(shù)據(jù)的信號(hào),調(diào)整每個(gè)連接的權(quán)重。
但變形金剛架構(gòu)又有其獨(dú)特之處:每個(gè)輸出元素和每個(gè)輸入元素都有連接,并動(dòng)態(tài)計(jì)算它們之間的權(quán)重。
在測(cè)試中,研究小組選擇了表現(xiàn)最佳的Pegasus模型,該模型包含了5.68億個(gè)參數(shù)。它有兩個(gè)訓(xùn)練材料。一個(gè)是從3.5億個(gè)網(wǎng)頁(yè)中提取出來(lái)的文本,有750GB。還有一個(gè)訓(xùn)練材料則覆蓋了15億篇新聞?lì)愋偷奈恼?,總?jì)3.8TB。研究人員說(shuō),在后者的情況下,他們用白名單域來(lái)植入網(wǎng)絡(luò)爬蟲(chóng)工具,覆蓋了質(zhì)量參差不齊的內(nèi)容。
根據(jù)研究員的說(shuō)法,Pegasus生成的摘要語(yǔ)言非常優(yōu)秀,流暢性和連貫性都達(dá)到了高水準(zhǔn)。此外,在文本匱乏的環(huán)境中,即使只有100篇示例文章,它生成的摘要質(zhì)量與在20,000到200,000篇文章的完整數(shù)據(jù)集上訓(xùn)練過(guò)的模型相當(dāng)。