維基百科社區(qū)是一個由可公開編輯的內(nèi)容模型構(gòu)建的免費百科全書平臺,但是因用戶可以惡意篡改詞條而臭名昭著。這個問題的嚴(yán)重性導(dǎo)致活躍的貢獻(xiàn)者或編輯人員(每月進(jìn)行一次編輯)的人數(shù)在八年期間下降了40%。盡管沒有一個解決方案可以解決這個問題,但支持維基百科的非營利組織維基媒體基金會決定使用AI來更多地了解問題,并考慮如何解決這個問題。
注:維基媒體基金會(英語:Wikimedia Foundation, Inc.),簡稱維基媒體,是負(fù)責(zé)維基百科、維基詞典、維基語錄、維基教科書、維基文庫、維基物種、維基新聞、維基導(dǎo)游和維基共享資源項目的非營利組織。
維基媒體基金會和Jigsaw合作以阻止惡意評論泛濫
為了阻止惡意評論,維基媒體基金會與Jigsaw(科技孵化器,前身為Google Ideas)合作開展一項名為Detox的研究項目,目的是使用機器學(xué)習(xí)來標(biāo)記可能涉及到人身攻擊的評論。該項目是Jigsaw計劃的一部分,旨在構(gòu)建開源AI工具,以幫助打擊社交媒體平臺和網(wǎng)絡(luò)論壇上的騷擾行為。
該項目的第一步是使用來自Wikipedia Talk頁面的10萬條惡意評論來訓(xùn)練機器學(xué)習(xí)算法,這些評論由一個4,000人組成的團(tuán)隊標(biāo)記,其中每條評論都由十個人審核。這個最大的網(wǎng)絡(luò)濫用數(shù)據(jù)集不僅包括直接的人身攻擊,還包括第三方和間接的人身攻擊(“你太可怕了”、“鮑勃太可怕了”、“莎莉說鮑勃很可怕”)。經(jīng)過訓(xùn)練,機器能夠和人類一樣決定一條評論是否涉及到人身攻擊。
然后該項目團(tuán)隊通過算法審查了14年期間(從2001年至2015年)發(fā)表的6300萬條英語維基百科評論,以研究惡意評論的類別。他們將研究成果發(fā)表在名為Ex Machina:Personal Attacks Seen at Scale paper的論文中:
●在所有的惡意評論中,有超過80%是由9,000多名用戶發(fā)表的,這些用戶在一年內(nèi)發(fā)表的評論少于5次;
●在所有涉及人身攻擊的評論中,近10%是由34名用戶發(fā)出的;
●匿名用戶發(fā)表的評論占維基百科所有評論的34%;
●雖然匿名用戶發(fā)表人身攻擊的評論可能性是注冊用戶的六倍,但是超過一半的人身攻擊評論是由注冊用戶發(fā)表的(注冊用戶數(shù)比匿名用戶多20倍)。
現(xiàn)在,算法已經(jīng)能夠清晰地指出哪些用戶在社區(qū)發(fā)表了惡意評論,維基百科也可以找出消除負(fù)面評論的最佳方法。雖然可能仍需要人工監(jiān)管,但算法可以幫助整理這些評論,并標(biāo)記需要人工介入的評論。
物件版本評估服務(wù)(ORES系統(tǒng))
維基百科編輯人數(shù)大幅下降的另一個原因被認(rèn)為是該組織復(fù)雜的官僚主義以及苛刻的編輯策略。對于首次撰稿人/編輯而言,通常系統(tǒng)會在沒有任何解釋的情況下把他們編輯的內(nèi)容完全刪除。他們希望通過使用ORES系統(tǒng)來解決這一問題,ORES系統(tǒng)可以充當(dāng)編輯系統(tǒng)機器,由經(jīng)過訓(xùn)練的算法驅(qū)動,可以對修改和編輯的質(zhì)量進(jìn)行評分。維基百科的編輯人員使用在線工具來標(biāo)記以前編輯的示例,并且也是通過這種方法來讓算法學(xué)習(xí)到這些編輯錯誤的嚴(yán)重性。
AI編寫維基百科文章
AI可以“寫”維基百科的文章,但你必須要給它開個頭,不是嗎?Google Brain中的一個團(tuán)隊教授軟件來總結(jié)網(wǎng)頁上的信息,并撰寫一篇維基百科風(fēng)格的文章。事實證明,文本摘要比我們大多數(shù)人想象的要困難得多。Google Brain讓機器總結(jié)的內(nèi)容質(zhì)量略好于以前,但是要讓機器像人類一樣可以寫出抑揚頓挫的文章,還要付出更多的努力。而且我們還沒有準(zhǔn)備好讓機器自動生成維基百科條目,但是我們正在朝著這個目標(biāo)努力。
雖然我們還在不斷優(yōu)化維基百科運營中AI的使用案例,但機器無疑可以幫助公司分析他們每天產(chǎn)生的大量數(shù)據(jù)。更好的信息和分析可以幫助維基百科創(chuàng)建成功的策略,以解決其社區(qū)的負(fù)面影響和詞條貢獻(xiàn)者的招募問題。
原文作者:Bernard Marr