近日,阿里AI在常識QA領域的權威數(shù)據(jù)集CommonsenseQA上刷新世界紀錄,超過微軟取得第一名,顯著提升AI的常識推理能力。這一技術是“95后”實習生葉志秀在達摩院科學家指導下完成的實習成果。
CommonsenseQA是為了研究基于常識知識的問答而提出的數(shù)據(jù)集,比此前的SWAG、SQuAD數(shù)據(jù)集難度更高。目前最流行的語言模型BERT在SWAG、SQuAD上的性能已經接近或超過人類,但在CommonsenseQA上的準確率還遠低于人類。
CommonsenseQA數(shù)據(jù)集上的常識問題,大拇指朝上的選項為正確答案
自然語言理解(NLP,Natural Language Processing)是人工智能皇冠上的明珠,常識推理則是難度最高的NLP任務之一。在機器翻譯、閱讀理解等NLP任務上,AI的表現(xiàn)已經接近或超過人類水平,阿里AI就先后在國際頂級的機器翻譯賽事WMT、機器閱讀理解賽事SQuAD、文本閱讀理解挑戰(zhàn)賽MS MARCO等賽事奪冠甚至趕超人類紀錄。
相比之下,AI的常識推理能力比人類差得多。常識是指絕大部分人都了解并接受的客觀事實,比如鹽是咸的、下雨了要打傘、村莊位于陸地上而非湖泊內等等。人在回答問題時,常會結合這些不言而喻的背景知識。但機器沒有常識,無法將“馬路上,人們撐著傘”的原始陳述與“外面正在下雨”的邏輯假設自動關聯(lián)。
深度學習領軍人物之一、圖靈獎獲得者Yann LeCun 曾有斷言:最聰明的AI在常識方面也不如貓。在包含1.2萬多個常識問題的CommonsenseQA數(shù)據(jù)集上,最流行的AI模型BERT的答題準確率為56.7%,遠低于人類的89%。
阿里巴巴達摩院語音實驗室提出了AMS方法,顯著提升BERT模型的常識推理能力。AMS方法使用與BERT相同的模型,僅預訓練BERT,在不提升模型計算量的情況下,將 CommonsenseQA數(shù)據(jù)集上的準確率提升了5.5%,達到62.2%。
CommonsenseQA數(shù)據(jù)集的得分榜單,阿里AI刷新了世界紀錄
阿里的技術突破將大幅提升下一代人機交互產品的常識理解能力,可應用于語音導航、智能電視、語音售票機等產品。
設想這樣的場景:你開車尋找一個地處偏僻的村莊,村子不久前已經搬遷,但導航還沒更新位置信息。村子所在地塊被開挖成了人工湖,由于AI沒有常識,導航直接就把你往湖心方向帶。AI如果擁有常識,就不會犯這類“蠢萌”的錯誤。
達摩院表示今后將開源該模型和論文,與業(yè)界共享最新成果。