DeepMind新成果:讓AI做了200萬(wàn)道數(shù)學(xué)題,結(jié)果堪憂

腦極體
如果解題類應(yīng)用的數(shù)學(xué)水平始終在及格方面徘徊,連看懂題和正確率都無(wú)法保證,還怎么能指望AI系統(tǒng)從學(xué)生們的答卷中分析出失分原因并指導(dǎo)其進(jìn)一步學(xué)習(xí)呢呢??所謂的靠它降低學(xué)習(xí)門檻、實(shí)現(xiàn)教育普惠和公平,顯然也只能停留在幻想層面。
  為了挽救在“拋家棄子”邊緣瘋狂試探的家長(zhǎng)們,不少K12教育平臺(tái)與時(shí)俱進(jìn),相繼將人工智能加入了數(shù)學(xué)輔導(dǎo)豪華服務(wù)套餐。
 
  在各種新聞中,AI數(shù)學(xué)老師的畫(huà)風(fēng)往往是這樣的:
 
  羞辱學(xué)渣——只用10分鐘作答2017高考數(shù)學(xué)全國(guó)II卷,拿下100分(總分150分),“蒙題”都沒(méi)這么快;
 
  碾壓學(xué)霸——在日本的大學(xué)入學(xué)標(biāo)準(zhǔn)考試、SAT等各國(guó)“高考”中拿到了超過(guò)平均分的成績(jī),向狀元挺近;
 
  取代人類教師——可以依據(jù)人為輸入的打分條件,對(duì)照答案,在瞬間判斷正誤。效率比人類判卷老師高出好幾個(gè)指數(shù)級(jí)不說(shuō),失誤率也更低。
 
  想必令不少家長(zhǎng)都心動(dòng)了吧。在這里,我們要掃興地說(shuō)出一個(gè)真相——即使是目前最先進(jìn)的人工智能系統(tǒng),數(shù)學(xué)水平恐怕連高中生都比不上。
 
  DeepMind親自打臉:AI是個(gè)數(shù)學(xué)渣?
 
  這年頭,靠AI判卷打分已經(jīng)不是什么新鮮事了,給張標(biāo)準(zhǔn)答案小學(xué)生都能干。但靠AI教做數(shù)學(xué)題,就很有技術(shù)含量了,考驗(yàn)的則是閱讀、推理、計(jì)算、邏輯等等綜合能力,最起碼也得是個(gè)“新西方”名師上陣吧。
 
  如果用后者的課時(shí)費(fèi),請(qǐng)小學(xué)生來(lái)幫輔導(dǎo)作業(yè),顯然大家都會(huì)認(rèn)為是開(kāi)玩笑。但要是把小學(xué)生換成AI,反而令家長(zhǎng)們“不明覺(jué)厲”喜掏腰包了。
 
  不過(guò),DeepMind的最新研究結(jié)果表明,即使是目前最先進(jìn)的AI系統(tǒng),做起數(shù)學(xué)題來(lái)連普通高中生都比不過(guò),是不是有點(diǎn)幻滅?
 
   
 
  事情是這樣的,DeepMind參考英國(guó)16歲學(xué)齡兒童的數(shù)學(xué)考試,為AI(深度神經(jīng)網(wǎng)絡(luò))打造了一個(gè)包含200萬(wàn)道題目的題庫(kù),涵蓋了算術(shù)、代數(shù)、概率、微積分等各種題型,并派出了循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)和Transformer兩位當(dāng)下性能最先進(jìn)的模型參與測(cè)試。
 
  結(jié)果發(fā)現(xiàn),除了四舍五入、加減法、比較大小、數(shù)字排序等等簡(jiǎn)單問(wèn)題之外,在一些涉及因式分解、混合計(jì)算之類的高級(jí)題目上,AI的表現(xiàn)都不如人類高中生,連及格線都沒(méi)達(dá)到。
 
  到底咋回事,看看它們是怎么做題的就知道了。
 
  LSTM和Transformer架構(gòu)都包含一個(gè)編碼器和解碼器。不過(guò)在具體運(yùn)算邏輯上,LSTM會(huì)將問(wèn)題編碼為一系列由鍵和數(shù)值代表的具體位置(41+132),然后解碼器將下一個(gè)字符預(yù)測(cè)并映射出來(lái)(173)。
 
  由于有注意力機(jī)制的參與,LSTM能夠預(yù)先處理一些邏輯上需要先完成的對(duì)象,比如知道在計(jì)算8/(1+3)時(shí),應(yīng)該先算出(1+3),這已經(jīng)有點(diǎn)接近人類進(jìn)行運(yùn)算時(shí)的推理步驟了。
 
   
 
  Transformer的不同之處在于,它的編碼器能夠把數(shù)學(xué)題轉(zhuǎn)換成一個(gè)長(zhǎng)度相同的序列,然后通過(guò)注意力機(jī)制與位置完全連接的層嵌入任意數(shù)學(xué)表達(dá)式,然后進(jìn)行轉(zhuǎn)換。
 
  這樣做的好處是,Transformer能夠使用相同數(shù)量的參數(shù)進(jìn)行更多的計(jì)算(改變嵌入函數(shù)就可以了),同時(shí)擁有了連續(xù)的“內(nèi)部記憶”,在處理包含多層級(jí)、關(guān)聯(lián)性的混合運(yùn)算時(shí)更有優(yōu)勢(shì),能夠在更長(zhǎng)的序列上給出正確答案。
 
  計(jì)算方式搞清楚了,那么兩位模型的最終成績(jī)?nèi)绾文兀?/div>
 
  答案是,非常慘。Transformer模型只答對(duì)了14/40個(gè)問(wèn)題,也就相當(dāng)于E級(jí)水平。相比之下LSTM的分?jǐn)?shù)就更慘不忍睹了,放在人類學(xué)生身上絕對(duì)是要被叫家長(zhǎng)的節(jié)奏。
 
   
 
 ?。▓D為各個(gè)模型處理的參數(shù)規(guī)模和平均正確率)
 
  AI學(xué)數(shù)學(xué),到底難在哪兒?
 
  一度在計(jì)算能力、決策效率上被AI按在地板上摩擦的人類,總算在數(shù)學(xué)上挽尊了,DeepMind可算也打臉一次AI了。不過(guò),沾沾自喜不是重點(diǎn),重點(diǎn)是如果要為AI建立一本數(shù)學(xué)錯(cuò)題集的話,這次實(shí)驗(yàn)究竟有哪些值得被記住和補(bǔ)上的短板:
 
  其一是記性太差。
 
  盡管研究人員引入了LTSM和transformer,這是兩個(gè)在處理機(jī)器翻譯等序列問(wèn)題時(shí)表現(xiàn)優(yōu)異的拳頭選手,但依然抵不住數(shù)學(xué)問(wèn)題的復(fù)雜性和語(yǔ)言多樣性的壓力。在一些需要中間值計(jì)算的模塊中,比如因式分解、多項(xiàng)式函數(shù)等等,系統(tǒng)在進(jìn)行“思考”時(shí)記憶力明顯不夠用,符號(hào)的遷移性和知識(shí)的擴(kuò)展性也因此大受影響,直接影響了結(jié)果的準(zhǔn)確性。
 
  比如Transformer在計(jì)算單純的加減法或乘除法時(shí),準(zhǔn)確率高達(dá)90%,一旦加減乘除混合在一起,它就有點(diǎn)搞不清先后順序了,正確率就下降到只有50%。這表現(xiàn)連計(jì)算器都比不上,說(shuō)明一旦要拼記性、背函數(shù),機(jī)器就比不上人類了。
 
   
 
  另外,有算力,沒(méi)知識(shí)。
 
  人類在解決數(shù)學(xué)問(wèn)題時(shí),應(yīng)用到的不只有計(jì)算能力,還有各種各樣的認(rèn)知技能。比如理解題干,需要將文字或圖標(biāo)轉(zhuǎn)換為算術(shù)運(yùn)算符;確定解題思路,需要進(jìn)行推理,從已知的公理中找到最佳策略;具體的運(yùn)算過(guò)程中,必須利用工作記憶來(lái)完成運(yùn)算;保持成績(jī)的穩(wěn)定性,就需要將已學(xué)到的知識(shí)和規(guī)則遷移到同一類型的問(wèn)題中去……
 
  顯然,神經(jīng)網(wǎng)絡(luò)還沒(méi)有辦法在“舉一反三”的能力上與人類一較高下,它只能處理一些內(nèi)部存儲(chǔ)的問(wèn)題,無(wú)法超越已有的環(huán)境去理解新的東西。具體到各個(gè)實(shí)驗(yàn)項(xiàng)目中,知識(shí)遷移能力越強(qiáng)的模型,在統(tǒng)一數(shù)據(jù)集上的數(shù)學(xué)成績(jī)也就越好。
 
   
 
  這些短板歸根結(jié)底,是由數(shù)學(xué)問(wèn)題和工程效率的矛盾所導(dǎo)致的。
 
  數(shù)學(xué)的本質(zhì)是演繹證明,往往需要架設(shè)問(wèn)題并根據(jù)已知抽象出新概念,根據(jù)需要提出新的公理體系。這是一個(gè)基于推斷的極其復(fù)雜的“規(guī)則游戲”。
 
  而機(jī)器的計(jì)算模式則是遍歷型、經(jīng)驗(yàn)型的,即通過(guò)大規(guī)模數(shù)據(jù)來(lái)窮盡所有可能。
 
  用DeepMind研究人員的話來(lái)說(shuō),數(shù)學(xué)包含了一個(gè)“自洽的宇宙”(self-consistent universe),“簡(jiǎn)單的AI系統(tǒng)”想要挑戰(zhàn)數(shù)學(xué)命題,顯然不太可能。
 
  以“博雷爾-確定性”(Borel-determinacy)為例,雖然只是一個(gè)二階算術(shù)命題,但其證明卻需要用到無(wú)窮階的算術(shù)。想要解決此類問(wèn)題,就必須把AI系統(tǒng)設(shè)計(jì)得足夠?qū)挿海灾劣谀馨萁^大部分?jǐn)?shù)學(xué)運(yùn)算。這時(shí)的規(guī)則量級(jí)與復(fù)雜性,就不是圍棋這種程度可比的了,而可能是在1T個(gè)2^中尋找一個(gè)最優(yōu)決策。這時(shí)候AI的對(duì)手就不是數(shù)學(xué),而是資源、金錢與時(shí)間了。
 
  AI解題:到底應(yīng)該懷抱怎樣的理想期待
 
  說(shuō)了這么多,用數(shù)學(xué)水平作為AI的“智商鑒定器”顯然有失偏頗,AI也不可能幫助人類解決那些數(shù)學(xué)領(lǐng)域的未解之謎。既然如此,讓AI學(xué)數(shù)學(xué)的意義到底是什么?或許我們必須重新理解二者的關(guān)系。
 
  從當(dāng)前背景來(lái)看,提高AI的數(shù)學(xué)能力大概有兩方面的積極作用:
 
  一個(gè)是技術(shù)層面的,人工智能本質(zhì)上就是一個(gè)將數(shù)學(xué)、算法和工程實(shí)踐緊密結(jié)合的領(lǐng)域,對(duì)數(shù)學(xué)的探索有利于推動(dòng)AI技術(shù)的全面進(jìn)步。
 
  舉個(gè)例子,早在1964年,就有科學(xué)家試圖讓計(jì)算機(jī)做數(shù)學(xué)題了,當(dāng)時(shí)提出的STUDENT(Bobrow 1964)系統(tǒng),就是輸入一段規(guī)定好描述方式的數(shù)學(xué)題,然后把自然語(yǔ)言(linguistic form)通過(guò)模式匹配映射到對(duì)應(yīng)的函數(shù)關(guān)系表達(dá)。就像把“籠子里有一只雞和一只兔,問(wèn)籠子里一共有幾只動(dòng)物”轉(zhuǎn)換成“1+1=?”。這說(shuō)明,數(shù)學(xué)要取得好成績(jī),先得自然語(yǔ)言閱讀理解能力過(guò)關(guān)。
 
  舉個(gè)例子,就因?yàn)闆](méi)有辦法將復(fù)雜的題目轉(zhuǎn)換成規(guī)范化的數(shù)學(xué)語(yǔ)言,國(guó)立情報(bào)學(xué)研究所不得不在2016年放棄讓人工智能系統(tǒng)Torobo-kun參加?xùn)|京大學(xué)入學(xué)考試,2017年中國(guó)的“高考機(jī)器人”(863計(jì)劃中的類人智能項(xiàng)目)在對(duì)戰(zhàn)真人(43名高三文科班學(xué)生)時(shí),也以低于人類平均分的成績(jī)落敗。
 
  除了文字題干之外,有的題目還會(huì)涉及語(yǔ)音識(shí)別、圖像識(shí)別(看圖解題)等技術(shù)能力。換句話說(shuō),想要搞定數(shù)學(xué)題,語(yǔ)文課、邏輯課,一科都不能偏!
 
   
 
  另一個(gè)可能受益的則是社會(huì)層面的,針對(duì)數(shù)學(xué)的研究成果,能夠有效提升各個(gè)人工智能系統(tǒng)在理科解題上的弱勢(shì),直接提高知識(shí)引擎的性能與效率。
 
  尤其是現(xiàn)在包括綜合搜索、XX搜題等在內(nèi)的各類知識(shí)問(wèn)答平臺(tái),已經(jīng)成為為人們答疑解惑的主要工具。數(shù)學(xué)解題系統(tǒng)更成了K12教育爭(zhēng)先恐后推出的“殺手锏”。但想要提供高品質(zhì)的數(shù)學(xué)搜索服務(wù),比如輸入數(shù)學(xué)題,就能精準(zhǔn)還原出數(shù)學(xué)模型、解題步驟以及答案,并不是一件簡(jiǎn)單的事。
 
  前面我們也說(shuō)過(guò),數(shù)學(xué)問(wèn)題并不僅僅只考驗(yàn)計(jì)算能力,還涉及泛化知識(shí)庫(kù)的大量規(guī)則,比下圍棋的黑白子規(guī)則可復(fù)雜多了,有時(shí)還要面對(duì)價(jià)值觀、意識(shí)形態(tài)、藝術(shù)等很多不可量化的東西。平臺(tái)們預(yù)先內(nèi)置的數(shù)學(xué)知識(shí)模型在越來(lái)越數(shù)字化的學(xué)習(xí)方式面前,搜不到、不匹配、答案“略”,甚至直接用習(xí)題冊(cè)答案湊數(shù)的情況,也已經(jīng)屢見(jiàn)不鮮。
 
  更有甚至,一旦用戶輸入的問(wèn)題不符合預(yù)定義的模式匹配規(guī)則,可能機(jī)器就會(huì)開(kāi)始“誤人子弟”瞎答了。
 
   
 
  如果解題類應(yīng)用的數(shù)學(xué)水平始終在及格方面徘徊,連看懂題和正確率都無(wú)法保證,還怎么能指望AI系統(tǒng)從學(xué)生們的答卷中分析出失分原因并指導(dǎo)其進(jìn)一步學(xué)習(xí)呢呢??所謂的靠它降低學(xué)習(xí)門檻、實(shí)現(xiàn)教育普惠和公平,顯然也只能停留在幻想層面。
 
  提升AI模型的數(shù)學(xué)能力,進(jìn)而增強(qiáng)搜題模型的整體性能,對(duì)于眾多互聯(lián)網(wǎng)教育平臺(tái)和家長(zhǎng)考生們來(lái)說(shuō),意義自然是重大的。
 
  同時(shí),數(shù)學(xué)本身也是學(xué)習(xí)(包括機(jī)器學(xué)習(xí))的起點(diǎn)。
 
  盡管大多數(shù)數(shù)學(xué)問(wèn)題無(wú)法直接被應(yīng)用,但在尋求驗(yàn)證和推理的過(guò)程中,往往會(huì)誕生的更強(qiáng)大的推理模型,為更高的機(jī)器智能打下堅(jiān)實(shí)的基礎(chǔ)。
 
  舉個(gè)例子,MIT于2014年在ACL上提出了一種基于統(tǒng)計(jì)學(xué)習(xí)的方法KAZB,根據(jù)公式的標(biāo)注把數(shù)學(xué)題歸類成不同的題型,抽取題目中不同層次的特征,來(lái)自動(dòng)判斷題型。
 
  該方法的缺點(diǎn)則是系統(tǒng)沒(méi)有辦法識(shí)別出訓(xùn)練集之外的題型。為了解決這個(gè)問(wèn)題,百度和微軟的研究團(tuán)隊(duì)分別進(jìn)行了優(yōu)化和改進(jìn),實(shí)現(xiàn)了10%左右的性能提升。
 
  換句話說(shuō),提高神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)能力,雖然不是全部,但卻能夠?yàn)闄C(jī)器推理能力打下堅(jiān)實(shí)的基礎(chǔ)。這就像人類小孩學(xué)習(xí)“雞兔同籠”一樣,不是真的為了方便在成年后數(shù)清楚雞和兔子,而是在這個(gè)過(guò)程中逐漸學(xué)會(huì)用一種新的思維模式去理解和認(rèn)知世界。
 
  或許等到那一天,我們需要擔(dān)心的就不是機(jī)器會(huì)做錯(cuò)題,而是人類將無(wú)題可做了……
THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論