本文來自《Nature》,由AI范兒翻譯整理。
人工智能正在提出那些人類希望回答的問題
“人工智能(AI)在科學(xué)研究中的創(chuàng)造性角色越來越重要。AI已經(jīng)被用于文獻搜索、數(shù)據(jù)收集、統(tǒng)計分析和論文草稿的撰寫等方面。但是,生成假設(shè)——這通常需要創(chuàng)造性的火花來提出有趣和重要的問題——是一個更復(fù)雜的挑戰(zhàn)。AI系統(tǒng)能夠生成假設(shè)已經(jīng)有40多年的歷史。AI系統(tǒng)能夠生成假設(shè)已經(jīng)被應(yīng)用于粒子物理學(xué)、材料科學(xué)、生物學(xué)、化學(xué)等領(lǐng)域。AI系統(tǒng)能夠生成假設(shè)的盲點是AI可能最有用的地方。
今年十月初,隨著諾貝爾基金會公布今年諾貝爾獎的得獎?wù)呙麊危蝗貉芯咳藛T,其中包括一位之前的諾貝爾獎獲得者,聚集在斯德哥爾摩,討論了人工智能(AI)在科學(xué)研究中可能扮演的越來越具有創(chuàng)造性的角色。
這個研討會部分由東京索尼AI的首席執(zhí)行官、生物學(xué)家北野宏明領(lǐng)導(dǎo),他們考慮了設(shè)立獎項,獎勵那些通過AI以及AI與人類合作產(chǎn)生世界級科學(xué)成果的工作。兩年前,北野宏明提出了諾貝爾圖靈挑戰(zhàn):到2050年之前創(chuàng)建高度自主的系統(tǒng)(“AI科學(xué)家”),這些系統(tǒng)有潛力做出與諾貝爾獎相當?shù)闹卮蟀l(fā)現(xiàn)。
很容易想象,AI可以執(zhí)行科學(xué)發(fā)現(xiàn)中的一些必要步驟。研究人員已經(jīng)在使用它來搜索文獻,自動化數(shù)據(jù)收集,進行統(tǒng)計分析,甚至撰寫論文的部分內(nèi)容。然而,「生成假設(shè)」這一任務(wù)通常需要一種創(chuàng)造性的火花,用來提出有趣且重要的問題,這是一個更加復(fù)雜的挑戰(zhàn)。對于伊利諾伊大學(xué)芝加哥分校商學(xué)院的經(jīng)濟學(xué)家Sendhil Mullainathan來說,“這可能是我一生中最令人振奮的研究之一”。
網(wǎng)絡(luò)效應(yīng)
能夠生成假設(shè)的人工智能系統(tǒng)已經(jīng)有四十多年的歷史了。上世紀80年代,芝加哥大學(xué)的信息科學(xué)家唐·斯旺森(Don Swanson)開創(chuàng)了一種基于文獻的發(fā)現(xiàn)方法,旨在從科學(xué)文獻中挖掘出尚未被揭示的公共知識。
例如,如果一些研究論文聲稱A導(dǎo)致B,而其他一些聲稱B導(dǎo)致C,那么我們可以假設(shè)A導(dǎo)致C。斯旺森開發(fā)了名為Arrowsmith的軟件,用于搜索已發(fā)表論文中的這種間接聯(lián)系,提出例如魚油可以降低血液粘度,可能用于治療Raynaud綜合癥,即在寒冷條件下血管收縮的情況。隨后的實驗證明了這一假設(shè)的正確性。
基于文獻的發(fā)現(xiàn)和其他計算技術(shù)可以將現(xiàn)有的研究成果整理成“知識圖”,其中節(jié)點代表分子和性質(zhì)等要素。人工智能可以分析這些圖,提出分子和性質(zhì)之間未被發(fā)現(xiàn)的聯(lián)系。這個過程在現(xiàn)代藥物研發(fā)和基因功能分析等領(lǐng)域發(fā)揮了重要作用。
今年早些時候發(fā)表在《自然》雜志上的一篇綜述文章探討了人工智能生成假設(shè)的其他方式,比如提出能夠整理復(fù)雜數(shù)據(jù)點的簡單公式以及預(yù)測蛋白質(zhì)如何折疊。研究人員已經(jīng)在粒子物理學(xué)、材料科學(xué)、生物學(xué)、化學(xué)等多個領(lǐng)域?qū)崿F(xiàn)了假設(shè)的自動生成。
一種方法是運用人工智能來協(xié)助科學(xué)家進行頭腦風(fēng)暴。洛杉磯南加利福尼亞大學(xué)的計算機科學(xué)家尤蘭達·吉爾表示,這是大型語言模型擅長的任務(wù),這些模型經(jīng)過大量文本訓(xùn)練,能夠生成新的文本。盡管語言模型可能產(chǎn)生不準確的信息并呈現(xiàn)為真實信息,但穆萊納坦認為,這種“幻覺”并不一定是壞事。他說,它意味著“這似乎是真實的一種東西”,這正是假設(shè)的本質(zhì)。
人工智能可能最有用的地方在于填補科學(xué)的盲點。芝加哥大學(xué)的社會學(xué)家詹姆斯·埃文斯一直在推動人工智能提出“外部”假設(shè),即人類不太可能提出的假設(shè)。在今年早些時候發(fā)表在《自然人類行為》雜志上的一篇論文中,他和同事賈姆希德·蘇拉蒂構(gòu)建了知識圖譜,其中不僅包括材料和屬性,還包括研究人員。
埃文斯和蘇拉蒂的算法遍歷了這些網(wǎng)絡(luò),尋找材料和屬性之間的隱藏快捷方式。他們的目標是最大程度地增加人工智能提出的假設(shè)可能是真實的概率,同時最小化研究人員自然而然地發(fā)現(xiàn)它們的機會。例如,如果研究某種藥物的科學(xué)家與研究它可能治愈的疾病的科學(xué)家之間的聯(lián)系很遠,那么通常需要更長的時間才能發(fā)現(xiàn)該藥物的潛力。
當埃文斯和蘇拉蒂將截止到2001年的數(shù)據(jù)輸入到他們的人工智能系統(tǒng)中時,他們發(fā)現(xiàn)約30%的關(guān)于藥物再利用和材料電性的預(yù)測在大約六到十年后被研究人員發(fā)現(xiàn)。埃文斯表示,該系統(tǒng)可以調(diào)整,以提出更有可能正確的預(yù)測,但這些預(yù)測也不會跨越太大的邏輯距離,基于同時發(fā)現(xiàn)和合作的結(jié)果。但他補充說:“如果我們在預(yù)測人們明年將會做什么,那就感覺像是一個獨家消息機器。”他更關(guān)心這項技術(shù)如何帶領(lǐng)科學(xué)走向全新的方向。
保持簡單
科學(xué)假設(shè)的范圍從具體明確(例如,‘這個蛋白質(zhì)將以這種方式折疊’)到抽象概括(例如,‘重力會加速所有具有質(zhì)量的物體’),存在于一個連續(xù)的譜系上。迄今為止,人工智能主要產(chǎn)生了前者,即具體明確的假設(shè)。還有另一類假設(shè),與前者部分重疊,它們從難以解釋的假設(shè)(這些千百個因素導(dǎo)致了這一結(jié)果)到清晰明了的假設(shè)(一個簡單的公式或句子)不等。
埃文斯認為,如果一臺機器能夠?qū)€別情況做出有用的預(yù)測——“如果你將所有這些特定的化學(xué)物質(zhì)放在一起,嘭,你會得到這個非常奇怪的效果”——但無法解釋為什么這些情況有效,那就是技術(shù)上的成就,而不是科學(xué)的成就。穆拉納坦也提出了類似的觀點。
在某些領(lǐng)域,基本原理已經(jīng)被理解,比如蛋白質(zhì)折疊的機制,科學(xué)家們只希望人工智能解決運行復(fù)雜計算的實際問題,以確定蛋白質(zhì)片段將如何移動。但在那些基本原理仍然未知的領(lǐng)域,比如醫(yī)學(xué)和社會科學(xué),科學(xué)家們希望人工智能能夠識別適用于新情境的規(guī)則,穆拉納坦說。
在去年九月份在加拿大多倫多舉行的人工智能經(jīng)濟學(xué)會議上,穆拉納坦和芝加哥大學(xué)經(jīng)濟學(xué)家詹斯·路德維希描述了一種方法,讓人工智能和
人類共同生成廣泛而清晰的假設(shè)。在概念驗證中,他們尋求與被告的面部特征可能影響法官在審判前釋放或拘留他們的假設(shè)。根據(jù)過去被告的照片以及法官的決定,算法發(fā)現(xiàn)了許多微妙的面部特征與法官的決定相關(guān)。
人工智能生成了具有這些特征的新的被告照片,然后請人類參與者描述它們之間的一般差異。結(jié)果顯示,可能會被釋放的被告通??雌饋砀?ldquo;精心打扮”和“面部豐滿”。穆拉納坦表示,這種方法也可以應(yīng)用于其他復(fù)雜的數(shù)據(jù)集,如心電圖,以查找醫(yī)生可能不知道要尋找的心臟病發(fā)作的標志。埃文斯說:“我很喜歡那篇論文。這是一種有趣的假設(shè)生成方法。”
在科學(xué)中,實驗和假設(shè)生成通常形成一個循環(huán):研究人員提出問題,收集數(shù)據(jù),然后根據(jù)數(shù)據(jù)調(diào)整問題或提出新問題。瑞典哥德堡查爾莫斯理工大學(xué)的計算機科學(xué)家羅斯·金格致力于通過建立機器人系統(tǒng)來完成這一循環(huán),這些機器人系統(tǒng)可以使用機械臂進行實驗。其中一個系統(tǒng)叫做亞當,它自動進行微生物生長實驗。另一個系統(tǒng)叫做伊娃,用于藥物研發(fā)。在一個實驗中,伊娃幫助揭示了一種叫做三氯生的牙膏成分如何用于抗擊瘧疾的機制。
機器人科學(xué)家
King目前正在開發(fā)Genesis,這是一個機器人系統(tǒng),用于進行酵母實驗。Genesis將同時在1萬個生物反應(yīng)器中培養(yǎng)真實的酵母細胞,通過調(diào)整環(huán)境條件或進行基因編輯等操作,制定并測試與酵母生物學(xué)相關(guān)的假設(shè),并測量基因表達等特征。
盡管假設(shè)理論上可能涉及許多微妙的因素,但King表示,它們通常涉及到與人類細胞相似的單一基因或蛋白質(zhì)的效應(yīng),這可能在藥物開發(fā)中有潛在的應(yīng)用價值。King是諾貝爾圖靈挑戰(zhàn)賽組織委員會的成員之一,他表示這些“機器人科學(xué)家”有望比人類更具一致性、客觀性、經(jīng)濟性、高效性和透明性。
研究人員認為在進展中存在一些障礙和機會。生成假設(shè)的人工智能系統(tǒng)通常依賴于機器學(xué)習(xí),而機器學(xué)習(xí)通常需要大量數(shù)據(jù)。提供更多研究論文和數(shù)據(jù)集可以幫助解決這個問題,但科學(xué)家們還需要構(gòu)建一種不僅僅通過模式匹配而且能夠理解物理世界的人工智能系統(tǒng),這是加州大學(xué)圣迭戈分校的計算機科學(xué)家Rose Yu所指出的。Gil也同意,人工智能系統(tǒng)不應(yīng)該僅僅依賴于數(shù)據(jù),它們還應(yīng)該受到已知科學(xué)法則的指導(dǎo)。“這是將科學(xué)知識融入人工智能系統(tǒng)的一種非常強大的方式,”她說。
隨著數(shù)據(jù)收集的自動化程度不斷提高,Evans預(yù)測自動化生成假設(shè)將變得越來越重要。巨大的望遠鏡和機器人實驗室收集的數(shù)據(jù)量遠遠超過人類可以處理的范圍。“我們自然而然地需要擴大智能、適應(yīng)性問題的規(guī)模,”他說,“以充分利用這一能力,而不浪費它。”