當(dāng)今物理和天文實驗所產(chǎn)生的海量信息,沒有任何一個人或者團隊可以完整的處理。
有些實驗數(shù)據(jù)每天以千兆字節(jié)的規(guī)模在增加——而且這個趨勢只會越來越明顯。
想象一下,一臺以平方公里為單位陣列的射電望遠鏡,預(yù)計將于2020年中開始進行科學(xué)觀測,每年將產(chǎn)生的信息數(shù)量可與整個互聯(lián)網(wǎng)相匹敵。
面對如此信息洪流,許多科學(xué)家不得不求助于人工智能。
這是一個研究者眼中神奇的工具。
只需少許人工輸入,包括人工神經(jīng)網(wǎng)絡(luò)(計算機模擬人腦神經(jīng)網(wǎng)絡(luò))在內(nèi)的人工智能系統(tǒng)就可以輕松處理成千上百萬條信息,并發(fā)現(xiàn)其中的異常和人類絕難識別的模式。
利用計算機協(xié)助科學(xué)研究的歷史可以被追溯到75年前。
早在幾千年前,人類就已經(jīng)開始從數(shù)據(jù)中尋找有效信息??茖W(xué)家認(rèn)為機器學(xué)習(xí)和人工智能所運用的前沿技術(shù),是一種研究科學(xué)的全新方法。
這種方法,即生成模型(generative modeling),僅基于數(shù)據(jù)就可以找到與觀測數(shù)據(jù)相關(guān)的諸多解釋中最為合理的理論。更重要的是,這一過程無需預(yù)先編程,對于系統(tǒng)可能產(chǎn)生作用。生成模型的支持者覺得它的創(chuàng)新程度可以被認(rèn)為是了解宇宙的潛在的“第三種方法”。
通常,我們通過觀察來知曉萬物。約翰尼斯·開普勒就是通過研究第谷·布拉赫的星象圖來試圖找到天體運動的規(guī)律(所有行星都是橢圓軌道上運行的),建模同時也推動著科學(xué)進步。天文學(xué)家模擬銀河與其鄰近星系仙女座的移動軌跡后,預(yù)測兩星系將于幾百萬年之后相撞。觀察和建模都能幫助科學(xué)家建立假設(shè),而用進一步的觀察來檢驗假設(shè)。相較之下,生成模型區(qū)別于以上兩種方法。
“這是第三種方法,介乎于觀察和建模之間。”天文學(xué)家Kevin Schawinski介紹說。他此前一直就職于蘇黎世聯(lián)邦工業(yè)大學(xué)(ETH Zurich),同時也是當(dāng)今生成模型最狂熱的支持者之一。“它提供了一種解決問題的新方法。”
有些科學(xué)家將生成模型和其他新技術(shù)簡單地歸類為研究傳統(tǒng)科學(xué)的工具。但絕大部分人的共識則是人工智能能夠帶來巨大的影響,而且在科學(xué)研究領(lǐng)域的作用也將越發(fā)顯著。費米實驗室的天體物理學(xué)家Brian Nord以用人工神經(jīng)網(wǎng)絡(luò)研究宇宙而聞名。
他擔(dān)心人類科學(xué)家所做的一切都可以被自動化,而持有這種觀點不在少數(shù)。Nord說,“這種想法讓我感到恐慌”。
神奇的GAN,基于生成的探索
還在讀書的時候,Schawinski已經(jīng)在數(shù)據(jù)驅(qū)動科學(xué)領(lǐng)域已經(jīng)小有名氣。博士學(xué)位期間,他的課題是基于表象對數(shù)千個星系進行分類。由于當(dāng)時還沒有可以用來解決問題的軟件,Schawinski就想到了采用群眾外包的方式——因此大眾科學(xué)星系園項目也就應(yīng)運而生。
自2007年起,天文學(xué)家開始用電腦錄入關(guān)于星系分類的最佳猜測,在多數(shù)決定原則下通常被證明為是正確的分類。之后這一項目取得了成功,但Schawinski卻意識到人工智能已經(jīng)可以取而代之。“在今天,一個有天賦、有機器學(xué)習(xí)背景且懂得云計算的科學(xué)家能夠在一個下午完成所有的工作。”
Schawinski在2016年開始使用生成模型這種新工具。本質(zhì)上,生成模型在確定條件X的前提下有多少概率能夠得到結(jié)果Y。這個方法已被證明極為有效且運用廣泛。例如,你用生成模型處理一組人臉照片,每張照片都標(biāo)記了主人公的年紀(jì)。電腦程序在梳理這些“訓(xùn)練數(shù)據(jù)”時,會有意識地將較老的面容和逐漸增加的皺紋數(shù)量關(guān)聯(lián)在一起。
最終,它就有能力“識別”人臉?biāo)鶎?yīng)的年紀(jì)——原理是它能夠預(yù)測任何年齡段人臉?biāo)赡墚a(chǎn)生的變化。
以上的人臉都是生成的。上圖第一行(A)和左邊第一列(B)是由生成對抗網(wǎng)絡(luò)(GAN)借助真人人臉構(gòu)建模塊構(gòu)成的。GAN隨后將A中人臉的基本特(如年齡和臉型)與B中細致特征(如發(fā)色和眼球顏色)相結(jié)合,生成了上圖中其他的人臉。
生成模型系統(tǒng)中最有名的就是生成對抗網(wǎng)絡(luò)(GAN)。在充分接觸訓(xùn)練數(shù)據(jù)后,一個生成對抗網(wǎng)絡(luò)能夠修復(fù)像素損壞或確實的圖像,或是銳化那些模糊的照片。生成對抗網(wǎng)絡(luò)通過對比的方法(即對應(yīng)著術(shù)語“博弈”)來推斷出缺失信息:該網(wǎng)絡(luò)的組成部分之一生成器負責(zé)生成假數(shù)據(jù),而另外的組成部分鑒別器則負責(zé)在數(shù)據(jù)中區(qū)分出這些假數(shù)據(jù)。隨著程序的運行,兩個組成部分的表現(xiàn)也得到了顯著提升。尤其是在由生成對抗網(wǎng)絡(luò)最新提供的超現(xiàn)實人臉中,如同上圖標(biāo)題中所示,有一些讓你感覺“不存在于我們的世界卻又真實地嚇人”。
更寬泛的說法,生成模型吸收數(shù)據(jù)(通常為圖像,但也不完全是)并拆分成一組基本但抽象的構(gòu)建模塊——科學(xué)家將其成為數(shù)據(jù)的“隱空間”。該算法操控隱空間的元素來探究其如何影響源數(shù)據(jù),而這也能幫助發(fā)現(xiàn)系統(tǒng)中正在運行的物理變化。
隱空間的概念很抽象且難以用視覺表現(xiàn),但假設(shè)用一個粗略的比方,想一想當(dāng)你在判斷人臉對應(yīng)的性別時你的大腦究竟在如何運轉(zhuǎn)。你可能會關(guān)注到發(fā)型、鼻子形狀等,以及難以用言語表達的其他特征。電腦程序也在相似地尋找數(shù)據(jù)中地顯著特征:雖然它不會知道什么是胡子或性別,但如果學(xué)習(xí)的訓(xùn)練數(shù)據(jù)中有標(biāo)記著“男性”、“女性”或“長著胡子”的照片時,電腦程序?qū)芸斓赝茢喑鰞烧咧g的相關(guān)性。
12月發(fā)表在《Astronomy & Astrophysics》期刊的一篇論文中,Schawinski和他在蘇黎世聯(lián)邦工業(yè)大學(xué)的同事Dennis Turp和Ce Zhang使用生成模型來研究星系演化過程中的物理變化。(他們所用的軟件與生成對抗網(wǎng)絡(luò)相似,但其在對隱空間處理的技術(shù)與生成對抗網(wǎng)絡(luò)有所差異,所以從技術(shù)角度來說并不屬于生成對抗網(wǎng)絡(luò))他們的模型創(chuàng)建了人工數(shù)據(jù)集,用于測試物理變化的假設(shè)。比如說,他們想知道恒星形成的“淬火”——形成速率中的快速減弱——與星系環(huán)境密度的關(guān)聯(lián)性。
對Schawinski而言,關(guān)鍵問題是僅憑數(shù)據(jù)本身能夠挖掘多少和恒星與星系演變相關(guān)的信息。“讓我們忘記所有關(guān)于天體物理學(xué)的知識。”他說,“僅僅使用數(shù)據(jù)本身,我們又能在多大程度上重新認(rèn)識這些知識?”
首先,星系的圖片被壓縮到它們的隱空間。Schawinski隨即微調(diào)空間中的某一個元素,使其能對應(yīng)上該星系的特定環(huán)境變化——比如,周邊物質(zhì)的密度。接著,他就可以重新生成一個星系來觀察不同之處。“所以現(xiàn)在我就擁有了一臺假設(shè)生成設(shè)備。用它可以使我手上所有原本都是處于低密度環(huán)境的星系看上去都像是在高密度環(huán)境中一樣。”
Schawinski他們發(fā)現(xiàn)當(dāng)星系改變所處環(huán)境從低密度變成高密度時,星系的顏色變得更紅,星系中的恒星也變得更加向中部集中。Schawinski指出這些觀察結(jié)果與現(xiàn)存的星系觀測相吻合,但問題是為什么會這樣。
Schawinski說后續(xù)分析步驟還沒有實現(xiàn)自動化,“我必須以人類的身份參與其中,那么試想‘究竟是怎么樣的物理原理可以來解釋這種效應(yīng)?’”對這個問題有兩種解釋:星系在高密度環(huán)境中變得更紅可能是因為高密度環(huán)境中充斥著很多塵埃,亦或是因為恒星的形成變少了。(換句話說,星系中的恒星變得更老了)現(xiàn)在,有了生成模型就可以檢驗這兩種思路。改變隱空間中與塵埃和恒星形成速率相關(guān)的元素來探究它們?nèi)绾斡绊懶窍档念伾?ldquo;答案是顯然的。”Schawinski說,“星系變紅是恒星形成變慢,而并不是受塵埃的影響。因此,我們應(yīng)該采納這種解釋。”
利用生成概率模型,天體物理學(xué)家可以研究宇宙星系從低密度區(qū)到高密度區(qū)過程的變化,以及導(dǎo)致這些變化的物理過程,這是一種與傳統(tǒng)模擬方法相依相異的方法。Schawinski教授指出,假設(shè)驅(qū)動是模擬的本質(zhì),研究中涉及的基本物理定律決定了系統(tǒng)所顯示得結(jié)果。在所有物理假設(shè)成立的基礎(chǔ)上,我們將一個行星結(jié)構(gòu)和一個暗物質(zhì)行為導(dǎo)入系統(tǒng),模擬其過程并運行,結(jié)果在一定程度上與現(xiàn)實相反,但事實上,我們并不知道真實情況及需要的假設(shè)條件,我們寄希望于數(shù)據(jù)本身所產(chǎn)生的結(jié)果。
模擬的成功并不能取代天文學(xué)家和研究學(xué)者的地位,但這意味著在天體物理學(xué)域,對象和過程的學(xué)習(xí)程度的發(fā)生轉(zhuǎn)變:我們通過生成概率模型,從龐大的數(shù)據(jù)庫獲取信息變得唾手可得。Schawinski教授指出,雖然這不是完全自動化的科學(xué),但表明我們有能力在一定程度上構(gòu)建自動化科學(xué)過程的工具。
生成概率模型顯然是強大的,但它是否真正代表了一種新的科學(xué)方法呢?
供職于紐約大學(xué)及Flatiron研究所(與Quanta一樣都由Simons基金會資助)的宇宙學(xué)家David Hogg教授指出,這項技術(shù)雖然令人叫絕,但歸根結(jié)底來說,只是一種從數(shù)據(jù)中提取規(guī)律的復(fù)雜方法。幾個世紀(jì)以來,天文學(xué)家一直在使用這種先進的方法進行數(shù)據(jù)觀察和分析。
Hogg教授和Schawinski教授的工作都對AI十分依賴,Hogg教授使用神經(jīng)網(wǎng)絡(luò)方法,根據(jù)光譜對恒星進行分類,并使用數(shù)據(jù)驅(qū)動模型推斷恒星的其他物理屬性。他認(rèn)為他和Schawinski教授的工作都是經(jīng)過實踐檢驗的科學(xué),并且不認(rèn)為這是第三種科學(xué)方式。他們致力于打造一個成熟運用數(shù)據(jù)的團體,尤其是在數(shù)據(jù)比較方面,即使現(xiàn)在Hogg教授的工作仍有待觀察。
任勞任怨的AI助理
無論在概念上是否具有新穎性,很明顯AI和神經(jīng)網(wǎng)絡(luò)已經(jīng)在當(dāng)代天文學(xué)和物理學(xué)研究中扮演了重要角色。
在海德堡理論研究所,物理學(xué)家Kai Polsterer教授的天文信息學(xué)小組,致力于研發(fā)以數(shù)據(jù)為中心的天體物理學(xué)研究方法。最近,他們一直在使用機器學(xué)習(xí)算法從星系數(shù)據(jù)集中提取紅移信息,這在以前是一項艱巨的任務(wù)。
Polsterer教授將這種基于AI的系統(tǒng)稱作“任勞任怨的助理”,該系統(tǒng)可以連續(xù)梳理數(shù)據(jù)數(shù)小時,不厭倦不抱怨,完成所有繁瑣乏味的工作,這讓研究人員有時間和精力做一些他們擅長的有趣的科學(xué)研究。
Polsterer教授指出系統(tǒng)并不是完美無缺,算法只能執(zhí)行訓(xùn)練過的事項,對于未知輸入無法響應(yīng)。例如,如果輸入一個已知星系,系統(tǒng)可以估計它的紅移信息和年齡,但如果輸入一張自拍照或腐爛的魚的圖片,系統(tǒng)也會輸出一個極端錯誤的估計年齡。在此案例中人類科學(xué)家扮演者重要角色,由此他認(rèn)為此項技術(shù)最終需要研究人員負責(zé)監(jiān)控及解釋。
供職于費米實驗室Nord教授指出重要的一點:神經(jīng)網(wǎng)絡(luò)方法不僅要提供計算結(jié)果,而且要提供誤差區(qū)間——這是每個大學(xué)生統(tǒng)計課上都學(xué)過的。在科學(xué)領(lǐng)域,如果只計算而不提供相關(guān)誤差估計,那么結(jié)果并不值得信任。
和其他AI研究員一樣,Nord教授也擔(dān)心神經(jīng)網(wǎng)絡(luò)系統(tǒng)結(jié)果的“不易解釋”這一缺陷,通常系統(tǒng)提供的僅是結(jié)果,而不顯示具體這些結(jié)果是如何得到的。
然而并不是所有人都認(rèn)為這是一個問題。法國CEA Saclay理論物理研究所的研究員Lenka Zdeborová指出,人類的直覺也是如此“不易解釋”。比如你看一張照片后立即認(rèn)出是一只貓,但事實上你不知道這是怎么回事,從某種意義上說,大腦就是一個黑盒子。
不僅是天體物理學(xué)家和宇宙學(xué)家向AI推動的數(shù)據(jù)驅(qū)動、數(shù)據(jù)推動科學(xué)遷移,量子物理學(xué)家也使用神經(jīng)網(wǎng)絡(luò)來解決一些十分棘手且重要的問題。
供職于周界理論物理研究所和安大略省滑鐵盧大學(xué)的Roger Melkoof教授,使用神經(jīng)網(wǎng)絡(luò)技術(shù)解決了描述多粒子系統(tǒng)的數(shù)學(xué)波函數(shù)問題。Melkoof教授將必不可少的AI技術(shù)稱為“維數(shù)的指數(shù)詛咒”,波函數(shù)形式的可能隨粒子數(shù)量呈指數(shù)增長。這一模擬過程的難點類似嘗試在象棋或圍棋游戲中找出最佳走法,即你在試圖走下一步前,會想象你的對手會如何應(yīng)對,在這些走法中選擇最佳的一個,但每走一步,可能性就會呈指數(shù)激增。
當(dāng)然,AI系統(tǒng)已經(jīng)掌握了國際象棋和圍棋游戲的玩法,從十年前征服國際象棋,到2016年AlphaGo擊敗了人類頂級圍棋棋手。Melkoof教授由此認(rèn)為,人工智能在量子物理學(xué)中同樣具有適用性。
科學(xué)研究的“第三種方法”
無論Schawinski教授認(rèn)為AI是科學(xué)研究的“第三種方法”是否正確,或者如Hogg教授認(rèn)為,這種方法只是傳統(tǒng)觀察和數(shù)據(jù)分析的“外掛”,但毫無疑問的是AI正在改變科學(xué)發(fā)現(xiàn)方法,并起到明顯的促進作用,那么AI革命將在科學(xué)研究上走多遠?
有人對“機器人科學(xué)家”的成就夸夸其談。十年前,一位名叫亞當(dāng)?shù)腁I機器人化學(xué)家研究了面包酵母的基因組,并找出了制造特定氨基酸的基因。亞當(dāng)通過觀察某些基因缺失的酵母株,將結(jié)果與具有這些基因菌株的行為進行比較。
最近,格拉斯哥大學(xué)的化學(xué)家Lee Cronin教授一直在使用機器人隨機混合化學(xué)物,看看會形成什么樣的新化合物。該系統(tǒng)通過質(zhì)譜儀、核磁共振儀和紅外光譜儀實時監(jiān)測反應(yīng)并最終預(yù)測哪種組合反應(yīng)最為強烈。Cronin教授指出,即使這個機器人系統(tǒng)不能帶來進一步的發(fā)現(xiàn),它也能使化學(xué)家們的研究速度提高約90%。
蘇黎世聯(lián)邦理工學(xué)院的另一組科學(xué)家去年利用神經(jīng)網(wǎng)絡(luò),從一組數(shù)據(jù)中推導(dǎo)出了相關(guān)物理定律。他們的系統(tǒng)類似于機器人開普勒(kepler),通過記錄從地球上看到太陽和火星在天空中的位置,重新發(fā)現(xiàn)了太陽系的日心模型,并通過觀察碰撞的球體,得出了動量守恒定律。由于物理定律通常不止一種表達式,研究人員想知道這個系統(tǒng)是否會提供新的方法表達已知物理定律。
以上都是AI啟動科學(xué)發(fā)現(xiàn)過程的案例,盡管在每種情況下,我們都可以討論這種新方法的革命性。但最有爭議且緊急的問題是,在這個數(shù)據(jù)堆積如山的時代,我們能從中收集多少信息。
在《The Book of Why》(2018)一書中,計算機科學(xué)家Judea Pearl和科學(xué)作家Dana Mackenzie指出,數(shù)據(jù)其實并不是十分智能,數(shù)據(jù)無法解釋因果關(guān)系,使用各個模型分析數(shù)據(jù)的論文或研究都只給出結(jié)果或變換數(shù)據(jù),不能做出解釋。Schawinski教授同意Pearl教授的觀點,但是指出這種觀念偷換了概念,他從未聲稱要以這種方式推斷因果關(guān)系,而只是使用這種方法可以比常規(guī)方法做的更多。
科學(xué)需要創(chuàng)造力,但到目前為止,沒有恰當(dāng)?shù)姆椒▽?chuàng)造力引入機器編程。Polsterer教授說“提出一個有邏輯的新理論需要創(chuàng)造力。而每當(dāng)你需要創(chuàng)造力的時候,你就需要人類。”創(chuàng)造力從何而來?Polsterer教授覺得創(chuàng)造力和“無聊”有關(guān),機器是無法感受到無聊的。“想變得有創(chuàng)造性,你必須討厭無聊。我不認(rèn)為機器會覺得無聊。”但另一方面,我們卻用著“創(chuàng)意”和“靈感”等詞匯來描述深藍(Deep Blue)和AlphaGo等程序。描述機器“思想”內(nèi)部發(fā)生了什么的困難反映了我們探索自己的思維過程是多么的困難。
Schawinski教授最近離開學(xué)術(shù)界進入了私企,運營一家名為Modulos的初創(chuàng)公司,Modulos雇傭了許多ETH的科學(xué)家,公司在官網(wǎng)口號是,“在AI和機器學(xué)習(xí)的發(fā)展風(fēng)暴中心工作”。無論當(dāng)前的AI技術(shù)和成熟技術(shù)間存在何種障礙,他和其他專家都認(rèn)為,機器人已經(jīng)準(zhǔn)備好做越來越多的人類科學(xué)家的工作,即使機器在這方面存在一定限制性。
在可預(yù)見的未來,我們能否制造出一臺使用生物硬件的機器,能夠解決那些連世界上最聰明的人類也無法獨立完成的物理或數(shù)學(xué)問題??茖W(xué)的未來最終是否有可能歸宿于機器驅(qū)動,令人期待。