人工智能是大數(shù)據(jù)天體物理時(shí)代的萬(wàn)能鑰匙嗎?

李楠
大數(shù)據(jù)天體物理時(shí)代,機(jī)器學(xué)習(xí)能有效地幫助天文學(xué)家完成了海量數(shù)據(jù)的挖掘工作。但機(jī)器學(xué)習(xí)并不是萬(wàn)能的鑰匙,不能盲目地應(yīng)用機(jī)器學(xué)習(xí)去解決所有天文學(xué)問(wèn)題,尤其是在問(wèn)題范圍不明確、數(shù)據(jù)體量不足以及數(shù)據(jù)質(zhì)量不高的情況下。

1.jpg

我曾經(jīng)寫(xiě)過(guò)一篇文章《和Wall-E一起仰望星空》,里面介紹了機(jī)器學(xué)習(xí)在大數(shù)據(jù)天體物理時(shí)代的應(yīng)用,其高效性、自動(dòng)化、準(zhǔn)確性都給人們留下了深刻的印象。

看上去,人工智能也許能夠幫助天文學(xué)家有效地解決大數(shù)據(jù)天體物理時(shí)代所面臨的難題。然而,人工智能真的是萬(wàn)能的么?本文將從目前機(jī)器學(xué)習(xí)的局限性探討一下機(jī)器學(xué)習(xí)在天體物理中的應(yīng)用范圍。

1、剛需:大數(shù)據(jù)天體物理時(shí)代到來(lái)

隨著觀測(cè)技術(shù)的發(fā)展,天文數(shù)據(jù)呈指數(shù)型增長(zhǎng)。例如,著名的斯隆巡天(The Sloan Digital Sky Survey)[1]開(kāi)始于2000年,觀測(cè)到了約300萬(wàn)個(gè)天體,數(shù)據(jù)量大約是40TB。而目前正在運(yùn)行的暗能量巡天(The Dark Energy Survey)[2]的數(shù)據(jù)量至少是斯隆巡天的100倍。未來(lái)歐洲的歐幾里得巡天(Euclid)[3]以及美國(guó)的大視場(chǎng)時(shí)空巡天(LSST)[4]則會(huì)把數(shù)據(jù)量推到驚人的50PB和200PB(1PB=1024TB)。

僅僅是可觀測(cè)星系一種天體的樣本數(shù)目,就將達(dá)到數(shù)十億。因此,以往傳統(tǒng)編程加人工處理方式的效率已經(jīng)不足以應(yīng)付這樣龐大的數(shù)據(jù)量了。例如,把上百億的星系按照哈勃星系圖表(圖1)分類(lèi)的工作量就多到讓人望而卻步,這還僅僅是天體物理學(xué)研究的基本操作。

也就是說(shuō),高效的自動(dòng)化數(shù)據(jù)處理將成為剛需。幸好人工智能技術(shù)在過(guò)去的十幾年里有了突飛猛進(jìn)的發(fā)展,比如圖樣識(shí)別技術(shù)已經(jīng)可以快速地把互聯(lián)網(wǎng)上的圖片進(jìn)行分類(lèi)。天文學(xué)家們受此啟發(fā),開(kāi)始把人工智能領(lǐng)域里的相關(guān)技術(shù)應(yīng)用到天文數(shù)據(jù)的自動(dòng)化處理中。

2.jpg

圖1.哈勃星系分類(lèi)圖表,最左側(cè)分支(E)是橢圓星系,由左到右橢率逐漸增大。S0代表橢圓星系和漩渦星系的臨界點(diǎn)。Sa,b,c分支代表常規(guī)漩渦星系,由a到b星系的光度中漩臂占的比重越來(lái)越大。SB分支代表具有棒結(jié)構(gòu)的漩渦星系,由a到b的排序不只考慮了光度比還考慮的懸臂的開(kāi)放程度。圖片來(lái)源:https://en.wikipedia.org/wiki/Hubble_sequence

2、應(yīng)用:分類(lèi)、回歸與生成

著名科學(xué)家赫伯特·西蒙(Herbert Simon,1975年圖靈獎(jiǎng)和1978年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主)給機(jī)器學(xué)習(xí)下過(guò)定義——“機(jī)器學(xué)習(xí)是計(jì)算機(jī)程序通過(guò)攝取數(shù)據(jù)來(lái)自行改進(jìn)性能的過(guò)程”。機(jī)器學(xué)習(xí)和傳統(tǒng)程序根本的不同就是編程邏輯:機(jī)器學(xué)習(xí)的理念是歸納法,而傳統(tǒng)編程更傾向于演繹法。

例如,如果想用傳統(tǒng)編程方法對(duì)星系的形狀分類(lèi),我們需先測(cè)量星系的形狀參數(shù),然后設(shè)定閾值,再根據(jù)形狀參數(shù)和閾值的關(guān)系對(duì)星系分類(lèi);而機(jī)器學(xué)習(xí)的邏輯則是:先建立一個(gè)普適的模型,不提供特定參數(shù)或閾值,只輸入星系圖像和歸類(lèi)標(biāo)簽,這個(gè)模型就會(huì)根據(jù)輸入的數(shù)據(jù)自我調(diào)整,從而演化成一個(gè)可用于星系形狀分類(lèi)的分類(lèi)器。圖2展示了傳統(tǒng)程序和機(jī)器學(xué)習(xí)程序工作流程的差異。

3.jpg

圖2.傳統(tǒng)編程和機(jī)器學(xué)習(xí)編程邏輯的差異。圖片來(lái)源:https://www.futurice.com/blog/differences-between-machine-learning-and-software-engineering/

眼下,天文學(xué)家主要應(yīng)用機(jī)器學(xué)習(xí)解決分類(lèi)、回歸、生成等分體,成功案例包括星系形狀分類(lèi)和指定天體辨識(shí)(圖3)、天體物理現(xiàn)象的快速自動(dòng)化建模(圖5)以及仿真圖像的生成(圖6)。綜合來(lái)看機(jī)器學(xué)習(xí)在解決天體物理學(xué)問(wèn)題上具有以下優(yōu)點(diǎn):1)覆蓋范圍廣,普適性好;2)數(shù)據(jù)驅(qū)動(dòng),上限明顯高于傳統(tǒng)方法;3)開(kāi)發(fā)難度越來(lái)越低,移植性好。這些優(yōu)點(diǎn)使得機(jī)器學(xué)習(xí)的方法在天體物理尤其是大數(shù)據(jù)時(shí)代的天體物理中越來(lái)越流行,幾乎在各個(gè)天體物理學(xué)領(lǐng)域甚至各個(gè)科學(xué)領(lǐng)域都能看到其身影。

4.jpg

圖3.應(yīng)用監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)進(jìn)行星系形狀分類(lèi)的范例。上圖為監(jiān)督學(xué)習(xí)分類(lèi)結(jié)果的范例[5],下圖為非監(jiān)督學(xué)習(xí)星系分類(lèi)結(jié)果的范例[6]。兩個(gè)方法都能比較好地根據(jù)形狀對(duì)星系進(jìn)行分類(lèi)了,如果有興趣了解更多細(xì)節(jié),請(qǐng)?jiān)L問(wèn)圖片來(lái)源鏈接里的論文(文末參考文獻(xiàn),下同)。

5.jpg

圖4.應(yīng)用機(jī)器學(xué)習(xí)解決“回歸問(wèn)題”的實(shí)例。左圖為宇宙中的投影物質(zhì)分布示意圖,右圖為機(jī)器學(xué)習(xí)的方法根據(jù)宇宙中的投影物質(zhì)分布預(yù)言的宇宙學(xué)參數(shù)[7]。這個(gè)應(yīng)用的基本思想是通過(guò)機(jī)器學(xué)習(xí)的算法建立起左圖和由圖中宇宙學(xué)參數(shù)的對(duì)應(yīng)關(guān)系,這樣在將來(lái)有新的物質(zhì)分布的數(shù)據(jù)的時(shí)候,只要輸入訓(xùn)練好的模型中,就可以快速地返回對(duì)應(yīng)的宇宙學(xué)參數(shù)了。

6.jpg

圖5.機(jī)器學(xué)習(xí)算法生成的仿真星系圖像與真實(shí)圖像的對(duì)比[8]。左圖為機(jī)器學(xué)習(xí)生成的無(wú)噪音漩渦星系,中圖為添加噪音之后的仿真圖像,右圖為哈勃望遠(yuǎn)鏡所觀測(cè)到的圖像。生成盡可能真實(shí)的數(shù)值模擬的圖像有助于天文學(xué)家測(cè)試和校正數(shù)據(jù)處理軟件和科學(xué)建模軟件。

3、短板:門(mén)檻、數(shù)據(jù)與黑盒子

然而,機(jī)器學(xué)習(xí)并非無(wú)所不能。首先其超高的計(jì)算量和特別的硬件需求使其入門(mén)門(mén)檻要高于傳統(tǒng)方法。另外,模型設(shè)計(jì)非常復(fù)雜,要投入大量的人力、物力和時(shí)間來(lái)開(kāi)發(fā)新算法及模型,大部分人只能使用現(xiàn)有的模型。而且,機(jī)器學(xué)習(xí)是一個(gè)隨機(jī)的過(guò)程,結(jié)果的統(tǒng)計(jì)性是自洽的,但無(wú)法在個(gè)體結(jié)果上實(shí)現(xiàn)多次完美重現(xiàn)。

例如,應(yīng)用機(jī)器學(xué)習(xí)實(shí)現(xiàn)分類(lèi)操作時(shí),小部分目標(biāo)天體每次的分類(lèi)結(jié)果都會(huì)不一樣;應(yīng)用機(jī)器學(xué)習(xí)實(shí)現(xiàn)回歸計(jì)算時(shí),每次預(yù)言的參數(shù)也都不是可重復(fù)的固定值,盡管不確定性很小。因此,應(yīng)用機(jī)器學(xué)習(xí)研究天體物理學(xué)問(wèn)題時(shí),有明確一對(duì)一關(guān)系的物理過(guò)程(如星系動(dòng)力學(xué)仿真和引力透鏡光線追蹤仿真等)依然需要傳統(tǒng)方法來(lái)實(shí)現(xiàn)。

其次,機(jī)器學(xué)習(xí)是數(shù)據(jù)驅(qū)動(dòng)的,所以缺少數(shù)據(jù)的科學(xué)問(wèn)題要謹(jǐn)慎采用此方法,尤其是數(shù)據(jù)在參數(shù)空間的覆蓋范圍不夠完備的時(shí)候,機(jī)器學(xué)習(xí)將給出有偏差的結(jié)果。當(dāng)然,可以使用數(shù)值模擬的方式來(lái)改進(jìn)數(shù)據(jù)的完備性和多樣性,但這又導(dǎo)致機(jī)器學(xué)習(xí)給出的結(jié)果強(qiáng)烈依賴仿真數(shù)據(jù)的生成模型,因此應(yīng)用機(jī)器學(xué)習(xí)解決此類(lèi)問(wèn)題的時(shí)候,需要盡可能詳盡地設(shè)計(jì)仿真過(guò)程從而創(chuàng)建合理的訓(xùn)練樣本。

另一方面,在數(shù)據(jù)體量滿足條件的時(shí)候,缺少優(yōu)質(zhì)數(shù)據(jù)的科學(xué)問(wèn)題也不太適合采用機(jī)器學(xué)習(xí)來(lái)解決,因?yàn)榇罅康牧淤|(zhì)數(shù)據(jù)會(huì)導(dǎo)致機(jī)器學(xué)習(xí)模型對(duì)噪音(非真實(shí)優(yōu)質(zhì)的數(shù)據(jù))做出響應(yīng),從而給出可信度很高的錯(cuò)誤結(jié)果。解決此類(lèi)問(wèn)題時(shí),對(duì)數(shù)據(jù)謹(jǐn)慎地預(yù)篩選和后篩選是必要的,以盡量避免“錯(cuò)進(jìn)錯(cuò)出(Garbage in,Garbage out)”現(xiàn)象。

最后,也是最重要的:機(jī)器學(xué)習(xí)算法的不可解釋性是被人詬病最多的短板,因此機(jī)器學(xué)習(xí)一直被比喻成黑盒,形象的地描述了機(jī)器學(xué)習(xí)算法對(duì)相關(guān)性敏感,但極其欠缺因果性的解釋。

目前為止,機(jī)器學(xué)習(xí),尤其是深度學(xué)習(xí)的唯一真正成功之處是在給定大量人類(lèi)注釋數(shù)據(jù)的情況下,能夠使用連續(xù)的幾何變換將空間X映射到空間Y,然而至于為什要從X映射到Y(jié)還需要科學(xué)家自己把控。此外,從X映射到Y(jié)的具體細(xì)節(jié)也需要更深入的研究。

相關(guān)研究[9]已經(jīng)嘗試用谷歌的Deep-Dream[10]工具包研究星系團(tuán)質(zhì)量重構(gòu)過(guò)程中對(duì)特定數(shù)據(jù)點(diǎn)的敏感性(圖6),微軟的InterpretML[11]工具包則專(zhuān)注于神經(jīng)網(wǎng)絡(luò)模型中各部分的邏輯關(guān)系和數(shù)據(jù)流向(圖7),這兩個(gè)嘗試可以被看成“向黑盒子照入光”,幫助人們更好地理解其工作原理,當(dāng)然結(jié)果仍很初步,離完全理解“黑盒子”還有很長(zhǎng)的路要走。希望隨著對(duì)機(jī)器學(xué)習(xí)工作邏輯研究的深入,人類(lèi)能最終打開(kāi)黑盒,讓機(jī)器學(xué)習(xí)幫助科學(xué)家更好地探索宇宙。

7.jpg

圖6.應(yīng)用深度學(xué)習(xí)算法基于星系團(tuán)的光度信息重構(gòu)星系團(tuán)的總質(zhì)量分布的過(guò)程中,星系團(tuán)光度場(chǎng)中數(shù)據(jù)點(diǎn)對(duì)重構(gòu)結(jié)果貢獻(xiàn)的權(quán)重示意圖。左側(cè)為星系團(tuán)的廣度分布(恒星粒子分布)[9],其中黑圈圈出星系團(tuán)的中心星系的位置,紅圈圈出星系團(tuán)的成員星系;右側(cè)為Deep-Dream[10]處理后的結(jié)果,黃色的區(qū)域代表對(duì)結(jié)果貢獻(xiàn)比較大的數(shù)據(jù)點(diǎn)。

8.jpg

圖7.機(jī)器學(xué)習(xí)模型解釋軟件InterpretML簡(jiǎn)介[11]。

總結(jié):有效、有選擇、有未來(lái)

大數(shù)據(jù)天體物理時(shí)代,機(jī)器學(xué)習(xí)能有效地幫助天文學(xué)家完成了海量數(shù)據(jù)的挖掘工作。但機(jī)器學(xué)習(xí)并不是萬(wàn)能的鑰匙,不能盲目地應(yīng)用機(jī)器學(xué)習(xí)去解決所有天文學(xué)問(wèn)題,尤其是在問(wèn)題范圍不明確、數(shù)據(jù)體量不足以及數(shù)據(jù)質(zhì)量不高的情況下。

另外,不可解釋性是機(jī)器學(xué)習(xí)方法目前最大的短板,因此根據(jù)機(jī)器學(xué)習(xí)的結(jié)果下因果性結(jié)論的時(shí)候要尤為謹(jǐn)慎。已經(jīng)有一些先驅(qū)性工作嘗試解釋機(jī)器學(xué)習(xí)結(jié)果與數(shù)據(jù)的因果關(guān)系以及機(jī)器學(xué)習(xí)模型內(nèi)部的邏輯關(guān)系,希望隨著此類(lèi)研究的深入,人類(lèi)能最終打開(kāi)黑盒,讓機(jī)器學(xué)習(xí)也能從事推理和抽象相關(guān)的科研工作。

不過(guò)話說(shuō)回來(lái),真到那個(gè)時(shí)候,天文學(xué)家又將扮演何種角色呢?會(huì)不會(huì)成為失業(yè)的人群?歡迎留下你的看法。圖片

參考文獻(xiàn):

[1]https://www.sdss.org/

[2]https://www.darkenergysurvey.org/

[3]https://www.euclid-ec.org/

[4]https://www.lsst.org/

[5]Dieleman,S.et al.,Rotation-invariant Convolutional Neural Networks for Galaxy Morphology Prediction,2015,MNRAS,Vol.450,Issue 2,p.1141-1459

[6]Hocking,A.et al.,An automatic taxonomy of Galaxy Morphology Using Unsupervised Machine Learning,2018,MNRAS,Vol.473,Issue 1,p.1108-1129

[7]Fluri,J.et al.,Cosmological Constraints from Noisy Convergence Maps through Deep Learning,2018,Physical Review D,Vol.98,Issue 12,id.123518

[8]Ravanbakhsh,S.et al.,Enabling Dark Energy Science with Deep Generative Models of Galaxy Images,2017,AAAI-2017,Proceedings,id.14765

[9]Yan,Z.et al,Galaxy Cluster Mass Estimation with Deep Learning and Hydrodynamical Simulations,2020,MNRAS,Vol.499,Issue 3,pp.3445-3458

[10]https://github.com/google/deepdream

[11]https://github.com/interpretml/interpret

作者簡(jiǎn)介

李楠

2013年在中國(guó)科學(xué)院大學(xué)年獲得天體物理學(xué)博士,現(xiàn)中國(guó)科學(xué)院國(guó)家天文臺(tái)副研究員,主要研究興趣為機(jī)器學(xué)習(xí)在天體物理中的應(yīng)用、應(yīng)用引力透鏡效應(yīng)研究星系宇宙學(xué)問(wèn)題。

THEEND

最新評(píng)論(評(píng)論僅代表用戶觀點(diǎn))

更多
暫無(wú)評(píng)論