位于歐洲核子研究中心(CERN)的大型強子對撞機(LHC)是目前世界上最大的粒子加速器,在里面進行的實驗每秒產(chǎn)生大約一百萬吉字節(jié)(GB,十億字節(jié))的數(shù)據(jù)。即使經(jīng)過壓縮,LHC在一小時內(nèi)積累的數(shù)據(jù)也與社交網(wǎng)站臉書整年收集的數(shù)據(jù)量相當(dāng)。這么海量的數(shù)據(jù),給存儲和分析帶來了極大難題。幸運的是,粒子物理學(xué)家不必自己處理所有這些數(shù)據(jù)。他們與一種稱為機器學(xué)習(xí)的人工智能(AI)攜手合作,來處理這些數(shù)據(jù)。
來自美國能源部斯坦福直線加速器中心(SLAC)和費米國家加速器實驗室的科學(xué)家,在8月2日發(fā)表于《自然》雜志的一篇文章中,總結(jié)了機器學(xué)習(xí)在粒子物理學(xué)領(lǐng)域的當(dāng)前應(yīng)用和未來前景。
該論文共同作者、美國威廉瑪麗學(xué)院的亞力山大·拉多維奇說:“機器學(xué)習(xí)算法自己知道如何進行各種分析,這有望為我們節(jié)省無數(shù)小時的設(shè)計和分析工作。”拉多維奇目前正參與費米實驗室的NuMI離軸中微子實驗(NOVA)。
機器學(xué)習(xí)篩查大數(shù)據(jù)
機器學(xué)習(xí)已被證明在分析領(lǐng)域非常成功。為了處理像在LHC內(nèi)進行的那些現(xiàn)代實驗中產(chǎn)生的海量數(shù)據(jù),研究人員應(yīng)用所謂的“觸發(fā)器”——專用的硬件和軟件,它們能實時決定哪些數(shù)據(jù)可保存下來以供分析,哪些數(shù)據(jù)可以丟棄。
論文作者之一、麻省理工學(xué)院的邁克·威廉姆斯說,機器學(xué)習(xí)算法至少可由做出其中70%的決定。威廉姆斯目前正參與LHCb實驗,該實驗可幫助科學(xué)家揭示為何宇宙中物質(zhì)的數(shù)量遠遠多于反物質(zhì)的數(shù)量。
LHC中巨大的超環(huán)面儀器(ATLAS)與緊湊渺子線圈(CMS)能發(fā)現(xiàn)希格斯玻色子,每個探測器都有數(shù)百萬個傳感元件,其信號需要放在一起才能獲得有意義的結(jié)果。SLAC的邁克爾·卡根說道:“這些信號組成了一個復(fù)雜的數(shù)據(jù)空間,我們需要了解它們之間的關(guān)系,得出結(jié)論,例如,探測器中某個粒子的軌跡是由電子、光子還是其他東西產(chǎn)生。”
中微子實驗也受益于機器學(xué)習(xí)。NOVA研究了中微子在穿越地球時如何從一種類型轉(zhuǎn)變?yōu)榱硪环N類型,這些中微子振蕩可能潛在地揭示一種新類型中微子的存在,一些理論認(rèn)為,這種中微子是暗物質(zhì)的粒子。NOVA的探測器正在監(jiān)視中微子撞擊探測器材料時產(chǎn)生的帶電粒子,并且,機器學(xué)習(xí)算法可以識別它們。
識別特征 進行模擬
機器學(xué)習(xí)算法日益復(fù)雜和精細,為解決粒子物理問題開辟了前所未有的機會。機器學(xué)習(xí)的最新發(fā)展——所謂的深度學(xué)習(xí),即使用神經(jīng)網(wǎng)絡(luò),改進了粒子物理學(xué)家們的實驗方式。
卡根說,他們可以使用深度學(xué)習(xí)的許多新任務(wù)都與計算機視覺有關(guān),“它與面部識別相似,只是在粒子物理學(xué)中,圖像特征比耳朵和鼻子更抽象。”
像NOVA這類實驗產(chǎn)生的數(shù)據(jù)很容易轉(zhuǎn)化為實際圖像,AI可以很容易地從中識別特征。拉多維奇說:“即使數(shù)據(jù)看起來不像圖像,如果能夠以正確的方式處理數(shù)據(jù),我們?nèi)匀豢梢允褂糜嬎銠C視覺方法。這種方法非常有用的一個領(lǐng)域是,對大型強子對撞機產(chǎn)生的大量粒子射流進行分析。”
深度學(xué)習(xí)的另一個新興應(yīng)用是粒子物理學(xué)數(shù)據(jù)的模擬,如預(yù)測LHC中的粒子碰撞會發(fā)生什么,并與實際數(shù)據(jù)比較。傳統(tǒng)模擬通常很慢且需要巨大的計算能力,而AI可以更快地進行模擬。
卡根說:“雖然這是非常早期的工作,但它顯示出許多希望,并可能有助于應(yīng)對未來的數(shù)據(jù)挑戰(zhàn)。”
質(zhì)疑促進進步
盡管有明顯進步,但機器學(xué)習(xí)愛好者經(jīng)常需要面對來自合作伙伴的質(zhì)疑,部分原因是機器學(xué)習(xí)算法大多數(shù)時候就像“黑匣子”,很少能提供關(guān)于它們?nèi)绾蔚贸瞿硞€結(jié)論的信息。
威廉姆斯認(rèn)為:“質(zhì)疑是好事,如果你將機器學(xué)習(xí)用做丟棄數(shù)據(jù)的觸發(fā)器,就像我們在LHCb中所做的那樣,那么你需要非常謹(jǐn)慎并設(shè)置非常高的標(biāo)準(zhǔn)。因此,在粒子物理學(xué)領(lǐng)域建立機器學(xué)習(xí)需要不斷努力,以更好地理解算法的內(nèi)部工作原理,并盡可能地與實際數(shù)據(jù)進行交叉檢查。”
論文共同作者、工作于MicroBooNE中微子實驗的SLAC研究員寺尾一寬(音譯)說:“在應(yīng)用AI方面,我們應(yīng)該不斷嘗試,并始終對結(jié)果進行評估。質(zhì)疑不應(yīng)成為我們前進的障礙。今天我們主要使用機器學(xué)習(xí)來查找數(shù)據(jù)中的特征,10年后,機器學(xué)習(xí)算法或許可以獨立地提出問題,并在發(fā)現(xiàn)新物理學(xué)時識別它們。”