本文轉(zhuǎn)載自公眾號(hào)“AI科技評(píng)論”,作者/Bryan McMahon,編譯/bluemin。
自20世紀(jì)50年代DNA被發(fā)現(xiàn)以來,生物學(xué)家一直試圖將基因序列的長度與一系列細(xì)胞成分和蛋白質(zhì)合成過程聯(lián)系起來,例如,包括為現(xiàn)在著名的mRNA疫苗助力的特定抗體的mRNA轉(zhuǎn)錄過程。
盡管自DNA發(fā)現(xiàn)以來,在基因組測序和理解方面取得了一定進(jìn)展,但仍缺失一個(gè)重要環(huán)節(jié)。生物學(xué)家缺乏一種僅使用未知蛋白質(zhì)的DNA或RNA源序列就能準(zhǔn)確有效地預(yù)測其三維形狀的方法。在生物學(xué)中,結(jié)構(gòu)決定功能。蛋白質(zhì)在細(xì)胞中的作用取決于其形態(tài)。中空的圓柱形結(jié)構(gòu)有利于形成良好的膜受體,而U型酶在峽灣狀空腔中催化化學(xué)反應(yīng)。能夠預(yù)測甚至設(shè)計(jì)蛋白質(zhì)結(jié)構(gòu)對(duì)于人類疾病理解將是一個(gè)飛躍,并會(huì)為一系列疾病解鎖新的治療方法。
但70多年來,科學(xué)家們一直在使用令計(jì)算機(jī)不堪重負(fù)的慢方法,并且主要依靠自己的猜測來梳理蛋白質(zhì)的結(jié)構(gòu)。盡管生物學(xué)家知道構(gòu)成每種蛋白質(zhì)的每種氨基酸的DNA編碼長度,但他們?nèi)狈σ粋€(gè)可重復(fù)、可推廣的公式來解決所謂的“蛋白質(zhì)折疊問題”。他們需要系統(tǒng)地了解任何一串氨基酸一旦連接起來,將如何折疊成三維形狀,從而解開浩瀚的蛋白質(zhì)宇宙。
來源:DeepMind
2020年,谷歌的人工智能團(tuán)隊(duì)DeepMind宣布其算法AlphaFold解決了蛋白質(zhì)折疊問題。
起初,大多數(shù)人都對(duì)這一驚人的突破興奮不已,科學(xué)家們隨時(shí)準(zhǔn)備測試這種新工具,也激發(fā)了一些人的興趣。這不就是幾年前推出AlphaGo,使其在中國戰(zhàn)略游戲圍棋中擊敗世界冠軍的那家公司嗎?掌握一個(gè)比國際象棋更復(fù)雜的游戲,雖然難度很大,但與蛋白質(zhì)折疊問題相比,感覺微不足道。
但是AlphaFold通過一年一度的競賽證明了其科學(xué)勇氣,在該競賽中,生物學(xué)家團(tuán)隊(duì)僅根據(jù)蛋白質(zhì)的基因序列猜測蛋白質(zhì)的結(jié)構(gòu)。該算法遠(yuǎn)遠(yuǎn)超過了人類競爭對(duì)手,發(fā)布了預(yù)測最終形狀在一埃(單個(gè)原子的寬度)內(nèi)的分?jǐn)?shù)。不久之后,AlphaFold通過了第一次真實(shí)世界測試,正確預(yù)測了SARS-CoV-2“刺突”蛋白的形狀,該蛋白是病毒顯而易見的靶向疫苗的膜受體。
來源:《Nature》
AlphaFold的成功很快就變得不容忽視,科學(xué)家們開始在實(shí)驗(yàn)室里試用這種算法。到2021年,《科學(xué)》雜志將AlphaFold的開源版本冠以“年度最佳方法”。生物化學(xué)家兼《科學(xué)》雜志主編H.Holden Thorp在一篇社論中寫道:“蛋白質(zhì)折疊方面的突破是有史以來在科學(xué)成就和未來研究方面最偉大的突破之一。”
今天,AlphaFold的預(yù)測非常準(zhǔn)確,經(jīng)過70多年的思索,蛋白質(zhì)折疊問題被認(rèn)為已經(jīng)解決。雖然蛋白質(zhì)折疊問題可能是迄今為止AI在科學(xué)領(lǐng)域最引人注目的成就,但AI正在許多科學(xué)領(lǐng)域悄然取得新發(fā)現(xiàn)。
通過加速發(fā)現(xiàn)過程并為科學(xué)家提供新的調(diào)查工具,AI也正在改變科學(xué)研究的方法。
這項(xiàng)技術(shù)升級(jí)了顯微鏡和基因組測序儀等研究支柱,為儀器增加了新的技術(shù)能力,使其功能更加強(qiáng)大。AI驅(qū)動(dòng)的藥物設(shè)計(jì)和重力波探測器為科學(xué)家提供了探測和控制自然界的新工具。
在實(shí)驗(yàn)室之外,AI還可以部署先進(jìn)的仿真和推理系統(tǒng),以開發(fā)真實(shí)世界的模型并使用它們測試假設(shè)。隨著科學(xué)方法的廣泛影響,AI正在通過突破性的發(fā)現(xiàn)、新技術(shù)和增強(qiáng)工具,以及提高科學(xué)過程速度和準(zhǔn)確性的自動(dòng)化方法,引發(fā)一場科學(xué)革命。
來源:AI輔助的超分辨率宇宙學(xué)模擬
除了蛋白質(zhì)折疊問題以外,從宇宙學(xué)和化學(xué)到半導(dǎo)體設(shè)計(jì)和材料科學(xué),AI在許多領(lǐng)域的發(fā)現(xiàn)證明了其科學(xué)價(jià)值。
例如,DeepMind的團(tuán)隊(duì)設(shè)計(jì)了另一種計(jì)算分子的電子密度的算法,擊敗了科學(xué)家60年來一直依賴的快捷方法。了解給定分子的電子密度對(duì)于理解材料的物理和化學(xué)性質(zhì)大有裨益。但由于電子受量子力學(xué)支配,計(jì)算特定電子的密度需要復(fù)雜的方程,很快演變成計(jì)算噩夢。相反,科學(xué)家們利用材料電子的平均密度作為引導(dǎo),避開了困難的量子計(jì)算。然而,DeepMind的算法直接解決了量子方面的問題,并被證明比快捷方法更精確。
與蛋白質(zhì)折疊問題類似,AI能夠超越科學(xué)家?guī)资陙硌赜玫姆椒?,并解鎖了準(zhǔn)確預(yù)測物理和化學(xué)性質(zhì)的新方法。
AI對(duì)科學(xué)的影響在四個(gè)關(guān)鍵方面超越了該技術(shù)的新發(fā)現(xiàn)。
首先,AI可以快速閱讀科學(xué)文獻(xiàn),從而了解科學(xué)的基本規(guī)則、事實(shí)和方程式,并幫助科學(xué)家管理淹沒各個(gè)領(lǐng)域的大量論文和數(shù)據(jù)。僅在2020年,就有10萬到18萬篇關(guān)于COVID-19的科學(xué)期刊發(fā)表。
盡管研究人員將重心放在與持續(xù)的全球大流行一樣緊迫的事情上是有道理的,但關(guān)于COVID-19的論文僅占最大生物醫(yī)學(xué)數(shù)據(jù)庫總文章的4-6%左右。產(chǎn)生的論文和數(shù)據(jù)浪潮遠(yuǎn)遠(yuǎn)超出任何科學(xué)家的閱讀能力,使研究人員無法真正跟上各自領(lǐng)域的創(chuàng)新步伐。
這正是AI的用武之地。
例如,在藥物化學(xué)領(lǐng)域,Insilico公司正在進(jìn)入完全由AI設(shè)計(jì)的藥物I期臨床試驗(yàn)階段,該藥物旨在治療一種稱為特發(fā)性肺纖維化(IPF)的疾病。Insilico的算法通過閱讀醫(yī)學(xué)文獻(xiàn)來選擇疾病目標(biāo),以找到潛在的蛋白質(zhì)、細(xì)胞或病原體進(jìn)行精確定位。一旦選擇了目標(biāo),該算法就可以設(shè)計(jì)一種治療方法來治療疾病。Insilico開發(fā)了一個(gè)用于藥物發(fā)現(xiàn)的端到端AI平臺(tái),該平臺(tái)可以自動(dòng)掌握該領(lǐng)域的最新結(jié)果和數(shù)據(jù),以便科學(xué)家能夠了解情況而不會(huì)不知所措。
來源:圖片由美國阿貢國家實(shí)驗(yàn)室領(lǐng)導(dǎo)計(jì)算設(shè)施、可視化和數(shù)據(jù)分析組提供
其次,隨著儀器更加精密以及探索自然奧秘的逐步深入,科學(xué)家們需要面對(duì)海量數(shù)據(jù)。AI同樣可以在此方面大展身手。
阿貢國家實(shí)驗(yàn)室(Argonne National Laboratory,ANL)的一組科學(xué)家研發(fā)了一種算法,該算法可以理解引力波,即愛因斯坦預(yù)測的時(shí)空連續(xù)體結(jié)構(gòu)中的漣漪,但直到2015年才被發(fā)現(xiàn)。該算法在7分鐘內(nèi)處理了一個(gè)月的數(shù)據(jù)量,提供了一種可加速、可擴(kuò)展和可重復(fù)的引力波檢測方法。而且該算法還可以在標(biāo)準(zhǔn)圖形處理單元(GPU)上運(yùn)行,研究人員無需使用專門設(shè)備收集和解釋引力波數(shù)據(jù)。
ANL數(shù)據(jù)科學(xué)與學(xué)習(xí)(DSL)部門主管Ian Foster說:“這個(gè)項(xiàng)目讓我興奮不已,它展示了如何通過正確的工具,將人工智能方法自然地集成到科學(xué)家的工作流程中,讓他們更快更好地完成工作,增強(qiáng)而非取代人類智能。”借助人工智能,曾經(jīng)的海量數(shù)據(jù)現(xiàn)在變成了加速科學(xué)發(fā)展步伐的可控信息流。
第三,AI一直在悄悄升級(jí)實(shí)驗(yàn)室的一些長期支柱:顯微鏡和DNA測序儀。
在ANL,研究人員找到了一種方法來提升電子顯微鏡可檢索到的有關(guān)樣品的信息量,同時(shí)提高儀器的分辨率和靈敏度。不同于許多人在高中或大學(xué)生物課上熟悉的顯微鏡,因?yàn)殡娮语@微鏡不依賴可見光來構(gòu)建圖像。相反,顧名思義,它們使用電子,這使它們能夠以比其他顯微鏡更高的分辨率和更精細(xì)的構(gòu)造拍攝圖像。
ANL的研究人員設(shè)計(jì)了一種在電子顯微鏡上使用AI記錄相位數(shù)據(jù)的方法,該方法可以傳遞有關(guān)樣品物理和化學(xué)性質(zhì)的關(guān)鍵信息,從而提高儀器的功率和容量。
與此類似,AI的另一個(gè)升級(jí)功能是在所謂的光場顯微鏡中發(fā)現(xiàn)的,它可以拍攝高清晰度的3D運(yùn)動(dòng)圖像。科學(xué)家通常需要幾天的時(shí)間來重建視頻,但有了AI后,處理這些運(yùn)動(dòng)中的高分辨率數(shù)據(jù)所需的時(shí)間縮短到幾秒鐘,而不會(huì)丟失分辨率或細(xì)節(jié)特征。
DNA測序儀是基因組時(shí)代的主力軍,也得到了AI的增強(qiáng)。今年早些時(shí)候,一組科學(xué)家利用AI將DNA測序所需時(shí)間減半,并希望很快再次減半。簡言之,人工智能正在升級(jí)最基本的科學(xué)工具。
來源:《Science》
最后,AI在實(shí)驗(yàn)室中真正大放異彩的地方是模擬復(fù)雜系統(tǒng),使其成為基礎(chǔ)科學(xué)研究中越來越標(biāo)準(zhǔn)的工具。
去年,研究人員通過在物理學(xué)、天文學(xué)、地質(zhì)學(xué)和氣候科學(xué)等十個(gè)科學(xué)領(lǐng)域建立突破性的模擬實(shí)驗(yàn),展示了AI的多學(xué)科能力。
所有10個(gè)仿真器均由同一個(gè)稱為DENSE的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,與其他方法相比,在保持準(zhǔn)確性不變的前提下,仿真速度提高了10億倍之多。
至關(guān)重要的是,仿真器可用于解決“逆問題”,即研究人員知道結(jié)果但想找出哪些變量會(huì)導(dǎo)致輸出。AI擅長這種計(jì)算,并且可以很容易地找出通向特定答案的路徑。
雖然模擬很有用,研究人員也希望確保他們的模型在現(xiàn)實(shí)世界中有效。谷歌和三星這兩家領(lǐng)先的科技公司最近轉(zhuǎn)向AI來規(guī)劃其部分芯片的布局。
谷歌得出的結(jié)論是,人工智能設(shè)計(jì)的芯片“對(duì)于所有關(guān)鍵指標(biāo),包括功耗、性能和芯片面積,都優(yōu)于或可與人類生產(chǎn)的芯片相媲美”。更進(jìn)一步,該公司使用AI來設(shè)計(jì)其下一代AI加速器(TPU是AI制造的芯片,而不是標(biāo)準(zhǔn)的CPU或GPU)。
同樣,三星依靠AI芯片設(shè)計(jì)軟件創(chuàng)建了Exynos,這是一種用于可穿戴產(chǎn)品和汽車的芯片。憑借其高保真模擬,AI為科學(xué)家們提供了一種強(qiáng)大的工具,正在徹底改變他們對(duì)自然世界進(jìn)行建模和實(shí)驗(yàn)的方式。
來源:AI支持對(duì)COVID-19患者的快速診斷
對(duì)于AI的建模能力,沒有比COVID-19大流行更好的現(xiàn)實(shí)測試了。
首先,蛋白質(zhì)折疊算法AlphaFold正確預(yù)測了重要的“刺突”蛋白質(zhì),展示了AI在未來的大流行中如何加速疫苗或療法的研發(fā)。但也許更令人印象深刻的是,在2020年夏天,日本科學(xué)家使用世界上最強(qiáng)大的超級(jí)計(jì)算機(jī)Fugaku來模擬COVID-19在空氣中的傳播。
在深度神經(jīng)網(wǎng)絡(luò)和數(shù)千個(gè)GPU的支持下,F(xiàn)ugaku向世界提供了病毒是通過空氣傳播的決定性證據(jù),并說服WHO相應(yīng)地改變其控制COVID-19的指導(dǎo)方針(例如,口罩、通風(fēng)以及室內(nèi)與室外活動(dòng)的風(fēng)險(xiǎn))。在現(xiàn)實(shí)世界中,AI通過在危機(jī)期間為全球緩解戰(zhàn)略提供信息來證明其價(jià)值。
除了做出新發(fā)現(xiàn)和為科學(xué)武庫添加新工具外,AI還可以發(fā)現(xiàn)數(shù)據(jù)中的模式,做出可測試的預(yù)測,并使用它們將新證據(jù)納入其模型,反映科學(xué)方法。
哲學(xué)家Karl Popper普及了這樣一種觀點(diǎn),即科學(xué)是通過拋棄可證偽的假設(shè)而進(jìn)步的,這些假設(shè)可以通過實(shí)驗(yàn)進(jìn)行檢驗(yàn)并證明是錯(cuò)誤的,而這種通過理論和實(shí)驗(yàn)消除的過程是科學(xué)方法的一個(gè)標(biāo)志。
正如AI最近的一些突破所表明的那樣,該技術(shù)還產(chǎn)生了可以通過實(shí)驗(yàn)測試的假設(shè),并通過排除過程提供了一個(gè)嚴(yán)格且可證偽的答案。
DeepMind的電子密度模型通過逼近科學(xué)過程并在預(yù)測和實(shí)驗(yàn)之間迭代反饋,直到更好地掌握了量子計(jì)算,從而擊敗了研究人員。
AI通過在數(shù)千個(gè)實(shí)驗(yàn)確定的蛋白質(zhì)上測試其模型,細(xì)化猜測,并通過賦予更接近解決方案的分支更高權(quán)重來修剪神經(jīng)網(wǎng)絡(luò),從而解決了蛋白質(zhì)折疊問題。研究人員構(gòu)建了AlphaFold的開源版本之后,其他科學(xué)家可以利用該模型解開RNA結(jié)構(gòu)如何折疊以及蛋白質(zhì)如何結(jié)合在一起的謎團(tuán)。
來源:端到端剛性對(duì)接的獨(dú)立SE(3)等變模型
總體而言,理解蛋白質(zhì)的結(jié)合為強(qiáng)大的新藥研發(fā)打開了大門,因?yàn)榧?xì)胞中的許多反應(yīng)都是蛋白質(zhì)協(xié)同作用的結(jié)果。這兩項(xiàng)進(jìn)步開啟了治療設(shè)計(jì)的新時(shí)代,即利用端到端的AI管道定位疾病并設(shè)計(jì)精確的治療方法。
例如,華為人工智能實(shí)驗(yàn)室的一個(gè)研究團(tuán)隊(duì)使用該模型的一個(gè)版本自動(dòng)生成了針對(duì)目標(biāo)感染的抗體。從藥物設(shè)計(jì)到蛋白質(zhì)結(jié)合,人工智能對(duì)自然界建模、分析和控制的能力只會(huì)繼續(xù)提高。
DeepMind的最新突破是將AI應(yīng)用于控制和維持核聚變反應(yīng)的問題。AI成功地控制了氫和氦的融合反應(yīng),為宇宙中的每顆恒星提供了創(chuàng)紀(jì)錄的能量,并發(fā)現(xiàn)了穩(wěn)定保持等離子體的新形狀。這項(xiàng)實(shí)驗(yàn)是朝著開發(fā)可行的聚變能源邁出的重要一步,聚變能源可以提供足夠的可再生能源,并為世界提供動(dòng)力。
這個(gè)案例突出了AI在科學(xué)中最有希望的應(yīng)用:它看到了我們無法看到的模式,并從不同但互補(bǔ)的角度分析了我們的環(huán)境。與研究人員合作并以科學(xué)方法為基礎(chǔ),AI能夠利用支撐科學(xué)過程的迭代理論和實(shí)驗(yàn)解決同樣的探索性問題。
科學(xué)可以最好地描述為對(duì)未知事物的探索。在這段旅程中,AI是一個(gè)伙伴,它以不同于我們的方式感知自然世界及其未探索的部分,開辟了理解和利用世界力量的新途徑。
正如索尼研究主管Hiroaki Kitano所描述的那樣,基于AI可模擬的假設(shè)、實(shí)驗(yàn)和數(shù)據(jù)的自校正系統(tǒng),科學(xué)發(fā)現(xiàn)是一個(gè)“搜索”問題。但在搜索過程中,AI不僅僅是科學(xué)家和合作伙伴手中的強(qiáng)大工具。這項(xiàng)技術(shù)也在改變科學(xué)過程,實(shí)現(xiàn)自動(dòng)化并增加人們使用它可以完成的任務(wù)。人工智能正在引領(lǐng)一場新的科學(xué)革命,在多個(gè)領(lǐng)域取得了顯著突破,開啟了科學(xué)研究新途徑,加快了科學(xué)創(chuàng)新步伐。作為合作伙伴,AI將會(huì)與科學(xué)家共同探索更多無止境的科學(xué)前沿。