生命科學(xué)領(lǐng)域的研究中有很多方向,比如研究微觀層面的細(xì)胞生物學(xué)與分子生物學(xué),研究生物與環(huán)境關(guān)系的生態(tài)學(xué)等。而與生命活動(dòng)規(guī)律、發(fā)育機(jī)制、生命本質(zhì)的研究最接近的是有關(guān)生物大分子,比如蛋白質(zhì)、核酸結(jié)構(gòu)的研究。
對(duì)蛋白質(zhì)進(jìn)行系統(tǒng)深入的研究,能讓我們從更深層次詮釋生命體的構(gòu)成和運(yùn)作變化規(guī)律,進(jìn)而全面揭示生命運(yùn)行、發(fā)展的機(jī)制,激發(fā)生物科學(xué)、藥物研發(fā)、合成生物學(xué)方面的發(fā)展。因此蛋白質(zhì)研究、預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)等是學(xué)術(shù)與產(chǎn)業(yè)界深度參與的領(lǐng)域。在AI時(shí)代,得益于算力和算法模型的極大提升,我們也見證了蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的歷史時(shí)刻。
每?jī)赡昱e辦一次的CASP比賽被譽(yù)為“蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)領(lǐng)域的奧林匹克競(jìng)賽”,在基于CASP14(2020年第14屆國際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽)的蛋白質(zhì)測(cè)試集評(píng)估中,天壤TRFold獲得了國內(nèi)所有公開蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型中最好成績(jī),僅次于DeepMind公司AlphaFold2全球第一的成績(jī)。CASP競(jìng)賽是含金量非常高的比賽,能在這樣的國際大賽中贏得優(yōu)異的成績(jī),也意味著國內(nèi)計(jì)算生物學(xué)的表現(xiàn)突圍進(jìn)入了世界第一梯隊(duì)。
無論是享譽(yù)世界的AlphaFold2模型,還是國內(nèi)新晉的TRFold模型,這些前沿的AI模型都在生命科學(xué)領(lǐng)域中賦予研究如催化劑般的效率,沿著蛋白質(zhì)研究的價(jià)值探索過程,我們一起看看這場(chǎng)重構(gòu)生命科學(xué)與醫(yī)藥領(lǐng)域的旅程。
打開科研思路與研究空間
在中學(xué)的時(shí)候我們已經(jīng)簡(jiǎn)單了解過蛋白質(zhì),我們知道蛋白質(zhì)是細(xì)胞中的主要功能分子,參與行使幾乎所有的細(xì)胞功能:比如在食物的消化過程中可以發(fā)揮催化作用的各種酶;血液中的血紅蛋白運(yùn)輸養(yǎng)料與代謝廢物;參與生物體內(nèi)的新陳代謝的調(diào)劑作用,如胰島素;肌球蛋白用于細(xì)胞骨架的形成,還有免疫、細(xì)胞分化、細(xì)胞凋亡等過程都有蛋白質(zhì)的身影參與。
在蛋白質(zhì)參與行使細(xì)胞功能的過程中,必須折疊成特定的結(jié)構(gòu)。但其排列的方式和位置的差異使得種類極其繁多,蛋白質(zhì)在三維空間的折疊方向有10^300種方式,結(jié)構(gòu)非常復(fù)雜。不同的折疊方式使得蛋白質(zhì)具有的活性和生物性能不定,而這個(gè)復(fù)雜的特性也就注定了研究蛋白質(zhì)的路徑困難重重。
傳統(tǒng)觀測(cè)蛋白質(zhì)結(jié)構(gòu)的方法主要有三種,包括核磁共振、X射線、冷凍電鏡,但這些方法往往依賴昂貴的設(shè)備和大量的試錯(cuò)過程,每種結(jié)構(gòu)的研究都要花數(shù)年時(shí)間。歷史上有科學(xué)家耗費(fèi)幾十年時(shí)間才能得到一個(gè)清晰的蛋白質(zhì)三維結(jié)構(gòu),蛋白質(zhì)三維結(jié)構(gòu)的測(cè)定成了生物學(xué)領(lǐng)域非常困難的研究。至今為止沒有AI技術(shù)的協(xié)助,三維結(jié)構(gòu)被看清的量也僅僅只有17萬個(gè),這跟蛋白質(zhì)的總量相比差距巨大。
而AI應(yīng)用于蛋白質(zhì)結(jié)構(gòu)的最新進(jìn)展,即AlphaFold2模型、TRFold模型等,能在幾天、甚至以分鐘級(jí)預(yù)測(cè)出具有高置信度的蛋白質(zhì)結(jié)構(gòu),這在以前甚至要花費(fèi)數(shù)十年時(shí)間。相對(duì)于傳統(tǒng)的測(cè)定方式來說速度不僅快而且成本低廉,非常適合高通量的蛋白質(zhì)結(jié)構(gòu)獲取。研究表示,如果照此速度,到今年年底將能完成對(duì)1.3億個(gè)蛋白結(jié)構(gòu)的預(yù)測(cè),這有可能徹底改變生命科學(xué)的研究進(jìn)程。
而這也意味著這種AI主導(dǎo)下的大規(guī)模的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)將成為一種重要工具,對(duì)于科研工作者來說,能從結(jié)構(gòu)的角度解答新的科學(xué)問題,打開科研的思路。比如科研人員可以對(duì)未知功能或者新發(fā)現(xiàn)的蛋白質(zhì)分子,通過結(jié)構(gòu)分析,進(jìn)行功能注釋,指導(dǎo)設(shè)計(jì)進(jìn)行功能確認(rèn)的生物學(xué)實(shí)驗(yàn)。也可以通過分析蛋白質(zhì)的結(jié)構(gòu),確認(rèn)功能單位或者結(jié)構(gòu)域,為遺傳操作提供目標(biāo),為設(shè)計(jì)新的蛋白質(zhì)或改造已有蛋白質(zhì)提供可靠的依據(jù)等。天壤團(tuán)隊(duì)研發(fā)的TRFold這類AI模型對(duì)于生物科學(xué)領(lǐng)域的深研來說,圍繞蛋白質(zhì)結(jié)構(gòu)功能問題,可以進(jìn)一步打開對(duì)生物計(jì)算領(lǐng)域創(chuàng)新性研究的發(fā)現(xiàn)與探索空間,促進(jìn)這個(gè)領(lǐng)域以更快的速度發(fā)展。而除了生物結(jié)構(gòu)學(xué)方面的支持以外,在醫(yī)學(xué)、藥物學(xué)的研究過程中,AI模型也具有發(fā)揮的空間。
快速解析病毒結(jié)構(gòu),
折疊藥物研發(fā)時(shí)間
新藥研發(fā)是人類發(fā)展中極具風(fēng)險(xiǎn)和復(fù)雜度、耗時(shí)最漫長的技術(shù)研究領(lǐng)域之一。據(jù)Tufts Center的統(tǒng)計(jì)報(bào)告,開發(fā)一款成功上市的新藥平均需要投入26億美元,耗時(shí)約10年。居高不下的成本,與藥物研發(fā)的巨大失敗率有關(guān)。過去十年,藥物開發(fā)項(xiàng)目從1期臨床到獲得FDA批準(zhǔn)上市的成功率平均為7.9%。
隨著人工智能技術(shù)的發(fā)展,部分應(yīng)用了AI的新藥研發(fā)減少了35%的成本,研發(fā)周期也從5-10年縮短為1-3年。事實(shí)上,藥物研發(fā)是一個(gè)系統(tǒng)性工程,AI技術(shù)在這個(gè)系統(tǒng)中能夠針對(duì)藥物研發(fā)過程的篩選及設(shè)計(jì)優(yōu)化等核心痛點(diǎn)問題,減少大量的試錯(cuò)和返工時(shí)間,節(jié)省藥物研發(fā)的成本。
TRFold模型能低成本地預(yù)測(cè)一些與疾病相關(guān)的蛋白質(zhì)結(jié)構(gòu),進(jìn)而通過藥物重定位、虛擬篩選等方法尋找這些疾病的潛在藥物。比如在一些白化病、成骨不全癥等罕見病中,由于回報(bào)率低、患者多為貧困人口等原因,這些疾病無法得到醫(yī)藥公司的重視。僅在中國,這類疾病的患者就達(dá)2000萬以上。盡管這類被忽視疾病占了全球總疾病里的12%,但只有僅僅1.1%的新研發(fā)藥物,適用于被忽視的疾病。如今,AlphaFold2、TRFold等AI模型為這類疾病的藥物開發(fā)帶來了希望,通過快速準(zhǔn)確地預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),為新的藥物分子設(shè)計(jì)提供合理的靶分子及結(jié)構(gòu),使幾乎只集中在貧困人口中的疾病的藥物研發(fā)成為可能。
在新藥的臨床試驗(yàn)中,TRFold模型也能作為“毒性預(yù)警系統(tǒng)”發(fā)揮效用。在測(cè)試藥物毒性的過程中,動(dòng)物模型非常有價(jià)值,但我們?cè)谶M(jìn)入高風(fēng)險(xiǎn)的人體臨床試驗(yàn)中,需要降低風(fēng)險(xiǎn),否則意外的毒副作用,會(huì)讓新藥退出臨床研究,前功盡棄。一般的解決方案是開發(fā)高度模仿的人類生物系統(tǒng),但現(xiàn)在來說仍難以實(shí)現(xiàn)。TRFold這類AI模型讓我們對(duì)人類蛋白有了3D模型,這也許可以幫助我們建立更好的人類生物模擬系統(tǒng)。
當(dāng)然在一些細(xì)菌以及病毒相關(guān)的蛋白質(zhì)結(jié)構(gòu)研究中,TRFold模型也會(huì)拓展對(duì)蛋白質(zhì)類型的功能分析以及下游應(yīng)用的范圍,比如一些病毒類感染的疾病研究,抗生素、靶向藥的開發(fā),研發(fā)新效率的酶等為藥研與健康作出貢獻(xiàn)。
但是,還有很多研究工作對(duì)于蛋白質(zhì)結(jié)構(gòu)的準(zhǔn)確度要求極高。比如血紅蛋白中鐵離子的位移,是在零點(diǎn)幾埃的尺度上進(jìn)行討論的。對(duì)于這類結(jié)構(gòu)細(xì)節(jié)的精細(xì)分析,預(yù)測(cè)結(jié)構(gòu)無法作為討論的基礎(chǔ),因?yàn)槠渲幸唤z一毫的不確定性都可能導(dǎo)致完全不同的結(jié)論。AI模型的算法普適性和準(zhǔn)確度仍有提高空間,對(duì)蛋白質(zhì)與其配體的復(fù)合結(jié)構(gòu)、蛋白質(zhì)的動(dòng)態(tài)分析等領(lǐng)域算法需要完善。
AI預(yù)測(cè)模型駛?cè)肷畔⑸钐?/strong>
用AI模型預(yù)測(cè)單蛋白的結(jié)構(gòu)模擬只是開始,結(jié)構(gòu)的預(yù)測(cè)只是指明了研究的方向,后續(xù)的進(jìn)展還得需要試驗(yàn)與頭腦的風(fēng)暴。還有一些無法被AI模型預(yù)測(cè)與發(fā)現(xiàn)的結(jié)構(gòu),其研究仍然是謎一般的存在,這也給科研人員、企業(yè)與研究機(jī)構(gòu)留下了很大的空間。
國內(nèi)外不同的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)模型在廣闊的生命科學(xué)與生物科技領(lǐng)域會(huì)各自占領(lǐng)擅長的領(lǐng)域,發(fā)揮效用。結(jié)構(gòu)生物學(xué)家,中國科學(xué)院院士施一公曾表示對(duì)AI預(yù)測(cè)模型的看法,“人類蛋白質(zhì)組里能夠被預(yù)測(cè)的蛋白質(zhì)三維結(jié)構(gòu),已經(jīng)基本被AlphaFold預(yù)測(cè)了。總體而言,預(yù)測(cè)結(jié)果可信、也比較準(zhǔn)確。這是人類在認(rèn)識(shí)自然界的科學(xué)探索征程中一個(gè)非常了不起的歷史性成就,也是人類在21世紀(jì)取得的最重要的科學(xué)突破之一”。
毋庸置疑的是AlphaFold2是蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方向的重大突破,這類AI模型預(yù)測(cè)的高質(zhì)量蛋白質(zhì)結(jié)構(gòu),會(huì)促進(jìn)高效篩選化合物的新技術(shù)發(fā)展,以及藥物研發(fā)的全生命流程等。
或許有人會(huì)有疑惑,AlphaFold 2模型性能足夠強(qiáng)大了,為何我們自己還要花費(fèi)精力、腦力去打造算法?事實(shí)上雖然Deepmind開源了AlphaFold 2模型,但開源的是推理代碼,并沒有訓(xùn)練代碼,所以在github下載的代碼實(shí)際上只能運(yùn)行AF2的模型算法,直接對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行預(yù)測(cè)。如果想要圍繞蛋白質(zhì)結(jié)構(gòu)功能問題,或者是能夠達(dá)到實(shí)際落地應(yīng)用準(zhǔn)確度要求的AI算法,沒有訓(xùn)練模型經(jīng)驗(yàn),或者沒有具備能夠訓(xùn)練出AlphaFold 2模型結(jié)果的能力是無法把該技術(shù)推進(jìn)解決更深層次問題的。
與芯片一樣,對(duì)于做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)來說,沒有核心的技術(shù)能力,對(duì)于深層次的生命科學(xué)領(lǐng)域的探索就會(huì)受到限制。天壤團(tuán)隊(duì)打造的TRFold這套算法平臺(tái)完全是國產(chǎn)自研,從底層代碼慢慢搭建起來的,并且在國際賽事中取得了僅次于AlphaFold 2模型的好成績(jī)。
在兩年半的研發(fā)時(shí)間里,TRFold經(jīng)歷了幾十個(gè)版本的迭代,當(dāng)前的訓(xùn)練架構(gòu)是從今年初就開始設(shè)計(jì),處理數(shù)據(jù)、訓(xùn)練數(shù)據(jù)并不停迭代優(yōu)化,耗費(fèi)10個(gè)月時(shí)間。其最新版本的預(yù)測(cè)精度接近AlphaFold2,并突破AlphaFold2需要超大算力的瓶頸。區(qū)別于AlphaFold2模型,TRFold有自己的思考與設(shè)計(jì)。TRFold采取權(quán)重共享的方式節(jié)約算力,在訓(xùn)練資源與算力有限的情況下,天壤團(tuán)隊(duì)從數(shù)據(jù)和網(wǎng)絡(luò)設(shè)計(jì)上做出改進(jìn),僅采用少量的真實(shí)數(shù)據(jù)訓(xùn)練,使模型在訓(xùn)練過程中能夠獲得對(duì)真實(shí)共進(jìn)化信息更好地識(shí)別能力,從而取得對(duì)氨基酸殘基距離和坐標(biāo)更準(zhǔn)確的預(yù)測(cè)結(jié)果。
其算力消耗約AlphaFold2的1/32,預(yù)測(cè)大多數(shù)蛋白質(zhì)鏈所需時(shí)間不超過16秒,相較于AlphaFold2預(yù)測(cè)約400個(gè)氨基酸的蛋白鏈所需70多秒的時(shí)間,具有明顯的小樣本數(shù)據(jù)訓(xùn)練生成優(yōu)勢(shì)。在后續(xù)構(gòu)建蛋白質(zhì)相互作用網(wǎng)絡(luò)的過程中,計(jì)算量指數(shù)級(jí)別增長的情形下,對(duì)蛋白質(zhì)的結(jié)構(gòu)預(yù)測(cè)的研究具有深遠(yuǎn)意義,也為后續(xù)的研究比如結(jié)構(gòu)生物科學(xué)、藥物研究等領(lǐng)域打開了國產(chǎn)深研的大門,我們不會(huì)因?yàn)榧夹g(shù)的限制而仰人鼻息。
天壤團(tuán)隊(duì)的TRFold模型也有自己的發(fā)展方向:圍繞蛋白質(zhì)結(jié)構(gòu)功能問題并且能夠達(dá)到實(shí)際落地應(yīng)用準(zhǔn)確度要求,進(jìn)而推進(jìn)解決更深層次的問題。比如研究蛋白質(zhì)間相互作用的問題,利用目前的全蛋白質(zhì)組協(xié)同進(jìn)化分析,建立起蛋白質(zhì)與蛋白質(zhì)之間的相互作用的精準(zhǔn)鏈路。通過研究蛋白質(zhì)之間的相互作用,幫助科研人員構(gòu)建大規(guī)模的相互作用網(wǎng)絡(luò)圖、尋找藥物結(jié)合靶點(diǎn)的新思路以及精準(zhǔn)疾病治療的新方法。在新藥研發(fā)、抗體模擬等疫苗研發(fā)中,提高蛋白質(zhì)設(shè)計(jì)的精度和成功率,為各類疫苗比如新冠疫苗等的蛋白設(shè)計(jì)的驗(yàn)證助益等。
縱觀科學(xué)史,每次科研領(lǐng)域取得重大的進(jìn)步,都離不開當(dāng)時(shí)技術(shù)的支持。無論是在蛋白質(zhì)提純的困難年代,還是電眼觀察蛋白質(zhì)的冷電鏡技術(shù)時(shí)代,科學(xué)家研究的工具都依賴于當(dāng)時(shí)的最高科技水平。隨著AI技術(shù)的不斷突破,走在前沿生命科技領(lǐng)域的深水區(qū)與無人區(qū)的領(lǐng)路者DeepMind、天壤等公司,不斷用AI技術(shù)賦能,助力研究人員的科研工作,讓科研人員告別依賴人類先驗(yàn)知識(shí)去做蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)的方式。
可預(yù)測(cè)的未來,站在AI巨人的肩膀上,這個(gè)領(lǐng)域的發(fā)展一定會(huì)有質(zhì)的飛躍。而蛋白質(zhì)這個(gè)能夠影響生命進(jìn)程的大分子,AI算法模型為我們打開了生命科學(xué)領(lǐng)域的新世界,這些海量的蛋白質(zhì)結(jié)構(gòu)會(huì)被技術(shù)釋放,背后的解讀與分析蘊(yùn)含著生命信息的“富礦”,等待我們?nèi)ヌ剿髋c挖掘。