本文來自文匯網(wǎng)(www.whb.cn),作者 | 沈湫莎。
東方IC
“提出一個問題往往比解決一個問題更重要。”愛因斯坦百年前的話語,在如今這個“答案太多,而問題太少”的AI時代正獲得更多共鳴:越來越多科學(xué)家認(rèn)為,“更好提問”是人類面對AI的最好辦法。
不過,具備超強(qiáng)推理能力的OpenAI o1大模型的問世,讓科學(xué)家開始期待AI能夠提出一個好問題。日前舉行的第23屆浦江學(xué)科交叉論壇上,專家們表示,隨著科學(xué)研究“第五范式”AI for Science(AI4S)的到來,“AI愛因斯坦”有望提出有價值的科學(xué)問題,并擁有理解復(fù)雜世界、探索未知規(guī)律的能力。
靶點(diǎn)枯竭了嗎
靶點(diǎn)是藥物研發(fā)的源泉,一個新靶點(diǎn)的出現(xiàn),往往會帶來一系列重磅炸彈式的藥物。
目前,全世界新藥研發(fā)面臨的共同難題是靶點(diǎn)枯竭。華東師范大學(xué)藥學(xué)院院長、人工智能新藥創(chuàng)智中心主任李洪林表示,人體有不到三萬個基因,數(shù)百年的研究產(chǎn)出了數(shù)百萬篇研究論文,共獲得了近900個靶點(diǎn)、1600多個常用治療藥物。
科學(xué)家曾預(yù)言2003年人類基因組計劃完成后,所有疾病相關(guān)靶點(diǎn)都將一網(wǎng)打盡,但事實(shí)并非如此。由于靶點(diǎn)有限,熱門賽道不可避免出現(xiàn)了“卷靶點(diǎn)”。比如腫瘤靶向治療領(lǐng)域,“擠”滿了250個臨床候選藥物,腫瘤免疫治療賽道則有130多個藥物在研。
AI視角下,人類基因還有海量的“未解之謎”。李洪林表示,現(xiàn)階段只有3%的基因被確認(rèn)為“成藥性靶點(diǎn)”,55%的基因僅有生物學(xué)機(jī)制研究,35%的基因仍為“黑暗基因”,即人類尚未發(fā)現(xiàn)它們具有明顯功能。
未知即“藍(lán)海”。正如羥甲基戊二酰輔酶A還原酶靶點(diǎn)開啟了他汀類降膽固醇藥物時代,1996年上市的立普妥至今仍保持著百億美元的年銷售額,科學(xué)家期待“第五范式”下的新藥研發(fā)能夠開創(chuàng)一個個新的“藍(lán)海時代”。
推理克服“幻覺”
GPT的出現(xiàn)曾掀起過一陣AI4S的討論,但是大語言模型有天生短板,比如“幻覺”問題。“這是因?yàn)榇笳Z言模型本質(zhì)上是概率預(yù)測,并不產(chǎn)生新知識,投喂的數(shù)據(jù)越多反而會強(qiáng)化它們對某一類問題的刻板印象。”復(fù)旦大學(xué)人工智能創(chuàng)新與產(chǎn)業(yè)研究院副院長、上??茖W(xué)智能研究院院長助理程遠(yuǎn)說。
傳統(tǒng)科學(xué)研究中,人們總是依靠“問題—實(shí)驗(yàn)—數(shù)據(jù)”來獲得新發(fā)現(xiàn),這個過程極其依靠專家的經(jīng)驗(yàn),有時甚至是“靈光一現(xiàn)”。未來“第五范式”下的科學(xué)研究,可形成“AI科研助手+AI操作機(jī)器人+智能實(shí)驗(yàn)環(huán)境+可信多方協(xié)作”的高效迭代。
如何打造一個垂類科學(xué)大模型?程遠(yuǎn)表示,垂類科學(xué)大模型有兩個特點(diǎn):一是數(shù)據(jù)量少,特定領(lǐng)域只有幾千、幾萬條數(shù)據(jù);二是遷移性差,在訓(xùn)練集、測試集上表現(xiàn)好的數(shù)據(jù),在實(shí)際項(xiàng)目中往往表現(xiàn)很差。因此,垂類科學(xué)大模型需要由高質(zhì)量的科學(xué)數(shù)據(jù)、科學(xué)實(shí)施方法和科學(xué)機(jī)理一同打造,缺一不可。
基于這樣的理念,上??茖W(xué)智能研究院打造了“燧人”物質(zhì)世界大模型——將實(shí)驗(yàn)數(shù)據(jù)、合成數(shù)據(jù)以及量子力學(xué)、分子動力學(xué)、統(tǒng)計熱力學(xué)等物理機(jī)理都投入模型進(jìn)行預(yù)訓(xùn)練。“當(dāng)數(shù)據(jù)和機(jī)理矛盾時,擁有推理能力的科學(xué)大模型有能力調(diào)整對數(shù)據(jù)的認(rèn)知,然后它能從牛頓力學(xué)走到愛因斯坦相對論。”程遠(yuǎn)說。
科學(xué)家與AI共創(chuàng)
不可否認(rèn),科研已成為AI的下一個“主戰(zhàn)場”。一份對全球44家頂尖藥企AI輔助藥研行動的調(diào)查顯示,近十年來,藥企使用AI技術(shù)服務(wù)行動次數(shù)顯著增長,41家藥企與AI初創(chuàng)公司有合作關(guān)系,7家藥企與高校展開了合作,諾華、阿斯利康、楊森、輝瑞、葛蘭素史克、默克、拜耳等跨國藥企在AI藥研上行動最積極。
程遠(yuǎn)所在的上??茖W(xué)智能研究院,目前已經(jīng)擁有“伏羲”“女媧”等垂類科學(xué)大模型。其中,“伏羲”是全球氣象大模型,也是首個全球次季節(jié)預(yù)測大模型,可提供全球未來15天逐小時預(yù)測以及未來60天逐日預(yù)測。
“女媧”醫(yī)藥大模型包括DNA大模型和動態(tài)蛋白質(zhì)大模型。其中,DNA大模型以全球最長序列、最細(xì)粒度的基因調(diào)控關(guān)系理解促進(jìn)生物機(jī)制的發(fā)現(xiàn),將應(yīng)用于藥物靶點(diǎn)發(fā)現(xiàn)。“女媧”在多個預(yù)測指標(biāo)上的正確率超過了DeepMind的高精度基因表達(dá)預(yù)測模型Enformer。
根據(jù)《2023AI4S全球發(fā)展觀察與展望》報告,未來幾年科研相關(guān)領(lǐng)域都將會完成2.0階段的算法升級,而后將逐漸進(jìn)入到智能化設(shè)計的3.0階段,最終實(shí)現(xiàn)AI4S廣泛普及。“AI觸發(fā)了科研范式轉(zhuǎn)型的突破點(diǎn)。”程遠(yuǎn)表示,科學(xué)家應(yīng)該了解AI語言,把科學(xué)問題轉(zhuǎn)化為可計算的問題。未來,科學(xué)家將與“AI愛因斯坦”一起,共同推動創(chuàng)新成果的產(chǎn)生。