人工智能(AI)正逐步被廣泛用于藥物研發(fā)中的各個階段。有人認為這會帶來新的機遇,但也有人對此持懷疑態(tài)度,等著看AI項目的笑話?,F(xiàn)實則更像是介于兩者之間,人工智能工具的介入可以為藥物研發(fā)人員帶來啟發(fā)與效率,同時也給開發(fā)新藥物的既定過程帶來了新的挑戰(zhàn)。
盡管人們對疾病生物學的理解有所進步,在技術上也取得了令人矚目的飛躍,但將新藥投入市場仍然是一個耗時且昂貴的過程,這在很大程度上是由于臨床試驗高失敗比例帶來的大量費用。因此,需要一些嶄新的思路、新的藥物發(fā)現(xiàn)過程以及其他創(chuàng)新的方法以較低的市場成本,為更多患者提供藥物。在這種情況下,計算機輔助的小分子藥物設計長期以來一直被認為是有競爭力的潛在候選人,而數(shù)據(jù)處理能力的提高和人工智能工具的發(fā)展更是推動了該領域前進。關鍵問題是這種方法是否可以幫助我們更快更好地設計出小分子候選藥物。
在過去的二十年中,高通量篩選(HTS)推動了小分子藥物的發(fā)現(xiàn),選擇最合適的經(jīng)過實驗驗證的HTS命中數(shù)據(jù)進行隨機訪問對于藥物研發(fā)的成功至關重要。在選擇藥物和進行后續(xù)優(yōu)化時需要考慮許多參數(shù),包括在所需藥理學目標和潛在脫靶點間的效力和選擇以及對藥物藥代動力學和安全性來說可能很重要的理化特性。因此,藥物化學家通常面臨具有挑戰(zhàn)性的多目標優(yōu)化(MOO)問題,其潛在的選擇遠遠超出了系統(tǒng)探索的可能性,并有越來越多復雜的數(shù)據(jù)集需要分析。
因此,在藥物設計中應用AI有吸引力的點在于,有可能開發(fā)數(shù)據(jù)驅(qū)動的隱式模型構(gòu)建過程,以導航來自HTS的大量數(shù)據(jù)集并確定替代方案的優(yōu)先級。這表明決策權正在向機器智能的部分轉(zhuǎn)移,可以視為與人類智力協(xié)同作用,也就是說,特定領域的隱式AI可以增強藥物化學家在藥物設計和選擇方面的能力。更有野心的使用AI進行藥物設計是從頭開始(de novo)自動生成具有所需特性的新化學實體(NCE),而無需通常價格昂貴的全套HTS。
為了取得長期的成功,使用AI的藥物設計必須解決五個“重大挑戰(zhàn)”:獲取適當?shù)臄?shù)據(jù)集、產(chǎn)生新的假設、在多目標中進行優(yōu)化方式、減少周期時間、改變研究文化并樹立適當?shù)男膽B(tài)。
將思維和機器整合在藥物發(fā)現(xiàn)中
獲取適當?shù)臄?shù)據(jù)集
適當?shù)妮斎霐?shù)據(jù)對于NCE的生成和決策建立有用的預測模型至關重要。如果沒有適當?shù)臄?shù)據(jù)集以及對這些數(shù)據(jù)的范圍和局限性的理解,那么即使是一個看似復雜的模型也將無法產(chǎn)生有用的結(jié)果。
在評估用于預測模型的數(shù)據(jù)時,最重要的因素之一是收集這些數(shù)據(jù)時是否考慮最終終點,如果沒有考慮到,那么就可能會出問題。例如,許多研發(fā)小組建立了預測分子是否有毒的模型,因為可靠的毒理學模型可以減少藥物發(fā)現(xiàn)的時間和成本以及減少動物測試的需求。但是,體內(nèi)毒理學數(shù)據(jù)有限,因此許多毒理學模型都是基于替代體外結(jié)果建立的,在大多數(shù)情況下,這些體外結(jié)果與最終體內(nèi)毒理學反應之間的關系尚未明確建立。除此之外,通常在藥物研發(fā)中使用的動物模型與最終將在患者中看到的結(jié)果之間的關系也是有限的。
在許多情況下,基于先前設計的高通量實驗的結(jié)果來構(gòu)建的預測模型會為我們提供優(yōu)勢。但另一方面,由于在高通量分析的開發(fā)中做出的設計決策存在折衷,因此依賴現(xiàn)有的大規(guī)模數(shù)據(jù)可能會帶來問題——為提高分析通量而進行的調(diào)整可能會減少其準確性。例如,全基因組脫靶篩選的靈敏度比預定的脫靶區(qū)域的分析低得多。為了使數(shù)據(jù)有用,必須清楚地理解用于捕獲數(shù)據(jù)的實驗環(huán)境及其與最終結(jié)果的相關性。
AI可以用于解決一些數(shù)據(jù)集間以及其內(nèi)部不同程度的不確定性,進而生成更高質(zhì)量的數(shù)據(jù)集,但需要適當?shù)淖⑨?,以便在出現(xiàn)問題時可以找到元數(shù)據(jù)。雖然存在一定程度的自動注釋(例如,生成和分析數(shù)據(jù)的機器通常會添加諸如時間和日期之類的元數(shù)據(jù)),但AI能夠通過推斷上下文確定數(shù)據(jù)起點并從自動檢測可能的錯誤注釋來減輕人工注釋的負擔。除此之外,用于語言翻譯的AI技術能夠在快速發(fā)展的術語中提供術語與術語之間的映射,并且基于AI的潛在變量概率模型已經(jīng)能夠從臨床環(huán)境的多源數(shù)據(jù)集中提取相應含義。
使用實驗數(shù)據(jù)建立預測模型時,不確定性的另一個來源是數(shù)據(jù)的意外誤報數(shù)據(jù),可能是簡單的拼寫錯誤或是數(shù)值記錄錯誤,但一個或兩個錯誤報告的數(shù)據(jù)點甚至可能會扭曲預測模型的結(jié)果。因此,數(shù)據(jù)管理和數(shù)據(jù)報告中潛在錯誤的識別是AI與藥物研發(fā)相關的另一個可能的領域。當然,并非所有異常值都是錯誤,他們可能會提供一種新見解的替代性行動機制。我們搜索異常值或潛在錯誤的方式可能取決于構(gòu)建模型的規(guī)模。
藥物發(fā)現(xiàn)本質(zhì)上是一個優(yōu)化問題,從眾多化合物中確定一種可行的用于生產(chǎn)。因此,藥物研發(fā)數(shù)據(jù)集通常包含數(shù)十種測定的數(shù)據(jù),但是由于時間和金錢的限制,分析過程通常缺少一部分的值。因為只有在更高通量的體外或細胞分析中表現(xiàn)良好的化合物才能在更昂貴的體內(nèi)實驗中進行測試,所以數(shù)據(jù)也不是完全隨機丟失的。當從科學文獻中獲取數(shù)據(jù)時,這種不平衡可能會變得尤為嚴重,因為這些文獻對負面結(jié)果的報道很少。
迄今為止,在AI方面最成功的領域是成像和自然語言處理(NLP)。這些數(shù)據(jù)與通常在藥物研發(fā)中發(fā)現(xiàn)的數(shù)據(jù)大不相同,因為相比與準確標記“圖像中有停車標志”來說,關于化合物是“對目標具有活性”還是“有毒”的問題要復雜得多,并且要貼上更具細微差別的標簽。給定的藥物研發(fā)項目為數(shù)據(jù)提供了背景,使項目成員能夠從數(shù)據(jù)分析中得出結(jié)論。但是如果將此類數(shù)據(jù)匯總到多個項目或?qū)嶒炇抑?,則通常會丟失相關背景關系。與數(shù)據(jù)的可用性有關的另一個挑戰(zhàn)是,在許多情況下實驗無法生成可以簡單轉(zhuǎn)換為單個數(shù)值的數(shù)據(jù)。
在過去的二十年中,我們看到了許多包含數(shù)以百萬計的生物學分析結(jié)果的公共數(shù)據(jù)庫的出現(xiàn),例如ChEMBL和PubChem,它們可以為機器學習模型提供輸入數(shù)據(jù),從而預測藥物的各種生物學活性或理化性質(zhì)。盡管這些數(shù)據(jù)庫很有用,但這些數(shù)據(jù)僅是所測數(shù)據(jù)的一小部分,因為許多較大的數(shù)據(jù)集是制藥公司或生產(chǎn)商專有,并且不能公開免費獲得的。大多數(shù)公司將其數(shù)據(jù)視為競爭優(yōu)勢并密切加以保護。
產(chǎn)生新的假設
盡管有了HTS技術的進步,但在尋找新的治療藥物時我們?nèi)灾皇浅槿×撕苄∫徊糠值念愃扑幬锏幕瘜W樣本。2015年,可采用的化學空間包含約1.25億種化合物,并且仍在增長。類似藥物的化學空間的大小使得我們不可能進行詳盡的枚舉,因此藥物設計從本質(zhì)上可以歸結(jié)為“下一步要做什么”這個核心問題。藥物化學家通常從他們的經(jīng)驗中、從合成準則中、從人類的創(chuàng)造力和寬泛定義的“化學直覺”中汲取靈感。鑒于人類疾病的復雜性,在藥物設計中采用更徹底的假設生成方法可能是有益的。
化學設計可以被認為是模式匹配,實際上,自1990年代以來,基于計算機的從頭設計方法就已經(jīng)被用作支持藥物設計的思想生成器。然而,今天,生成型AI通過提供決策的統(tǒng)計框架,為從頭設計藥物提供了新的方法。與早期的分子設計機制采用一組顯式的化學轉(zhuǎn)化和組裝規(guī)則相比,這些生成模型用隱含的方式顯示化學知識。換句話說,不再是書本中的化學語言,而是從訓練數(shù)據(jù)中學到的一種新規(guī)則。
這種方法值得進一步討論,因為它直接涉及AI系統(tǒng)在化學中的可解釋性問題。然而與先前的方法相比,該模型的主要優(yōu)點是:執(zhí)行速度(可以即時生成NCE以進行交互式建模);對現(xiàn)有項目進行快速再培訓或微調(diào);通過提供對幾乎無限的化學空間的訪問而無需顯式化合物庫枚舉的可擴展性;軟件可用性;和設計的綜合可訪問性。
藥物設計將面臨越來越復雜的數(shù)據(jù)和目標假設。藥物研發(fā)過程的一個關鍵性限制因素是缺乏有關人類生物學的基本知識,隨著研究過程中整個生命周期的不斷發(fā)展,生物學分析往往會隨著知識的發(fā)展而迅速變化。因此,隨著藥物研發(fā)知識的發(fā)展,人工智能需要更靈活地提供答案。另一方面,“機械”模型能夠通過捕獲不同級別(例如分子和細胞)的行為并提供有關這些行為如何演化和相互作用的解釋來應對這些挑戰(zhàn)。因此,利用提供新假設的此類模型和提供進一步數(shù)據(jù)以測試這些假設并改進模型的機器學習模型,形成了一個虛擬循環(huán),該循環(huán)創(chuàng)建了完整的學習系統(tǒng)。
多目標優(yōu)化
NCE的研發(fā)需要在設計過程中平衡多個標準,包括目標效能、選擇性、清除率和滲透性。但是,針對某一屬性進行優(yōu)化可能會損害其他屬性,這種潛在沖突目標的問題可以在多目標優(yōu)化(MOO)的計算框架中提出并解決。
在計算機上MOO的設定中,需要為每個所需屬性計算一組預測模型,然后應用到一個現(xiàn)有的MOO算法中嘗試解決潛在優(yōu)化問題,即找到一個或一組平衡所需屬性的分子。由于這些屬性經(jīng)常發(fā)生沖突,因此目標是生成一組可能的解決方案,每個解決方案都以不同的方式進行權衡。可以認為這套解決方案是在找出最優(yōu)性邊界,沿著最優(yōu)性邊界移動會產(chǎn)生一組最優(yōu)解,每個最優(yōu)解都有其自身權衡性能的方式。
找到這樣一個邊界目標的實質(zhì)是對缺失信息進行優(yōu)化。如果我們確切地知道我們將如何權衡各個藥物設計標準,則可以改用更常規(guī)的計算優(yōu)化方法來找到一種對精確已知的權衡函數(shù)進行優(yōu)化的分子。但是,藥物研發(fā)和其他許多領域一樣,開發(fā)過程是迭代出來的,而不是分析出來的,其根本上的“人在回路(human-in-the-loop)”在不久的將來也不太可能會消失。因此,MOO的目標是針對特定的分子設計生成一組不同的最佳解決方案,再將這些解決方案移交給人類專家進行決策。
神經(jīng)網(wǎng)絡是當前流行的一種預測模型,在視覺和音頻方面,人們可以輕松獲取大量標記數(shù)據(jù),這些數(shù)據(jù)對于使用當前的深度神經(jīng)網(wǎng)絡取得成功至關重要,而生物學和化學領域的數(shù)據(jù)通常尚不足以使用這些神經(jīng)網(wǎng)絡。但是,機器學習領域正在積極尋求如何用更少的數(shù)據(jù)來做得更好,即“小樣本”學習。另一個潛在的原因是,近年來深度神經(jīng)網(wǎng)絡的發(fā)展已針對音頻和視覺領域的數(shù)據(jù)特征進行了調(diào)整,但隨后直接應用于其他領域卻沒有考慮其適應性。與分析視覺和音頻數(shù)據(jù)相比,在化學和生物學中應用并延伸類似的結(jié)構(gòu)還處于初期。基于圖神經(jīng)網(wǎng)絡的有監(jiān)督的和無監(jiān)督的學習都正在成為解決化學問題的可行方法,但仍有許多工作要做,包括如何使這些網(wǎng)絡可計算擴展并適用于該領域。
假設人們可以使用合理的預測模型來構(gòu)建MOO問題,那么仍然存在如何嘗試解決MOO問題的問題。過去,MOO的算法主要由“遺傳算法”控制,該算法使用類比來進行變異和交叉多樣化操作以及使用適應性概念來進行優(yōu)化,這些方法已被通常屬于分布算法估計(EDA)類別的方法所替代,例如協(xié)方差矩陣適應進化策略,并與機器學習方法協(xié)同作用。此外,這些方法又與機器學習(即強化學習)有關。
對于連續(xù)數(shù)據(jù),人們可能想到的最簡單的生成模型可能是具有均值和方差的正態(tài)分布。當人們改變這些參數(shù)時,正常的樣本自然就會發(fā)生變化。實際上,EDA的工作方式是擁有一個足夠“豐富”的生成模型(即可以在設計中生成大量對象的模型,例如分子模型),然后使用特定的統(tǒng)計形式來調(diào)整參數(shù),以便從中只對所需的分子進行取樣。因此,MOO的組成要素不僅是所使用的預測模型和MOO算法,而且還是生成模型的類別。
一個相關的注意事項是如何以最適合于當前機器學習任務(例如預測模型和生成模型)的全部功能的方式表示分子和蛋白質(zhì)。在自然語言處理領域,已經(jīng)證明將原本由離散符號組成的句子轉(zhuǎn)換為實值向量可為下游任務帶來好處。在1990年代,分子設計方面也進行了類似的論證和努力,最近在深度學習的背景下又重新發(fā)現(xiàn)了它們。人工智能和機器學習可能有價值的是能夠更好地編碼人類做出的決策,從而可以將這些決策編入自動化系統(tǒng)中。
減少周期時間
識別和優(yōu)化潛在的NCE所需的時間和投資是巨大的,并且藥物研發(fā)過程的所有階段都有很高的失敗風險。為了解決這個問題,制藥行業(yè)一直在投資化合物分析功能,但也帶來了許多挑戰(zhàn),數(shù)據(jù)的增長遠遠超過了人腦的信息處理能力。為了跟上藥物研發(fā)的復雜性和規(guī)模,科學家經(jīng)常采用簡單的試探法和效率指標。盡管這些方法有優(yōu)點也有爭議,但它們并未導致生成NCE所需的學習周期數(shù)或總體時間顯著減少。
在藥物研發(fā)中,將先導分子的特征改善為候選藥物所需特征的這一主要過程稱為設計-制造-測試-分析(DMTA)周期。這種基于假設的經(jīng)典方法首先使用可用數(shù)據(jù)制定假設并設計分子(或從庫中選擇現(xiàn)有分子);隨后合成或提取設計的化合物并在適當?shù)臏y定法中進行測試,以研究假設是否正確并增進理解;然后,對這些知識進行分析并將其轉(zhuǎn)化為下一個周期中設計的假設繼續(xù)發(fā)展。
許多研究報告了提高DMTA循環(huán)有效性的方法,例如,更多地使用預測數(shù)據(jù)、改進的數(shù)據(jù)分析工具以及增強化合物合成的有效性等等。AI在某些方面可能為HTS提供替代方案。無需編譯和依賴大型化合物庫,而是可以在DMTA循環(huán)的每次迭代中合成少量測試所需的化合物,直到獲得所需的測定讀數(shù)。但是,盡管這種“主動學習”方法在命中和線索識別上具有吸引力,其自身也存在問題,例如,化學類型僅限于可自動微流體輔助合成和分析的反應。
即使有了這些改進,DMTA迭代的周期時間仍然很慢,通常可能需要4到8周以上才能完成。雖然“設計”和“分析”階段可以很快進行,并且可以優(yōu)化“測試”階段,但“制造”階段通常很慢,需要數(shù)周時間才能完成新型復雜分子的合成。因此,縮短該階段可以大大減少DMTA循環(huán)的迭代時間。在這種情況下,實驗室自動化(例如使用批處理或自動分析和純化進行快速化合物合成)將發(fā)揮決定性作用。自動化反應的選擇應主要集中在藥物化學家經(jīng)常使用的反應上,因此化學家可以執(zhí)行更具挑戰(zhàn)性的合成步驟并構(gòu)思新的化學反應。
由于各種設計假設以及在各種測定中合成分子并對其進行分析所需的不同時間,因此經(jīng)常并行進行多個設計周期。分子設計中需要捕獲和分析的數(shù)據(jù)量不斷增加,使得藥物化學家和科學家難以始終全面地理解數(shù)千個數(shù)據(jù)點和趨勢,并發(fā)現(xiàn)所有數(shù)據(jù)可以提供的經(jīng)驗教訓。在努力跟上現(xiàn)代藥物研發(fā)項目數(shù)據(jù)集的大小、復雜性和維度的過程中,科學家常常不得不求助于簡單的啟發(fā)法,例如經(jīng)驗法則、效率指標、或匹配的分子對等等。人工智能為提高DMTA循環(huán)的有效性提供了一系列機會,包括能夠更好地利用大數(shù)據(jù)進行決策,整合和分析所有可用的實驗數(shù)據(jù)和預測數(shù)據(jù),以支撐設計團隊的分子設計和想法。通過提供改進的合成路線和優(yōu)化的反應條件,AI模型可以使化學家遵循最有效的路線,從而最終縮短“制造”階段。
在適當?shù)臅r機和環(huán)境下,通過預先處理和量身定制的信息或建議,研究人員將大為受益。這將減少他們翻閱原始數(shù)據(jù)的需要,他們可以直接用化學直覺和廣泛的背景知識來專注于對所提供信息的評估。AI在低數(shù)據(jù)情況下從頭開始在藥物設計中的適用性尚未得到證實。在這種情況下,已確立的遷移學習概念可以為生成分子設計提供“少樣本”的方法,并且開創(chuàng)性的例子已經(jīng)證明了其實用性。但是,評估對命中和潛在客戶產(chǎn)生的影響需要在不同的低數(shù)據(jù)情況和項目中進一步驗證轉(zhuǎn)移學習方法。在不久的將來,有了跨多個參數(shù)的更準確的預測模型,整個DMTA循環(huán)將變成虛擬的。通過更多的綜合分析,假設的產(chǎn)生將變得更快,并且提出的分子將更好地應對MOO挑戰(zhàn)。最終,這可以幫助減少DMTA周期和臨床候選藥物交付時間所需的時間。
研究文化和思維方式
除了技術問題之外,人工智能在藥物研發(fā)中要想成功最大的挑戰(zhàn)可能還在于培養(yǎng)利益相關者的思維方式和“文化”,使他們愿意應用這些計算模型并使用其結(jié)果。要做到這一點,首先要認識到各個利益相關者的不同經(jīng)歷,然后發(fā)展通用的術語和范例,以在AI輔助藥物設計過程中為每個過程(以及它們之間的相互作用)建立明確的作用。在大學層面上促進這種發(fā)展的一種重要方法是教育和指導學生的批判性思維以及能夠向其他研究人員和更廣泛的受眾解釋自己的操作。
鼓勵采用AI方法的關鍵是確定AI可以擴大和支持化學家和藥物設計師的領域,而不是替代。AI的一個局限性是擁有精心挑選的數(shù)據(jù)來構(gòu)建適當?shù)挠柧毤亲⑨尯驼頂?shù)據(jù)的過程卻是許多化學家認為繁重的過程。如果實驗室的筆記本可以利用AI來捕獲、注釋和管理數(shù)據(jù),那么化學家就能夠?qū)⒏嗟臅r間集中在開發(fā)有效藥物所必需的創(chuàng)新和人類洞察力上。此外,如果可以利用AI工具從其他藥物化學程序中篩選過去幾年的數(shù)據(jù)并將數(shù)據(jù)接入當前程序,則藥物設計中的其他方向可能會有所突破。但為使這種循環(huán)有用,藥物研發(fā)人員必須接受AI輸出的價值,并結(jié)合自身經(jīng)驗加以利用。
人工智能系統(tǒng)還必須能夠與人類專家互動和合作,以執(zhí)行復雜的部分定義的任務。此外,如果在建議或預測本身的基礎上提供了可理解的理由,那么基于AI的系統(tǒng)的使用也會受益。我們應該將AI視為合作伙伴而不是競爭對手。