引言:人工智慧技術在計算機視覺、語音識別和自然語言處理三大領域中取得了巨大的成功,帶動了多個產業的快速 發展。將人工智慧的關鍵技術應用於化學和藥物研究,能夠加速化學信息的處理,提升藥物研發的效率。尋找最優的合成路線、構建分子結構與性質/活性的定量關係模型,實現化合物的虛擬高通量篩選,是當前人工智慧與化學、製藥、生物等學科交叉研究熱點。
圖源:Nature
2020年6月29日,青創聯盟發起的YOSIA Webinar線上學術研討會特別推出了「AI+X」科學系列主題,本期主題為AI+化學與製藥,匯集化學、製藥、化工、生物和AI技術專家,主要針對人工智慧在藥物發現、化學化工領域的學科交叉研究與應用進行了分享。
一、主題分享
01人工智慧與化學合成——李成濤
報告介紹了人工智慧在化學合成領域的應用,講述了化學合成在生物醫藥及化學製藥中的作用和地位,以及引入人工智慧技術的原因和帶來的好處;同時,介紹了人工智慧用於篩選合成路線的大致思路及應用方法;最後介紹了相應的成果和合作前景。
一種新的藥物從發現到最後通過審批投放市場平均需要十四年時間,研發周期非常漫長,期間需要大量的資金投入。而且,藥物研發的投資回報率逐年下降,研發成功率也在逐漸下降,這使得新藥研發伴隨著巨大風險,隨著時間的推移反而這個風險越來越高。探索更有效率的藥物發現工具,提升藥物研發效率,做到降本增效是應對藥物研發風險的最佳途徑之一。
藥物的研發過程包含四個關鍵的步驟:靶點識別、分子設計與優化、合成路徑設計及最後的實驗驗證。以往這些步驟主要依賴人力完成,依靠專業人士的經驗和知識,這需要大量的時間和資金。但是,這些工作積累了大量的實驗數據,為人工智慧技術的應用也提供了基礎。人工智慧技術使得計算機在學習了歷史數據後,可以在短時間內完成靶點識別、分子設計與優化、合成路徑設計等工作,加速藥物研發。
其中目標藥物分子的合成路線設計,即化學逆合成反應的構建,受到了Alpha Go圍棋智能博弈程序的啟發,AlphaGo使用蒙特卡洛樹搜索(Monte Carlo tree search),藉助估值網絡(value network)與策略網絡(policy network)來解決圍棋博弈中複雜的分支探索問題。
目標藥物分子的單步合成方法設計,可以看作是其反應物前體的猜測問題。多樣化的前體拆分方案,構成了多層次的多反應路徑的選擇問題,這與AlphaGo的圍棋博弈中的勝利分支探索有了類似之處。
Nature報導的這項工作提出了借鑑AlphaGo解決該問題的方法,這其中解決了兩個關鍵問題:(1)在單步逆反應中如何預測前體,(2)多步逆反應的搜索。自2017年以來,也有很多學做在這個方向做了很多研究。例如:
星藥科技與Google Brain, MIT, Georgia Tech, 螞蟻金服進行合作,開發了一些新的算法,取得很好的效果,比如發表在NeurIPS 2019以及ICML 2020的成果,相比傳統方法取得明顯的進步。
這裡介紹的工作只是人工智慧技術在藥物研發中應用的冰山一角,星藥科技一直致力於運用人工智慧技術提升藥物開發的效率,期望將合成路線設計在秒級別完成,達到降本增效的目的。最後,我相信人工智慧技術將在藥物研發上將有無限的潛力,也期待大家與星藥科技的合作。
02弱AI時代的藥物發現——裴劍鋒
報告首先介紹了人工智慧技術的原理和應用場景,再到機器學習的分類及發展歷程;重點介紹了人工智慧技術在藥物設計及化學信息學中的應用及研究進展,尤其是多種深度學習技術的核心思想,並展望了未來科研模型的轉變機器引發的創新浪潮。
機器學習是屬於人工智慧中的一類技術,其包含了監督學習、非監督學習及強化學習。而深度學習又是隸屬於機器學習領域中的一種最新技術,其在大數據方面表現出了更好的性能,但也更依賴大數據。
其實,人工智慧朝兩個方向發展,一個方向是仿生學,一個是工程學。目前,人工智慧在視覺計算、語音識別、自然語言處理方面都表現出了卓越的性能。但是,這種感知智能仍然是一種弱人工智慧,通常只能做一種事情,無法實現認知智能,這方面還有很多工作可以做。
回到藥物研發,傳統的基於實驗的高通量篩選化合物,效率比較低而且風險很大。引入人工智慧的目的就是在於提高藥物分子設計的效率和成功率、提前預知錯誤的藥物分子或合成路線,及早止損。目前,人工智慧主要應用在藥物發現階段,其他的階段也有些應用。但是,回顧以往的研究,還沒有完全證實人工智慧技術能在特定成功的新藥研發中發揮了絕對作用。下面介紹一下我們的一些基礎性工作。
在基於人工智慧的藥物研發中,藥物化合物的分子結構編碼是必須解決的問題,一般包含三種方法:一是採用大量的化學描述符(descriptor),每個描述符描述分子的各種局部特徵或有限的化學信息,加以組合形成矢量便可以提供化合物較為完善的信息;二是採用類似圖卷積的思想,將不同半徑範圍內的分子子結構特徵提取出來,形成分子指紋,例如類似於ECFP4環形分子指紋;三是採用自然語言處理技術,直接處理表示分子結構的線性字符串。
例如,我們將第三種方法應用在肝損傷的預測上。
這是我們運用第二種方法,在不同的分子半徑上提取特徵,完成構效關係建模及分子指紋分析的工作。
卷積神經網絡的特點就是可以提取出圖像的局部特徵,如果應用在分子結構上,也可以找到一些與目標性質關聯的局部特徵,從而提供一些解釋性證據。下面也提一下圖結構及圖神經網絡,也有不少工作。
由於分子結構可以看成無向圖,所以利用圖神經網絡來學習,但是也要解決一些其中關鍵的問題。在實現分子結構的編碼及相關的性質/活性預測後,還需回答如何生成目標分子結構的問題。這裡講一下,現在非常熱門的生成模型,也可以用在藥物分子生成上,可以通過循環神經網絡(Seq2Seq)來實現,也可以通過變分自編碼器(VAE)或者對抗神經網絡(GAN)來實現。
但是,這種思路沒有考慮藥物分子與靶點的結合能力,這是受限於了分子結構二維表達或線性字符編碼。我覺得未來應該向三維的分子生成方式發展,這樣可以引入一些分子三維結構上的組裝可行性約束。我們正在努力實現三維分子生成,同時也做了一些合成路徑設計方面的工作。
我們發現如何對合成路徑進行打分這是一個很難的問題,即怎麼定義一個合理的基準來評價最佳的反應路徑。
另外,我們發現藥物和化學研究中大量的數據都是非結構化數據,如何從分的利用的這些數據,也是非常值得研究的。
這裡可以引入遷移學習、主動學習、注意力機制和區域識別技術等技術,來提高模型在小樣本數據上的性能、解決樣本不平衡問題並改善模型的容錯性。現在的很多模型,已經不再是單一類型的神經網絡,在同一個模型可能用到了多種神經網絡,比如循環神經網絡增加注意力機制(引入一個全連接的前饋神經網絡),或者循環神經網絡與卷積神經網絡的聯合應用。
但是,較多研究提出的模型只能在基準測試數據集上進行評估,離實用還有一定的距離。我們期望能夠開發更加實用的人工智慧藥物設計工具,通過把很多工作步驟串聯在一起,改善模型的實驗可驗證性。
事實上,現有數據中的標註很多是用既有模型產生的,最典型是用量子力學的方式產生數據。科研分成三類:克卜勒模式,從數據中總結規律,典型的方法就是機器學習;還有牛頓模式,先把公式從原理上提出來,然後模擬真實體系。但是量子力學,很難處理複雜的大分子問題。如果用人工智慧、機器學習和物理模型結合的第三類模式,無論在材料設計方面,還是在藥物設計方面,我覺得都是一個很好的新模式,既可以面對複雜問題,又不脫離基本原理的支撐。這可能導致未來科研模式的較大轉變,會引發一些顛覆性的創新。
03人工智慧在開發環境健康安全溶劑中的應用——申威峰
溶劑是石油、醫藥、化工、食品等不可或缺的化合物,溶劑的生產和使用帶來的潛在環境、健康和安全(EHS)風險是必須面對的問題,且大多數有機溶劑在使用後的回收再利用也必須考慮。因此,篩選或設計綠色溶劑替代具有較高EHS風險的溶劑具有重要的意義。報告介紹了運用人工智慧技術對溶劑性質預測及潛在EHS風險評估方面的研究進展。
傳統的試錯方法通過實驗篩選合適的溶劑分子結構,非常消耗時間和資金。採用計算機根據已有的實驗數據構建數學模型,預測性質和優化溶劑分子結構,可以加速綠色溶劑的開發和篩選,減少成本。我們應用機器學習建立智能化的溶劑性質預測模型的具體思路,包含四個步驟:數據收集、數據整理和轉換、模型搭建、模型訓練及評估。
溶劑開發的數據,涉及分子結構、性質數據和危害標籤,主要從一些權威的資料庫中收集,並整理後統一採用關係資料庫開發平臺進行資料庫構建。
我們通過深度學習技術來實現分子結構的自動化編碼及構效關係建模。主要通過用於產生分子籤名描述符的圖規範化算法,將分子結構轉換為樹狀的有向非環圖(DAG),這樣就可以採用一種遞歸神經網絡——樹狀長短期記憶(Tree-LSTM)網絡進行分子結構的學習。我們基於RDkit開發了分子結構到DAG的轉換程序,由於單純的DAG無法將化學鍵的信息保留給神經網絡進行學習。
因此,化學鍵以符合的形式合併到了DAG的頂點中。將頂點的每個符號在分子結構中的相鄰關係進行採樣,形成訓練數據,就可以採用詞嵌入的算法,將頂點的相鄰關係的概率信息傳遞到後面的Tree-LSTM網絡中。Tree-LSTM是一種動態的神經網絡,可以自適應的模擬DAG的拓撲形狀。Tree-LSTM輸出的特徵矢量代表了分子結構,可以與單個或多個前饋神經網絡(FNN)進行組合,形成單任務或多任務學習的深度學習神經網絡架構。這裡模型的訓練涉及數據集的劃分,驗證集主要用於對超參數進行調優,測試集用於最終模型的預測能力測試。這裡涉及一些損失函數和優化器的選擇問題。
我們將提出的深度學習架構用到預測溶劑的基礎性質、環境性質和安全性質上取得了滿意的效果。另外,也通過分子指紋和機器學習對溶劑分子結構與潛在EHS風險之間的關係進行了分析,嘗試找到一些解釋性的證據。
這是深度學習模型在溶劑的基礎物性上預測的一個例子,預測的性質的臨界性質,這種性質經常在溶劑的熱力學計算中用到。結果表明,深度學習模型的效果較為理想。
這個例子是深度學習模型在環境性質方面的應用,預測辛醇水分配係數,比基於基團貢獻法的KOWWIN模型有更好的性能。
但是,提出的深度學習模型的可解釋性尚有不足。我們提出用一些經典的機器學習模型來預測溶劑的潛在EHS風險評分。這裡也涉及到一個人工打分的規則問題,因此選取了歐盟公認的CHEM21作為依據。結果表明機器學習模型可以依據分子結果得到較為準確的EHS風險分級結果,同時也找出了一些風險較高的分子子結構特徵。
總體而言,人工智慧領域的深度學習和機器學習在綠色溶劑開發方面能夠發揮較大的作用,表現出了較好的預測能力,可以實現一定程度上的虛擬高通量篩選。
最後,我展望一下後面的工作。我想還有些工作需要完成:就是人工智慧模型給出的結果的置信度,還有它的應用域,這些問題怎麼評估?當然,還有分子結構生成模型還需要更深入研究。這些都將使得人工智慧技術在化學、製藥、材料等領域有更好的應用前景。
來源:未來論壇(ID:futureforum)