AI+化學與製藥,人工智慧為藥物研發和化學研究按下快進鍵

2021-01-09 初中化學大師

引言:人工智慧技術在計算機視覺、語音識別和自然語言處理三大領域中取得了巨大的成功,帶動了多個產業的快速 發展。將人工智慧的關鍵技術應用於化學和藥物研究,能夠加速化學信息的處理,提升藥物研發的效率。尋找最優的合成路線、構建分子結構與性質/活性的定量關係模型,實現化合物的虛擬高通量篩選,是當前人工智慧與化學、製藥、生物等學科交叉研究熱點。

圖源:Nature

2020年6月29日,青創聯盟發起的YOSIA Webinar線上學術研討會特別推出了「AI+X」科學系列主題,本期主題為AI+化學與製藥,匯集化學、製藥、化工、生物和AI技術專家,主要針對人工智慧在藥物發現、化學化工領域的學科交叉研究與應用進行了分享。

一、主題分享

01人工智慧與化學合成——李成濤

報告介紹了人工智慧在化學合成領域的應用,講述了化學合成在生物醫藥及化學製藥中的作用和地位,以及引入人工智慧技術的原因和帶來的好處;同時,介紹了人工智慧用於篩選合成路線的大致思路及應用方法;最後介紹了相應的成果和合作前景。

一種新的藥物從發現到最後通過審批投放市場平均需要十四年時間,研發周期非常漫長,期間需要大量的資金投入。而且,藥物研發的投資回報率逐年下降,研發成功率也在逐漸下降,這使得新藥研發伴隨著巨大風險,隨著時間的推移反而這個風險越來越高。探索更有效率的藥物發現工具,提升藥物研發效率,做到降本增效是應對藥物研發風險的最佳途徑之一。

藥物的研發過程包含四個關鍵的步驟:靶點識別、分子設計與優化、合成路徑設計及最後的實驗驗證。以往這些步驟主要依賴人力完成,依靠專業人士的經驗和知識,這需要大量的時間和資金。但是,這些工作積累了大量的實驗數據,為人工智慧技術的應用也提供了基礎。人工智慧技術使得計算機在學習了歷史數據後,可以在短時間內完成靶點識別、分子設計與優化、合成路徑設計等工作,加速藥物研發。

其中目標藥物分子的合成路線設計,即化學逆合成反應的構建,受到了Alpha Go圍棋智能博弈程序的啟發,AlphaGo使用蒙特卡洛樹搜索(Monte Carlo tree search),藉助估值網絡(value network)與策略網絡(policy network)來解決圍棋博弈中複雜的分支探索問題。

目標藥物分子的單步合成方法設計,可以看作是其反應物前體的猜測問題。多樣化的前體拆分方案,構成了多層次的多反應路徑的選擇問題,這與AlphaGo的圍棋博弈中的勝利分支探索有了類似之處。

Nature報導的這項工作提出了借鑑AlphaGo解決該問題的方法,這其中解決了兩個關鍵問題:(1)在單步逆反應中如何預測前體,(2)多步逆反應的搜索。自2017年以來,也有很多學做在這個方向做了很多研究。例如:

星藥科技與Google Brain, MIT, Georgia Tech, 螞蟻金服進行合作,開發了一些新的算法,取得很好的效果,比如發表在NeurIPS 2019以及ICML 2020的成果,相比傳統方法取得明顯的進步。

這裡介紹的工作只是人工智慧技術在藥物研發中應用的冰山一角,星藥科技一直致力於運用人工智慧技術提升藥物開發的效率,期望將合成路線設計在秒級別完成,達到降本增效的目的。最後,我相信人工智慧技術將在藥物研發上將有無限的潛力,也期待大家與星藥科技的合作。

02弱AI時代的藥物發現——裴劍鋒

報告首先介紹了人工智慧技術的原理和應用場景,再到機器學習的分類及發展歷程;重點介紹了人工智慧技術在藥物設計及化學信息學中的應用及研究進展,尤其是多種深度學習技術的核心思想,並展望了未來科研模型的轉變機器引發的創新浪潮。

機器學習是屬於人工智慧中的一類技術,其包含了監督學習、非監督學習及強化學習。而深度學習又是隸屬於機器學習領域中的一種最新技術,其在大數據方面表現出了更好的性能,但也更依賴大數據。

其實,人工智慧朝兩個方向發展,一個方向是仿生學,一個是工程學。目前,人工智慧在視覺計算、語音識別、自然語言處理方面都表現出了卓越的性能。但是,這種感知智能仍然是一種弱人工智慧,通常只能做一種事情,無法實現認知智能,這方面還有很多工作可以做。

回到藥物研發,傳統的基於實驗的高通量篩選化合物,效率比較低而且風險很大。引入人工智慧的目的就是在於提高藥物分子設計的效率和成功率、提前預知錯誤的藥物分子或合成路線,及早止損。目前,人工智慧主要應用在藥物發現階段,其他的階段也有些應用。但是,回顧以往的研究,還沒有完全證實人工智慧技術能在特定成功的新藥研發中發揮了絕對作用。下面介紹一下我們的一些基礎性工作。

在基於人工智慧的藥物研發中,藥物化合物的分子結構編碼是必須解決的問題,一般包含三種方法:一是採用大量的化學描述符(descriptor),每個描述符描述分子的各種局部特徵或有限的化學信息,加以組合形成矢量便可以提供化合物較為完善的信息;二是採用類似圖卷積的思想,將不同半徑範圍內的分子子結構特徵提取出來,形成分子指紋,例如類似於ECFP4環形分子指紋;三是採用自然語言處理技術,直接處理表示分子結構的線性字符串。

例如,我們將第三種方法應用在肝損傷的預測上。

這是我們運用第二種方法,在不同的分子半徑上提取特徵,完成構效關係建模及分子指紋分析的工作。

卷積神經網絡的特點就是可以提取出圖像的局部特徵,如果應用在分子結構上,也可以找到一些與目標性質關聯的局部特徵,從而提供一些解釋性證據。下面也提一下圖結構及圖神經網絡,也有不少工作。

由於分子結構可以看成無向圖,所以利用圖神經網絡來學習,但是也要解決一些其中關鍵的問題。在實現分子結構的編碼及相關的性質/活性預測後,還需回答如何生成目標分子結構的問題。這裡講一下,現在非常熱門的生成模型,也可以用在藥物分子生成上,可以通過循環神經網絡(Seq2Seq)來實現,也可以通過變分自編碼器(VAE)或者對抗神經網絡(GAN)來實現。

但是,這種思路沒有考慮藥物分子與靶點的結合能力,這是受限於了分子結構二維表達或線性字符編碼。我覺得未來應該向三維的分子生成方式發展,這樣可以引入一些分子三維結構上的組裝可行性約束。我們正在努力實現三維分子生成,同時也做了一些合成路徑設計方面的工作。

我們發現如何對合成路徑進行打分這是一個很難的問題,即怎麼定義一個合理的基準來評價最佳的反應路徑。

另外,我們發現藥物和化學研究中大量的數據都是非結構化數據,如何從分的利用的這些數據,也是非常值得研究的。

這裡可以引入遷移學習、主動學習、注意力機制和區域識別技術等技術,來提高模型在小樣本數據上的性能、解決樣本不平衡問題並改善模型的容錯性。現在的很多模型,已經不再是單一類型的神經網絡,在同一個模型可能用到了多種神經網絡,比如循環神經網絡增加注意力機制(引入一個全連接的前饋神經網絡),或者循環神經網絡與卷積神經網絡的聯合應用。

但是,較多研究提出的模型只能在基準測試數據集上進行評估,離實用還有一定的距離。我們期望能夠開發更加實用的人工智慧藥物設計工具,通過把很多工作步驟串聯在一起,改善模型的實驗可驗證性。

事實上,現有數據中的標註很多是用既有模型產生的,最典型是用量子力學的方式產生數據。科研分成三類:克卜勒模式,從數據中總結規律,典型的方法就是機器學習;還有牛頓模式,先把公式從原理上提出來,然後模擬真實體系。但是量子力學,很難處理複雜的大分子問題。如果用人工智慧、機器學習和物理模型結合的第三類模式,無論在材料設計方面,還是在藥物設計方面,我覺得都是一個很好的新模式,既可以面對複雜問題,又不脫離基本原理的支撐。這可能導致未來科研模式的較大轉變,會引發一些顛覆性的創新。

03人工智慧在開發環境健康安全溶劑中的應用——申威峰

溶劑是石油、醫藥、化工、食品等不可或缺的化合物,溶劑的生產和使用帶來的潛在環境、健康和安全(EHS)風險是必須面對的問題,且大多數有機溶劑在使用後的回收再利用也必須考慮。因此,篩選或設計綠色溶劑替代具有較高EHS風險的溶劑具有重要的意義。報告介紹了運用人工智慧技術對溶劑性質預測及潛在EHS風險評估方面的研究進展。

傳統的試錯方法通過實驗篩選合適的溶劑分子結構,非常消耗時間和資金。採用計算機根據已有的實驗數據構建數學模型,預測性質和優化溶劑分子結構,可以加速綠色溶劑的開發和篩選,減少成本。我們應用機器學習建立智能化的溶劑性質預測模型的具體思路,包含四個步驟:數據收集、數據整理和轉換、模型搭建、模型訓練及評估。

溶劑開發的數據,涉及分子結構、性質數據和危害標籤,主要從一些權威的資料庫中收集,並整理後統一採用關係資料庫開發平臺進行資料庫構建。

我們通過深度學習技術來實現分子結構的自動化編碼及構效關係建模。主要通過用於產生分子籤名描述符的圖規範化算法,將分子結構轉換為樹狀的有向非環圖(DAG),這樣就可以採用一種遞歸神經網絡——樹狀長短期記憶(Tree-LSTM)網絡進行分子結構的學習。我們基於RDkit開發了分子結構到DAG的轉換程序,由於單純的DAG無法將化學鍵的信息保留給神經網絡進行學習。

因此,化學鍵以符合的形式合併到了DAG的頂點中。將頂點的每個符號在分子結構中的相鄰關係進行採樣,形成訓練數據,就可以採用詞嵌入的算法,將頂點的相鄰關係的概率信息傳遞到後面的Tree-LSTM網絡中。Tree-LSTM是一種動態的神經網絡,可以自適應的模擬DAG的拓撲形狀。Tree-LSTM輸出的特徵矢量代表了分子結構,可以與單個或多個前饋神經網絡(FNN)進行組合,形成單任務或多任務學習的深度學習神經網絡架構。這裡模型的訓練涉及數據集的劃分,驗證集主要用於對超參數進行調優,測試集用於最終模型的預測能力測試。這裡涉及一些損失函數和優化器的選擇問題。

我們將提出的深度學習架構用到預測溶劑的基礎性質、環境性質和安全性質上取得了滿意的效果。另外,也通過分子指紋和機器學習對溶劑分子結構與潛在EHS風險之間的關係進行了分析,嘗試找到一些解釋性的證據。

這是深度學習模型在溶劑的基礎物性上預測的一個例子,預測的性質的臨界性質,這種性質經常在溶劑的熱力學計算中用到。結果表明,深度學習模型的效果較為理想。

這個例子是深度學習模型在環境性質方面的應用,預測辛醇水分配係數,比基於基團貢獻法的KOWWIN模型有更好的性能。

但是,提出的深度學習模型的可解釋性尚有不足。我們提出用一些經典的機器學習模型來預測溶劑的潛在EHS風險評分。這裡也涉及到一個人工打分的規則問題,因此選取了歐盟公認的CHEM21作為依據。結果表明機器學習模型可以依據分子結果得到較為準確的EHS風險分級結果,同時也找出了一些風險較高的分子子結構特徵。

總體而言,人工智慧領域的深度學習和機器學習在綠色溶劑開發方面能夠發揮較大的作用,表現出了較好的預測能力,可以實現一定程度上的虛擬高通量篩選。

最後,我展望一下後面的工作。我想還有些工作需要完成:就是人工智慧模型給出的結果的置信度,還有它的應用域,這些問題怎麼評估?當然,還有分子結構生成模型還需要更深入研究。這些都將使得人工智慧技術在化學、製藥、材料等領域有更好的應用前景。

來源:未來論壇(ID:futureforum)

相關焦點

  • 人工智慧在藥物研發中的應用前景|人工智慧|藥物研發|製藥公司|...
    人工智慧可以通過預測3D蛋白質結構來幫助基於結構的藥物發現,因為設計要符合目標蛋白位點的化學環境,從而有助於在合成或生產前預測化合物對靶點的影響以及安全考量。以DNNs為基礎的人工智慧工具AlphaFold分析了相鄰胺基酸之間的距離和肽鍵的對應角度,預測了靶點蛋白的三維結構,並在43個結構中正確預測了25個。
  • 《AI+化學與製藥》論壇:有AI就不搬磚,化學逆合成也可以借鑑Alpha...
    作者 | 青暮編輯 | 陳彩嫻2020年6月29日,未來論壇·青創聯線上學術研討會YOSIA Webinar舉辦第三期論壇,主題為《AI+化學與製藥,人工智慧為藥物研發和化學研究按下快進鍵》。在AI技術助力化學研究與新藥研發的進程下,化學科研仍需大量創新和跳躍性思維,為人工智慧提供創新策略,推進人工智慧系統不斷優化,後者再反過來推動化學研究人員進行更深入的研究。
  • 雄安新區安置房建設按下「快進鍵」
    雄安新區安置房建設按下「快進鍵」本報訊(記者劉靜)前不久,雄安新區容東片區安置房建設現場一片繁忙景象:工地上塔吊林立,眾多大型機械忙碌作業,工人們正加緊施工。據了解,雄安新區容東片區安置房建設是新區建設的先行工程。
  • 陝西按下項目投資增長「快進鍵」 確保完成任務
    陝西按下項目投資增長「快進鍵」■ 4月省級重點項目完成投資601.5億元,佔年度計劃的11.9%,比前3月完成投資總量多87.1億元■ 截至4月底,全省共立項項目11987個、計劃總投資13785億元,同比分別增長54.5%、66.8%A股市值超過520億元的安防龍頭企業——大華股份要把研發中心從浙江搬到陝西。
  • 稅收優惠助力大數據中心建設按下「快進鍵」
    與此同時,5G、雲計算、產業網際網路、人工智慧等新興領域一日千裡,共同推高了對數據中心的需求。數據中心的新建和擴容步伐在加快,相關設備及服務的需求也在快速增加。作為一家數據中心基礎設施設備及解決方案的提供商,今年以來,中山市艾特網能技術有限公司(以下簡稱「艾特網能」)在疫情之下「逆勢而上」,接到了多個大數據機房的建設項目訂單。
  • 新華三AD-WAN為郵政企業按下快進鍵
    打開APP 新華三AD-WAN為郵政企業按下快進鍵 粵訊 發表於 2020-12-03 18:12:05 正是這樣一個具有悠久歷史的郵政企業,在當今數位化轉型趨勢的推動下,亦迎來了自身業務發展的「第二次春天」,而推動其變革的一個重要源動力則來自於郵政廣域網升級改造的強大賦能。
  • AI「試驗廚房」在路上:讓機器為新材料的發掘按下快進鍵
    正如愛迪生的故事那樣,在19世紀70年代,他測試了3000多種不同的材料,試圖為第一個價格合理的白熾燈泡找到合適的燈絲。結果,下個世紀的燈絲是由鎢製成的,是愛迪生從未嘗試過的一種材料。同樣地,多倫多/卡內基梅隆大學的團隊可能也沒有找到那個「制勝關鍵」。他們的配方需要大量的電力來製造,這意味著現在用二氧化碳生產乙烯是無利可圖的。
  • 量子科技, 中國按下「快進鍵」
    量子通信、量子計算、量子測量……作為21世紀尖端科技的量子科技,成為全球科技大國集中發力的新一輪科技革命和產業變革前沿陣地。   在這一領域,中國近幾年取得了一系列重要科學問題和關鍵核心技術突破,並在部分方向實現國際領先,令全球科技界為之矚目。與此同時,中國在量子科技從基礎研究向應用領域的轉化,以及相關的戰略布局也在加速。在這場關於未來的激烈競逐中,中國已經按下了「快進鍵」。
  • 從「可選項」到「必選項」 企業數位化進程按下「快進鍵」
    從「可選項」到「必選項」 企業數位化進程按下「快進鍵」金羊網  作者:陳澤雲、孫綺曼  2021-01-06 數位化從「可選項」變成了企業競爭和社會生活的「必選項」,中國企業的數位化進程正在按下「快進鍵」。
  • 從疾病靶點到全新藥物分子設計,這家AI公司讓整個研發時間...
    Insilico Medicine 是利用新一代人工智慧技術進行藥物發現的領軍企業,致力於通過開發和應用下一代深度學習方法來改變製藥行業,以實現藥物發現和藥物開發過程的每一步。公司總部位於香港,並且在全球六個國家設有辦公室。
  • 「線上」「線下」齊發力 防疫、復工按下「快進鍵」
    來源: 榆林看點按下群眾生產生活秩序的「快進鍵」,最重要的,就是打通群眾辦事的堵點。為全力做好政務大廳的疫情防控和業務辦理工作,定邊縣行政審批服務局積極應對,在抓好復工的同時全力做好疫情防控工作,「線上」「線下」齊發力,創新工作舉措,成立綜合組、督查組、安全後勤組和疫情監測組,構築起政務服務中心的「健康防線」,充分保障工作人員和辦事群眾的生命安全和身體健康。
  • AI藥物研發再獲巨頭認可,強生製藥子公司與Insilico建立研發合作
    36氪獲悉,強生製藥子公司楊森製藥與AI藥物研發公司Insilico Medicine,今日籤訂了一項AI多靶點藥物發現協議。據了解,牽線促成此次合作的正是強生創新有限責任公司。根據雙方協議,Insilico Medicine將針對楊森提出的靶點,設計具有特定性質的苗頭化合物小分子,並獲得預付款和裡程碑付款。在合作過程中,前者將展示藥物發現過程和平臺的具體功能。Insilico Medicine是36氪持續關注的AI藥物研發公司,其聚焦於靶點發現、小分子生成和臨床試驗結果預測領域,運用深度生成強化學習技術。
  • 按下「快進鍵」的中國量子科技,其實已經來到身邊
    量子通信、量子計算、量子測量……作為21世紀尖端科技的量子科技,成為全球科技大國集中發力的新一輪科技革命和產業變革前沿陣地。在這一領域,中國近幾年取得了一系列重要科學問題和關鍵核心技術突破,並在部分方向實現國際領先,令全球科技界為之矚目。與此同時,中國在量子科技從基礎研究向應用領域的轉化,以及相關的戰略布局也在加速。在這場關於未來的激烈競逐中,中國已經按下了「快進鍵」。
  • 搶抓量子科技發展機遇 中國已按下「快進鍵」
    量子科技 中國「快進」  在量子科技領域,一場激烈的競賽正在展開。量子通信、量子計算、量子測算……如今,量子科技已成為全球科技大國集中發力的新一輪科技革命和產業變革前沿陣地。  搶抓量子科技發展機遇,中國已按下「快進鍵」。
  • 醫藥研發領域大數據和人工智慧的應用探討
    聲明:本文為火石創造原創文章, 歡迎個人轉發分享,網站、公眾號等轉載需經授權。 人工智慧(AI) 技術應用的重要場景之一是助力藥物研發,相比傳統的藥物研發耗時耗力、成功率低, AI技術的應用 可 大大縮短藥物研發時間、提高研發效率並控制研發成本。近年來,人工智慧技術(AI)與醫療健康領域的融合不斷加深。
  • Nature特寫:人工智慧助力化學藥物「宇宙」漫遊指南
    原文作者為阿謝爾•穆拉德(Asher Mullard)。機器學習和大數據幫助化學家在浩瀚的化學藥品宇宙中尋找更好的藥物在2016年,Sunovion製藥公司交給一些老員工一項特殊任務。在美國麻薩諸塞州的公司總部,化學家們被要求進行一項尋找新藥最佳先導化合物的遊戲。在他們的工作站中有包括幾百種化學結構的網格,其中只有十種標有相關生物學信息。
  • 2020世界人工智慧大會舉行,展望AI+生物醫藥的火花
    晶泰科技(XtalPi)以計算化學及量子物理學、人工智慧及機器學習算法、大規模高性能雲計算為核心,圍繞整個藥物研發過程,打造行業性的藥物研發新引擎。康龍化成——以AI和結構生物學為基礎的藥物分子設計平。
  • 第一風口丨膠東經濟圈:高質量一體化按下「快進鍵」
    2020年末,膠東經濟圈一體化推介大會在北京召開,為一體化發展按下了「快進鍵」,標誌著膠東五市的一體化進程登上了一個新的臺階;進入2021年,站在「十四五」規劃的開局之年這個關鍵節點上,「膠東經濟圈一體化」毫無疑問成為了青島市兩會的熱點議題。立足兩會看未來,在新發展格局下,膠東經濟圈將充分發揮「雙節點」作用,助推活躍北方地區經濟高質量發展。
  • 按下快進鍵,東風「五化」跑出「加速度」
    9月17日10時許,竺延風、李紹燭、程道然、溫樹忠、安鐵成、張祖同、尤崢、蔡瑋等東風公司主要領導,按下汽車鑰匙按鈕,共同開啟東風公司2018年科技創新大會暨東風公司技術中心第三屆科技創新周的大幕。一同按下的,還有東風加速「五化」技術創新的快進鍵。重獎技術創新成果,發布技術規劃、眾創平臺,頒發國家重點課題戰表,展示108項創新成果……「快進鍵」代表著發展決心,「加速度」呈現的是發展態勢。東風科技創新一年一小步,東風事業一年一大步。
  • 是誰按下了快進鍵?寒武紀生命大爆發之謎
    在地球生命進化的漫長歷史當中,5億3千萬年前是一個標誌性的時間點,在約2000萬年的時間裡,地球生命仿佛是被人按下了快進鍵一般,地球生命在寒武紀突然出現了多種和現代動物形態相似的原始動物,包括最初的節肢動物、腕足動物、蠕形動物、海綿動物、脊索動物等。但在更古老的時代,科學家並沒有找到其祖先化石的證據。