談談人工智慧在藥物合成中的進一步,並與當前和未來的一些作用

2021-01-09 應用與理論科技

多步路線設計

許多可用的商業和學術合成路線設計軟體都提供獨立的圖形用戶界面(GUI)或基於Web的界面,用戶可以在其中與建議的路線和預測進行交互。該軟體的目標用戶範圍從對化學反應了解不多的非化學家到想要簡化其合成工作流程的訓練有素的專業化學家。MLPDS聯盟的成員公司報告說,該軟體的主要用戶是專家、博士學位級別的化學家,並且報導的使用方式從冷漠到熱情和日常使用不等。許多化學家將合成設計工具與已知反應的傳統資料庫查詢並行使用,以更快地產生想法。其他用戶是計算化學家和化學工程師,他們在逆合成設計中可能沒有太多實踐經驗,但參與分子設計或工藝開發。大多數公司會試一些小規模的試驗,以選擇專業的化學家,他們在評估機器學習CASP工具的能力和確定關鍵限制方面處於優勢。

完整路線設計的原理證明已經建立,但進一步的完善將需要能夠客觀評估逆合成預測的化學家的投入。來自MLPDS成員公司的意見已經確定了一些通用趨勢,其中機器學習算法的性能良好。通常,使用ASKCOS工具與Reaxys或USPTO中發現的產物分子處於相似化學空間的靶分子往往表現良好。可以使用公認的化學方法來訪問這些靶分子,並且模型可以在其適用範圍內充分發揮作用。

基於機器學習的路線設計工具的「成功」涉及許多不同方面。這些程序是否能夠找到路線的最簡單因素之一是被認為是可商業獲得的化合物資料庫的覆蓋範圍。簡而言之,較大的原材料資料庫會增加搜索成功終止的機率。為了更好地了解可購買化學品的資料庫如何影響樹的搜索結果,葛蘭素史克比較了ASKCOS的可購買化合物的庫存資料庫(138k)和更大的內部化合物/供應商資料庫(8M)。

在內部一組69個目標分子上,並使用最寬鬆的合成路線設計程序設置,ASKCOS通過庫存資料庫找到了54%的化合物,在其內部資料庫中找到了67%化合物的路線。這些結果突出了合成路線設計算法對用於停止標準的資料庫的依賴性。但是,由於每個軟體包都使用不同的的可購買資料庫,因此對可購買資料庫的依賴性使比較CASP工具變得更加複雜。通過在每個CASP工具中加載和使用自定義構建模塊的簡單實用工具的實現,可以緩解此問題。由於所有MLPDS公司成員都在內部維護大量的構建模塊,因此該要求通常很有用。

預測化學的機器學習方法的預期功能是,對專有數據進行再訓練模型應使公司能夠對內部使用的化學物質實現更好的預測能力。這些內部化學物質可能無法在公共或公開數據集中得到很好的體現對大多數CASP系統進行了培訓。AstraZeneca和University of Bern的研究人員將工作流程用於逆合成模板的提取,訓練/應用到多個公共和專有數據集,並比較了不同模型的性能。他們發現Reaxys具有最獨特的反應模板,其中在研究中使用的所有數據集之間共享2%,而Reaxys及其專有ELN數據子集之間僅共享0.6%。

禮來公司從批准的實驗和研究性藥物中鑑定出6k種目標化合物的子集,以代表公司感興趣的化學領域。使用禮來公司的構建資料庫和內部合成設計平臺ChemoPrint,使用以下模板集進行逆合成擴展:1)僅禮來eLN數據,和2)禮來eLN數據加上專利數據模板。對於具有第一個模板集的6k化合物,可以找到40.1%的化合物的路線。用額外的專利模板對模板集進行補充只能使成功提供一條路線的能力提高5.8%,相當於46.9%的成功率。對於完整的路線設計,這些結果表明需要對內部和專有數據集進行進一步測試以及公司數據可能對多步路徑設計產生的影響。

仍然有許多分子結構,其合成路線無法找到任何途徑。MLPDS聯盟成員已確定缺乏完整公司規劃中的幾個公司特定目標分子或反應的覆蓋範圍。通常無法確定的在完整路線設計中不成功的子結構是小巧,功能密集的帶有或不帶有多個連續的立體中心,籠罩式結構,新發現的雜環和複雜的多環化合物。使用常規模板提取程序,由於模板的高度特異性,該模型將無法概括。相反,一些目標分子的路線設計將找到許多路徑,但包含許多不良的逆合成建議,這些區域可能無法適當預測區域選擇性或立體選擇性。為了糾正選擇性問題,使用準確的正向預測模型進行進一步過濾將提供更豐富的路線建議。另一組失敗歸因於用於導航合成樹的搜索方法的限制。由於遞歸逆合成擴展必須限制搜索以避免組合爆炸增長,因此大多數實現尚無法在搜索路徑中導航超過15個合成步驟。如果化學家使用CASP工具來確定路線,並且路線設計無法成功導航到合成圖以生成路線,則需要另一種解決方案。

當全合成路線設計失敗時,化學家可能會使用單步逆向合成預測來手動構建路線。手動構建從數十個斷開連接到數千個斷開連接的路線是一項耗時的任務。MLPDS成員公司與MIT之間的討論產生的路線設計函數是使用單步逆向合成預測實現交互式路線設計。交互式設計程序解決了顯示各種建議並更好地控制合成設計的問題。當化學家最初開發一條路線時,離去基團的精確選擇就不再那麼重要了,隨著路線的不斷完善,將根據所需的反應性選擇特定的離去基團。

用於逆合成的機器學習模型通常將所有可能的反應物作為不同的選項進行處理。對於化學家來說,梳理具有相同基本脫離位置但離去基團不同的許多建議是不方便的。因此,開發了一種聚類算法,將相似的建議分組,並加快了對不同連接的探索。使用一種可視化效果可以顯示多個路線,可以下載和共享。儘管基本的機器學習模型都沒有更改,但是當自動合成路線設計工作失敗時,專家用戶會更樂於以交互方式探索路徑。這項成功表明,最終用戶與合成設計軟體開發人員之間的緊密協作有助於採用,特別是在用戶界面方面。

許多合成設計軟體包的一個優點是,反應模板或規則與一組特定的文獻先例相關聯。MLPDS成員公司報告說,當可以輕鬆獲取基於其預測的文獻示例時,CASP工具會更頻繁地使用。例如,ASKCOS提供了一種在訓練數據中使用與反應示例綁定的反應ID的機制,並可以將用戶引導至文獻查詢或內部反應條目。

正向反應預測

基於機器學習的正向反應預測的目的是驗證從合成路線設計中提供的路線。正向預測不會在通過GUI進行樹搜索期間自動執行,而是可以在擴展後對反應執行。實際上,正向反應預測工具主要用於識別潛在的副產物和雜質,而不是用於確定路線。與逆合成設計類似,數據的使用應通過調整用於訓練和預期性預測的化學物質/反應的類型,來提高內部訓練的質量。輝瑞公司和劍橋大學之間的最新研究表明,對數據進行適當重新訓練以進行正向預測模型確實可以提高特定化學反應的準確性。

反應條件推薦

成員公司部署的所有MLPDS模塊中,反應條件推薦使用得最少,反饋最少。先前的研究已經報告了建議將非常具體的條件限制為單個反應類別。這些重點關注的模型並不接近專家化學家所具有的整體反應性直覺,但是在非常特定的條件是必需的也可能有用。用於條件推薦的通用模型可以為反應執行提供良好的起點,這對於藥物化學工作流程而言將是更可取的。

但是,這些通用模型會受到訓練集適用性域的限制。化學家目前可以使用ASKCOS來設計反應的一個良好起點,但是許多原因可能導致條件推薦的採用率降低。一是模型建議不夠具體(濃度、時間、添加順序等缺失)以致無法給出可行的條件。該模型提供的條件可以通過對相似轉換的文獻搜索獲得。該機制仍然是化學工作者的首選。研究者發現化學家經常使用該模型來確認他們已經提出的某些條件,或者只是評估建議並向模型開發者提供反饋。長期而言,一旦可以提出定量建議,就有機會影響自動化實驗,但是目前條件推薦的實用性受到限制。

上下文推薦模型是一種有吸引力的應用程式是幫助化學家和化學工程師在合成設計開始時就發現利用特定技術的機會。這樣可以很容易地確定出符合綠色化學原理的更有效和可持續的條件。這樣的一個例子是在諾華基於表面活性劑的技術中的應用,該技術試圖用綠色的膠束-水表面活性劑系統代替不希望的溶劑。通過使用相關內部數據訓練ASKCOS,可以設想,上下文建議模型將能夠使用靈活的用戶提供的「有利」定義,識別和提出更有利的條件,而不是現有文獻中更為普遍的歷史條件。

用於合併到公司平臺中的程序接口

儘管圖形用戶界面是化學家使用的主要方法,但計算工具可以直接與其他計算流程集成。與內部分子設計工具的更緊密集成代表了CASP的附加價值主張,並可能帶來更大的採用率。例如,用於從內部設計模塊向路線設計軟體發送請求的程序化界面可以自動運行合成逆向擴展,並積累必要的數據,以便對目標分子進行優先排序。

禮來公司設計了一個名為Kernel的內部工作流程,該流程可自動提交化學家的目標化合物或篩選結果,並對其進行優先排序。Kernel識別出優先化合物後,利用ChemoPrint API和禮來(Lilly)構建基塊集合對所有分子執行完整的合成路線設計,然後添加到化合物列表中;通過電子郵件將結果通知團隊成員。

巴斯夫開發了一個集成平臺,用於將文獻參考和內部電子實驗室筆記本連接到合成反應模板推薦,並將內部化合物原料資料庫集成到遞歸路線設計中,以優化內部資源的使用。在合成路線中使用的分子與內部用於預測物理和毒理學性質的工具套件相連,從而能夠在進行實驗室工作之前對反應的可行性和安全性進行計算機評估。

可以預見的是,編程接口也可以用於從頭分子生成。化學家對從頭方法的普遍抱怨是,這些分子不能通過合成獲得。計算出的SA分數具有速度優勢,但是使用完整的遞歸路線設計對生成分子施加偏見將確保確實存在到生成分子的路徑。當然,這限制了生成模型的化學空間,但是可合成性的改進可能值得權衡。

自動化合成平臺

合成設計是全自動反應平臺的關鍵組成部分。對自動合成平臺的研究僅限於相對較小的反應,並且在學術界和工業界都基本上處於概念驗證階段。當前的自動化平臺仍然需要大量的人員設置和計劃,但是隨著預測化學工具的集成,該過程可能會變得更加簡化。使用ASKCOS合成路線設計軟體演示了一個機會,該軟體已與機器人流程合成平臺耦合。儘管仍然需要完善(例如,指定濃度和反應時間)路線和條件建議並優化(例如,適用於流動化學)在機器人平臺上執行之前。在這種情況下,與批量化學結果的流行相比,手動幹預的需求部分歸因於自動化學訓練數據的缺乏,但可以通過使用更傳統的批量方法或基於平行板的方法來規避。自動化系統的其他選項包括使用環流的閉環DMTA循環,自動化實驗室和超高通量實驗。

一些製藥公司目前正在將逆合成設計軟體集成到閉環自動化中。禮來公司,ChemoPrint已成功集成到用於化學合成的自動化平臺中。禮來公司已經證明過這一概念驗證,即整個DMTA周期可以自動化,並且在專家化學家的最少幹預下即可執行。目前,這些示例僅限於單一步驟的合成計劃,並且在最初的文獻報告中並未對項目的推動產生太大影響。作為概念的證明,該實驗證明了將CASP和自動化耦合以驅動DMTA周期的可行性。儘管對於多步合成尚未完全實現閉環導聯優化,但學術界和工業界研究人員都在迅速進步。

用戶採用

2017年,要求在三家製藥公司接受調查的一小群化學家定義合成設計平臺的最重要特徵,以鼓勵採用。對受訪者而言,最重要的6個重要功能是:1)易於使用且直觀的界面,可與路線進行交互;2)探索與路線推薦相關的文獻先例的方法;3)用戶可以定義自己想要打破的紐帶以進行指導搜索; 4)路線以可購買的起始原料;5)官能團不相容和不穩定的化合物被鑑定,並提出了保護基團策略以繞過這些複雜性,6)實施了評分系統對路線進行排名。根據研究者的經驗,這些願望已被大多數組織的最終用戶共享。在所有重要功能中,ASKCOS軟體包和許多公司內部工具都在不同程度上實現了許多重要功能。

如前所述,用戶的範圍從非專業化學家到從業化學家。公司的許多早期評估人員都是計算化學家和信息專家,他們正在決定將正確的方法集成到工作流中的方法。專業合成化學家的自然趨勢是將喜歡的目標化合物輸入完整的路線搜索中,並尋找熟悉的路線。如果已知/已發布的路線未顯示或在頂級建議附近排名,則可能使用戶無法使用該工具。如果為化學家提供基礎培訓,使他們在軟體背後介紹理論以及如何有效使用每個軟體包中不同模塊的示例,則採用率會更高。

重要的是,這種培訓應該傳達出數據驅動程序的一個目標是超越對已知路線的查找。建議的路線是基於對已知反應數據進行概括的預測。已經注意到有關模型如何工作,方法的目標是什麼,模型的局限性以及如何更改輸入以獲得有用信息的說明,從而大大提高了化學家的參與度。

相關焦點

  • JMC|藥物發現和合成機器學習聯盟綜述人工智慧在藥物合成中應用
    引言人工智慧和機器學習早已經證明了它們在小分子預測化學和合成規劃方面的潛在作用。麻省理工學院和13家化學及製藥公司成員組成的藥物發現和合成機器學習聯盟(MLPDS),正在開發和評估一個數據驅動的合成規劃項目。
  • 人工智慧在藥物研發中的應用前景|人工智慧|藥物研發|製藥公司|...
    即便如此,90%的治療性分子未能通過II期臨床試驗和監管機構的批准。最近鄰近算法、RF、極限學習、SVMs和深度神經網絡(DNNs)等算法可用於基於合成可行性的虛擬篩選(VS),也可預測體內的活性和毒性。一些大型生物製藥公司,如拜耳、羅氏和輝瑞,已經與IT公司開展合作開發人工智慧平臺,用於在腫瘤免疫學和心血管疾病等領域發現治療方法。
  • 星藥科技李成濤:人工智慧在藥物研發中的應用
    2020年8月29日,第18期「AI未來說·青年學術論壇」(「AI+X」領域專場)以「線上平臺直播+微信社群圖文直播」形式舉行。星藥科技李成濤帶來報告《人工智慧在藥物研發中的應用》。星藥科技創始人&CEO李成濤博士本科畢業於清華姚班,隨後在麻省理工學院獲得計算機博士學位。
  • AI+化學與製藥,人工智慧為藥物研發和化學研究按下快進鍵
    引言:人工智慧技術在計算機視覺、語音識別和自然語言處理三大領域中取得了巨大的成功,帶動了多個產業的快速 發展。將人工智慧的關鍵技術應用於化學和藥物研究,能夠加速化學信息的處理,提升藥物研發的效率。尋找最優的合成路線、構建分子結構與性質/活性的定量關係模型,實現化合物的虛擬高通量篩選,是當前人工智慧與化學、製藥、生物等學科交叉研究熱點。
  • 人工智慧助力藥物研發:J Med Chem發表人工智慧藥物發現專刊
    近年來,由於計算機數據處理能力的提高和新的人工智慧(Artificial Intelligence,AI)方法的發展,人工智慧逐漸進入藥物設計科學家的視野。2020年8月,Journal of Medicinal Chemistry(JMC)推出"Artificial Intelligence in Drug Discovery "專刊(https1://pubs.acs.org/toc/jmcmar/63/16),聚焦於人工智慧對藥物發現過程的衝擊,介紹了人工智慧在藥物研究中最新的方法和應用,讓研究者了解到人工智慧是如何進入藥物發現領域的
  • 新歷史觀中的人工智慧與人類未來
    當前,四種守門人類型並存於世,他們在各自的領域發揮著不可或缺的作用。從最一般的意義上來說,守門人才是真正的歷史創造者和塑造者,由此守門人視角也可以為我們提供有關人類的新歷史觀。從人類歷史的進程來看,諮詢型守門人最早出現。
  • Nature特寫:人工智慧助力化學藥物「宇宙」漫遊指南
    機器學習和大數據幫助化學家在浩瀚的化學藥品宇宙中尋找更好的藥物在2016年,Sunovion製藥公司交給一些老員工一項特殊任務。在美國麻薩諸塞州的公司總部,化學家們被要求進行一項尋找新藥最佳先導化合物的遊戲。在他們的工作站中有包括幾百種化學結構的網格,其中只有十種標有相關生物學信息。專家們必須基於他們辛苦學到的化學結構及生物知識來選出其他可能作為候選藥物的分子。
  • 淺談人工智慧的過去、現在和未來
    人工智慧發展初期的突破性進展大大提升了人們對人工智慧的期望,人們開始嘗試更具挑戰性的任務,並提出了一些不切實際的研發目標。然而,接二連三的失敗和預期目標的落空(例如,無法用機器證明兩個連續函數之和還是連續函數、機器翻譯鬧出笑話等),使人工智慧的發展走入低谷。 三是應用發展期:20世紀70年代初—80年代中。
  • 人工智慧在企業中有什麼作用
    人工智慧在企業中有什麼作用 人工智慧實驗室 發表於 2020-11-26 09:50:17   自從人工智慧誕生以來,已經見證了成功與失敗的季節,一次次的技術進步也面臨著局限和放棄
  • 人工智慧的發展及未來暢想
    人工智慧涉及到計算機科學、心理學、哲學和語言學等學科。可以說幾乎是自然科學和社會科學的所有學科,其範圍已遠遠超出了計算機科學的範疇,在不斷的接近。她並不像很多人想像的是幾個科學家的工作,而是隨著社會各學科發展而默默發展的。在智能領域裡,最關鍵的問題之一,就是機器學習的問題。一旦機器有了學習的能力,誰還(敢)預測未來呢?
  • 自動化是當前與深度學習及人工智慧等的不可分割的關係
    自動化是當前與深度學習及人工智慧等的不可分割的關係,也同樣是當前的熱門主題。自動化機器學習在自動化,人工智慧,無人機等科技領域有廣泛的應用。自動化機器學習可以模擬生物學過程,比如分類,和識別。分類。分類就是識別。
  • 基因剪刀合成生物:把藥物種出來!
    這項複合生物學壯舉發表於2015年一期Science雜誌上:通過導入來自植物、細菌和齧齒動物的21個基因,在酵母菌內建立起一條「藥物生產線」,可以將糖一步步轉化為蒂巴因(thebaine)——這是嗎啡的前體。該研究團隊還發現,進一步調整過的酵母可以產生氫可酮——一種廣泛使用的、由蒂巴因化學合成的止痛藥。
  • LSTM之父贊中國科技發展 強調在抗疫進程中人工智慧的作用
    他創建的 LSTM 深度學習神經網絡為機器學習領域帶來了革命性變化,已在谷歌、facebook 等多家網站上廣泛應用,對人工智慧與深度學習的進一步開發起到了重要的作用。在本次智源大會上,Jürgen 先生針對近期人工智慧在應對新冠病毒疫情中發揮的作用進行了講解,同時對自己所做的研究及其在工程領域的應用做了精煉的概述,最後展望了未來機器學習與人工智慧發展的方向。
  • 如何認識人工智慧對未來經濟社會的影響
    世界主要國家都高度重視人工智慧發展,我國亦把新一代人工智慧作為推動科技跨越發展、產業優化升級、生產力整體躍升的驅動力量。在此背景下,我們有必要更好認識和把握人工智慧的發展進程,研究其未來趨勢和走向。人工智慧不同於常規計算機技術依據既定程序執行計算或控制等任務,而是具有生物智能的自學習、自組織、自適應、自行動等特徵。可以說,人工智慧的實質是「賦予機器人類智能」。
  • 2019年25大人工智慧趨勢!一文看到未來
    2019年最值得關注的人工智慧趨勢之一將是應用程式中邊緣AI的增長。2019年人工智慧的主要趨勢之一將是對該行業的更多投資,包括主要零售商。7、膠囊網絡深度學習推動了當今大多數人工智慧應用,但膠囊網絡很快就會取而代之。與當前的卷積神經網絡(CNN)相比,膠囊網絡具有許多優點。對膠囊網絡的研究還處於起步階段,但可能會挑戰當前最先進的圖像識別方法。
  • 上海藥物所等在二萜生物合成研究中取得進展
    上海藥物所等在二萜生物合成研究中取得進展 2020-11-25 上海藥物研究所 【字體:  該研究首次報導了一種從放線菌C.acidiphila發現的新型二萜合成酶CaCS,並研究它的酶產物化合物1-3。通過同位素標記實驗,研究團隊確證了1-3的生物合成途徑,並得到其絕對構型。同時,一個雙鍵被還原的底物類似物被合成出來並運用於該酶表達,表達產物的結構得到確證並進一步佐證前述生源合成途徑的正確性。
  • 合成生物學能否激發下一波人工智慧的發展
    他們觀察並對自然機翼的各個方面進行了逆向工程,這反過來又幫助他們在空氣動力學和推進方面取得了重要發現。 同樣,要構建具有思考能力的機器,為什麼不從我們兩耳之間運作的三磅重物質中尋求靈感呢?人工智慧的先驅,圖靈獎的獲得者傑弗裡·欣頓(Geoffrey Hinton)似乎同意:「我一直堅信,使人工智慧發揮作用的唯一方法就是以類似於人腦的方式進行計算。」
  • UIUC羅宇男:交叉學科中的人工智慧和科學發現
    2020年8月29日,第18期「AI未來說·青年學術論壇」(「AI+X」領域專場)以「線上平臺直播+微信社群圖文直播」形式舉行。UIUC羅宇男帶來報告《交叉學科中的人工智慧和科學發現》。羅宇男的研究方向是AI+X,人工智慧、藥物發現、計算生物學、化學、農業等等領域。
  • 人工智慧正在如何改變藥物發現 | Nature 2018
    那麼,人工智慧技術對藥物發現領域究竟有多大影響呢?前景如何?為了儘可能完整的看待這一過程,我們做一些回顧。早在2018年,科普作家Nic Flemming在Nature(IF=42.778)上發表過一篇評論文章《How artificialintelligence is changing drug discovery》,文章介紹了一些人工智慧推動藥物發現的案例,並客觀評述了這種推動作用的價值和前景。
  • 「人工智慧+醫藥研發」產業研究
    比如,在新藥發現環節,人工智慧可輔助進行靶點發現和化合物合成,為研究人員提供參考;在臨床前研究階段,人工智慧可輔助進行化合物篩選和晶型預測,對相關化合物的功能進行推測和確定;在臨床試驗階段,人工智慧可針對藥物的作用原理針對性選擇患者,通過深度學習獲取資料庫中臨床試驗設計方法進行臨床試驗設計,同時在臨床試驗過程中實時追蹤藥物功效,對藥物進行重定向,大大提升效率。