JMC | 藥物化學中的分子表徵學習

2020-06-28 中大唯信

本文要點

1. 研究者討論了分子深度學習領域的積極研究將如何解決當前描述符和指紋的局限性,同時在化學信息學和虛擬篩選領域創造新的機遇。

2. 研究者簡要概述了表徵在化學信息學中的作用,以及深度學習中的關鍵概念,並認為學習表徵提供了一種改進小分子生物活性和性質預測建模的新方法。

背景介紹

為什麼表徵重要?

從一系列複雜的觀察中學習關鍵模式的能力是人工智慧的一個核心方面。化學家利用這種能力尋找小分子先導物,並在治療性發現中優化類藥物的特性,在這一領域中複雜的化學和生物過程控制著小分子之間的相互作用。在結構模式識別中,一個經常被忽視但又不可分割的方面在於分子是如何被表徵的。例如,圖1顯示了他汀類立普妥以多種人類可解釋的方式繪製。從圖像上看,大多數有機化學教科書都教學規範化的鍵線符號(圖1,左),其中一個分子被描繪成一個化學圖形,每個未標記的頂點對應一個碳原子。這種視覺符號可以很容易地說明分子的拓撲結構,但不同的方向和觀點可能掩蓋或揭示顯著的模式。此外,鍵-線式符號忽略了三維形狀(圖1,中間)和柔性分子相關構象動力學(圖1,右)的重要方面。

JMC | 藥物化學中的分子表徵學習

圖1 分子的常規視覺、人類可解釋的表徵

圖片來源 JMC


有效的分子表徵對於統計和機器學習至關重要。幾十年來在定量構效關係(QSAR)研究和分子相似性分析方面的藥物發現研究表明,準確的預測依賴於分子特徵(也稱為分子描述符)的選擇。在機器學習中,這種手動發現和創建相關特徵的過程被稱為特徵工程。


特徵的選擇對於任何機器學習管道都是至關重要的,並直接影響可以使用的學習算法的類型。大多數真實世界的過程產生的數據是不能線性分離的,如圖2A中,無法找到區分紅色和藍色類的線性決策邊界。領域專業知識和對產生觀察數據的物理過程的理解可以激發特徵轉換,從而簡化學習。在這個例子中,從笛卡爾坐標到極坐標的轉換允許一個線性決策邊界來分離兩個類(圖2B)。另外,添加新的相關特性可以幫助區分新維度中的類(圖2C)。儘管這種方法在機器學習方面持續取得成功,但特徵工程可能仍是困難和耗時的。


與特徵工程相反,深度學習算法執行一種特徵學習,也稱為表徵學習。深度學習模式不依賴於專家編碼的特性,而是直接從觀察到的數據中學習簡潔而富有表現力的表徵。圖2D強調了一個簡單的神經網絡是如何自動學習一個新的且線性可分的內部表示,而不藉助額外的工程。

JMC | 藥物化學中的分子表徵學習

圖2 表徵的選擇在學習中起著關鍵作用

圖片來源 JMC


我們需要新的分子表徵嗎?

分子表徵簡史

從親脂性到三維幾何,現有成千上萬的實驗和理論描述符被開發用於化學信息在藥物發現中的應用,既然如此,這個領域是否需要新的分子表徵呢?現有的描述符每個都編碼不同的信息,但沒有一種表示法能在所有任務中普遍有效地執行。


因此,大多數分子表示法編碼針對特定用途而優化的信息。廣泛使用的簡化輸入行輸入系統(SMILES)和隨後的國際化學標識符(InChI)只是用於此目的的詞彙表示的兩個例子,因為它們以標準化格式緊湊地存儲分子圖信息,以便於信息搜索。類似地,高效查詢不斷增長的化學資料庫以快速進行子結構搜索的需求推動了基於密鑰的位串指紋的發展,每個位表示分子特徵或子結構的缺失或存在。


新表徵法的發展也反映了研究的變化趨勢和不斷發展的技術景觀。例如,在20世紀80年代和90年代,隨著對結構活性建模和分子相似性分析的努力不斷增加,產生了新的位串表示,並對舊的位串表示進行了再優化。同樣地,對生物活性建模的不斷推動推動了分子訪問系統(MACCS)密鑰指紋的重新優化,該密鑰指紋最初是為基於專家編碼特徵的子結構搜索而設計的。隨著QSAR研究的進展,X射線晶體結構的影響日益增加,加上額外的計算能力,推動了表徵和方法的設計,以捕獲三維結構和形狀方面。基於幾何距離的指紋和化學結構快速疊加(ROCS)等方法為利用空間信息進行3D-QSAR和形狀-相似度分析提供了新的機遇。但到目前為止,有效地合併構象集合的表徵還沒有被開發出來。


最近的研究表明,現有的分子描述符不足以表達許多應用。幸運的是,深度學習中的主動學習為小分子的靈活表徵學習開闢了一條有前途的道路。


什麼是好的分子表徵?

好的分子表徵應具有什麼樣的品質?在機器學習中,好的表徵法應是會使學習任務更容易,這一概念可通過圖2中示例看出。同樣的道理也適用於分子,因為識別關鍵的結構特徵對於揭示生物活性和性質關係至關重要:一個好的分子表徵可以使後續的學習任務更容易。優秀的分子表徵應滿足下列條件:

1)表現力:化學空間是巨大的,但單原子對分子結構的擾動可以導致物理化學性質和生物活性的巨大差異。表徵既要忠實地捕捉化學空間的豐富性和多樣性,又要區分分子之間的細微差別。

2)簡約性:大規模實驗的成本限制了化學數據集的規模和多樣性。為了確保模型能夠在噪聲中學習重要的模式,對於機器學習任務來說,在輸入特徵空間中保持簡約是至關重要的。

3)穩定性:因為相同的分子輸入應該一致地生成相同的輸出,所以分子表示必須對原子編號等方面保持不變。

4)可解釋性:對於機器學習的科學應用來說,關鍵是要確保模型的性能源於對相關模式的學習,而不是利用混雜變量、實驗噪聲或其他可能的人為因素。

JMC | 藥物化學中的分子表徵學習

圖3 機器學習模型性能作為數據集大小的函數的概念說明

圖片來源 JMC

為什麼是深度學習?為什麼是此時?

鑑於過去神經網絡在藥物發現方面的成功有限,一個重要的問題是,深度學習是否適合小分子藥物發現。


人工神經網絡和深度學習

人工神經網絡(ANNs)是一類計算系統的靈感來自於人類大腦的生物網絡。在最簡單的情況下,一個淺的、全連通的或前饋網絡是一個有向計算圖,它由三層組成:輸入層、單個隱層和輸出層(圖4A)。每一層都有數量可變的計算單元,稱為神經元,它們對輸入數據執行非線性轉換。深度神經網絡(Deep neural networks),又稱深度學習(Deep learning),是指具有多個隱含層的神經網絡。簡而言之,一個訓練過的模型指的是一個神經網絡結構,以及連接所有神經元的學習過的權值。


幾十年的研究探索了各種各樣的架構,每一種都適用於不同的目的。除了標準的前饋網絡,由全鏈層(等同於被稱為密集或仿射層),復發,卷積,卷積圖架構開發了不同的領域和數據類型(圖4)。例如,復發性神經網絡(RNNs)、復髮長-短-期內存單元(LSTM)、卷積神經網絡(CNNs)以及圖形神經網絡(GNNs)。模塊化單元允許深度網絡操作廣泛的數據和組合數據類型,以提供靈活的學習。


數據可用性的增加、算法的創新和計算硬體的進步推動了最近深度學習的爆炸式發展,大大縮短了訓練和評估深度網絡的時間,並提高了可伸縮性。

JMC | 藥物化學中的分子表徵學習

圖4 柔性神經網絡結構示意圖。

圖片來源 JMC

神經網絡在QSAR和藥物發現中的應用

神經網絡在QSAR和藥物發現方面有著曲折的歷史。ANNs在藥物化學中的首次應用可以追溯到近50年前,即使用感知器算法對含有二惡唑烷的小分子進行分類。隨著機器學習研究的不斷進展,ANNs被其他算法取代,比如不太容易過擬合的隨機森林和支持向量機。這些算法仍然被廣泛使用,並取得了強大的性能,特別是在小數據中(圖3)。


2012年,由Kaggle主辦的默克分子活性挑戰賽再次點燃了人們對藥物發現的深度學習的興趣,參賽者被要求使用預先計算的近5萬個分子的分子描述符預測15個相關任務的生物活性。由Dahl等人領導的團隊利用多任務深度神經網絡贏得了比賽,並以比最新的隨機森林模型高出近15%的成績贏得了比賽。儘管默克公司的後續研究表明,與隨機森林模型相比,神經網絡的性能略有提高,但這場競賽使神經網絡在藥物發現方面再次得到普及。

JMC | 藥物化學中的分子表徵學習

圖5 特徵工程與特徵學習以獲取重要的相似關係

圖片來源 JMC


從特徵工程到特徵學習

深入學習計算機視覺和自然語言處理模式轉變: 以前的方法嚴重依賴專家的特徵工程,而深度神經網絡是一種可直接從數據中自動執行的特徵學習(圖5)。相比之下,卷積神經網絡通過學習好的特徵提取器,以及基於梯度的優化,自動生成層次結構組合。相反,一種有監督的深度學習方法不需要已有的知識,通過使用原始圖像數據和標籤(例如,狗、貓、潛水艇),通過例子學習狗的鑑別特徵。


為什麼深度學習對圖像識別如此有效?這些模型學到了什麼?深層架構的一個關鍵方面是表徵的層次學習的概念。神經網絡學習的最低層相對簡單的特性非線性組合成高階的概念,因為他們通過網絡傳播(圖5)。這個層次組織,與多個中間層次的代表,是深層網絡的預測能力的關鍵,並提供改進的計算複雜度,分享統計力量,增加表現力。


向特徵學習的相同轉變導致了自然語言處理的顯著改善(圖5)。雖然計算機視覺和自然語言處理似乎不同於化學信息學,但可以在這些研究領域中找到相似之處(圖5)。幾十年的化學信息學研究已經產生了專家定義的分子表徵,這些表徵可以稱為特徵工程。分子表徵可通過深度學習從局部原子環境和子結構分層構建。實際上,常用的循環分子指紋,即擴展連通性指紋(ECFP),有效地對分子的片段袋錶示進行編碼,與文本的單詞袋錶示直接並行,並使用相同的技術(如特徵散列)創建稀疏的分子指紋。總之,這些相似之處表明表徵學習將改善小分子的預測建模狀態。


關鍵的是,小分子藥物的發現打破了機器學習的許多技術應用中的標準假設。大多數機器學習算法都假設訓練和測試數據是獨立的、相同分布的。小分子的優化和設計,必須從特定新的化學空間區域探索結構的變化。該模型必須推廣到分布外的實例,才能對臨床藥物化學家有用。


分子表徵學習的機遇

從靈活的輸入表徵中學習

傳統的機器學習需要固定長度的輸入,不能處理可變長度和非結構化數據。目前,深度學習的發展主要依靠非結構化和可變的數據類型,這為探索新的有意義的分子表示創造了機會。現有的基於字符串和圖形的格式,被設計用來編碼分子的完整組成和結合,是深度學習任務很有前途的起點。

學習基於字符串的表示(如SMILEs)已經引起了人們的興趣,因為它們能將分子結構壓縮編碼,並已廣泛用於化學資料庫的存儲。SMILEs遵循由正式語法系統組成的人類可解釋的語法,允許研究人員直接調整從自然語言處理和神經機器翻譯到化學信息學問題的方法和架構。例如,吡啶的SMILES表示是「c1ccncc1」(圖6A)。


賽格勒等人在早期報告中,應用一個基於-RNN模型生成集中化學庫與抗瘧和採用兩階段法抗菌活性(圖6),作者最終證明,經過訓練的模型可以產生新的和有效的抗菌藥物發現分子的重點庫。


儘管應用很方便,但SMILES表示在學習上有幾個關鍵的缺陷:1)兩個相似的分子可以產生兩種截然不同的SMILES表示,因為多個有效但不同的SMILES可以描述同一個分子;2) SMILES很脆弱:單個字符的改變會產生無效的分子;3)大多數分子本質上是非線性的,但它們會把複雜的結構坍縮成單一的線性序列。這些缺陷使得SMILES語法很難使用標準的卷積和循環架構來學習。


此外,一個令人興奮的新興方向是使用圖形神經網絡直接學習分子結構。正如CNNs在規則網格中聚合本地空間信息(圖4C)一樣,GNNs將這個概念推廣到非歐幾裡得的輸入,如網絡(圖4D)。圖學習分為幾個步驟(圖6B):首先,現有的分子特徵直接編碼到每個節點表示中,比如原子類型和雜交。在一個GNN的各個層中,節點表示用來自其周圍鄰居的信息更新,這些信息在一個稱為消息傳遞的框架中傳遞。這種迭代消息傳遞和更新的過程允許信息在圖中流動,從而為每個節點創建連續而密集的表示。


該算法與ECFP指紋算法緊密對應,從局部環境中提取信息。關鍵的是,儘管傳統的指紋和圖形神經網絡都利用了專家定義和設計的原子和鍵特徵(例如,原子類型、雜交、部分電荷等),圖形神經網絡層逐步轉換和聚合任意大小的分子圖,成為相關的學習向量(即,一個嵌入)。因此,這些網絡的信息聚合階段是專門為任務而進化的,與傳統的指紋和描述符有本質區別,後者依賴預定義的手段來聚合化學子結構模式。


在實踐中,Duvenaud等人對神經圖譜指紋的發展和Kearnes等人對分子圖譜迴旋的早期報導顯示,在水溶性和生物活性任務方面,傳統指紋具有較強的性能。隨後,一些變化的圖形神經網絡結構已經被開發用於預測物理化學性質,生物活性和小分子能量。

JMC | 藥物化學中的分子表徵學習

圖6 深度學習可以從不同的輸入類型(如序列和圖形)中靈活地學習

圖片來源 JMC


通過連續表徵學習分子相似性和化學空間

化學信息學的相似性質原理表明,相似的化合物應該具有相似的性質。計算方法如Tanimoto係數(Tc)主要反映了它們所選擇的分子表徵的相似性,但這些表徵的相似性僅作為從分子結構確定函數這一最終目標的相關代理。與活性懸崖對應的匹配分子對從一個極端說明了這一概念:儘管兩個分子可能在結構上相似,但活性上的顯著差異表明它們在功能上並不相似。在另一個極端,兩個具有不同支架的活性分子說明了相反的概念:根據分子指紋,兩種分子在結構和拓撲上的相似性較低,但可以認為它們在功能上類似於針對同一蛋白靶點的活性分子。


相比之下,深度神經網絡可以自然地學習獨特的連續表示,具有更強的表徵能力,並可以學習特定任務分子相似性的概念。圓形指紋ECFP算法根據本地原子環境有效地將每個分子編碼為一個片段袋,生成惟一的整數標識符,然後將其散列成固定長度的表示。因此,每個片段必然是完全不同的。在另一個極端,對ECFPs的修改,如功能類指紋(FCFPs),使用泛型原子類型來強制類似的組以相同的方式編碼。將相似但不完全相同的片段映射到相同的比特必然會降低指紋的表現力,但在數據量低的情況下可以有效地提高性能。


例如,Duvenaud等人報告的神經圖指紋提供了ECFP算法的連續泛化,用神經網絡的單層代替哈希函數。這種方法允許基於預測任務對每個分子片段進行類似的編碼。學習相似性的連續統一體可以提高這些表徵的表現力,使分子中的細微差異得以準確地捕捉。


在更廣泛的背景下,學習平滑和連續的表示法提供了比改進的相似度度量更好的預測性能。具體來說,深度神經網絡學習的化學空間有幾個優點:1)離散分子可以自動、數據驅動的方式生成光滑連續的化學空間;2)通過網絡學習得到的連續的、分層的表示具有獨特性和更強的表現力;3)快速梯度法可用於化學性質的優化。


例如,Gomez-Bombarelli等人的開創性報告通過應用變分自動編碼器(圖7)網絡說明了這些優勢。具體來說,自動編碼者體系結構由兩部分組成:一個編碼器網絡,它將輸入的分子(用SMILES表示)轉換為一個降維的化學潛在空間;另一個解碼器網絡,它將這個潛在空間中的點映射回分子輸出。整個自動編碼器是訓練通過無監督的學習方法,採取一個簡單的目標:重建其輸入。這種無監督的重建任務允許大量未標記數據,甚至假設的類藥物分子學習化學空間的平滑表示。

JMC | 藥物化學中的分子表徵學習

圖7 連續潛在空間優化

圖片來源 JMC


利用生成模型學習新分子

逆向分子設計是現代藥物發現中的一個長期挑戰。標準QSAR模型將分子結構映射到活性或性質上,而反向QSAR模型則將此概念反過來,轉而尋求生成滿足最佳性質或活性的新分子結構。現如今,深度學習中的生成模型現在直接解決了逆向設計問題,為新藥設計帶來了新的機會。


如上文所述,Gomez-Bombarelli等人使用變分自編碼器所描述的方法構成了一種生成模型(圖7)。生成過程的關鍵與任何自編碼器的主要目標相同:重構其輸入。關鍵的是,解碼過程學習通過重建任務是一個直接解決逆分子設計。為了利用這個化學空間來尋找具有特定性質的分子,可以通過與預測網絡的聯合訓練來調整潛在空間,從而可對空間的特定區域進行採樣並生成新的分子。


為新藥設計生成重點庫的能力激發了許多方法,包括各種自動編碼器和循環神經網絡架構。然而,輸入表徵仍然是這些生成模型的一個關鍵方面。到目前為止,大多數生成模型主要關注於輸入和生成輸出的SMILES表示。為了達到這個目的,新架構的開發和訓練集的增加極大地提高了結果。例如,Popova等人最近的一項研究使用堆疊-RNNs生成了數百萬個結構有效性為95%的分子。


儘管這些模型主要是在SMILES字符串上運行,但直接產生分子圖的模型仍然具有吸引力。儘管編碼圖很簡單,但圖的生成卻具有更大的挑戰性。但眾多研究表明,這些生成模型可以作為藥物設計和發現的假設生成器。


深層生成模型開始直接解決小分子藥物設計的長期挑戰。具體來說,必須考慮產生分子的新穎性和可獲得性。如果生成模型要指導藥物設計,它們不能僅僅產生訓練數據集的瑣碎擴展。生成模型有效地插值了訓練數據的化學空間,其潛在空間能否有效地外推到化學結構空間的新區域還不清楚。此外,當前的生成模式在新穎性和可訪問性之間搖擺不定。


基於以上考慮,該領域仍存在兩個關鍵問題:1)生成模型能否實際應用於前瞻性發現? 2)如果檢驗他們的預測是困難的,我們如何評價他們的成功?最近的報告已經開始通過綜合和實驗前瞻性地評估生成模型。


研究者必須考慮生成模型的實用性,而不是依賴於快速篩選大型預先列舉的化學文庫的替代方法。例如,Stokes等人最近採用了一種發現新抗生素的虛擬篩選方法。從藥物再利用文庫中對預測抗生素進行的前瞻性試驗確定了一種新的廣譜抗生素——哈利辛。此外,ZINC15資料庫的虛擬篩選產生了有希望的結果。這項工作說明了深度學習在篩選工作流程中的有效性,它只考慮可合成和有效的分子。

JMC | 藥物化學中的分子表徵學習

圖8 在不同任務中學習共享表徵的方法

圖片來源 JMC


利用多任務和遷移學習進行共享表徵學習

親和力和理化性質的多維優化是小分子治療發現的核心挑戰。小分子先導物必須同時進行多目標優化:1)保持其對預定目標的高親和力,2)改善其吸附、分布、代謝和排洩(ADME)特性所需要的物理化學特性,3)保持對非期望的脫靶物的選擇性。為此,多任務學習和遷移學習等機器學習概念在藥物研究中具有重要意義,這些方法利用從一個預測任務中獲得的知識來促進另一個預測任務,提供更好的預測性能,或者需要更少的例子進行訓練。


與單任務學習不同,多任務學習包括明確考慮兩次或更多任務的模型,比如同時預測整個分子目標圖譜(圖8A),自然反映了藥物設計的多藥物優化。一般來說,多任務網絡共享內部層次表示,可以利用任務之間的相似性和細微差別,從而提高學習效率和模型性能。在藥物化學的背景下,在一個蛋白質靶點上收集的生物活性數據常常能告訴我們另一個靶點。


眾多實驗證明,多任務學習策略可以提高模型的性能和魯棒性。例如, Dahl等人為默克分子活性挑戰賽開發的多任務模型,就比單目標訓練的模型表現更好。Ramsundar等人證明,多任務網絡可以同時應用於數百個不同的蛋白質靶點,性能略有提高,等等。


儘管多任務學習利用共享的底層層次表徵,表示也可以在任務之間轉移(圖8B)。在遷移學習的情況下,一個在某項任務上接受過訓練的完全訓練的網絡隨後可被應用到另一項任務上。


將現有的和歷史上的化學數據轉移到有有限例子的新數據集,同樣會使藥物發現成為可能。理想的情況下,在一個足夠龐大和多樣化的化學數據集上預先訓練一個大型神經網絡模型,可以彌補在一個新的藥物化學運動中觀察到的少量數據。然而,相比之下,藥物發現跨越了更多的潛在化學和物理過程的多樣性,數據集運行在一個小得多的規模。早期的報告表明,在監督下對類似的生物活性和性質預測任務進行預訓練可以提供適度的幫助和改進。


最近的試驗中,Hu和Liu等人評估了圖神經網絡在生物和化學預測任務中的遷移學習策略。然而,研究發現,訓練任務的選擇和圖形神經網絡結構對性能的影響很大。他們的實驗證明了兩個例子,提高的表現(正遷移)和下降的表現(負遷移)取決於訓練設置。這些觀察強調了未來對遷移學習方法進行調查的機會。

JMC | 藥物化學中的分子表徵學習

圖9 深度神經網絡的特徵可解釋性

圖片來源 JMC


深度神經網絡的特徵可解釋性

深度神經網絡能夠有效地從數據中自動學習模式,但自動學習並不能保證有意義的學習。為了生成可操作的新科學知識,而不是簡單地擬合數據,深度學習模型必須學習反映潛在物理過程的真正顯著的模式。


長期以來,神經網絡以犧牲可解釋性來換取性能,但模型可解釋性的初步方法現在揭示了神經網絡的內部決策過程,顯示出哪些特徵對最終的預測是顯著的。最近,基於梯度的顯著性映射和基於注意力的模型突出了對計算機視覺和自然語言處理性能最重要的圖像和文本中的關鍵字區域。將這個工具箱應用到藥物設計中,可以洞察哪些分子特徵影響預測性能,從而推動更健壯和可推廣的模型的開發。


一些早期的報告說明了這些工具在理解屬性預測任務訓練的模型方面的效用(圖9)。例如,Mayr等人手動檢查了一個訓練過的網絡的隱藏單元,以揭示導致分子毒性的子結構。Duvenaud等人分析了基於水溶性訓練的圖形神經網絡(圖9A,左)。他們的發現與化學直覺一致:模型認為含有羥基的基序對溶解度最重要,而擴展的多芳香族體系最能預測不溶解度(圖9A,右)。再如,Chen等人開發了一種深度強化學習方法來生成小分子生物活性預測的明確原理。用於預測人類ether-a-go-go相關基因(hERG)抑制劑的模型恰當地識別出親脂性、鹼性叔胺作為關鍵的結構基序,這與專家的直覺一致(圖9B)。重要的是,在所有情況下,網絡學習這些結構基序沒有專家編碼的知識,說明了可解釋性方法對小分子的適用性。對這些研究的一個重要警示是,所顯示的例子是驗證性的和非詳盡的。在缺乏更嚴格和系統的測試的情況下,這些解釋可能受制於確認性偏見。


沒有一個單獨的測試可以保證提供有用的答案。相反,可解釋性工具允許研究者用深思熟慮的實驗設計來審問模型。假設驅動的方法可以測試模型是否了解了與潛在因果過程相關的內容,並標記出意外模式識別的實例、學習虛假的相關性和數據集偏差。


理解模型學習的內容不僅提高了模型的健壯性,而且為藥物開發中的假設生成開闢了道路。例如,將可解釋的模型整合到發現設置中,可以增強藥物化學家對擊打先導優化的決策過程:探索結合活性的模型可能提醒化學家保存活性最突出的核心基序,並指導化學家探索改善ADME性能的擾動。這些工具提供了指導優化活動的機會,而不是將這些深度學習模型視為藥物化學家的替代品。可解釋模型可以提取出在經驗數據集中編碼的隱式模式到獨立的結構-活動假設中,可以被明確地測試。


深度學習的局限性

要將深度學習作為一種實用的方法集成到藥物發現管道中,我們必須解決以下問題:

1)數據和數據集注意事項:與其他機器學習算法相比,深度神經網絡需要大量的數據來確保模型的通用性和防止過擬合。

2)訓練成本:與已經建立的分子特性化和指紋識別方法(如MACCS鍵和ECFP)相比,大規模計算速度更快,以上討論的大多數學習方法需要大量時間的訓練和優化步驟。

3)豐富的學習經驗和專業知識:深度學習的靈活性要求仔細的數據集管理、模型訓練和評估程序,以確保模型的泛化。

4)再現性: 深度學習模型是通過隨機初始化和優化來訓練的,並且可以對它們的設置非常敏感。


未來方向、展望和結論

近年來,深度學習研究和創新出現了爆炸式增長。儘管人們對藥物研發抱有很高的期望,但深度學習技術本身並不是萬能的。相反,這些方法在解決小分子預測模型的具體挑戰方面有價值,在集成到實際發現管道之前需要進一步的開發。


展望未來,捕獲複雜系統動力學的分子表徵將變得越來越重要。忠實編碼三維空間關係、構象動力學和動力學路徑的表徵將為未來的預測任務奠定堅實的基礎。通過考慮從原子到蛋白質的複雜物理系統,深度學習方法將推動新的假設和實驗程序。總的來說,在小分子創新中深度學習的前景是光明的。

參考文獻

Chuang, K. V., Gunsalus, L., & Keiser, M. J. (2020). Learning Molecular Representations for Medicinal Chemistry. Journal of Medicinal Chemistry. DOI:10.1021/acs.jmedchem.0c00385

中大唯信頭條號與中大唯信公眾號、唯信計算訂閱號均由中大唯信科技有限公司運營,歡迎關注轉發,未經授權禁止轉載

相關焦點

  • JMC|基於網絡的方法在藥物研發中的應用
    將網絡理論應用於藥物發現的方法有很多,在藥物化學/藥物設計領域中,使用基於網絡的方法的主要方向是靶標識別(target identification)和藥物重利用(drug repurposing),進一步的應用還有化學空間的分析和藥物不良反應或毒性的預測。
  • JMC|藥物發現和合成機器學習聯盟綜述人工智慧在藥物合成中應用
    計算機硬體和經電腦模擬方法的進步,加快和改善了藥物化學中典型的設計-製造-測試-分析(DMTA)藥物發現周期的各個方面(圖1)。其中一個越來越受關注的領域是,在製造階段使用數據驅動的合成預測工具,它可以加速合成過程和減少合成新分子實體的失敗。
  • JMC|輝瑞藥物化學家教您如何處理毒性基團?
    引言傳統觀點認為毒性基團預選過濾對防止藥物不良反應的發生很重要,但實際上盲目過濾毒性基團對藥物的發展有很多弊端,目前針對毒性基團已經有很多處理的方法,此外不良反應還與諸多因素有關,可通過其他策略緩解。輝瑞藥物化學專家Amit S. Kalgukar在JMC上綜述了關於毒性基團在藥物設計中處理方案。
  • JMC|機器和自動化時代的藥物化學:連續流技術的最新進展
    背景介紹藥物化學在化學生物學、藥理學和藥學研究中發揮著基礎性和潛在性的作用,以此用於發現安全有效的藥物。小分子藥物化學依賴於由化合物設計、合成、測試和數據分析組成的迭代學習循環,為全新的和成藥性靶點提供新的化學探針和先導化合物。
  • JMC | 機器和自動化時代的藥物化學:連續流技術的最新進展
    背景介紹藥物化學在化學生物學、藥理學和藥學研究中發揮著基礎性和潛在性的作用,以此用於發現安全有效的藥物。小分子藥物化學依賴於由化合物設計、合成、測試和數據分析組成的迭代學習循環,為全新的和成藥性靶點提供新的化學探針和先導化合物。
  • JMC|賽諾菲研究基於AI的分子從頭設計
    本文介紹了基於強化學習來進行化學空間的探索的方案;同時,也對相關的評分方法進行了研究;最後,在對典型藥物研發項目的回顧性研究中,作者研究了如何生成項目進展所需的相關分子,以及如何定製方案以滿足分子合成和優化的相關需求。生成性神經網絡被訓練以用於從頭設計具有指定屬性的化合物。訓練過程主要包括兩個步驟。
  • 全新手性表徵光能準確區分鏡像分子
    德國非線性光學和短脈衝光譜研究所(MBI)、以色列理工學院以及柏林工業大學的研究人員最近創建和表徵了一種全新的光,這種合成的手性光使分子的螺旋清晰可見。相關研究發表在最近的《自然·光子學》雜誌上。就像人的左右手一樣,自然界中某些分子具有「鏡像孿生子」。儘管這些孿生分子看起來相似,但它們的某些特性可能有很大不同。
  • 納米技術:表徵納米粒子表面自組裝有機分子的結構!
    納米技術:表徵納米粒子表面自組裝有機分子的結構!由瑞士洛桑聯邦理工學院(EPFL)的科學家領導的一項大型合作採用了一種強有力的新方法來克服在納米粒子表面上表徵自組裝有機分子結構的挑戰性任務。自組裝單層保護的納米顆粒越來越多地用於電子,藥物輸送,催化和傳感裝置中。構成殼層的配體的組成和結構是重要的,因為它們被認為決定了納米顆粒的性質,例如化學,生物和界面行為。調諧配體分子允許納米粒子為特定應用定製。
  • 業界| 分子性質預測新突破:谷歌新型神經網絡助力化學研究
    為了幫助化學家更快地預測出分子的性質並協助進一步的開發(比如發現新藥物或新材料),計算機科學家也在嘗試構建能夠基於分子的基本數據預測分子性質的算法和模型。近日,谷歌等機構的研究者發表了兩篇論文介紹了他們在這方面的研究進展——達到了當前最佳的預測表現。在本文中,機器之心編譯介紹了其成果介紹文章和兩篇論文的摘要,研究詳情請參閱對應論文。
  • 小分子、大分子藥物生物分析及表徵技術進展
    但是當前製藥/生物製藥行業仍然渴求更強大的工具和更多樣的方法,尤其是在市場上出現越來越多的大分子治療藥物的情況下。本文討論了目前小分子及大分子藥物生物分析過程中的問題,以及分析方法開發中的新趨勢等。  液相色譜-質譜聯用技術從上世紀90年代起即廣泛應用於藥物發現和研發實驗室,因為這種技術有能力在含有成百上千種其他物質的樣品中快速識別和量化低濃度化合物。
  • arXiv | 藥物組合的深度生成模型
    面對計算藥物組合設計中存在的巨大化學空間中「藥物組合爆炸」問題,Yang Shen課題組首次提出使用生成模型來加速發現抗耐藥性的藥物組合。(1)層次變分圖自編碼器(HVGAE)學習基因和疾病表徵第一層輸入為基因-基因網絡數據,使用圖神經網絡(GNN)學習基因特徵表示,將鄰接張量和學習到的基因特徵利用變分自編碼器生成基因表徵。
  • AD中選擇性脆弱神經元的分子表徵
    AD中選擇性脆弱神經元的分子表徵 作者:小柯機器人 發布時間:2021/1/14 13:59:18 美國加州大學Martin Kampmann和Lea T.
  • 會議通知: 蛋白藥物結構表徵及質量設計前沿技術研討會
    蛋白藥物具有分子量相對較大,結構複雜多樣性和可變性等特點,其產品質量容易受到生產過程中各種理化條件影響,如發酵或細胞培養條件改變,分離純化工藝不同,產品質量都會有差別,因此對蛋白藥物結構的表徵和質量的控制必須貫穿於蛋白藥物研發的整個過程中,以確保對蛋白藥物產品質量屬性進行全程、實時的監控。
  • JMC|PROTAC技術在藥物發現中的優勢與挑戰
    傳統藥物發現策略的局限性傳統藥物設計常常專注於優化藥物結合親和力,但往往限制了更多高效藥物的發現,因為識別一種高效能和高選擇性的藥物來調節一個生物靶點並不總是那麼簡單,面對越來越多缺乏高親和力配體結合位點的藥物幹預靶點的發現,傳統的小分子成藥技術顯得無計可施。
  • 超分子化學藥物簡介
    利用非共價鍵相互作用和分子識別,調控、模擬生物過程中的酶催化、DNA結合、膜傳遞、細胞-細胞識別、藥物相互作用等已成為超分子化學在生命科學十分活躍的研究領域,這為新藥研發提供了一條新的途徑。該領域的多學科交叉研究,已被認為是新概念和高技術的重要源頭之一。利用這種生物超分子體系內的非共價鍵力相互作用可開發出超分子化學藥物。
  • JMC:FBDD藥物發現技術盤點
    自1981年提出以來,隨著片段設計,篩選和優化技術的不斷提高,FBDD逐漸從理論走向實際,成為當今主流的藥物發現技術之一。迄今,全球共有4款由FBDD技術衍生的藥物獲得FDA批准,超過40種化合物處於臨床階段中。FBDD相較於傳統的高通量篩選(HTS)有著獨特的優勢,因此受到工業界和學術界的廣泛關注。
  • 藥物發現 | 基於分子晶體形狀與分子間相互作用的藥物發現方法
    他們的研究結果表明,在藥物發現階段,充分利用小分子晶體結構所包含的大量化學信息十分重要,這種基於配體的篩選方法有較好的應用前景。分子形狀(對於結合口袋而言是其互補形狀)對於確定有效的小分子調節劑至關重要,因此許多計算機輔助藥物設計/發現方法都側重於分析分子形狀和/或靜電特性,為了識別用於藥物發現的「藥效團」,還使用了不同的數學描述或與分子形狀相關的指紋。
  • 化學所發展基於深度學習的蛋白質單分子分析新方法
    化學所發展基於深度學習的蛋白質單分子分析新方法 2019-05-24 化學研究所 【字體:  在國家自然科學基金委、科技部和中國科學院的支持下,中科院化學研究所分子納米結構與納米技術重點實驗室方曉紅課題組長期致力於發展分析活細胞體系蛋白質動態變化的單分子顯微成像新方法,所建立的利用光漂白計數定量表徵膜蛋白化學計量比等單分子研究方法,為化學生物學和生物醫學研究提供了先進的技術(
  • 「深度學習」運用多通道亞結構圖進行分子性質預測
    隨著人工智慧技術的發展,深度學習方法在藥物分子設計中的應用愈發廣泛。分子性質的預測在藥物發現過程中起著很大作用。為了對分子性質進行預測,首先需要對分子進行表徵。應用深度學習對分子進行表徵有多種途徑,例如SMILES將分子編碼成一個字符串序列,根據成環結構斷開的位置不同,同一分子可能得到不同的SMILES。
  • J Med Chem:脲鍵在現代藥物發現及藥物化學中的應用
    近年來,含脲鍵化合物在藥物設計及藥物化學的研究中廣泛應用。今天向大家分享一篇J Med Chem綜述論文,該論文系統綜述了脲鍵的分子構象、理化性質、藥物-受體相互作用的重要功能、FDA批准的含脲鍵藥物、化學合成方法、最近藥物發現中的脲鍵應用(DOI:10.1021/acs.jmedchem.9b01541)。脲鍵可以作為調節藥物分子理化性質的功能片段,可以藉助脲鍵調節分子間氫鍵作用。