在創新藥物研發中,一個核心問題是如何快速發現具有理想生物學特性的新化學實體。然而,滿足Lipinski's類藥性的化學空間所包含的理論分子數可能超過1063【1】,如何更高效地探索這樣巨大的多樣性空間,找到具有良好的可合成性和成藥性的新分子是擺在計算化學家和藥物化學家面前的一道難題。針對這一問題,Reymond團隊利用窮舉法構建重原子數在13到17範圍之內的分子結構,建立了包含有166億個化合物的GDB庫【2】;Levré等人從市售的炔烴和疊氮化物出發通過使用Click反應規則構建了Zinclick資料庫【3】,該庫具有較好的可合成性但結構類型相對單一;此外,也有一些基於人工智慧(Artificial Intelligence,AI) 方法,例如Segler等人利用LSTM模型設計集中化合物庫【4】,Zhavoronkov等人將基於生成對抗網絡 (GANs)的AI技術應用到化學空間探索【5】。雖然方法眾多,但這些虛擬化合物庫都面臨著多樣性、可合成性和成藥性的多方面問題。
如果將尋找藥物新化學實體看做數據科學中的採樣問題,那在已知藥物結構所代表的數據點附近進行採樣無疑是獲得類藥分子結構的高效策略之一。
近日,中國科學院上海藥物研究所蔣華良、鄭明月課題組從已批准上市藥物出發,採用電子等排體和化學反應轉化規則構建了成藥性拓展空間資料庫DrugSpaceX(https://drugspacex.simm.ac.cn/)。研究結果近期在線發表於Nucleic Acids Research,題為「DrugSpaceX: a large screenable and synthetically tractable database extending drug space」 【6】。中國科學院上海藥物研究所藥物設計與發現中心 (DDDC)的蔣華良和鄭明月研究員為論文通訊作者,第一作者是博士研究生楊天標,博士後李召軍為共同第一作者。
目前版本的DrugSpaceX包含超過1億種可用於虛擬篩選的新分子結構,且在類藥性、可合成性和三維化學多樣性空間覆蓋率方面均具有突出的特點 (圖1),為開展虛擬篩選和藥物分子設計提供了高質量的資源。此外,DrugSpaceX還提供了幾個規模較小的子集,包括10%多樣性子集,擴展的類藥性子集,類藥性子集,先導化合物子集和片段子集等,可供用戶免費下載使用。
圖1 DrugSpaceX資料庫在類藥性,可合成性和結構多樣性上均具有突出的特點
研究團隊使用了盤狀蛋白結構域受體1 (discoidin domain receptor 1, DDR1) 進行案例研究,展示了如何利用DrugSpaceX快速篩選活性化合物 (圖2)。首先,以藥物數據集為出發點進行基於結構的虛擬篩選,選擇分子對接打分前十的藥物分子。通過文獻檢索可以發現其中Imatinib,Nilotinib,Ponatinib均對DDR1有交叉活性。然後,從DrugSpaceX上檢索前十名藥物分子第一輪衍生物,再進行第二輪篩選。可以發現,在第一輪衍生物中對接打分前十的化合物主要集中在ponatinib周圍(如圖2A所示),其中排名第3的化合物DE209841,已被Insilico Medicine最近報導的DDR1抑制劑專利所覆蓋(NO. WO2020079652A1)。圖2B中顯示了DE209841的預測結合模式,與Zhavoronkov等人文章報導的結合模式吻合【5】。進一步解析重構數據集並採用相同篩選流程,可以發現對接打分和配體效率更高的新結構DE50204704。如圖2C所示,該分子結構可以視作是老藥Ponatinib經過對「tail」 和「linker」 片段進行兩輪改造得到的。
圖2 預測DDR1激酶抑制劑
除了幫助藥物化學家能夠進行快速的骨架躍遷和分子設計, DrugSpacesX為我們提供了一種高效探索類藥化學空間的思路。可以發現,通過將專家知識和人工智慧相互融合,我們可以在巨大的虛擬化學空間中更容易地找到具有理想生物效應的目標化合物。此外,Christoph Gorgulla等人近期在Nature發表的文章中也指出超大規模虛篩可以提高真陽性率【7】,DrugSpaceX也可以與VirtualFlow等虛擬篩選平臺結合使用,通過擴大初始篩選規模和提高篩選庫質量兩方面來進一步提升效率。目前,研發團隊還在對DrugSpaceX進行擴充和完善,期待後續可以推出功能更為強大的版本。
原文連結:
https://doi.org/10.1093/nar/gkaa920
參考文獻
1.Reymond, J.L. (2015) The chemical space project. Acc. Chem. Res., 48, 722-730.
2.Ruddigkeit, L., van Deursen, R., Blum, L.C. and Reymond, J.L. (2012) Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. J. Chem. Inf. Model., 52, 2864-2875.
3.Levré, D., Arcisto, C., Mercalli, V. and Massarotti, A. (2019) ZINClick v.18: Expanding Chemical Space of 1,2,3-Triazoles. J. Chem. Inf. Model., 59, 1697-1702.
4.Segler, M.H.S., Kogej, T., Tyrchan, C. and Waller, M.P. (2018) Generating Focused Molecule Libraries for Drug Discovery with Recurrent Neural Networks. ACS Cent Sci, 4, 120-131.
5.Zhavoronkov, A., Ivanenkov, Y.A., Aliper, A., Veselov, M.S., Aladinskiy, V.A., Aladinskaya, A.V., Terentiev, V.A., Polykovskiy, D.A., Kuznetsov, M.D., Asadulaev, A. et al. (2019) Deep learning enables rapid identification of potent DDR1 kinase inhibitors. Nat. Biotechnol., 37, 1038-1040.
6.Yang, T., Li, Z., Chen, Y., Feng, D., Wang, G., Fu, Z., Ding, X., Tan, X., Zhao, J., Luo, X. et al. (2020) DrugSpaceX: a large screenable and synthetically tractable database extending drug space. Nucleic Acids Research.
7.Gorgulla, C., Boeszoermenyi, A., Wang, Z.F., Fischer, P.D., Coote, P.W., Padmanabha Das, K.M., Malets, Y.S., Radchenko, D.S., Moroz, Y.S., Scott, D.A. et al. (2020) An open-source drug discovery platform enables ultra-large virtual screens. Nature, 580, 663-668.