科學家發布成藥性拓展空間資料庫 (DrugSpaceX)

2020-11-10 BioArt

在創新藥物研發中，一個核心問題是如何快速發現具有理想生物學特性的新化學實體。然而，滿足Lipinski's類藥性的化學空間所包含的理論分子數可能超過1063【1】，如何更高效地探索這樣巨大的多樣性空間，找到具有良好的可合成性和成藥性的新分子是擺在計算化學家和藥物化學家面前的一道難題。針對這一問題，Reymond團隊利用窮舉法構建重原子數在13到17範圍之內的分子結構，建立了包含有166億個化合物的GDB庫【2】；Levré等人從市售的炔烴和疊氮化物出發通過使用Click反應規則構建了Zinclick資料庫【3】，該庫具有較好的可合成性但結構類型相對單一；此外，也有一些基於人工智慧(Artificial Intelligence，AI) 方法，例如Segler等人利用LSTM模型設計集中化合物庫【4】，Zhavoronkov等人將基於生成對抗網絡 (GANs)的AI技術應用到化學空間探索【5】。雖然方法眾多，但這些虛擬化合物庫都面臨著多樣性、可合成性和成藥性的多方面問題。

如果將尋找藥物新化學實體看做數據科學中的採樣問題，那在已知藥物結構所代表的數據點附近進行採樣無疑是獲得類藥分子結構的高效策略之一。

近日，中國科學院上海藥物研究所蔣華良、鄭明月課題組從已批准上市藥物出發，採用電子等排體和化學反應轉化規則構建了成藥性拓展空間資料庫DrugSpaceX(https://drugspacex.simm.ac.cn/)。研究結果近期在線發表於Nucleic Acids Research，題為「DrugSpaceX: a large screenable and synthetically tractable database extending drug space」 【6】。中國科學院上海藥物研究所藥物設計與發現中心 (DDDC)的蔣華良和鄭明月研究員為論文通訊作者，第一作者是博士研究生楊天標，博士後李召軍為共同第一作者。

目前版本的DrugSpaceX包含超過1億種可用於虛擬篩選的新分子結構，且在類藥性、可合成性和三維化學多樣性空間覆蓋率方面均具有突出的特點 (圖1)，為開展虛擬篩選和藥物分子設計提供了高質量的資源。此外，DrugSpaceX還提供了幾個規模較小的子集，包括10％多樣性子集，擴展的類藥性子集，類藥性子集，先導化合物子集和片段子集等，可供用戶免費下載使用。

圖1 DrugSpaceX資料庫在類藥性，可合成性和結構多樣性上均具有突出的特點

研究團隊使用了盤狀蛋白結構域受體1 (discoidin domain receptor 1, DDR1) 進行案例研究，展示了如何利用DrugSpaceX快速篩選活性化合物 (圖2)。首先，以藥物數據集為出發點進行基於結構的虛擬篩選，選擇分子對接打分前十的藥物分子。通過文獻檢索可以發現其中Imatinib，Nilotinib，Ponatinib均對DDR1有交叉活性。然後，從DrugSpaceX上檢索前十名藥物分子第一輪衍生物，再進行第二輪篩選。可以發現，在第一輪衍生物中對接打分前十的化合物主要集中在ponatinib周圍（如圖2A所示），其中排名第3的化合物DE209841，已被Insilico Medicine最近報導的DDR1抑制劑專利所覆蓋(NO. WO2020079652A1)。圖2B中顯示了DE209841的預測結合模式，與Zhavoronkov等人文章報導的結合模式吻合【5】。進一步解析重構數據集並採用相同篩選流程，可以發現對接打分和配體效率更高的新結構DE50204704。如圖2C所示，該分子結構可以視作是老藥Ponatinib經過對「tail」和「linker」片段進行兩輪改造得到的。

圖2 預測DDR1激酶抑制劑

除了幫助藥物化學家能夠進行快速的骨架躍遷和分子設計， DrugSpacesX為我們提供了一種高效探索類藥化學空間的思路。可以發現，通過將專家知識和人工智慧相互融合，我們可以在巨大的虛擬化學空間中更容易地找到具有理想生物效應的目標化合物。此外，Christoph Gorgulla等人近期在Nature發表的文章中也指出超大規模虛篩可以提高真陽性率【7】，DrugSpaceX也可以與VirtualFlow等虛擬篩選平臺結合使用，通過擴大初始篩選規模和提高篩選庫質量兩方面來進一步提升效率。目前，研發團隊還在對DrugSpaceX進行擴充和完善，期待後續可以推出功能更為強大的版本。

原文連結：

https://doi.org/10.1093/nar/gkaa920

參考文獻

1.Reymond, J.L. (2015) The chemical space project. Acc. Chem. Res., 48, 722-730.

2.Ruddigkeit, L., van Deursen, R., Blum, L.C. and Reymond, J.L. (2012) Enumeration of 166 billion organic small molecules in the chemical universe database GDB-17. J. Chem. Inf. Model., 52, 2864-2875.

3.Levré, D., Arcisto, C., Mercalli, V. and Massarotti, A. (2019) ZINClick v.18: Expanding Chemical Space of 1,2,3-Triazoles. J. Chem. Inf. Model., 59, 1697-1702.

4.Segler, M.H.S., Kogej, T., Tyrchan, C. and Waller, M.P. (2018) Generating Focused Molecule Libraries for Drug Discovery with Recurrent Neural Networks. ACS Cent Sci, 4, 120-131.

5.Zhavoronkov, A., Ivanenkov, Y.A., Aliper, A., Veselov, M.S., Aladinskiy, V.A., Aladinskaya, A.V., Terentiev, V.A., Polykovskiy, D.A., Kuznetsov, M.D., Asadulaev, A. et al. (2019) Deep learning enables rapid identification of potent DDR1 kinase inhibitors. Nat. Biotechnol., 37, 1038-1040.

6.Yang, T., Li, Z., Chen, Y., Feng, D., Wang, G., Fu, Z., Ding, X., Tan, X., Zhao, J., Luo, X. et al. (2020) DrugSpaceX: a large screenable and synthetically tractable database extending drug space. Nucleic Acids Research.

7.Gorgulla, C., Boeszoermenyi, A., Wang, Z.F., Fischer, P.D., Coote, P.W., Padmanabha Das, K.M., Malets, Y.S., Radchenko, D.S., Moroz, Y.S., Scott, D.A. et al. (2020) An open-source drug discovery platform enables ultra-large virtual screens. Nature, 580, 663-668.

相關焦點

化學鍵能資料庫iBonD在京發布

化學鍵能資料庫iBonD在京發布來源：中國科學報 2016-3-17 鍾華　　3月15日，清華大學基礎分子科學中心和南開大學元素有機化學國家重點實驗室程津培教授研究組在京發布了國際上首個涵蓋全面、數據可靠、使用快捷方便、專業權威的網絡版化學鍵能資料庫iBonD1.0版。
穿梭宇宙各個維度空間的東西被找到,科學家:連十一維空間都能進入

，在此空間中存在長寬高三個維度。科學家稱，在四維空間中，時間便是具有可逆性的。因此在四維空間中，我們可以自由地去往將來或者回到過去。　　　　猛一聽覺得四維空間很高級，但事實上，四維空間並不是宇宙維度的巔峰。據分析，宇宙之內的最高維度可被拓展至十一維度。
資料庫行業深度報告:歷史機遇,國產資料庫市場迎來十倍空間

TPC 是國際上最流行和廣泛接受的資料庫性能標準測試。TPC(事務處理性能委員會)是由十幾家會員公司創建的非盈利組織，總部設在美國。TPC 的成員主要是計算機軟硬體廠家，主要功能是制定商務應用基準程序的標準規範、性能和價格度量，並管理測試結果的發布。
中國社科院發布皮書資料庫

原標題：中國社科院發布皮書資料庫　　科技日報訊 (記者束洪福)中國社會科學院1月9日在京發布2014年度創新工程重大科研成果·皮書資料庫。該資料庫以皮書系列研究報告為基礎，全面整合中國發展與中國經驗、世界經濟與國際關係領域的研究文獻、實證報告、調研數據和媒體資訊，特別是引進機器標引、實現人機二次標引互查，提高了標引精確度。
《人工智慧之圖資料庫》報告重磅發布

【導讀】近日，清華大學人工智慧研究院、清華-中國工程院知識智能聯合研究中心和智譜AI聯合發布了《人工智慧之圖資料庫》報告。報告圍繞圖資料庫的基本概念、技術發展、產業應用、人才概況和熱點趨勢這五大方面進行深入挖掘。
達夢全棧數據解決方案盛大發布開啟國產資料庫新徵程

原標題：達夢全棧數據解決方案盛大發布，開啟國產資料庫新徵程　　面向新時代創新變革，順應
小夥吃兩個月中藥成「藥性肝」當心!不少常見藥物會傷肝

市民小陳（化名）是個年輕小夥，為了治療皮膚病，吃了兩個多月中藥，結果病沒治好，反而吃成了「藥性肝」，住進了醫院。醫生表示，因服藥不當而導致肝損害的案例時有發生。　　A　　吃中藥治療皮膚病　　小夥兩個月吃成「藥性肝」　　28歲小陳患有皮膚病白癜風，嘗試了很多方法，治療效果都不理想。後來，在朋友推薦下，到一個小診所看病，吃中藥進行治療。
文檔資料庫與關係資料庫的比較

文檔資料庫與關係資料庫的比較文檔資料庫與關係資料庫的比較 2009-07-06 15:58:27 來源：CIO時代網搶沙發 2009-07-06 15:58:27 來源：CIO時代網摘要：本文概要地從數據格式、資料庫結構和Web發布數據三個方面比較了文檔資料庫與關係資料庫的異同
對話ACM傑出科學家、達摩院資料庫負責人李飛飛:阿里如何打好數據...

2014年，AWS發布了業內首個雲原生的關係型資料庫Aurora；2017年9月，阿里雲在國內率先發布了自主研發的雲原生資料庫POLARDB，在2018年4月正式商用。作為規則改變者，阿里資料庫的研究本身也是一條艱辛的道路。如何看待資料庫雲服務的未來？阿里有哪些核心的資料庫產品？在阿里雲十周年北京峰會上，雷鋒網與ACM 傑出科學家得主、達摩院資料庫與存儲實驗室負責人李飛飛展開了對話。此李飛飛非彼李飛飛，他究竟何許人也？
「路演」時邁醫療:雙抗藥物開發存在成藥性差、毒副作用兩大瓶頸

靶向抗體藥物研發具有很大市場空間，但目前，全球雙抗藥物開發存在成藥性差、毒副作用兩大瓶頸亟待解決。據悉，時邁醫療為杭州高新區（濱江）「5050計劃」企業，公司秉承源頭創新、安全高效，砥礪前行為創業理念，以創新腫瘤及自身免疫性疾病抗體藥物的研發、生產為主要戰略方向,以真正解決臨床及患者需求為己任。公司擁有美國創新研發中心和杭州基地，目前已建立完整的創新型抗體藥物研發體系。
中國建成藏藥系列資料庫包含藥理結構成分(圖)

中新網3月24日電日前，由中國科學院資源環境科學信息中心和中科院西北高原生物所諾迪藏藥研究中心合作建設的特色資料庫——中國藏藥系列資料庫已經完成單機版和網絡版的建設，並開始上網提供服務。　　據中國科學院消息，具有2300多年悠久歷史的藏醫藥是中國藏文化的瑰寶，也是中華民族優秀傳統文化的組成部分。
國產資料庫專題報告:黃金賽道龍頭,十倍成長空間

1、資料庫：是基礎軟體核心之一，是「IT 重構」必爭之地1.1 資料庫與資料庫管理系統資料庫是基礎軟體核心之一，是 IT 產業基礎軟體三駕馬車之一，是「IT 重構」必爭之地。它產生於二十世紀六十年代，隨著信息技術和市場的發展，特別是二十世紀九十年代以後，數據管理不再僅僅是存儲和管理數據，而轉變成用戶所需要的各種數據管理的方式。
阿里雲發布自研商用關係型資料庫POLARDB

）北京】9月21日報導在企業數據容量環式增長時代，資料庫容量小、存儲空間擴展緩慢、性能不足，以及擴容升級慢等問題漸顯，傳統資料庫顯然已難以支撐諸如物聯網、新金融、新零售、新製造、電信等高吞吐場景業務的快速發展。
從空間視角拓展人文社會科學研究領域

從空間視角拓展人文社會科學研究領域 2019年07月24日 07:45 來源：中國社會科學網-中國社會科學報作者：張杰字號內容摘要：在人文社會科學「空間轉向」的背景下，越來越多的學者認識到空間維度在人文社會科學研究中的重要作用
騰訊雲發布圖資料庫TGDB 助力國產資料庫進一步打破技術「天花板」

來源：中國證券網上證報中國證券網訊（記者溫婷）騰訊雲6月1日發布分布式圖資料庫產品騰訊雲數圖TGDB（Tencent Graph Database）。這款資料庫能夠實現萬億級關聯關係數據實時查詢，高效治理異構數據，支持實時圖計算，助力企業打通數據孤島。騰訊雲圖資料庫產品經理邵宗文表示：「騰訊雲資料庫完善的自研資料庫體系和產品體系，將助力國產資料庫進一步打破技術『天花板』，全面助推各行各業數位化升級。」在5G、物聯網、人工智慧等數位化技術推動下，企業數據呈爆發式增長，數據間的關聯複雜度也隨之劇增。
科學家呼籲關注全球基因組資料庫汙染

樣品處理有可能是導致DNA資料庫廣泛汙染的最主要原因
最新版《中國評價核資料庫》發布

來源：新浪科技新浪科技訊北京時間6月12日消息，近日，由我國自主研發的《中國評價核資料庫》最新版本CENDL-3.2正式發布。該資料庫作為核工程與核技術研究的重要基礎，是連接核物理基礎研究與核技術應用的重要紐帶，在國民經濟建設、國家安全以及科學研究領域都起著不可或缺的作用。
深度解讀:歸檔空間不足導致的資料庫無法登錄問題

/dev/sdb1 3.1T 3.0T 0 100% /data注意：如果資料庫因為磁碟空間無法登錄，查看不了審計日誌的路徑，可以通過$ORACLE_ HOME/dbs下的參數文件來查找審計日誌的路徑。
SQL Server 2017 正式發布

過去這幾年，微軟的SQL Server在不斷進化，一改僅僅扮演資料庫管理系統的角色，成為還可以用於數據分析、機器學習和數據科學的軟體，而此次發布正是這項計劃的一部分。SQL Server成為第一個為雲而生、也能在本地部署，且跨不同作業系統的資料庫。
阿里資料庫掌門人獲選美國計算機協會傑出科學家

11月8日，美國計算機協會（ACM）公布2018年度的傑出科學家名單，全球資料庫領域領軍人物、達摩院資料庫首席科學家、阿里巴巴資料庫事業部負責人李飛飛教授入選。ACM傑出科學家必須是對計算機領域做出重大成就和影響的研究人員。美國計算機協會傑出科學家、達摩院資料庫首席科學家李飛飛此前，作為美國猶他大學計算機系的終身正教授、世界級的資料庫系統專家，他曾屢次獲得電氣和電子工程師協會( IEEE)與ACM資料庫領域的最具影響力論文獎。

科學家發布成藥性拓展空間資料庫 (DrugSpaceX)

相關焦點

化學鍵能資料庫iBonD在京發布

穿梭宇宙各個維度空間的東西被找到,科學家:連十一維空間都能進入

資料庫行業深度報告:歷史機遇,國產資料庫市場迎來十倍空間

中國社科院 發布皮書資料庫

《人工智慧之圖資料庫》報告重磅發布

達夢全棧數據解決方案盛大發布 開啟國產資料庫新徵程

小夥吃兩個月中藥成「藥性肝」 當心!不少常見藥物會傷肝

文檔資料庫與關係資料庫的比較

對話ACM傑出科學家、達摩院資料庫負責人李飛飛:阿里如何打好數據...

「路演」時邁醫療:雙抗藥物開發存在成藥性差、毒副作用兩大瓶頸

中國建成藏藥系列資料庫 包含藥理結構成分(圖)

國產資料庫專題報告:黃金賽道龍頭,十倍成長空間

阿里雲發布自研商用關係型資料庫POLARDB

從空間視角拓展人文社會科學研究領域

騰訊雲發布圖資料庫TGDB 助力國產資料庫進一步打破技術「天花板」

科學家呼籲關注全球基因組資料庫汙染

最新版《中國評價核資料庫》發布

深度解讀:歸檔空間不足導致的資料庫無法登錄問題

SQL Server 2017 正式發布

阿里資料庫掌門人獲選美國計算機協會傑出科學家

中國社科院發布皮書資料庫

達夢全棧數據解決方案盛大發布開啟國產資料庫新徵程

小夥吃兩個月中藥成「藥性肝」當心!不少常見藥物會傷肝

中國建成藏藥系列資料庫包含藥理結構成分(圖)