JCIM|從分子動力學軌跡中提取特徵預測P-糖蛋白底物

2021-01-09 中大唯信

引言

外排轉運蛋白P-糖蛋白(P-gp)負責從細胞中轉運包括藥物分子在內的多種分子。因此,P-gp介導的外排轉運限制了藥物的生物利用度。為了在藥物發現過程的早期識別潛在的P-gp底物,已經基於結構和物理化學描述符開發了計算機模型。本文中,作者研究了分子動力學指紋(MDFP)作為正交描述符用於訓練機器學習(ML)模型來將小分子分類為P-gp的底物和非底物。MDFP對來自不同環境(水,膜或蛋白質口袋)中分子的短時間MD模擬的信息進行編碼。在內部數據集(3930種化合物)和來自ChEMBL的公開數據集(1114種化合物)上對MDFP的性能作了評估,並且與常用的2D分子描述符(包括基於結構和基於屬性的描述符)進行了比較。作者發現,所有測試的分類器均能很好地插值,從而在化學多樣化的子集上實現了較高精度。但是,通過使用外部驗證和前瞻性分析對模型進行挑戰,作者發現只有在MDFP或基於屬性的描述符上訓練的基於樹的ML模型才能較好地將化學空間推廣到訓練集未涵蓋的區域。

背景介紹

P-糖蛋白(P-gp)通過抵消通過細胞膜的被動擴散,在大腦可利用性和耐藥性中起著關鍵作用。其在血液組織屏障尤其是血腦屏障中高水平表達,阻止異種生物以及潛在的CNS藥物進入中樞神經系統(CNS)。此外,已經發現P-gp在抗性腫瘤細胞中的過表達與化學治療藥物濃度降低相關。由於P-gp影響藥物的藥代動力學,因此新型候選藥物的外排轉運研究已成為藥物發現項目早期的重要步驟。目前已經開發了廣泛的計算模型,包括基於結構特徵或理化性質的簡單規則,基於結構的對接方法以及定量的結構-活性關係模型。已經知道藥物成為P-gp底物的可能性與其物理化學性質以及其他參數(如氟原子數)相關。許多基於多參數的計分方法,尤其是針對中樞神經系統藥物的計分方法,以幫助合理設計大腦可利用性和細胞可滲透性藥物。儘管進行了所有這些努力,但由於準確的前瞻性預測仍具有挑戰性,因此非常需要用於P-gp底物的新穎預測方法。

機器學習(ML)方法到目前為止顯示出區分P-gp的底物和非底物的最高預測能力。但是,大多數已發布的ML模型都是在公共數據集上進行訓練的,儘管對研究人員來說非常有價值,但通常會受限於它們的大小(通常少於1000種化合物)和數據的異質性。大型且一致的數據集的可用性對於測試ML方法的真正潛力至關重要。

分子動力學指紋(MDFP)最近已被開發為小型有機化合物的替代分子描述符。MDFP在短時間分子動力學(MD)模擬中描述了這些信息,因此可以通過ML方法加以利用(圖1)。在開源MDFPtools軟體包(https://github.com/rinikerlab/mdfptools/)中實現了從SMILES開始生成MDFP的自動化工作流程。結果表明,在MDFP上訓練的ML模型與最新的計算方法(即自由能擾動或COSMO-RS)具有相似的性能,可以預測水合自由能和分配係數。此外,該方法是提交給SAMPL6挑戰以預測辛醇-水分配係數的前十名之一。

圖1 使用MDFPs預測P-gp底物和非底物的計算流程示意圖。

圖片源自JCIM.

方法介紹

1. 數據集準備:1)內部數據集。對AbbVie數據集(包括9924種8777種化合物的流出比測量值)進行整理和分類(外排比ER≥5的化合物被分類為底物,而外排比ER≤1的化合物被分類為非底物)以及去除某些容易富集(如含硫化合物)而帶來潛在的偏向的化合物之後,最終的數據集由3930種化合物組成,其中包含1031種底物和2899種非底物。2)公開數據集。從ChEMBL資料庫收集了1114種具有720種底物和394種非底物的P-gp化合物的數據集。3)化學空間分析。使用t-SNE方法在兩個維度上映射了兩個數據集所覆蓋的化學空間。使用ECFP4 Tanimoto係數評估每對化合物之間的距離。

2. MD模擬。對於每種化合物,使用RDKit中的ETKDG構形生成器生成三維(3D)坐標,並使用RDKit中的MMFF力場將其能量最小化。使用ChemAxon插件確定質子化狀態和互變異構形式。使用GAFF和AM1-BCC部分電荷對化合物進行參數化。

3. MDFPs的構建。根據化合物在水、脂質雙層和P-gp結合口袋中的MD模擬,可以構建不同的MDFPs。從GROMACS軌跡構建MDFPs的功能已包含在MDFPtools軟體包(https://github.com/rinikerlab/mdfptools/)中。此外,可以在GitHub(https://github.com/rinikerlab/mdfptools/tree/gmx/tutorials_mdfp)上獲得用戶教程,以指導用戶完成MD模擬的設置、MDFPs的構建以及ML模型的訓練。對於膜-溶質MDFP體系,構建了三個MDFP變體,它們包含從POPC雙層中的化合物的MD模擬得出的特徵(圖2):MDFP_POPC,MDFP_POPC *和MDFP_WAT_POPC *。MDFP_POPC描述符由分子內和總能量項、SASA和Rgyr等特徵組成;MDFP_POPC *描述符將MDFP_POPC與其他基於MD的特性相結合,這些特性描述了化合物在脂質環境中的特徵行為;MDFP_WAT_POPC *是MDFP_POPC *和MDFP的組合(來自水中的MD模擬)。而對於MDFP_PL,除了上述特徵外,還計算了溶質與起始構象的RMSD。可以在(https://github.com/rinikerlab/mdfptools/tree/gmx/tutorials_mdfp)上獲得蛋白質-配體MDFP的構建教程。

4. 2D分子描述符。使用RDKit基於化合物的2D結構生成所有指紋。包括Baseline2D,PropertyFP,ECFP4和PathFP。

5. ML模型。結合所描述的指紋測試了四個不同的分類器:隨機森林(RF),梯度樹增強(GTB),支持向量機(SVM)和meta-learner 分類器。

圖2 膜-溶質MDFP(MDFP_POPC *)和蛋白-配體MDFP(MDFP_PL)的構建示意圖。

圖片源自JCIM.

結果1.內部和公開數據集的表徵

為了可視化對應於這兩個數據集的化學空間,使用ECFP4指紋進行了t-SNE分析。圖3A顯示兩個數據集覆蓋了化學空間的不同區域。一些密集區域僅由底物或非底物構成,而其他區域則包含這兩類化合物(圖3B)。公開數據集主要填充t-SNE圖的中心區域,並且沒有呈現大分子簇(圖3A)。因此,可能很難基於ECFP4指紋將公共數據集的化合物分為底物和非底物。相反,由於內部數據集的化合物在這兩個類別之間顯示出較少的重疊,因此使用ECFP4描述符可以期望ML模型獲得良好的性能。

圖3 內部和公共數據集覆蓋的化學空間比較。

圖片源自JCIM.

為了評估底物和非底物分布之間的差異是否具有統計學顯著性,我們進行了Welch t檢驗,我們發現在類別之間顯示出更大差異的特徵是描述化合物的極性/疏水性、氫鍵能力和柔性的特徵。其中包括2D計數,例如可旋轉鍵的數目以及氫鍵供體和受體的數目,還包括從水中的MD模擬得出的屬性,例如3D-PSA、SASA、分子間LJ勢能以及各能量項的標準偏差。不管是內部數據集還是公共數據集,底物似乎比非底物分子量更大、極性更大且更具柔性。

結果2. 評估分類器的預測性能

我們評估了四種不同的ML方法(RF,GTB,SVM和meta-learner)與六種不同的指紋(包括基於屬性的指紋、基於MD的指紋和基於結構的指紋)的性能,用於對P-gp的底物和非底物進行分類。內部數據集和公共數據集的不同訓練-測試拆分用於評估分類器的準確性、可概括性和預期性能。圖4顯示了內部數據集的不同模型之間的遺傳算法比較。所有分類器均具有較高的預測能力,GA率介於0.78±0.02和0.86±0.02之間(表1)。儘管RF和GTB與PropertyFP或MDFP結合使用可獲得更高的精度,但SVM在二進位結構指紋ECFP4和PathFP方面表現最佳。實際上,表現出最好分類結果的模型是SVM/ECFP4_MDFP,其準確度= 0.85±0.01,MCC = 0.66±0.02和AUC = 0.92±0.01。

圖4 在不同的ML模型和描述符之間針對內部數據集的分層化學多樣性拆分而獲得的GA的比較。

圖片源自JCIM.

表1. 內部數據集分層化學多樣性拆分上不同分類器之間的性能比較。

圖片源自JCIM.

結果3. 膜-溶質MDFPs和蛋白-配體MDFPs的性能評估

MDFPs方法的主要優點之一是多功能性,即可以根據要預測的屬性或生物學過程對其進行修改和擴展。由於分子模擬的計算成本較高,因此僅針對公開數據集(1140種化合物)以及內部數據集中的1000種化合物的平衡子集生成了膜-溶質和蛋白質-溶質MDFPs。通過使用RDKit中的MaxMin算法來選擇化合物,可以最大限度地提高內部子集的化學多樣性。膜-溶質和蛋白質-配體MDFPs的預測能力在分層化學多樣性拆分上進行了測試。對於公共數據集,採用的決策閾值為0.6。表2列出了RF獲得的結果。對於這兩個數據集,由MDFP_POPC*和MDFP_PL描述符實現的性能都不錯,但並不比上面討論的水MDFPs更好。實際上,與僅包含15個2D計數和屬性的Baseline2D相比,MDFP_POPC *和MDFP_PL的性能明顯優於空模型,但給出的結果相似(甚至稍差)。此外,MDFP_POPC和MDFP_POPC *之間的比較表明,增加表徵膜中溶質行為的特性不會導致性能的提高,且混合MDFP_WAT_POPC*和MDFP_WAT_PL描述符的性能分別優於單個MDFP_POPC*和MDFP_PL組分。

表2. 在內部資料庫和公共資料庫中用於RF分類器的膜-溶質和蛋白-配體MDFPs的性能概述。

圖片源自JCIM.

總結

在本工作中,我們研究了MDFP/ML方法區分P-gp的底物和非底物的能力。MDFPs是根據化合物在水中的MD模擬情況來建立的,並用作四種不同的ML分類方法(即RF,GTB,SVM和meta-learner)的輸入。我們證明了ML方法和指紋圖譜的所有組合在最大化學多樣性的化合物子集上都具有很高的相似性能。甚至僅由15個2D計數和屬性組成的Baseline2D指紋也實現了高精度。對特徵重要性和部分依賴性圖的分析證實了先前研究的觀察結果,即化合物的極性、疏水性、氫鍵形成能力、分子量大小和柔性與化合物成為P-gp底物的可能性相關。因此,不同的描述符表現出相似的性能,因為它們都以不同的方式對這些屬性進行編碼。此外,組合的ECFP4_MDFP4指紋比其單個組分表現出更高的性能,這表明基於結構的描述符和基於MD的描述符是正交的,並攜帶與P-gp底物分類有關的互補信息。儘管所有分類器均能很好地插值,但外部驗證表明,只有在MDFPs上訓練的基於樹的分類器才能外推到訓練集未涵蓋的化學空間區域。同樣,與使用其他指紋訓練的模型相比,基於MDFP和PropertyFP的模型對未見化學系列化合物的泛化效果更好。

由於細胞膜和P-gp在外排轉運中都起著基本作用,因此我們探索了通過將這些環境中的特徵添加到化合物的MDFPs中是否可以進一步提高分類器的準確性。膜-溶質和蛋白質-配體MDFPs是通過分別在POPC脂雙層和與P-gp結合的化合物的MD模擬中建立的。在這些描述符上訓練的ML方法產生了良好的分類模型(準確率高於0.7)。我們發現膜-溶質和蛋白質-配體MDFPs中最相關的特徵是溶質和LJ能量項的SASA,而不是代表化合物在膜中的特定行為或與蛋白質相互作用的元素。這至少部分地解釋了為什麼使用這些描述符並沒有導致性能提高的原因。

綜上所述,這些發現表明,除了描述化合物的極性、分子量大小和柔性的特徵外,還需要更好地了解外排機制以及P-gp的多特異性,以指導更好的描述符的發展,從而更加準確的用於鑑定P-gp底物的計算模型。

參考文獻

Combining Machine Learning and Molecular Dynamics to Predict PGlycoprotein Substrates, Carmen Esposito, Shuzhe Wang, Udo E. W. Lange, Frank Oellien, and Sereina Riniker. J. Chem. Inf. Model.2020, DOI: 10.1021/acs.jcim.0c00525

相關文章

DDT | 拜耳醫藥20年基於機器學習ADMET預測平臺的經驗總結JMC | Atomwise利用深度卷積神經網絡發現新型關鍵腦酶抑制劑JMC | DE Shaw與北京大學通過MD模擬揭示EGFR抑制劑奧西替尼的選擇性機制

相關焦點

  • 小分子:底物抑制劑,分子伴侶,終止密碼子通讀及展望
    關鍵詞溶酶體貯積病;底物減少療法;藥理伴侶 終止密碼子通讀;酶替代療法的聯合治療 介紹 溶酶體貯積症(LSD)是一類50多種不同的疾病,歸因於溶酶體蛋白(即酸性水解酶,激活轉運蛋白或溶酶體功能所必需的非溶酶體蛋白)的功能缺陷,導致多種疾病的積累底物,例如糖胺聚糖
  • 揭示葡萄糖轉運蛋白GLUT3識別和轉運底物的分子機制
    清華大學顏寧研究組在《自然》發表論文揭示葡萄糖轉運蛋白GLUT3識別和轉運底物的分子機制清華新聞網7月16日電 7月15日,清華大學醫學院顏寧研究組在《自然》(Nature)在線發表題為《葡萄糖轉運蛋白識別與轉運底物的分子基礎》(Molecular Basis of ligand recognition and transport
  • Science:揭示底物和抑制劑對多藥轉運蛋白P-glycoprotein的變構...
    論文通訊作者、分子生理學與生物物理學教授Hassane Mchaourab博士說,這項新的研究解答了關於P-糖蛋白的一個存在已久的問題。Mchaourab將P-糖蛋白描述為一個由兩部分組成的分子機器:一個燃燒ATP的引擎和一個為底物(一種由這種轉運蛋白移動的分子)提供通道的跨膜結構域。這種引擎使用的ATP能量驅動了將化學物從細胞中移出的構象變化。
  • 揭示RNA編輯核心蛋白ADAR全轉錄組RNA底物特徵
    經過對ADAR雙鏈RNA底物停止系統的生物信息學剖析及實驗考證,作者提醒了決議ADAR分離效率和編輯效率的底物特徵和ADAR分離長雙鏈RNA的體內模型。ADAR蛋白家族能分離到特定RNA的雙鏈區域,並催化A鹼基發作脫氨基反響生成I鹼基,招致A-to-I RNA編輯。
  • 【薦讀】DNA結合蛋白特徵提取算法綜述
    傳統的物化實驗方法耗時極長且代價高昂,因此大量的DNA結合蛋白計算方法被提出和改進。這類方法主要從提取蛋白質序列相關信息出發,建立DNA結合蛋白的識別預測模型。在過去十幾年,出現了大量識別DNA結合蛋白的計算方法,在漢斯出版社《計算生物學》期刊中,有論文將從特徵提取的角度出發,對這些方法進行總結,並選擇其中九種典型的計算方法進行實證分析,確定這些方法的實際結果,為DNA結合蛋白分類算法研究者提供新的思路和有價值的參考。
  • 中國科大發現一類膜蛋白分子機器動力學新態
    近日,中國科學技術大學袁軍華、張榕京課題組在生物分子機器領域取得新進展,發現一類膜蛋白分子機器(鞭毛馬達)動力學過程中的一個全新狀態:暗態。膜蛋白分子機器是一類重要的分子機器,以往一般採用螢光技術對其活體動力學進行研究。由於螢光漂白效應,對單機器的動力學很難做長時間觀測,有可能會忽略其動力學過程的某些重要信息,這些技術難點讓相關研究面臨很大的挑戰。
  • 糖苷水解酶底物特異性機制研究獲得進展
    植物細胞壁在進化過程中形成了天然的「抗降解屏障」,特別是在半纖維素中,大多數多糖均含有側鏈修飾,降解困難。F32的糖苷水解酶F32EG5的蛋白及蛋白底物複合體結構,揭示了底物選擇性機制。該工作已在線發表在Biochemical Journal上。
  • JACS|分子動力學揭示綠色螢光蛋白mEos4b的發光機制
    光轉化螢光蛋白(PCFPs)的光轉化機理一直是許多實驗和理論研究的熱點,對於PCFPs的光致變色和紅光閃爍都得到了廣泛的研究,但其綠光物理行為卻很少受到關注。然而,在顯微鏡成像中,發現綠色PCFPs中的暗態會變得非常密集,並且會間接地影響到紅色通道中記錄的數據質量。此外,PCFPs中的綠態光開關可直接用PALM,已被設計成高效可逆的光開關螢光蛋白 (RSFPs)。
  • 生物物理所等在分子伴侶的動力學機制研究方面取得進展
    該論文報導了利用單分子螢光技術研究人源應激型Hsp70蛋白的構象動態及與輔分子伴侶Hsp40相互作用的動力學機制。Hsp70蛋白是分子伴侶系統的核心成員之一,參與細胞內蛋白質摺疊、轉運、降解等多種生理活動,對於維持細胞內蛋白質穩態平衡具有重要作用。
  • JACS | 分子動力學揭示綠色螢光蛋白mEos4b的發光機制
    本文作者研究了綠色螢光蛋白mEos4b的發光機制,證明mEos4b和大多數RSFPs一樣,依賴於螢光生色團可逆的順反異構實現暗態和亮態之間的切換。然而,綜合結晶動力學、分子動力學模擬和拉曼光譜的結果,作者發現綠色mEos4b中的暗態比關閉綠色IrisFP(一種雙光色PCFP)中的暗態更為動態。
  • Sci|加速動力學結合馬爾可夫模型指導蛋白設計
    MSM可以從一組較短的模擬中推斷出長期的動態變化,為採樣難題提供了又一個捷徑如何在分子模擬中構造馬爾科夫模型(MSM)建MSM模型,一般要選擇n個狀態,使得它們涵蓋了整個動力學行為,並且滯後時間τ足夠長以成為馬爾可夫模型,但又短得足以解決系統動力學問題。
  • Sci | 加速動力學結合馬爾可夫模型指導蛋白設計
    MSM可以從一組較短的模擬中推斷出長期的動態變化,為採樣難題提供了又一個捷徑 如何在分子模擬中構造馬爾科夫模型(MSM)建MSM模型,一般要選擇n個狀態,使得它們涵蓋了整個動力學行為,並且滯後時間τ足夠長以成為馬爾可夫模型,但又短得足以解決系統動力學問題。
  • 上海交通大學洪亮課題組專論:利用中子散射、分子動力學模擬和氘化技術對蛋白質及其表面水分子動力學的研究進展
    尤其是蛋白質內部大幅度的原子集群運動,它們對能量傳遞、底物輸運、生物大分子的組裝等生物功能起著至關重要的作用。此外,作為生命溶劑,水分子的各種運動(擴散,轉動及振動)協助了質子和反應底物的傳輸,促進了生物大分子和底物小分子的對接,誘導了生物大分子摺疊等。因此,研究蛋白質及其表面水分子運動對理解蛋白質功能的微觀機理具有重要意義。
  • 冷凍電鏡解析人源蛋白酶體26S在降解底物過程中的七種中間態構象
    其中,快速冷凍技術可使水在低溫狀態下呈玻璃態,減少冰晶的產生,從而不影響樣品本身結構,冷凍傳輸系統保證在低溫狀態下對樣品進行電鏡觀察本月,北京大學物理學院人工微結構和介觀物理國家重點實驗室、前沿交叉學科研究院定量生物學中心毛有東課題組在《自然》雜誌上發表的論文表明,他們通過冷凍電子顯微鏡和機器學習技術的結合,解析了人源蛋白酶體26S在降解底物過程中的七種中間態構象的高分辨
  • JCIM:計算提升蛋白質-蛋白質相互作用的預測精度
    蛋白質-蛋白質相互作用和識別在生物學過程中有著非常重要的作用。儘管結構生物學已經取得了較大的進展,但直接採用實驗方法確定蛋白質-蛋白質複合物結構仍然非常困難。分子對接技術是預測蛋白質-蛋白質複合物結構的有效方法。
  • 物理學院毛有東課題組在Nature發文 蛋白質機器動力學研究取得重大...
    proteasome)」的長論文(Article),通過冷凍電子顯微鏡和機器學習技術的結合,解析了人源蛋白酶體26S在降解底物過程中的七種中間態構象的高分辨(2.8~3.6埃)精細原子結構,局部解析度最高達到2.5埃。
  • 北大在蛋白酶體全原子動力學分析取得突破
    26S蛋白酶體的冷凍電鏡結構和動力學》)的研究論文。  泛素-蛋白酶體體系(Ubiquitin-Proteasome System,簡稱UPS)是細胞內最重要的蛋白質降解通路,對維持生物體內蛋白質的濃度平衡,以及對調控蛋白、錯誤摺疊或受到損傷的蛋白的快速降解起著至關重要的作用,參與了細胞周期、基因表達調控等多種細胞進程,由UPS失常引發的蛋白質新陳代謝異常與眾多人類重大疾病直接相關。
  • JCIM:G3BP蛋白或有助於抗癌多肽藥物的研究
    近日,美國化學學會屬下的知名雜誌Journal  of  Chemical  Information  and  Modeling以封面文章推出了高效特異性識別與抑制癌細胞的多肽分子新藥物。這是研究生院化學與化工學院博士生崔巍同學與其導師計明娟教授等人通過計算機輔助設計完成的重要研究成果。
  • 北大教授在蛋白酶體全原子動力學分析取得突破
    26S proteasome(《底物結合的人源26S蛋白酶體的冷凍電鏡結構和動力學》)的研究論文,該論文通過冷凍電子顯微鏡和機器學習技術的結合,解析了人源蛋白酶體26S在降解底物過程中的七種中間態構象的高分辨(2.8~3.6埃)精細原子結構,最好局部解析度達2.5埃。