作者:楊正飛
編輯:肖冉
摘要ABSTRACT
今天介紹一篇由麻省理工學院Daniel Reker等於前段時間發表在Cell Reports上的一篇實驗型文章。文章應用了機器學習的方法對GRAS和IIG化合物的未知生物活性進行了研究。研究發現維生素A棕櫚酸酯和松香酸分別是P-糖蛋白和UGT2B7的抑制劑,並通過一系列的實驗進行了驗證確認。他們的模型可以預測常見食用化學物質的生物學效應,並闡明了其對食品-藥品和輔料-藥品相互作用以及功能性藥物製劑的開發產生的影響。
01
簡介
由FDA收錄的公認的安全化學藥品(GRAS)和非活性成分(IIG)常被認為可作為藥品和食品中的安全添加劑。現在,越來越多的研究和臨床報告對它們的生物學惰性提出了質疑,但目前不管是有害還是有益的生物效應都未被重視。重要的是,GRAS / IIG化合物的生物效應可以為藥物發現和功能性食品或藥品的配方設計提供新的想法。
但鑑於目前面臨的實驗鑑定高昂成本以及高通量的限制,作者使用機器學習方法來預測GRAS / IIG化合物的生物靶點,以期深入了解這些基本化合物類的生物學效應,並為藥物發現和藥物配方研究提供創新的起點。
02
結果
2.1 IIG和GRAS化合物類似於藥物,其生物活性已被測定過
作者通過對799種IIG / GRAS化合物的分子特性和結構進行研究,發現IIG / GRAS化合物的許多重要的分子性質均類似於已批准的藥物(見圖1B),並且其化學空間存在大量重疊(圖1C)。這些數據表明,GRAS / IIG化合物與批准的藥物之間似乎沒有潛在的物理化學或化學(亞)結構區別,這支持了GRAS / IIG具有發揮相關生物學效應的潛力。根據ChEMBL22數據,總共有877個陽性的檢測結果已被確認為GRAS / IIG化合物(見圖1D)。其中,排名前四的陽性測定化合物是對乙醯氨基酚(39種活性)、咖啡因(34種活性)、L-穀氨酸(26種活性)和鞣酸(23種活性)。而最受GRAS / IIG化合物調控的蛋白質家族是酶(160種活性),裂解酶(129種活性),電化學轉運蛋白(122種活性)和核受體(98種活性)(見圖1E)。
2.2 機器學習預測IIG和GRAS化合物的生物關聯
作者將877種已知GRAS / IIG化合物以及對應的1334128條陽性和陰性測量值,構建了1776個機器學習模型。其中,隨機森林模型表現最優,MAE值為0.95。此外,分子量與pAffinity之間存在正相關關係,這可以更加準確的預測每種蛋白質的活性。作者最終共得到1903個GRAS / IIG化合物的預測配體-靶標關聯(見圖1F),其結果比目前已知的這些分子活性多了2倍(見圖1D)。
GRAS / IIG化合物的三個最常預測的靶點是聚腺苷酸結合蛋白1(127個預測值),脂肪酸結合蛋白3(95個預測值)和鞘氨醇1-磷酸酯受體Edg-3(89個預測值),它們分別與眼-咽肌營養不良、心臟利用脂肪酸和多發性硬化症有關。重要的是,以前報導的生物活性數量與GRAS / IIG化合物的預測生物活性數量之間沒有強相關性(Pearson線性相關r = 0.17;見圖1C),這表明安全化合物存在大量未知的多藥理學空間,並且作者的機器學習方法獨立於先前獲取的GRAS和IIG化合物的生物活性數據。
圖1.非活性成分(IIG)和安全(GRAS)化合物類似於FDA批准的藥物,並具有已知或潛在的新型生物活性
(A)顯示了研究的總體流程和所利用的數據集。(從FDA網站(https://www.fda.gov)提取並整理了通常被認為是GRAS和IIG化合物的CAS號,並使用CACTUS NIH網絡伺服器(https://cactus.nci.nih.gov)將其轉換為SMILES結構表示形式。這些化學表示被用來計算其理化特性(http://rdkit.org),並與批准的藥物(https://www.drμgbank.ca)進行性質分布的比較。從ChEMBL22(http://ebi.ac.uk/chembl)中提取生物活性數據,以鑑定先前報導的GRAS / IIG化合物活性,並建立機器學習模型(https://scikit-learn.org)以預測其他GRAS / IIG化合物的生物活性。)
(B)比較GRAS(淺藍色)、IIG(深藍色)和存儲在DrμgBank資料庫中FDA批准的藥物(藥物,橙色)之間的分子量,計算的logP以及旋轉鍵的比例的分布。通過箱線圖表示的統計結果表明這三種不同的分布有很大的重疊。
(C)將GRAS(淺藍色)和IIG(深藍色)所包含的化學空間與存儲在DrμgBank5.0資料庫中的批准藥物(橙色)進行比較。(顯示了利用Morgan指紋(R = 4, 2048位; RDKit)基於t-SNE的投影)
(D)GRAS和IIG的藥理學網絡(化合物顯示為淺藍色(GRAS)或深藍色(IIG)節點;蛋白質靶標(ChEMBL22)以紅色顯示。化合物和靶標之間的連接基於先前已測量化合物與蛋白質相互作用時(黑線),或者基於機器學習模型預測該化合物可能與蛋白質相互作用(Z score> 4;灰線))
(E&F)以前報告的(左,E)和計算預測的(右,F)活性數量在不同蛋白質家族(內部餅圖)水平上的分布。前七個家族被標記;外部餅圖可直觀顯示每種蛋白質的報導或預測的活性數量;注釋了已報導或預測有超過10種可被GRAS或IIG化合物調節其活性的蛋白質。
2.3 松香和松香酸對UGT2B7的抑制作用(體內和體外)
UGT2B7抑制的機器學習模型在10折交叉驗證中顯示了可接受的準確性(MAE = 0.3;見表S4)。模型預測松香酸可以抑制UGT2B7,其IC50值為2.8 μM,並在體外實驗得到證實(見圖2B-2C)。同源建模對接發現,最可能的結合模式是將松香酸定位在催化位點和輔助因子結合結構域之間的界面上,從而抑制UGT2B7的代謝(見圖2D)。
圖2. 松香和松香酸抑制UGT2B7活性
(A)松香酸(1)和訓練數據化合物中的異長葉酸(2)的化學結構。
(B)體外驗證顯示,松香(黑圈)和松香酸(橙色方塊)抑制微粒體中的UGT2B7活性。
(C)在複雜的組織肝裂解物中證實了松香酸(橙色)對UGT活性的影響,其中松香酸減緩了UGT底物的轉化(Biovision K692;灰色)。
(D)計算對接表明松香酸具有在底物(金色)和輔因子結合(青色)結構域的界面與UGT2B7相互作用的潛力。
2.4 維生素A棕櫚酸酯抑制P-gp活性
作者的模型在10折交叉驗證中顯示的MAE為0.45。模型預測維生素A棕櫚酸酯可以抑制P-gp,IC50值為5 μM(見圖3B),該預測並在實驗中得到了驗證(見圖3C-3G)。同源建模對接發現這種抑制效應可能是由於棕櫚酸酯尾部佔據了ATPase位點引起的,並與P-gp的1047位點的精氨酸殘基形成穩定的氫鍵(見圖3H)。
圖3.維生素A棕櫚酸酯調節P-gp活性
(A)P-gp參與了所批准藥物的8%的運輸,涉及範圍廣泛的不同適應症(DrμgBank 5.0)。完整的條對應於170種已批准的藥物;右側僅顯示至少包含三種藥物的子類。
(B)維生素A棕櫚酸酯(3)的結構。
(C)維生素A棕櫚酸酯在HepG細胞中抑制P-gp活性的IC50為2.9±3.6 μM。(Biovision K507)數據繪製為均值和標準差,使用標準三參數方程式在Prism中擬合「抑制劑和反應」曲線。
(D)(E)中的離體組織滲透性實驗的示意圖。
(E)維生素A棕櫚酸酯增加了四種已知P-gp底物的伊立替康,雷尼替丁,秋水仙鹼和洛哌丁胺在豬腸道組織中的滲透性。P≤0.001;包含Holm-Sidak校正的兩尾t檢驗。
(F)(G)中的體內實驗示意圖。
(G)小鼠口服給藥後,維生素A棕櫚酸酯顯示華法林(一種已知的P-gp底物)輕度增加。(p = 0.04;單尾t檢驗)
(H)計算對接表明,維生素A棕櫚酸酯可以與P-gp的ATPase位點結合(藍色網格),並與ARG1047形成的穩定氫鍵結合(黃色虛線;見黑色箭頭)
03
結論
作者通過研究發現,基於公開可用的生化數據構建的最新機器學習模型可以有效地用來快速發現GRAS和IIG化合物的藥理學相關靶點。這進一步展示了快速且易於部署的數據科學工具在預測天然產物在複雜生物系統中的效應方面的潛在應用。但此類算法將在很大程度上依賴於高質量數據的可用性,研究還表明通過此類方法,對GRAS / IIG的生物大分子靶標的識別在本質上局限於具有已知小分子調節劑的蛋白質。此外,運用先進的高通量檢測技術和專門的目標蛋白結構或表型結果的預測算法可能會進一步增加該類化合物的範圍和預測能力。
但僅僅是計算機和體外數據是不足以證明GRAS / IIG的生物活性的臨床相關性的。作者在此處雖然包括了一系列離體和體內驗證,以提供更多的生物學背景,但是其他驗證試驗(例如臨床數據分析)如果運用的話將進一步增加此類關聯的相關性的可信度。
參考文獻
●Reker D, Shi Y, Kirtane AR, et al., Machine Learning Uncovers Food- and Excipient-Drug Interactions[J]. Cell Reports, 2020, 30(11).