今天介紹的文章是德國波恩大學波恩-亞琛國際信息技術中心(B-IT)的Bajorath實驗室去年在JMC特刊(Artificial Intelligence in Drug Discovery)上發表的「Interpretation of Compound Activity Predictions from Complex Machine Learning Models Using Local Approximations and Shapley Values」。文章利用可解釋學習方法SHAP(SHapley Additive exPlanation)對基於複雜機器學習模型的分子活性預測模型進行解釋,嘗試打開「黑箱」。
——背景——
眾所周知,機器學習模型在藥物研究中取得了許多優秀的成果,其中包括分子性質預測、從頭藥物設計、分子合成分析等多個方面。但是,機器學習模型的難以解釋的特性一直為人們所詬病,尤其是預測精度高的模型往往複雜度更高和規模更大,解釋性(Interpretability)更差。而對於QSAR模型,其中分子結構與活性的關係比起普通的圖像識別任務中標籤和圖片關係更難以理解,這增加了解釋模型的難度。這些複雜的機器學習模型的解釋有著重要的意義,可以提高模型與真實實驗符合程度從而提升模型性能,以及輔助分子作用機理的探索等。目前,模型解釋的方法可以分為模型依賴(Model-specific)方法和模型不可知(Model-agnostic)方法。二者主要的區別在於是否限定使用模型的種類。前者主要指的是利用簡單的可解釋模型(例如線性回歸等)來進行學習,從而可以直接對模型進行解釋,但是這種方法常常會限制了模型的預測效果。後者不依賴於所使用的模型的限制,通過敏感性分析等方法對模型進行解釋,更具通用性。SHAP是目前比較流行的一種模型不可知的解釋方法,也正是文章所使用的方法。
——方法——
SHAP主要是針對單獨樣本利用線性模型對複雜的機器學習模型進行局部逼近,具體如圖1所示。圖1為需要解釋的模型f的決策空間,紅色和藍色分別指的是正樣本和負樣本空間。紅色的最大的點為需要解釋的樣本x,圖中圓點是採樣得到的數據,越大代表與x越接近,相似度由π度量。利用這些數據可以通過構造優化目標(等式1)得出簡單的線性模型g(圖中的灰線), 從而在局部對於樣本x進行解釋。Shapley值來源於博弈論,用來公平分配項目中的每個對象的合作收益,其中等式1使用SHAP核(SHAP kernel)來構造π。g是線性模型,因此g可以寫為等式2,M為特徵的總個數,Φ是每類特徵的重要性係數,為每個特徵的Shapley值。
圖1 SHAP具體解釋示意圖
——結果——
作者首先在ChEMBL中挑選的可信度比較高的10個活性預測任務的分子數據集,構建機器學習模型。其中使用了三種機器學習方法,分別是支持向量機(SVM)、隨機森林(RF)、深度神經網絡(DNN),以及兩種分子表徵,分別是ECFP4和MACCS,具體效果見表1。其中三個模型在AUC、MCC、BA上都取得比較高的精度,從而確保模型的是可靠的。
表1. 文中使用的機器學習模型的性能統計
隨後,作者利用SHAP對模型進行解釋,即計算每個特徵的重要性。通過特徵重要性分布(圖2 上)和特徵移除測試(圖2下)可以看出目前使用的ECFP4對活性預測任務來說存在冗餘,起作用的只是部分特徵。
圖2 輸入特徵中SHAP值(≠0)的分布(上)特徵移除測試(下)
為了證明SHAP計算的特徵的重要性的合理性和一致性,作者比較了SHAP值和隨機森林模型中的基尼係數(Gini importance),可以發現二者具有一致的正相關關係(圖3上)。此外,作者還比較了不同的模型計算的SHAP值,同樣具有一致性(圖3下)。
圖3 SHAP值與基尼係數的比較(上)不同模型對於特徵得到的SHAP值比較(下)
最後作者利用SHAP對具體的模型分子進行可視化和分析的案例演示。SHAP可以通過可視化分子重要特徵來對模型的預測進行合理化和改進,見圖4。圖中是SVM對組胺H3受體拮抗劑的預測,其中兩個分子結構十分相似,但是預測結果相差很大,通過可視化可以發現預測錯誤主要是因為其中一個分子的特徵負貢獻非常大。
圖4 基於SHAP算出的SVM模型在任務中,對於分類的正負兩類最重要的特徵(上)。利用SHAP算出兩個分子具體的特徵重要性分布,紅色為正向貢獻,藍色為負向貢獻(下)。
此外,SHAP還可以對模型進行診斷,如圖5,在SVM決策中,對於該分子是否具有活性兩種類別進行判定的重要特徵有較大的重疊,產生了歧義,因此模型效果不如DNN。
圖5 SHAP對於分子的具體特徵分析和可視化。
——小結——
SHAP方法作為特徵重要性分配的解釋性方法,可以比較好地搜尋重要特徵,這為結合經驗知識以及實驗提供了基礎。此外,SHAP可以對單個分子進行分析,這對於理解模型的決策、及改善和合理化模型結果有一定的幫助。但是SHAP主要依賴於輸入的特徵,因此分子的合理表徵仍是需要解決的問題。因此,也有人發展了基於序列模型的解釋方法,來避免分子的表徵。總的來說,目前的模型解釋方法距離與真實實驗結合輔助藥物分子設計仍有一定的距離,因此可解釋性學習方法仍是我們需要努力探索的方向。
參考文獻:
Rodríguez-Pérez, Raquel, and Jurgen Bajorath. "Interpretation of compound activity predictions from complex machine learning models using local approximations and shapley values." J. Med. Chem. 2020, 63, 16, 8761–8777
DOI: 10.1021/acs.jmedchem.9b01101
Jiménez-Luna, José, Francesca Grisoni, and Gisbert Schneider. "Drug discovery with explainable artificial intelligence." Nat. Mach. Intell. 2020, 2, 10, 573-584.
DOI: 10.1038/s42256-020-00236-4