「可解釋學習」利用SHAP對分子活性預測機器學習模型進行解釋

2020-12-06 DrugAI

今天介紹的文章是德國波恩大學波恩-亞琛國際信息技術中心(B-IT)的Bajorath實驗室去年在JMC特刊(Artificial Intelligence in Drug Discovery)上發表的「Interpretation of Compound Activity Predictions from Complex Machine Learning Models Using Local Approximations and Shapley Values」。文章利用可解釋學習方法SHAP(SHapley Additive exPlanation)對基於複雜機器學習模型的分子活性預測模型進行解釋,嘗試打開「黑箱」。

——背景——

眾所周知,機器學習模型在藥物研究中取得了許多優秀的成果,其中包括分子性質預測、從頭藥物設計、分子合成分析等多個方面。但是,機器學習模型的難以解釋的特性一直為人們所詬病,尤其是預測精度高的模型往往複雜度更高和規模更大,解釋性(Interpretability)更差。而對於QSAR模型,其中分子結構與活性的關係比起普通的圖像識別任務中標籤和圖片關係更難以理解,這增加了解釋模型的難度。這些複雜的機器學習模型的解釋有著重要的意義,可以提高模型與真實實驗符合程度從而提升模型性能,以及輔助分子作用機理的探索等。目前,模型解釋的方法可以分為模型依賴(Model-specific)方法和模型不可知(Model-agnostic)方法。二者主要的區別在於是否限定使用模型的種類。前者主要指的是利用簡單的可解釋模型(例如線性回歸等)來進行學習,從而可以直接對模型進行解釋,但是這種方法常常會限制了模型的預測效果。後者不依賴於所使用的模型的限制,通過敏感性分析等方法對模型進行解釋,更具通用性。SHAP是目前比較流行的一種模型不可知的解釋方法,也正是文章所使用的方法。

——方法——

SHAP主要是針對單獨樣本利用線性模型對複雜的機器學習模型進行局部逼近,具體如圖1所示。圖1為需要解釋的模型f的決策空間,紅色和藍色分別指的是正樣本和負樣本空間。紅色的最大的點為需要解釋的樣本x,圖中圓點是採樣得到的數據,越大代表與x越接近,相似度由π度量。利用這些數據可以通過構造優化目標(等式1)得出簡單的線性模型g(圖中的灰線), 從而在局部對於樣本x進行解釋。Shapley值來源於博弈論,用來公平分配項目中的每個對象的合作收益,其中等式1使用SHAP核(SHAP kernel)來構造π。g是線性模型,因此g可以寫為等式2,M為特徵的總個數,Φ是每類特徵的重要性係數,為每個特徵的Shapley值。

圖1 SHAP具體解釋示意圖

——結果——

作者首先在ChEMBL中挑選的可信度比較高的10個活性預測任務的分子數據集,構建機器學習模型。其中使用了三種機器學習方法,分別是支持向量機(SVM)、隨機森林(RF)、深度神經網絡(DNN),以及兩種分子表徵,分別是ECFP4和MACCS,具體效果見表1。其中三個模型在AUC、MCC、BA上都取得比較高的精度,從而確保模型的是可靠的。

表1. 文中使用的機器學習模型的性能統計

隨後,作者利用SHAP對模型進行解釋,即計算每個特徵的重要性。通過特徵重要性分布(圖2 上)和特徵移除測試(圖2下)可以看出目前使用的ECFP4對活性預測任務來說存在冗餘,起作用的只是部分特徵。

圖2 輸入特徵中SHAP值(≠0)的分布(上)特徵移除測試(下)

為了證明SHAP計算的特徵的重要性的合理性和一致性,作者比較了SHAP值和隨機森林模型中的基尼係數(Gini importance),可以發現二者具有一致的正相關關係(圖3上)。此外,作者還比較了不同的模型計算的SHAP值,同樣具有一致性(圖3下)。

圖3 SHAP值與基尼係數的比較(上)不同模型對於特徵得到的SHAP值比較(下)

最後作者利用SHAP對具體的模型分子進行可視化和分析的案例演示。SHAP可以通過可視化分子重要特徵來對模型的預測進行合理化和改進,見圖4。圖中是SVM對組胺H3受體拮抗劑的預測,其中兩個分子結構十分相似,但是預測結果相差很大,通過可視化可以發現預測錯誤主要是因為其中一個分子的特徵負貢獻非常大。

圖4 基於SHAP算出的SVM模型在任務中,對於分類的正負兩類最重要的特徵(上)。利用SHAP算出兩個分子具體的特徵重要性分布,紅色為正向貢獻,藍色為負向貢獻(下)。

此外,SHAP還可以對模型進行診斷,如圖5,在SVM決策中,對於該分子是否具有活性兩種類別進行判定的重要特徵有較大的重疊,產生了歧義,因此模型效果不如DNN。

圖5 SHAP對於分子的具體特徵分析和可視化。

——小結——

SHAP方法作為特徵重要性分配的解釋性方法,可以比較好地搜尋重要特徵,這為結合經驗知識以及實驗提供了基礎。此外,SHAP可以對單個分子進行分析,這對於理解模型的決策、及改善和合理化模型結果有一定的幫助。但是SHAP主要依賴於輸入的特徵,因此分子的合理表徵仍是需要解決的問題。因此,也有人發展了基於序列模型的解釋方法,來避免分子的表徵。總的來說,目前的模型解釋方法距離與真實實驗結合輔助藥物分子設計仍有一定的距離,因此可解釋性學習方法仍是我們需要努力探索的方向。

參考文獻:

Rodríguez-Pérez, Raquel, and Jurgen Bajorath. "Interpretation of compound activity predictions from complex machine learning models using local approximations and shapley values." J. Med. Chem. 2020, 63, 16, 8761–8777

DOI: 10.1021/acs.jmedchem.9b01101

Jiménez-Luna, José, Francesca Grisoni, and Gisbert Schneider. "Drug discovery with explainable artificial intelligence." Nat. Mach. Intell. 2020, 2, 10, 573-584.

DOI: 10.1038/s42256-020-00236-4

相關焦點

  • 深度學習的可解釋性研究(一):讓模型「說人話」
    17 年 ICML 的 Tutorial 中給出的一個關於可解釋性的定義是:Interpretation is the process of giving explanations to Human.總結一下就是「說人話」,「說人話」,「說人話」,不以人類可以理解的方式給出的解釋都叫耍流氓,記住這三個字,你就差不多把握了可解釋性的精髓所在。
  • 可解釋的機器學習
    可解釋的機器學習理解(interpret)表示用可被認知(understandable)的說法去解釋(explain)或呈現(present)。在機器學習的場景中,可解釋性(interpretability)就表示模型能夠使用人類可認知的說法進行解釋和呈現。[Finale Doshi-Velez]
  • 一文讀懂可解釋機器學習簡史,讓你的模型再也不是「Black Box」
    儘管這個領域才剛剛起步,但是它在回歸建模和基於規則的機器學習方面的相關工作卻始於20世紀60年代。最近,arXiv上的一篇論文簡要介紹了解釋機器學習(IML)領域的歷史,給出了最先進的可解釋方法的概述,並討論了遇到的挑戰。 當機器學習模型用在產品、決策或者研究過程中的時候,「可解釋性」通常是一個決定因素。
  • 可解釋機器學習技術之後置全局可解釋詳解
    後置全局可解釋機器學習模型從大量訓練數據中自動地學習有用模式,並將學到的知識保存到模型結構和參數中。後置全局可解釋旨在為預先訓練的模型所獲得的知識提供全局解釋,並以直觀的方式對模型參數或學習得到的表示進行說明。我們將現有的模型分為傳統機器學習和深度學習兩類,這樣分類是因為我們能夠從每個類別中提取一些類似的解釋範例。
  • 「機器學習」機器學習算法優缺點對比(匯總篇)
    天下沒有免費的午餐在機器學習領域,一個基本的定理就是「沒有免費的午餐」。「換言之,就是沒有算法能完美地解決所有問題,尤其是對監督學習而言(例如預測建模)」。舉例來說,你不能去說神經網絡任何情況下都能比決策樹更有優勢,反之亦然。
  • 使用PyTorch進行主動遷移學習:讓模型預測自身的錯誤
    在當前的機器學習中,遷移學習通常是指獲取一個現有的神經模型,然後對最後一層 (或最後幾層) 進行再訓練,以完成新的任務,它可以表示為:遷移學習的一個例子。模型預測標籤為「a」、「B」、「C」或「D」,單獨的數據集標籤為「W」、「X」、「Y」和「Z」。再訓練模型的最後一層模型現在能夠預測標籤「W」、「X」、「Y」和「Z」。
  • 人類首次完全利用AI發現「迄今最強抗生素」,登《細胞》雜誌封面
    解決 WHO「通緝令」上最危險的病原體為了解決上述問題,來自 MIT 合成生物學中心的研究者開發了一種可以預測抗生素分子活性的深度學習方法,從超過 1.07 億種分子中識別出了強大的新型抗生素分子——halicin。halicin 可以對抗多種細菌,如肺結核以及被認為無法治療的菌株。而且,這種新發現的分子在結構上與已知的抗生素分子有很大不同。
  • 盤點| 機器學習入門算法:從線性模型到神經網絡
    幾十年來,機器學習實際上已經變成了一門獨立的領域。由於現代計算能力的進步,我們最近才能夠真正大規模地利用機器學習。而實際上機器學習是如何工作的呢?答案很簡單:算法(algorithm)。 機器學習是人工智慧(artificial intelligence)的一種,其本質上講,就是計算機可以在無需編程的情況下自己學習概念(concept)。
  • JMC | 藥物化學中的分子表徵學習
    4)可解釋性:對於機器學習的科學應用來說,關鍵是要確保模型的性能源於對相關模式的學習,而不是利用混雜變量、實驗噪聲或其他可能的人為因素。2012年,由Kaggle主辦的默克分子活性挑戰賽再次點燃了人們對藥物發現的深度學習的興趣,參賽者被要求使用預先計算的近5萬個分子的分子描述符預測15個相關任務的生物活性。由Dahl等人領導的團隊利用多任務深度神經網絡贏得了比賽,並以比最新的隨機森林模型高出近15%的成績贏得了比賽。
  • 用深度學習對抗癌症:從分子層面研究到大規模人口建模
    三個 JDACS4C 試點項目,包括從分子層面到人口規模方面的諸多研究,以支持 CANcer 分布式學習環境項目(CANcer Distributed Learning Environment project):這些工作旨在洞察可擴展機器學習工具;通過深度學習、模擬和分析技術,減少治療時間;為未來計算方案提供信息。
  • 圖神經網絡GNN的可解釋性問題與解釋方法最新進展
    譯註:計算化學(computational chemistry),是理論化學的一個分支,主要目的是利用有效的數學近似以及電腦進程計算分子的性質,例如總能量、偶極矩、四極矩、振動頻率、反應活性等,並用以解釋一些具體的化學問題。計算化學這個名詞有時也用來表示計算機科學與化學的交叉學科。
  • 「蝴蝶效應」也能預測了?看機器學習如何解釋混沌系統
    機器學習的方法能預測到的未來大大延長,比此前的預測方法能預測到的長了八倍,預測效果幾乎和真實情況完全匹配。  而且,這個算法對Kuramoto-Sivashinsky方程式本身一無所知;它只能看到方程式演進的數據。  這使機器學習方法變得更強大。因為,在許多情況下,由於不能確定描述混沌系統的方程式,動力學家無法對它們進行建模和預測。
  • 結合神經網絡,提升ImageNet分類準確率且可解釋
    BAIR公布神經支持決策樹新研究,兼顧準確率與可解釋性。隨著深度學習在金融、醫療等領域的不斷落地,模型的可解釋性成了一個非常大的痛點,因為這些領域需要的是預測準確而且可以解釋其行為的模型。然而,深度神經網絡缺乏可解釋性也是出了名的,這就帶來了一種矛盾。
  • 「深度學習」運用多通道亞結構圖進行分子性質預測
    隨著人工智慧技術的發展,深度學習方法在藥物分子設計中的應用愈發廣泛。分子性質的預測在藥物發現過程中起著很大作用。為了對分子性質進行預測,首先需要對分子進行表徵。應用深度學習對分子進行表徵有多種途徑,例如SMILES將分子編碼成一個字符串序列,根據成環結構斷開的位置不同,同一分子可能得到不同的SMILES。
  • 李沐《動手學深度學習》第一章:機器學習簡介
    但這個例子展示了在短短幾秒鐘裡,我們跟數個機器學習模型進行了交互。如果你從來沒有使用過機器學習,你會想,這個不就是編程嗎?或者,到底機器學習是什麼?首先,我們確實是使用程式語言來實現機器學習模型,我們跟計算機其他領域一樣,使用同樣的程式語言和硬體。但不是每個程序都用了機器學習。對於第二個問題,精確定義機器學習就像定義什麼是數學一樣難,但我們試圖在這章提供一些直觀的解釋。
  • 全面回顧2020年圖機器學習進展,12位大神論道、寄望2021年大爆發!
    「2020 年,圖機器學習領域開始受限於消息傳遞範式的本質缺陷。」上述缺陷包含人們常說的「瓶頸」、「過平滑」[2]等問題,以及表徵能力的理論限制[3,4]。展望未來,我們希望研究人員在 2021 年開始尋找圖機器學習的下一種核心範式。
  • 普林,DeepMind新研究:結合深度學習符號回歸,深度模型中看見宇宙
    符號模型緊湊,具備可解釋性和良好的泛化能力,但很難處理高維機器學習問題;深度模型擅長在高維空間中學習,但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢?這項研究做到了。如何將深度模型轉換為符號方程?來自普林斯頓、DeepMind 等機構的研究人員提出了一種解決方案:結合深度學習和符號回歸實現這一目標。符號模型是自然科學的語言。
  • Gartner預測2019年十大「數據和分析技術」趨勢:增強型分析成為...
    增強型數據分析,增強型數據管理,持續型智能,可解釋的 AI,數據結構,NLP/對話式分析,商業 AI 和 ML,區塊鏈和持久性內存伺服器共同構成了 Gartner 2019 年十大「數據和分析技術趨勢」。 最近兩天裡,2 月 18 日-19 日,在雪梨舉行的 Gartner 數據與分析峰會上,增強型數據分析和可解釋的人工智慧成為焦點。
  • 謝國彤:疾病預測的機器學習、深度學習和經典回歸方法
    腦卒中預測模型和腦卒中或死亡預測模型的 H-L 統計量分別為 7.6 和 6.5,腦卒中預測模型的 AUC 為 0.66,而腦卒中或死亡預測模型的 AUC 為 0.70。基於機器學習方法的疾病預測儘管傳統的回歸方法在疾病預測方面有廣泛的應用,但這些方法在預測準確度和模型可解釋方面,都仍有提升的空間。
  • 機器學習能模擬解釋?
    大多數可觀測物質的基本成分是電子和原子核。遵循量子力學的定律,它們的行為可以用波函數來描述,這是一種瀰漫的雲,與在給定的時間點觀察它們的概率有關。博科園-科學科普:通過求解薛丁格方程,可以對包括水在內的任何物質進行模型和預測。但有一個問題。