機器之心報導
編輯:小舟、杜偉
如何解釋深度神經網絡對於人工智慧的發展具有重要的作用,也吸引了越來越多學界和業界人士的注意。在這篇長達 134 頁的博士論文中,一位來自牛津大學的計算機科學博士生對這一課題進行了深入的探討,帶我們走進深度神經網絡的世界。
近年來,深度神經網絡正在計算機視覺、自然語言處理和語音識別等多種領域發揮著重要作用,推動了人工智慧的發展。但是,深度神經網絡仍存在一些局限性,例如這些模型的決策過程通常無法向用戶解釋。
但同時,在醫療、金融、法律等各個領域,了解人工智慧系統決策制定背後的原因至關重要。因此,研究人員已經探索出了解釋神經模型的一些方向。
10 月 6 日,牛津大學計算機科學博士生、且繼續攻讀XAI博士後的 Oana Camburu 在推特上公開了自己的博士論文《解釋深度神經網絡》(Explaining Deep Neural Networks),詳盡全面地介紹了不同類型的深度神經網絡解釋方法,並表示「社區中該領域的研究正在增長,非常高興自己進行了相對深入的挖掘。」
在這篇博士論文中,作者深入探究了解釋深度神經網絡的兩個主要方向。第一個方向包括基於特徵的事後(post-hoc)解釋方法,即旨在解釋已經訓練和固定模型的方法,並提供輸入特徵方面的解釋,如文本 token 和圖像超像素。第二個方向包括生成自然語言解釋的自解釋(self-explanatory)神經模型,即具有內置模塊且能夠生成模型預測解釋的模型。
這篇博士論文具有以下幾方面的貢獻:
作者揭示了僅使用輸入特徵來解釋模型具有一定的難度。她指出,對於某些模型和實例而言,存在著不止一種 ground-truth 特徵解釋,所以一種解釋(或解釋器)的真實性取決於實踐中偏好的 ground-truth 解釋類型;
作者提出了一種自動驗證真實性的框架,藉助於這個框架,基於特徵的 post-hoc 解釋方法可以描述它們想要解釋的模型的決策制定過程。這種框架是通用的,並可以在不同任務和域上實例化,以提供用於測試基於特徵事後解釋方法的完整性測試;
為了探索生成為自身生成自然語言解釋的自解釋神經模型方向,作者在斯坦福自然語言理解推理(Stanford Natural Language Inference, SNLI)數據集的基礎上創建了一個包含約 570K 個人類書面自然語言解釋的大型數據集,並將這種解釋增強的數據集稱為 e-SNLI;
作者證明了當前自解釋模型在為預測生成自然語言解釋時,會產生不一致的解釋。為此,她提出了一種簡單卻有效的對抗框架,從而防止產生不一致的自然語言解釋。
機器之心對該論文的核心內容進行了簡要介紹,感興趣的讀者可以閱讀原論文。
論文地址:https://arxiv.org/pdf/2010.01496.pdf
解釋深度神經網絡的重要性
研究表明,神經網絡成功的關鍵因素是其具備深度這一能力,即成功的神經網絡可以由大量的非線性函數組成。直觀地講,多層非線性函數使網絡可以學習原始數據和預測之間各種抽象級別的特徵。但是,這些都是以可解釋性為代價的。這是因為為大量非線性函數的複雜組成提供人類可理解的解釋是一個未能解答的困難問題。
因此,在諸如健康診斷、信用額度或刑事司法等對安全至關重要的應用中,人們可能仍然更喜歡採用準確性較低但人類可解釋的模型,例如線性回歸和決策樹。
在 MNIST 數據集上訓練的 4 層深度的軟決策樹可視化圖。來源:Nicholas Frosst 和 Geoffrey Hinton 的 2017 論文《Distilling a Neural Network Into a Soft Decision Tree》。
對於神經網絡決策過程的質疑是有道理的,因為已經有研究表明,看似非常準確的此類系統可以輕鬆地依靠數據集中的偽相關性(也稱為統計偏差或偽影)來提供正確答案。研究表明,在實踐中使用這種依賴偽相關性的模型非常危險。
黑盒系統中不可信的另一個原因是這些系統自身可能存在著一些主觀偏見,例如種族主義、性別歧視或者其他類型的歧視或主觀性。
此外,大量的對抗攻擊表明,這些看似高度準確的神經網絡具有脆弱性。神經網絡中的對抗性攻擊在自然語言處理和語音識別等其他領域也具有相當高的成功率。對抗性攻擊揭示的深度神經網絡的脆弱性使人們對這些方法的潛在學習決策過程產生了懷疑。
因此,為了使神經網絡系統贏得廣泛的公眾信任,並確保這些系統確實是公平的,必須為這些模型的決策給出人類可理解的解釋。
事後解釋(Post-hoc) VS 自解釋(Self-explanatory)方法
越來越多的多樣化研究不遺餘力地解釋深度神經網絡,這些方法在很多方面都存在著很大差異。事後解釋和自解釋時當前最主要的兩種神經網絡解釋方法。
事後解釋是旨在解釋已經訓練和固定的目標模型的獨立方法。例如 LIME(Ribeiro 等人於 2016 年提出)就是一種事後解釋方法,它通過在模型預測的鄰域上學習可解釋的模型(如線性回歸)來解釋目標模型的預測。如前文所述,這種解釋方法針對的是文本 token 和圖像超像素,即所謂的基於特徵。
Shapley 解釋器和最小充分子集(minimal sufficient subset)解釋器分別提供了至少兩種 ground-truth 基於特徵的解釋。
目前,基於特徵的事後解釋方法比較流行,也不容易出現解釋偏見,但是真實性需要驗證。這就引出了第二種方法:自解釋。
自解釋模型是目標模型,這些模型將解釋生成模塊集成到自身架構中,以便它們為自己的預測提供解釋。從較高的層面而言,自解釋模型具有兩個相互關聯的模塊:預測器模塊,即模型中專門用於預測手頭任務的部分;解釋生成器模塊,作為模型的一部分,它為預測器所做的預測提供解釋。此外,自解釋模型不是必須對解釋做出監督。
作者使用一個解釋生成器(explanation generator)增強了 BiLSTM-Max 模型。具體而言,作者將特徵向量 f 連接到單層 LSTM 解碼器,既作為一種初始狀態,又在每個時間步上級聯到詞嵌入輸入。由此創建了一個新的模型 BiLSTM-Max-PredExpl,具體結構如下圖 5.2 所示:
兩種解釋方法各有利弊
研究人員在實踐中需要根據具體情況來選擇適當的解釋方法。通常而言,自解釋模型的預測器和解釋生成器是一起訓練的,解釋生成器的存在會影響預測器的訓練。而事後解釋方法則不同,它對已訓練和固定目標模型做出的所有預測都不會造成影響。因此,當帶有額外解釋生成器的增強型神經網絡的任務性能顯著低於僅訓練用於執行任務的神經網絡時,研究人員可能更傾向於使用事後解釋方法的模型。
另一方面可能出現如下情況,利用解釋生成器增強神經網絡並聯合訓練它們,可能會促使手頭任務的性能更好。這可能是由於模型架構中存在額外指導,或者存在對解釋的額外監督。
舉例而言,在情感分析任務中,Lei 等人(2016 年)獲得的結果是,在不對解釋進行任何監督的情況下,添加中間解釋生成器模塊不會削弱性能。又如,在常識問題解答的任務上,Rajani 等人(2019 年)通過帶有監督的自解釋模型,實現了比僅訓練用於執行任務的神經網絡更好的性能。
因此,事後解釋和自解釋這兩類方法各有利弊。
作者簡介
這篇論文的作者是牛津大學計算機科學博士生 Oana-Maria Camburu,她來自羅馬尼亞。Oana-Maria Camburu 曾獲國際數學奧林匹克競賽(IMO)銀牌,目前的主要研究方向是機器學習。此外,她的論文曾被 ACL、EMNLP 等人工智慧頂會收錄。
以下是這篇博士論文的章節目錄:
從算法到應用,入門聲紋技術。
10月19日,第一講:音頻基礎與聲紋識別。谷歌資深軟體工程師、聲紋識別與語言識別團隊負責人王泉老師將介紹聲紋識別技術相關基礎知識,包括發展歷程、聽覺感知和音頻處理相關基本概念與方法、聲紋領域最核心的應用聲紋識別等。
添加機器之心小助手(syncedai5),備註「聲紋」,進群一起看直播。
© THE END
轉載請聯繫本公眾號獲得授權
投稿或尋求報導:content@jiqizhixin.com
喜歡此內容的人還喜歡
原標題:《事後解釋VS自解釋,牛津CS博士小姐姐134頁畢業論文探索神經網絡內部構造》
閱讀原文