ICML 2019 | 神經網絡的可解釋性,從經驗主義到數學建模

2020-12-06 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按,本文作者張拳石,上海交通大學副教授,研究方向為機器學習、計算機視覺,本文首發於知乎,雷鋒網 AI 科技評論獲其授權轉載。以下為正文內容。

本來想把題目取為「從煉丹到化學」,但是這樣的題目太言過其實,遠不是近期可以做到的,學術研究需要嚴謹。但是,尋找適當的數學工具去建模深度神經網絡表達能力和訓練能力,將基於經驗主義的調參式深度學習,逐漸過渡為基於一些評測指標定量指導的深度學習,是新一代人工智慧需要面對的課題,也是在當前深度學習渾渾噩噩的大背景中的一些新的希望。

這篇短文旨在介紹團隊近期的 ICML 工作——「Towards a Deep and Unified Understanding of Deep Neural Models in NLP」(這篇先介紹 NLP 領域,以後有時間再介紹類似思想解釋 CV 網絡的論文)。這是我與微軟亞洲研究院合作的一篇論文。其中,微軟研究院的王希廷研究員在 NLP 方向有豐富經驗,王老師和關超宇同學在這個課題上做出了非常巨大的貢獻,這裡再三感謝。

大家說神經網絡是「黑箱」,其含義至少有以下兩個方面:一、神經網絡特徵或決策邏輯在語義層面難以理解;二、缺少數學工具去診斷與評測網絡的特徵表達能力(比如,去解釋深度模型所建模的知識量、其泛化能力和收斂速度),進而解釋目前不同神經網絡模型的信息處理特點。

過去我的研究一直關注第一個方面,而這篇 ICML 論文同時關注以上兩個方面——針對不同自然語言應用的神經網絡,尋找恰當的數學工具去建模其中層特徵所建模的信息量,並可視化其中層特徵的信息分布,進而解釋不同模型的性能差異。

其實,我一直希望去建模神經網絡的特徵表達能力,但是又一直遲遲不願意下手去做。究其原因,無非是找不到一套優美的數學建模方法。深度學習研究及其應用很多已經被人詬病為「經驗主義」與「拍腦袋」,我不能讓其解釋性算法也淪為經驗主義式的拍腦袋——不然解釋性工作還有什麼意義。

研究的難點在於對神經網絡表達能力的評測指標需要具備「普適性」和「一貫性」。首先,這裡「普適性」是指解釋性指標需要定義在某種通用的數學概念之上,保證與既有數學體系有儘可能多的連接,而與此同時,解釋性指標需要建立在儘可能少的條件假設之上,指標的計算算法儘可能獨立於神經網絡結構和目標任務的選擇。

其次,這裡的「一貫性」指評測指標需要客觀的反應特徵表達能力,並實現廣泛的比較,比如

1. 診斷與比較同一神經網絡中不同層之間語義信息的繼承與遺忘;

2. 診斷與比較針對同一任務的不同神經網絡的任意層之間的語義信息分布;

3. 比較針對不同任務的不同神經網絡的信息處理特點。

具體來說,在某個 NLP 應用中,當輸入某句話 x=[x1,x2,…,xn] 到目標神經網絡時,我們可以把神經網絡的信息處理過程,看成對輸入單詞信息的逐層遺忘的過程。即,網絡特徵每經過一層傳遞,就會損失一些信息,而神經網絡的作用就是儘可能多的遺忘與目標任務無關的信息,而保留與目標任務相關的信息。於是,相對於目標任務的信噪比會逐層上升,保證了目標任務的分類性能。

我們提出一套算法,測量每一中層特徵 f 中所包含的輸入句子的信息量,即 H(X|F=f)。當假設各單詞信息相互獨立時,我們可以把句子層面的信息量分解為各個單詞的信息量 H(X|F=f) = H(X1=x1|F=f) + H(X2=x2|F=f) + … + H(Xn=xn|F=f). 這評測指標在形式上是不是與信息瓶頸理論相關?但其實兩者還是有明顯的區別的。信息瓶頸理論關注全部樣本上的輸入特徵與中層特徵的互信息,而我們僅針對某一特定輸入,細粒度地研究每個單詞的信息遺忘程度。

其實,我們可以從兩個不同的角度,計算出兩組不同的熵 H(X|F=f)。

(1)如果我們只關注真實自然語言的低維流形,那麼 p(X=x|F=f) 的計算比較容易,可以將 p 建模為一個 decoder,即用中層特徵 f 去重建輸入句子 x。(2)在這篇文章中,我們其實選取了第二個角度:我們不關注真實語言的分布,而考慮整個特徵空間的分布,即 x 可以取值為噪聲。在計算 p(X=x,F=f) = p(X=x) p(F=f|X=x) 時,我們需要考慮「哪些噪聲輸入也可以生成同樣的特徵 f」。舉個 toy example,當輸入句子是「How are you?」時,明顯「are」是廢話,可以從「How XXX you?」中猜得。這時,如果僅從真實句子分布出發,考慮句子重建,那些話佐料(「are」「is」「an」)將被很好的重建。而真實研究選取了第二個角度,即我們關注的是哪些單詞被神經網絡遺忘了,發現原來「How XYZ you?」也可以生成與「How are you?」一樣的特徵。

這時,H(X|F=f) 所體現的是,在中層特徵 f 的計算過程中,哪些單詞的信息在層間傳遞的過程中逐漸被神經網絡所忽略——將這些單詞的信息替換為噪聲,也不會影響其中層特徵。這種情況下,信息量 H(X|F=f) 不是直接就可以求出來的,如何計算信息量也是這個課題的難點。具體求解的公式推導可以看論文,知乎上只放文字,不談公式。

首先,從「普適性」的角度來看,中層特徵中輸入句子的信息量(輸入句子的信息的遺忘程度)是資訊理論中基本定義,它只關注中層特徵背後的「知識量」,而不受網絡模型參數大小、中層特徵值的大小、中層卷積核順序影響。其次,從「一貫性」的角度來看,「信息量」可以客觀反映層間信息快遞能力,實現穩定的跨層比較。如下圖所示,基於梯度的評測標準,無法為不同中間層給出一貫的穩定的評測。

下圖比較了不同可視化方法在分析「reverse sequence」神經網絡中層特徵關注點的區別。我們基於輸入單詞信息量的方法,可以更加平滑自然的顯示神經網絡內部信息處理邏輯。

下圖分析比較了不同可視化方法在診斷「情感語義分類」應用的神經網絡中層特徵關注點的區別。我們基於輸入單詞信息量的方法,可以更加平滑自然的顯示神經網絡內部信息處理邏輯。

基於神經網絡中層信息量指標,分析不同神經網絡模型的處理能力。我們分析比較了四種在 NLP 中常用的深度學習模型,即 BERT, Transformer, LSTM, 和 CNN。在各 NLP 任務中,BERT 模型往往表現最好,Transformer 模型次之。

如下圖所示,我們發現相比於 LSTM 和 CNN,基於預訓練參數的 BERT 模型和 Transformer 模型往往可以更加精確地找到與任務相關的目標單詞,而 CNN 和 LSTM 往往使用大範圍的鄰接單詞去做預測。

進一步,如下圖所示,BERT 模型在預測過程中往往使用具有實際意義的單詞作為分類依據,而其他模型把更多的注意力放在了 and the is 等缺少實際意義的單詞上。

如下圖所示,BERT 模型在 L3-L4 層就已經遺忘了 EOS 單詞,往往在第 5 到 12 層逐漸遺忘其他與情感語義分析無關的單詞。相比於其他模型,BERT 模型在單詞選擇上更有針對性。

我們的方法可以進一步細粒度地分析,各個單詞的信息遺忘。BERT 模型對各種細粒度信息保留的效果最好。

十多年前剛剛接觸 AI 時總感覺最難的是獨立找課題,後來發現追著熱點還是很容易拍腦袋想出一堆新題目,再後來發現真正想做的課題越來越少,雖然 AI 領域中學者們的投稿量一直指數增長。

回國以後,身份從博後變成了老師,帶的學生增加了不少,工作量也翻倍了,所以一直沒有時間寫文章與大家分享一些新的工作,如果有時間還會與大家分享更多的研究,包括這篇文章後續的眾多算法。信息量在 CV 方向應用的論文,以及基於這些技術衍生出的課題,我稍後有空再寫。

順便做個廣告,歡迎有能力的學生來實驗室實習,同時也招博後。目前我的團隊有 30 餘人,其中不少同學是外校全職訪問實習生。我一般會安排每三四人為一個團隊做一個課題,由於訪問實習生往往不用為上課而分心,可以全天候做實驗室工作,在經過一定訓練之後往往會擔任團隊領導。

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 人工智慧瓶頸之神經網絡的可解釋探討
    這是對深度神經網絡模型可判讀性的研究,其本質上僅涉及到深度學習智能系統安全中的不可驗證問題。換言之,這些工作難以解決其所面臨的不可審查問題。因此,亟待研究一個能同時提高深度神經網絡可判讀性和可理解性,進而解決基於深度神經網絡的人工智慧系統中結果不可驗證和過程不審查兩大問題的方法。
  • 圖神經網絡GNN的可解釋性問題與解釋方法最新進展
    可以使用不同的解釋方法來完成。我們已經看到了許多應用於 CNN 的有趣的可解釋性方法,例如梯度歸因(Gradient attribution)、顯著性映射(Saliency maps)或類激活映射(Class activation mapping)等。那麼,為什麼不將它們重新用於 GNN 呢?
  • 谷歌ICML獲獎論文 看像素遞歸神經網絡如何幫圖片「極致」建模 ?
    這要求圖片模型易表達、易處理、可拓展。我們提出一個深度神經網絡,它根據順序沿著兩個空間維度來預測圖片中的像素。我們的模型離散了原始像素值的可能性,同時編碼保證了整個圖片的完整性。建模特性包含二維循環層,以及對深度遞歸網絡連接的有效利用。我們實現了比之前所有的模型都要好的在自然圖片上對數可能性的分數。我們的主要結果也對Imagenet進行分類提供了支撐依據。
  • 谷歌大腦提出概念激活向量,助力神經網絡可解釋性研究
    可解釋性仍然是現代深度學習應用的最大挑戰之一。計算模型和深度學習研究領域近期取得了很大進展,創建了非常複雜的模型,這些模型可以包括數千個隱藏層、數千萬神經元。雖然創建高級深度神經網絡相對簡單,但理解如何創建這些模型以及它們如何使用知識仍然是一個挑戰。
  • 深度學習和經驗主義的勝利
    雖然我警惕這些炒作,但是我也發現了令人興奮的技術,並且最近加入了一個社團,針對回歸神經網絡序列學習發表了 一篇30頁的關鍵評語。 但很多機器學習研究者並不奉承深度。事實上,對於那些利用數學語言和理論保證來挽救人工智慧研究的人抗爭過的人而言,深度學習代表了一種時尚。更糟糕的是,對於一些人來說,它似乎是一種倒退。
  • 數學院等通過調控網絡數學建模揭示幹細胞分化關鍵轉錄因子
    數學院等通過調控網絡數學建模揭示幹細胞分化關鍵轉錄因子 2019-03-01 數學與系統科學研究院 這一成果提出了利用匹配的基因表達和染色質可及性數據刻畫轉錄因子和調控元件結合調控下遊基因表達的數學模型,構建了描繪細胞狀態轉化的染色質調控網絡,通過網絡分析鑑定出TFAP2C和p63分別為表面外胚層起始和角質形成細胞成熟的關鍵因子,並揭示了譜系定型過程中TFAP2C-p63對表觀遺傳轉換的反饋調節機制。
  • NeurIPS 2019:兩種視角帶你了解網絡可解釋性的研究和進展
    在 NeurIPS 2019 上,有些學者在網絡的可解釋性上發表了自己的研究。以下就兩篇論文從兩種不同的角度來描述研究者們對於泛化能力的理解和解釋。深度網絡的降維過程將數據降維到一個彎曲流形的空間,而不是線性空間,這也可以在一定程度上表明網絡的泛化性能。筆者認為,僅僅用 ID 這個統計量來解釋網絡性能當然還是不夠的,但是這並不妨礙通過 ID 來指明之後網絡訓練或者測試的提升方向。
  • 神經網絡原來是這樣和數學掛鈎的
    即便從鄰近的神經元接收到很大的刺激,或者軸突連接著其他多個神經元,這個神經元也只輸出固定大小的信號。點火的輸出信號是由0 或1 表示的數字信息。將神經元的工作在數學上抽象化,並以其為單位人工地形成網絡,這樣的人工網絡就是神經網絡。將構成大腦的神經元的集合體抽象為數學模型,這就是神經網絡的出發點。
  • 深度學習的可解釋性研究(一):讓模型「說人話」
    所以在一定程度上,我們認為決策樹模型是一個具有比較好的可解釋性的模型,在以後的介紹中我們也會講到,以決策樹為代表的規則模型在可解釋性研究方面起到了非常關鍵的作用。再以用戶最不友好的多層神經網絡模型為例,模型產生決策的依據是什麼呢?
  • 結合神經網絡,提升ImageNet分類準確率且可解釋
    BAIR公布神經支持決策樹新研究,兼顧準確率與可解釋性。隨著深度學習在金融、醫療等領域的不斷落地,模型的可解釋性成了一個非常大的痛點,因為這些領域需要的是預測準確而且可以解釋其行為的模型。然而,深度神經網絡缺乏可解釋性也是出了名的,這就帶來了一種矛盾。
  • 張江:從圖網絡到因果推斷,複雜系統自動建模五部曲
    首先它太過簡單,以至於很難解釋更多的複雜現象,也很難與真實數據去做擬合,預測的精度也會較低。比如人工股票市場,雖然它構建了一套機制,使得整個系統能夠與真實股票漲落趨勢非常接近,但實際上,這套機制與真實市場中的個體行為是完全無關的,所以不能用來做真實預測。其次,人工模型的構建與否建模者的個人經驗非常相關,它沒有統一的建模規則,非常依賴建模者的能力和啟發性思考。
  • PNAS 報導基因調控網絡建模新進展
    近日,國際權威學術期刊《PNAS》在線發表了由中國科學院數學與系統科學研究院和美國史丹福大學、清華大學等單位的科研人員合作的基因調控網絡建模的研究成果
  • 蔣軒軒:我的中國研究生數學建模競賽獲獎經驗分享
    蔣軒軒在本次研究生數學建模競賽中提交的作品題目是「能見度估計與預測」,文章以殘差網絡和LSTM神經網絡為基礎,針對機場團霧模型及其拍攝數據進行了量化分析和研究,在對各類數據進行預處理時,運用了DirectShow技術、離散化處理、離群點剔除等方法。
  • 科學精神的緣起:經驗主義和理性主義
    古希臘人最眾不同的一點是,他們非常酷愛抽象思考,習慣對世界建模,擅長形上學的「理性主義」思辨。 這是古代世界裡最富有創造性的實驗之一,這件事絕對不會發生在古巴比倫,古希臘人不喜歡「盲模型」,他們用狂野的建模策略在天文學領域得出了更富遠見的成果。
  • 神經網絡模型預測值 論文_bp神經網絡預測模型建模步驟 - CSDN
    這樣,輸入門決定輸入的信息有多少可以被疊加到當前門值。輸出門決定有多少輸出信息是可以傳遞到後面的神經網絡中。遺忘門並不是和輸出神經元的先前值相連接,而是,和前一記憶神經元相連接。它決定了保留多少記憶神經元最新的狀態信息。因為沒有和輸出相連接,以及沒有激活函數在這個循環中,因此只會有更少的信息流失。
  • 神經網絡如何完成表徵?
    眾所周知,它們在解決有關泛化性方面的複雜任務中表現良好。從數學上講,他們非常擅長近似任何的複雜函數。讓我們形象化地理解這種近似概念,而不是前向和後向傳播方法中的最小化預測誤差。假設你了解前向和後向傳播的一點基礎,其旨在藉助梯度和網絡中的錯誤傳播來近似函數。讓我們通過另一種視覺解釋來理解神經網絡的近似能力。其中涉及基礎數學和圖形分析。
  • 頂會見聞系列:ICML 2018(下),能量、GAN、監督學習、神經網絡
    他討論了物理和 AI 之間的聯繫(比如能源,熵,信息,比特,最小可描述長度原理等),包括模型方面和能源成本方面。當前的模型(如深度神經網絡)需要大量的能量。從物理能量(建模)思想出發推導出深度學習的一個貝葉斯形式,能帶來(現實中)更能源高效的模型。最終這些事情都能一一連接起來。這裡有一個他關於該主題的另一個報告,與 ICML 的這個報告相比有較大不同。
  • 算法之「算法」:所有機器學習算法都可以表示為神經網絡
    如果把神經網絡看作是概念而非嚴格的算法,一個有趣的推論就應運而生了:任何機器學習算法,無論是決策樹還是k近鄰,都可以用神經網絡表示。直覺上,我們可以通過幾個例子理解,更嚴謹地講,這種說法也可以通過數學方法證明。我們先來定義一下什麼是神經網絡:它是一個體系結構,包括輸入層、隱藏層和輸出層,各層的節點之間互相連接。
  • CVPR 2019 神經網絡架構搜索進展綜述
    這種智能體通常是用循環神經網絡實現的,它的目標是尋找能夠獲得更高收益的神經架構。其他的搜索算法還包括基於梯度的優化(所有可能的架構組成一個巨大的圖,每條邊有一個可學習的實值,代表每個block被使用的概率)、貝葉斯優化(搜索空間由某種啟發函數貫穿,這種啟發函數可以是用於預測採樣模型準度的代理損失函數)等等。
  • 「符號數學」終於向「神經網絡」屈服:AI 學會數學證明了?
    Facebook人工智慧研究小組工作的計算機科學家,公開了第一個成功用神經網絡解決符號數學問題的方案 他們將數學表達式轉換為樹狀結構,然後訓練網絡在符號當中找到有關解的線索 這種方法可以充當數學家的助手,通過識別已知猜想中的模式為一個之前存在的問題提供幫助 更加令人興奮的是,這種神經網絡有可能幫助揭開神經網絡本身黑匣子的秘密