NeurIPS 2019:兩種視角帶你了解網絡可解釋性的研究和進展

2021-01-09 機器之心Pro

機器之心分析師網絡

分析師:立早

編輯: H4O

一直以來,深度網絡在圖像識別,檢測,語言等領域都有強大的能力。研究者們的重點都在如何提升網絡性能上,很少有人能說清楚深度神經網絡為何能夠得到較好的泛化能力,有的研究者習慣從原理上來說明這個問題,有的研究者則會從中間結果來解釋,當然這些觀點都各有千秋。在 NeurIPS 2019 上,有些學者在網絡的可解釋性上發表了自己的研究。

以下就兩篇論文從兩種不同的角度來描述研究者們對於泛化能力的理解和解釋。

論文 1:Intrinsic dimension of data representations in deep neural networks

論文連結:https://arxiv.org/pdf/1905.12784v1.pdf

對於一個深度網絡,網絡通過多層神經層漸進的轉換輸入,這其中的幾何解釋應該是什麼樣的呢?本文的作者通過實驗發現,以固有維度(ID:intrinsic dimensionality)為切入點,可以發現訓練好的網絡相比較未訓練網絡而言,其每層的固有維度數量級均小於每層單元數,而且 ID 的存在可以來衡量網絡的泛化性能。

1 首先,ID是什麼?

ID 是描述數據信息所需要的最小的且不造成重要信息損失的維度。目前的深度神經網絡中,我們普遍的都知道過量的參數導致了模型的過參數化,帶來了冗餘信息,神經網絡壓縮就是由此產生的。那麼,有沒有什麼定量的統計量來顯示網絡的複雜度或者評估網絡呢,本文就是以固有維度為切入點來探索該統計量和模型泛化能力之間的關係。

2 ID 的評估方法

作者用 TwoNN 這個方法來估計 ID,TwoNN 的簡單流程如下圖所示。

圖 1:TwoNN 估計 ID 的流程。

圖 1 左圖表示的是某神經網絡第二層的兩個維度的數據點集,右圖是運用 TwoNN 算法簡要估計 ID 的流程。首先,TwoNN 算法隨機採樣一個數據點,並通過計算距離選取出這個數據點對應的最近鄰(r1)和其次近鄰(r2),計算這兩個鄰居之間的比值。通過概率分布估算出這個比值的分布,最後通過多次採樣計算估算出數據的 ID,例如,在圖 1 中的數據中 ID 約為 1。

當 ID 在 20 以下的時候,TwoNN 算法可以無限的逼近真實的 ID。而 ID 的真實數值較大,且僅有有限的採樣數據的時候,TwoNN 估計出來的 ID 是小於真實值的。因此,在這個情況下,利用 TwoNN 估計出來的 ID 值可以看做一個真實 ID 值的下界。

3 實驗結果和結論

以上是對 ID 的介紹以及評估方法的介紹。利用這個估算方法,本文。但是,總的來說本文的重點部分就是通過對 ID 的研究,回答如下的幾個問題。

在 CNN 網絡中,不同的 layer 之間,ID 是否會變化?ID 和網絡的線性維度是否有區別?ID 和網絡泛化性能之間是否有聯繫?

接下來,我們來一個個的回答如上的三個問題。

問題 1:在 CNN 網絡中,不同的 layers 之間,ID 是否會變化?

首先,作者在 VGG-16 上用 ImageNet 預訓練,並在一個 1440 張的綜合數據集上微調,得到如下圖所示的曲線。

圖 2:ID 在不同的 layer 之間的變化。

從圖 2 中,我們可以明顯的看到,ID 在不同層之間是有個先上升後下降的過程。尤其是在最後一層,ID 達到一個最小的量級。

圖 3:ID 和絕對深度、相對深度的關係。

在圖 2 中,我們已經發現 ID 在層級之間是夠「駝背」的樣式,那麼這個駝峰的出現是和絕對深度還是相對深度有關呢?

圖 3 可以回答這個問題,在圖 3 的右圖中,我們可以發現這個趨勢跟相對深度有關,基本的駝峰出現在 0.2-0.4 的相對深度之間。當然從圖 3 的大量實驗,也更能佐證圖 2 的 ID 和層之間的趨勢。

問題 2:ID 和網絡的線性維度是否有區別?

為了回答第二個問題,作者選用了 PCA 作為線性降維的方法來和 ID 對比。

圖 4:PCA 和 ID 與模型數據降維之間的關係。

在圖 4A 中,PCA 的特徵值譜中出現了一個間隙,這個可以表明數據降維之後並不在一個線性的空間中,而是一個彎曲流形中。

問題 3:ID 和網絡泛化性能之間是否有聯繫?

圖 5:網絡最後一層 ID 和精度之間的關係。

圖 5 是作者在一系列的網絡實驗中,以精度為衡量指標,計算不同網絡最後一層的 ID。我們可以看到這個趨勢大概是一個線性的關係。這就表明,最後一層的 ID 跟網絡的測試精度之間是存在這緊密的聯繫的,那是否也可以換句話說,該層的 ID 可以表明網絡的泛化性能。

4 討論

作者還做了很多的其他輔助的實驗,比如以上的結論在未訓練的網路上不成立,在隨機的標籤 labels 上訓練出來的網絡中也不成立等等。但是,總的來說作者還是集中在是三個問題。

ID 可以用來表明網絡中的信息。其趨勢表現為層級之間的先上升後下降。網絡的泛化性能可以用 ID 來衡量,也就是最後一層的 ID。深度網絡的降維過程將數據降維到一個彎曲流形的空間,而不是線性空間,這也可以在一定程度上表明網絡的泛化性能。

筆者認為,僅僅用 ID 這個統計量來解釋網絡性能當然還是不夠的,但是這並不妨礙通過 ID 來指明之後網絡訓練或者測試的提升方向。比如說,我們是否可以用 ID 的趨勢來判斷一個網絡設計的是夠合理,訓練的是否充分呢,或者又比如說,我們還能夠通過最後一層的 ID 來初步評估網絡的泛化性能呢?

論文 2:This Looks Like That: Deep Learning for Interpretable Image Recognition

論文連結:https://arxiv.org/pdf/1806.10574.pdf

當人遇到圖像判斷的時候,總是會分解圖片並解釋分類的理由,而機器在判斷的時候總是跟人的判斷會有些差距。本文旨在縮小機器分類和人分類之間的差距,提出了一個 ProtoPNet,根據人判斷的機理來分類圖像。本文網絡通過分解圖像,得到不同的原型部分,通過組成這些信息最終得到正確的分類。

1 人怎麼分類?This looks like that

圖 1:怎麼判斷這個鳥的種類?

圖 1 顯示的是一個褐雀鵐,那麼你怎麼判斷出來的呢?通常來說,我們會回答,它的頭部、它的翅膀部分很像一個典型的褐雀鵐。這個時候,你會發現在人類的判斷機制中,我們是著重關注圖像的幾個部分並且跟給定的物種典型的部分來對比。這就是所謂的「這個看上去像那個」。

2 ProtoPNet怎麼學習人?

既然人是通過 this looks like that 來解釋的,那麼機器學習的模型是否可以模仿這個過程來解釋模型推理的依據呢?本文提出的 ProtoPNet 就是從推理的可解釋性角度來處理圖像。該網絡的結構如下圖所示:

圖 2:ProtoPNet 網絡結構。

如圖 2 所示,輸入一張推理圖片,輸出分類的結果。該網絡主要由卷積網絡 f,原型層(prototype layer)以及一個全連接層 h 組成。

卷積網絡 f:在卷積網絡部分,網絡可以是 VGG,ResNet 等經典結構,並且以 ImageNet 的預訓練參數初始化。假設輸入圖像的大小為 224*243,通過卷積網絡輸出的大小為 HWD(e.g H=W=7),令 z=f(x) 表示卷積輸出。這一部分也就是常見的特徵提取作用。

原型層(prototype layer):在 prototype layer 部分,網絡學習了 m 個原型 P,這些原型 P 以卷積層的特徵圖為輸入,經過 m 組的卷積網絡得到不同 patch 的原型激活值,該原型激活圖的大小在本文中為 h=w=1。不同的原型 p 可以表示不同的典型部位,計算 pj 和 z 之間的 L2 距離,並將這個距離轉換為相似度分數。這種由分數表示的激活圖表明了圖像中的典型部分的顯著強度。

全連接層 h:經過前面的提取特徵並聚類到原型得到相似度分數後,m 個相似度分數通過全連接層 h,得到最終的輸出單元,經過 softmax 之後得到預測概率,分類圖片結果。

本文在訓練這個網絡的時候,通過對以下三個步驟迭代的進行優化完成網絡更新。

除了最後一層前面運用 SGD典型特徵的映射過程最後一層的凸優化

3 網絡的可解釋性

在第二部分,我們概述了這個網絡的結構部分並且解釋了每個部分的作用和組成,但是我們並不知道這個網絡為什麼能學習人的解釋機制呢?那麼接下來,我們來看看如何通過這個網絡的前向來描述這個網絡的解釋原理。

圖 3:網絡的解釋過程。

如圖 3 所示,最上面的是一張測試圖片。在網絡的推理過程中,為什麼可以判定為一個紅腹啄木鳥而不是紅頂啄木鳥呢?

圖 3 的左半部分是網絡判斷測試圖片為紅腹啄木鳥的依據。

第一列的三張圖為測試照片的經過網絡圈出來的典型部分,第二列和第三列表示的是訓練圖片中的原型,第四列為激活特徵圖顯示測試圖像中的原型所在的顯著性位置。

在第二列和第三列我們可以看到三個典型的特徵部分,頭部,翅膀以及喙。當網絡通過卷積層 f 提取特徵之後,並通過原型層得到這些顯著特徵之後,網絡通過對這些典型分數進行加權求和(也就是全連接層),最終網絡得到判斷為紅腹啄木鳥的置信度得分 32.736。

同樣,圖 3 的右邊是判斷為紅頂啄木鳥的置信度分數為 16.886。通過選取最大的 softmax 的數值,網絡可以得出這個測試圖像的最終分類。這一個過程也就是網絡在推理過程中,looks like 可以得到很好的解釋。

4 實驗對比

作為一個解釋性的網絡,並不代表網絡本身的推理(識別)能力不強,作者在這個角度上做了如下的對比實驗。

圖 4:ProtoPNet 和其他網絡的性能對比。

網絡主要以沒有解釋功能的網絡為主,也就是識別網絡,比如常見的分類網絡。圖 4 上半部分對比沒有可解釋性功能的網絡例如 VGG16,ResNet34 等等,ProtoPNet 精度下降約 3.5%。但是,通過增加合適的原型數量,ProtoPNet 還是可以提升性能的。

而與其他研究者提出的解釋網絡相比,圖 4 下半部分對比這些網絡的識別性能,比如關注目標層面的 CAM,關注部分注意力的 Part R-CNN,ProtoPNet 利用部分層次注意力和原型之間的結合,能達到一個比較好的結果。

總而言之,本文的解釋性網絡不僅僅在解釋網絡的判別原理,而且根據這個原理能夠達到一個較好的識別精度。在我看來,通過對比 ProtoPNet 和不同網絡性能,驗證了作者論述的,ProtoPNet 不僅僅關注實例層或者僅僅關注部分信息,而是結合了部分層次以及原型 case 之間的信息,才能在解釋和識別之間達到一個很好的平衡。

5 總結

本文的主要目的是探索機器模型在推理過程中的為什麼這個問題,其比較別出心裁的參照了人類的「這個看上去像那個」的回答思路,提出的 ProtoPNet,在可解釋性和分類精度上都有不錯的表現。

這兩篇論文均是研究論文可解釋性原理的,只不過論述的角度有所不同。論文 1 從統計學的角度,分析網絡的固有維度,以此來展示網絡的泛化性能。而論文 2 從可視化的角度來展示了這個網絡的推理的功能。這些不同的角度都試圖分析網絡的可解釋性,並給網絡性能的提升提出不同的提升方向。

分析師簡介:立早,工學碩士,研究方向為模式識別。目前從事人臉識別、檢測和神經網絡壓縮方向的工作。希望能夠一直學習,多多交流,不斷進步。

相關焦點

  • 圖神經網絡GNN的可解釋性問題與解釋方法最新進展
    GNN 的流行要比標準神經網絡晚得多。雖然這一領域有很多有趣的研究,但還不是很成熟。GNN 的庫和工具目前仍然處於「實驗階段」,我們現在真正需要的是,讓更多的人使用它來發現 Bug 和錯誤,並轉向生產就緒的模型。創建生產就緒的模型的一種方法是更好地理解它們所做的預測。可以使用不同的解釋方法來完成。
  • 谷歌大腦提出概念激活向量,助力神經網絡可解釋性研究
    可解釋性仍然是現代深度學習應用的最大挑戰之一。計算模型和深度學習研究領域近期取得了很大進展,創建了非常複雜的模型,這些模型可以包括數千個隱藏層、數千萬神經元。雖然創建高級深度神經網絡相對簡單,但理解如何創建這些模型以及它們如何使用知識仍然是一個挑戰。
  • 17篇論文,詳解圖的機器學習趨勢 | NeurIPS 2019
    但缺點就是拓展性不好,作者只在很小的數據集上做了實驗,然後他表示後續研究要解決的一大挑戰就是拓展性問題。       連結:https://kr2ml.github.io/2019/papers/KR2ML_2019_paper_22.pdf最後,論文 11 研究了GNN和馬爾科夫邏輯網絡在邏輯推理、概率推理方面的表現孰強孰弱。
  • 表徵學習、圖神經網絡、可解釋的 AI,ML & 機器人七大研究進展一覽
    最近的一些工作已開始在能夠從數據中學習這種表徵的方向上取得真正的進展,使學習系統能夠自行推斷對象或建立它們能夠用以與此前未見過的位置進行交互的對象和位置的「關係圖」。這項研究目前仍處於初級階段,但是我很渴望看到它的進展,因為我堅信朝著能力更強的機器人方向前進,需要對這個領域有更深入的了解和取得重大的進步。
  • 深度學習的可解釋性研究(一):讓模型「說人話」
    非常開心本文成為 BIGSCity 興趣組的第一篇投稿,《深度學習的可解釋性研究》系列預計包含 3-4 篇內容,用儘可能淺顯的語言帶領大家了解可解釋性的概念與方法以及關於深度學習可解釋性工作的研究成果,不定期更新內容(歡迎催更)。可解釋性是什麼?廣義上的可解釋性指在我們需要了解或解決一件事情的時候,我們可以獲得我們所需要的足夠的可以理解的信息。
  • 人工智慧瓶頸之神經網絡的可解釋探討
    目前,神經網絡可解釋性的研究大多基於數據可視化和代理模型等技術,即在深度神經網絡模型構建前後,對輸入、輸出進行可視化,並依此對神經網絡層進行解釋。這是對深度神經網絡模型可判讀性的研究,其本質上僅涉及到深度學習智能系統安全中的不可驗證問題。換言之,這些工作難以解決其所面臨的不可審查問題。
  • 可奶可狼什麼意思什麼梗? 網絡上對男生兩種性格的評價了解一下
    可奶可狼什麼意思什麼梗? 網絡上對男生兩種性格的評價了解一下時間:2019-09-21 15:18   來源:流行語百科   責任編輯:沫朵 川北在線核心提示:原標題:可奶可狼什麼意思什麼梗?網絡上對男生兩種性格的評價了解一下 這是網絡上對男生兩種性格的評價,奶是指會撒嬌會賣萌的男生,狼是指男友力爆棚給女生安全感的男生。可奶可狼意思是同時具備這兩種性格的男生。 奶少年通常非常英   原標題:可奶可狼什麼意思什麼梗?
  • ICML 2019 | 神經網絡的可解釋性,從經驗主義到數學建模
    其中,微軟研究院的王希廷研究員在 NLP 方向有豐富經驗,王老師和關超宇同學在這個課題上做出了非常巨大的貢獻,這裡再三感謝。大家說神經網絡是「黑箱」,其含義至少有以下兩個方面:一、神經網絡特徵或決策邏輯在語義層面難以理解;二、缺少數學工具去診斷與評測網絡的特徵表達能力(比如,去解釋深度模型所建模的知識量、其泛化能力和收斂速度),進而解釋目前不同神經網絡模型的信息處理特點。
  • NRC發布地球系統可預測性研究與發展研討會摘要
    然而,在更廣泛的現象中繼續加速進展以提供可行的預測需要與用戶深入和持續的互動,了解可預見性和可預測性基礎的理論缺陷,提高建模、目標觀測、計算能力等基礎設施和資助,並特別關注地球系統科學和應用程式的可預測性研究。該研討會的目的是作為一種機制,徵求關於聯邦政府應該採取哪些方向的反饋意見,以提高對這些限制的理解。
  • 投稿NeurIPS無門路?NeurIPS 2019讓圖靈獎得主做你的導師
    NeurIPS2019 讓圖靈獎得主做你的導師創新 │2019-11-21 14:28 來源:北國網 作者:盒雲試想一下,頭一次參加NeurIPS,就由圖靈獎得主當你的導師,由NeurIPS創始人、NeurIPS大會主席、白宮AI報告作者指導你的論文,由DeepMind教授和你討論研究課題,會是什麼體驗?這一切,即將在NeurIPS2019 上真實上演。
  • CVPR 2019 神經網絡架構搜索進展綜述
    手動調參尋找神經網絡架構依然是個有趣的工作,尤其是對於那些帶了很多學生的導師而言(開玩笑啦~)。  神經網絡架構搜索(NAS)——前言那麼問題來了,神經網絡架構搜索(NAS)究竟是什麼?為什麼我們要了解NAS呢?(這一部分是為了去年完全沒有跟進領域內進展的人準備的)NAS的核心思想是使用搜索算法來發現用於解決我們的問題所需要的神經網絡結構。
  • 消費文化視角下的Vlog走紅研究
    在研究對象上,多針對於視頻播放量較多的頭部生產者或明星,而忽視了對整體生產市場的考察;在研究理論上,多採用傳統的傳播學視角,但難以透視Vlog區別於其他視頻類型的特質。 本研究將基於消費文化的視角,通過問卷調查法和訪談法,針對網絡視頻平臺的Vlog作品及其生產者,探究Vlog作品如何吸引受眾從而達到最好的傳播效果,獲得走紅。
  • 生成對抗網絡的最新研究進展
    它們基本上是由兩個神經網絡組成的系統——生成器和判別器,這兩個網絡相互制約。計算機視覺和人工智慧的愛好者 Bharath Raj 近日發布以一篇博文,總結了生成對抗網絡的原理、缺點和為了克服這些缺點所做的研究的最新進展。雷鋒網 AI 科技評論編譯整理如下:
  • 2019 年ML & NLP領域十大研究熱點
    我們看他怎麼說:這篇文章匯總了我認為 2019 年在ML 和 NLP 領域出現的十個最振奮人心和具有影響力的研究方向。針對每個熱點,我會總結在過去一年所取得的主要進展,簡述為何我認為其重要,並對未來做一個小小的展望。
  • 2h演講近140頁PPT,這個NeurIPS Tutorial真是超硬核的AI硬體教程
    機器之心整理參與:一鳴NeurlPS 2019 大會正在加拿大溫哥華召開中。昨日,MIT 教授 Vivienne Sze 在大會上發表了一個關於深度神經網絡加速的演講,大會提供了視頻和同步的 PPT。通過兩個小時的精彩演講和多達 140 頁的 PPT,演講可謂是將神經網絡加速這個快速發展的領域一網打盡。
  • 動量效應研究的最新進展
    摘要:行為金融與傳統金融理論都對動量現象進行了解釋,但一直存在爭論,並且這兩種解釋思路都存在缺陷,也不能合理地解釋中國大陸股市的動量現象。國內外有些學者開始從奈特不確定性角度來研究動量現象,它可以合理地解釋中國股市的動量效應。本文對這方面的研究進展進行了簡述,並對未來的研究進行了展望。
  • 被動陸緣遠端帶基底性質和變形特徵研究獲進展
    中國科學院邊緣海與大洋地質重點實驗室副研究員張翠梅、研究員孫珍與中國海洋石油集團有限公司和法國斯特拉斯堡大學等多家單位的科學家合作,在被動陸緣遠端帶的基底性質和流變特徵研究上取得新進展。相關研究近日發表在《地球化學、地球物理學、地球系統學》。
  • 嚴禁一稿多投:NeurIPS 2019剛剛斃掉了19篇論文
    7 月 25 日至 7 月 31 日是 NeurIPS 2019 論文作者起草並提交論文評審反駁意見的時間。針對目前給出的評審意見,作者們可以進行解釋消解評審的顧慮,抑或澄清審查中可能存在的任何誤解和事實錯誤。隨後,作者的回覆將通知提交給審稿人和大會區域主席(AC)之間進行討論,最終他們會給出評審建議。
  • 我有一個頂會idea還沒做實驗,NeurIPS:先佔坑再實驗!
    最終,論文(計劃書和實驗結果)將在研討會上發布,並發表在PMLR上(可選,PMLR是JMLR的姊妹期刊)。 NeurIPS還指出,預註冊可以讓研究人員的計劃研究變得更容易,即在進行冗長繁複的實驗之前得到有益的反饋,並提高結果的信譽度。最重要的是,這項嘗試將試圖說服人們,即使結果是負面的,我們也能從中學到一些東西。
  • 算法最熱arXiv論文接收率高一倍,NeurIPS2019最全報告+視頻+筆記
    統計數據表明:意見長短符合正態分布,和其他大會沒有多大差別。Rebuttal 真的管用:20% 的論文初始分數得以修改,一半左右的投稿至少改變了一個分數。官方視頻集很重要,你可以找到各種傑出論文解讀、教程和研討會。布朗大學博士生 David Abel 的 70 頁大會筆記乾貨滿滿,結構清晰,非常值得收藏,每一條筆記都記錄了研究背景、主要思想和結論等關鍵內容(連結我們已經放在最後了,記得收好)。