NIPS 2018 | 哪種特徵分析法適合你的任務?Ian Goodfellow提出顯著...

2021-01-11 百家號

選自arXiv

作者:Julius Adebayo、Ian Goodfellow等

機器之心編譯

參與:Geek AI、張倩

顯著性方法被廣泛應用於突出輸入中與學到的模型的預測結果相關的特徵。現有的顯著性方法通常是以圖像數據的視覺吸引作為指導的。本文提出了一種可行的方法來評估一個給定的方法能夠/不能提供什麼樣的解釋。研究發現,僅僅依賴於視覺的評估可能會產生一些誤導性的結果。通過大量實驗,研究人員證明了一些現有的顯著性方法獨立於模型和數據生成過程。因此,在本文測試中表現較差的方法不能夠勝任那些對數據或模型敏感的任務。

隨著機器學習的複雜度和影響力不斷提升,許多人希望找到一些解釋的方法,用於闡釋學得模型的重要屬性 [1, 2]。對模型的解釋可能有助於模型滿足法規要求 [3],幫助從業人員對模型進行調試 [4],也許還能揭示模型學到的偏好或其他預期之外的影響 [5, 6]。顯著性方法(Saliency method)是一種越來越流行的工具,旨在突出輸入(通常是圖像)中的相關特徵。儘管最近有一些令人振奮的重大研究進展 [7-20],但是解釋機器學習模型的重要努力面臨著方法論上的挑戰:難以評估模型解釋的範圍和質量。當要在眾多相互競爭的方法中做出選擇時,往往缺乏原則性的指導方針,這會讓從業者感到困惑。

本論文提出了一種基於隨機化檢驗(randomization test)的可行方法來評估解釋方法的性能。作者在神經網絡圖像分類任務上分析了一些顯著性方法。實際上,本論文提出的方法論適用於任何解釋方法。而且本文提出的隨機化檢驗是很容易實現的,可以幫助人們評估某個解釋方法對手頭任務的適用性。

研究者在大量實驗研究中,將該方法論應用到了大量現有的顯著性方法、模型架構和數據集上。令人吃驚的是,一些被廣泛採用的顯著性方法是獨立於訓練數據和模型參數的。因此,這些方法對依賴模型的任務(如調試模型)或依賴數據顯示出的輸入和輸出之間關係的任務沒有太大幫助。

為了說明這一點,圖 1 將標準顯著性方法的輸出和一個邊緣檢測器的輸出進行了對比。邊緣檢測器不依賴於模型或訓練數據,但它會產生與顯著圖(saliency map)在視覺上相似的結果。這表明,基於視覺效果的檢查方法在判斷某種解釋方法是否對底層的模型和數據敏感時指導意義較差。

圖 1:一些常用方法與邊緣檢測器的顯著圖對比。上圖顯示了在 ImageNet 上訓練的 Inception v3 模型 3 個不同輸入的顯著性掩碼(saliency mask)。可以看到邊緣檢測器產生的輸出與一些顯著性方法的輸出極為相似。實際上,邊緣檢測器也可以產生突出與模型類別預測相關特徵的掩碼。有趣的是,研究者發現與邊緣檢測器最類似的顯著性方法(即 Guided Backprop 及其變體)對本研究的隨機化檢驗最不敏感。

本論文提出的方法源於統計隨機化檢驗,它將自然實驗和人為的隨機試驗進行了對比。研究者重點關注通用框架的兩種實例化:模型參數隨機化檢驗及數據隨機化檢驗。

模型參數隨機化檢驗將顯著性方法在訓練好的模型上的輸出與顯著性方法在一個隨機初始化的、結構相同的未訓練網絡上的輸出進行對比。如果顯著性方法依賴於模型學習到的參數,我們應該期望它的輸出在這兩種情況下會有很大的差異。但是,如果輸出類似,我們可以推斷出顯著性映射對模型的屬性(本例中為模型參數)是不敏感的。特別地,顯著性映射的輸出對於諸如模型調試這樣不可避免地依賴於模型的任務是沒有幫助的。

數據隨機化檢驗將應用於在帶標籤的數據集上訓練的模型的顯著性方法與應用於架構相同但是在我們隨機排列所有標籤的數據集副本上訓練的模型的顯著性方法進行了對比。如果顯著性方法依賴於數據標籤,我們也應該期望它的輸出在這兩種情況下會有很大的差異。然而,顯著性方法對重新排列的標籤的不敏感表明,該方法不依賴於實例(例如圖像)和原始數據中存在的標籤之間的關係。

從更大的範疇上說,任何解釋方法都遵循一系列不變的特性,即不改變方法的輸出的數據和模型的變換。如果我們發現了一種不符合當前任務需求的不變特性,我們可以拒絕該方法。因此,我們的測試可以看作是實際部署方法之前要執行的可用性測試。

本文的貢獻:

我們提出了 2 種易於實現的具體檢驗方法,用於評估解釋方法的範圍和質量:模型參數隨機化檢驗和數據隨機化檢驗。這兩種檢驗方法可以廣泛應用於各種解釋方法。我們對不同的數據集和模型架構上應用的解釋方法進行了廣泛的實驗。並發現一些被檢驗的方法獨立於模型參數和訓練模型所使用的數據的標籤。因此,我們的發現表明,那些在我們提出的測試中表現不好的顯著性方法沒有能力為那些需要對任何模型和數據都適用的解釋方法的任務提供支持。我們通過一系列對於線性模型和一個簡單的 1 層卷積求和池化(sum pooling)架構的分析來說明我們的發現,同時也與邊緣檢測器進行了對比。

論文:Sanity Checks for Saliency Maps

論文連結:https://arxiv.org/pdf/1810.03292v1.pdf

摘要:顯著性方法已經成為了一種流行的工具,被用於突出輸入中被認為與學到的模型的預測結果相關的特徵。目前研究人員提出的顯著性方法通常是以圖像數據的視覺吸引作為指導的。本文提出了一種可行的方法來評估一個給定的方法能夠提供/不能提供什麼樣的解釋。我們發現,僅僅依賴於視覺的評估可能會產生一些誤導性的結果。通過大量的實驗,我們證明了一些現有的顯著性方法獨立於模型和數據生成過程。因此,在我們的測試中表現較差的方法不能夠勝任那些對數據或模型敏感的任務(例如找出數據中的異常值、解釋輸入和模型學到的輸出之間的關係以及對模型進行調試)。我們通過與圖像的邊緣檢測器(一種既不需要訓練數據也不需要模型的技術)進行類比對我們發現進行說明。線性模型和單層卷積神經網絡場景下的理論能夠支持我們實驗中的發現。

研究方法和相關工作

在本文提出的方法的形式化定義中,輸入為向量 x ∈ R^d。模型描述了一個函數 S : R^d → R^C,其中 C 是分類問題中的類別數。解釋方法會提供一個解釋映射 E : R^d → R^d,它將輸入映射到形狀相同的物體上。

現在,我們將簡要描述一下我們所研究的一些解釋方法。文章的補充材料包含了對這些方法更加深入的概述。我們的目的不是詳盡地評估所有先前的解釋方法,而是要強調我們的方法如何應用於一些我們很感興趣的案例。

對輸入 x 的梯度解釋(gradient explanation)是 E_grad(x) = S/x [21, 7]。梯度量化了在每個輸入維度上的變化量會在輸入的一個小的鄰域內如何改變預測結果 S(x)。

梯度輸入。另一種形式的解釋是輸入和梯度之間的內積,記做 x·S/x,它可以解決「梯度飽和」問題並減少視覺擴散 [12]。

積分梯度(IG)也通過對標準化後的輸入求和來處理梯度飽和問題。對於輸入 x 的 IG 可以表示為

,其中 x^ 是一個「基線輸入」,表示原始輸入 x 中缺失的特徵。

導向反向傳播(GBP)[8] 建立在解釋方法「DeConvNet」[9] 的基礎上,並且和負梯度向設置為 0 、通過 ReLU 單元進行反向傳播的梯度解釋相一致。

由 Selvaraju 等人 [18] 提出的導向 GradCAM 解釋對應於 DNN 最後的卷積單元的特徵映射組成的分類得分(logit)的梯度。對於像素級力度的 GradCAM,可以通過元素積與導向方向傳播結合在一起

SmoothGrad(SG,平滑梯度)[15] 試圖通過對輸入的帶噪聲的副本的解釋進行平均,以減少顯著性映射的噪聲、緩解視覺擴散現象 [13,12]。對於給定的解釋映射 E,SmoothGrad 被定義為

,其中,噪聲向量的元素

為從正態分布中提取的獨立同分布的變量。

模型參數的隨機性檢驗

圖 2:在 Inception v3(ImageNet)上的級聯隨機性。此圖顯示了 Junco 鳥的原始解釋結果(第一列)以及每種解釋類型的標籤。從左到右的過程顯示了網絡權值(以及其他可訓練的變量)全部的隨機性,直到包含「塊」。我們展示了隨機性的 17 個塊。坐標(Gradient,mixed_7b)顯示的是從 Logits 開始直到 mixed_7b 的頂層已經被重新初始化的網絡的梯度解釋。最後一列對應於一個權值完全重新初始化的網絡。更多示例請參見附錄。

圖 3:級聯隨機性。對於 ImageNet 上的 Inception v3 模型、 Fashion MNIST 數據集上的卷積神經網絡、MNIST 數據集上的多層感知機的從頂層開始的權值連續重初始化過程。在所有的圖中,y 坐標是原始解釋和由直到該點所代表的層/塊的隨機性所推導出的隨機解釋之間的秩相關性,而 x 坐標則與 DNN 從輸出層開始的層/塊相對應。黑色的虛線代表網絡的連續隨機化由此開始,它處於模型的頂層。上面一排是帶絕對值的 Spearman 秩相關性,下面一排是不帶絕對值的 Spearman 秩相關性。說明:對於不帶絕對值的 ImageNet 上的 Inception v3 模型,積分梯度、梯度輸入和梯度重合。對於 MNIST 數據集上的多層感知機模型,積分梯度和梯度輸入重合。

數據的隨機性檢驗

圖 5:對真實模型和用隨機標籤訓練的模型的解釋的對比。左上角:將 用於卷積神經網絡的 MNIST 測試集中數字 0 的掩膜的絕對值可視化結果。右上角:用各種顏色顯示的用於卷積神經網絡的 MNIST 測試集中數字 0 的顯著性掩膜。

圖 21:對 Corn 進行獨立隨機性測試

圖 23:對在 MNIST 數據集上訓練的 CNN 分別進行獨立、連續的重初始化工作。

圖 27:應用在一維卷積求和模型上的顯著性方法。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

相關焦點

  • 大咖| GAN之父Ian Goodfellow在Quora:機器學習十問十答
    本次互動吸引了將近2萬Quora用戶的參與,兩人總共回答了網友提出的35個機器學習相關的問題。大數據文摘從中精選出10個問題,從機器學習入門到深入探討都有涉及,帶你了解大佬眼中的機器學習。當然,我們也摘錄了Ian Goodfellow對他的「愛子」GAN的點評。
  • 一文告訴你,NIPS 2017有多火爆 | 附PPT、視頻、代碼大總結
    它為你提供了一種以概率方式描述問題的途徑,這是現實世界的自然表現。你可以在參數、模型輸入和輸出中編碼不確定性,並獲得一組程序執行的預估痕跡。通過簡單預測風格向量的標量權重,完全連接層被用來決定應該將在哪種類型的文本注意(textattention)和風格注意(style attention)進行混合。
  • 自Ian Goodfellow之後,GANs還有哪些開拓性進展?
    在這篇總結裡,我們一起來看看3篇基於Ian Goodfellow在2014年發表的開拓性工作的文章。 生成對抗網絡(GANs)概述 我在之前的博文,《9篇你要知道的深度學習論文》,裡提到過Ian Goodfellow生成對抗網絡的論文。那些網絡模型大致是,你有兩個模型,一個生成模型(generative model)和一個辨別模型(discriminative model)。
  • Ian Goodfellow:GAN相比其他生成模型的優缺點及應用
    自2014年 Ian Goodfellow 提出生成對抗網絡(GAN)的概念後,生成對抗網絡便成為了學術界的一個火熱的研究熱點,Yann LeCun更是稱之為「過去十年間機器學習領域最讓人激動的點子」。
  • 人物 | Ian Goodfellow親述GAN簡史:人工智慧不能理解它無法創造的東西
    Ian Goodfellow 說:「這會促進人工智慧學習真實存在的世界結構。」「如果人工智慧對世界的想像包含真實細節,即懂得如何生成真實的圖像和聲音,這會促進人工智慧學習真實存在的世界結構。」Goodfellow 解釋說。「世界結構可以幫助人工智慧理解其看到的圖像或聽到的聲音。」
  • Ian Goodfellow推特小課堂又開課啦:數學求導的小技巧
    大數據文摘作品作者:小魚、蔣寶尚最近,Ian Goodfellow不斷在推特和大家分享一寫學習的小技巧。Goodfellow稱,他最喜歡用超實數(hyperreal numbers)來求導數。註:超實數是一個包含實數以及無窮大和無窮小的域,它們的絕對值分別大於和小於任何正實數。
  • NIPS 2016精華大盤點丨吳恩達、LeCun等大師的論文、PPT都在這兒...
    看到這裡,你一定想仔細瞅瞅 Yann LeCun 的 75 頁 PPT 吧?關注雷鋒網旗下的人工智慧垂直微信公眾號【AI科技評論】,在公眾號後臺回復關鍵詞「大師」,獲取PPT。Yoshua Bengio 得意門生:Ian Goodfellow
  • 「GAN之父」Goodfellow與網友互動:關於GAN的11個問題(附視頻)
    演講視頻的前20分鐘整理出《「GANs之父」Goodfellow 38分鐘視頻親授:如何完善生成對抗網絡?(上)》,其中Goodfellow主要講述了什麼是 GAN 和 DCGANs、模型崩潰、小批量特徵、文本轉圖像等問題。本文是後18分鐘視頻的內容,主要是 Goodfellow 回答網友提問,總共有11個問題。本文由雷鋒網三川、亞萌聯合編譯。CNN、GANs 和 DBN(Deep Belief Network)之間區別是什麼?
  • 騰訊AI Lab 20 篇論文入選 NIPS2018,含 2 篇 Spotlight
    文中提出了一種新穎的部件神經網絡,它描述了如何從環境和任務來組成強化學習策略的元規則。值得注意的是,這裡的主要挑戰之一是環境和任務的特徵描述必須與元規則一起學習。為此,研究者又進一步提出了新的訓練方法來解鎖這兩種學習任務,使得最終的特徵描述不僅成為環境和任務的獨特籤名,更成為組建策略的有效模塊。
  • 時尚先生馬寧Ian型男街拍 搭配2018國際流行色
    近日,時尚先生,Mr.colorful顏色先生時尚品牌創始人,中泰文化交流大使,國際整體形象管理專家馬寧Ian發布2018國際流行色的幾套型男街拍造型!  馬寧ian告訴小編今年年底Mr.colorful顏色先生時尚品牌的服裝系列即將推出!敬請大家期待哦!
  • NIPS 2018人工智慧假肢挑戰賽結束,百度Firework團隊奪得第一
    雷鋒網 AI 科技評論消息,距 NIPS 2018 召開還有不到一個月的時間,NIPS 2018 上的各種技術挑戰賽也接近尾聲。關於挑戰賽的詳細信息,請參見:距 NIPS 2018 還有小半年,會上的各種挑戰賽已經開始啦在上周結束的 2018 人工智慧假肢挑戰賽(AI for Prosthetics Challenge)中,來自中國百度的技術團隊 Firework 一舉擊敗全球 400 多支參賽團隊,以 9980.46 的得分奪得冠軍,領先第二名高達 30 多分。
  • 「MECE分析法」—提升職場競爭力,助你走向成功的極簡主義法則
    提升職場競爭力,先要理清自己的思路職場中,你是否有過這樣的感覺?同樣的工作內容,同事總能完成的很好,而你卻總是錯誤百出;同時入職公司,同事早已做成主管,而你卻只能每天重複著機械的工作內容,做一個小職員;你想過奮發圖強,努力奮鬥,卻不知道自己該做什麼。我的一個好友,工作朝九晚五。
  • KDD 2018:滴滴提出WDR模型顯著提升ETA預測精度
    四篇論文分別是(文末附論文打包下載地址)Kaixiang Lin (Michigan State University); Renyu Zhao (AI Labs, Didi Chuxing); Zhe Xu (AI Labs, Didi Chuxing); Jiayu Zhou (Michigan State University)Yaguang Li (
  • UC伯克利 NIPS 2018 Spotlight論文:依靠視覺想像力的多任務強化...
    雷鋒網 AI 科技評論按:NIPS來自加州大學伯克利分校人工智慧實驗室(BAIR)的研究人員分享了他們獲得了 NIPS 2018 spotlight 的研究成果:Visual Reinforcement Learning with Imagined Goals。他們提出了一種只需要圖片即可進行視覺監督的強化學習方法,使得機器人能夠自主設定目標,並學習達到該目標。
  • 5W2H分析法:接到一個任務無從下手?這個方法讓你輕鬆搞定無壓力
    接到一個任務無從下手?掌握5W2H分析法,讓你輕鬆搞定無壓力有時候突然接到甲方爸爸或老闆一個必須完成的任務,聽完看完對面總結模糊性的概括:拍一個高質量的火爆視頻、寫一篇10W+的帶貨軟文,諸如這種只說高期待結果式的任務,
  • 心理所運用眼動軌跡分析法檢驗風險決策模型
    >符合加權求和過程的基線任務和被試自主的風險決策任務)中的眼動特徵差異,探索風險決策是否遵循加權求和過程。為評估眼動軌跡分析法是否適用於風險決策的模型檢驗,研究人員建立了一套標準化步驟用以計算、比較並可視化兩類風險決策任務中的眼動軌跡,繼而檢驗了風險決策是否遵循加權求和的過程。
  • 2018年襪子流行趨勢,眾多風格,哪種適合您!
    導語:2018年襪子流行趨勢,眾多風格,哪種適合您!在炎熱的季節穿襪子曾經是絕佳的禁忌。然而隨著時間的流逝和時尚步入一個嶄新和更加慷慨的時代,我們被允許帶著極大的信心和掌握力來運動,2018年夏天的襪子流行趨勢。
  • 在網際網路產品設計或問題處理中,MECE分析法的應用
    1.定位bug的原因及情況,提出解決修複方案中就會經常應用到。當定位解決bug的目標是什麼後,經常就會利用MECE分析法分析各種產生bug的原因,就需要把握MECE原則「相互獨立,完全窮盡」,對問題進行分類,這對於對於我們尋找問題的原因提出了不同的假設,避免問題的遺漏,同時更容易找到影響目標的關鍵因素。2.在網際網路產品設計中,分類標籤中應用。
  • 「GANs之父」Goodfellow 38分鐘視頻親授:如何完善生成對抗網絡...
    演講嘉賓有100多人,其中就有「GANs之父」Ian Goodfellow。這個會議由於是網絡播出,所以有完整錄像,雷鋒網對比Ian Goodfellow在NIPS的演講內容,二者十分相仿,故在此將此次會議的視頻搬運給大家,並附上中文圖文詳解(PS:本文由亞萌和三川共同編輯完成)。
  • 德爾菲法與層次分析法的使用
    ; 基金: 2018年度國家社科基金重大招標課題 (教育學) 「建設教育強國的國際經驗與中國路徑研究」 (VGA180002) ;項目主持人:周洪宇。原文引用請下載:劉大偉,周洪宇,陳俊.中國教育智庫評價指標體系構建——一項基於德爾菲法與層次分析法的研究[J].教育學術月刊,2019(02):29-35.