Facebook:易於解釋的神經元可能阻礙深度神經網絡的學習

2020-12-27 機器之心Pro

編輯:張倩、杜偉

易於解釋的神經元對於提升神經網絡的性能來說是必要的嗎?Facebook 的研究者給出了出人意料的答案。

AI 模型能「理解」什麼?為什麼能理解這些東西?回答這些問題對於復現和改進 AI 系統至關重要。但遺憾的是,計算機科學家在解釋深度神經網絡(DNN)方面的能力遠遠落後於我們利用這些網絡獲取有用成果的能力。

理解 DNN 的一類常見方法是聚焦於單個神經元的屬性,如找到一個能夠被貓的圖像而非其他類型的圖像激活的神經元。我們把這種對於特定圖像類型的偏好稱之為「類選擇性(class selectivity)」

選擇性的應用非常廣泛,部分原因在於它直觀、易懂,而且這些類型的神經元其實會自然地出現於多種不同任務上訓練的網絡中。例如,為不同類型圖像分類任務訓練的 DNN 包含針對拉布拉多尋回犬激活最強烈(有選擇性)的單個神經元。為了預測產品評論中單個字母而訓練的神經元包含對積極 / 消極情緒具有選擇性的神經元。

但是,要想讓 DNN 發揮作用,這些易於解釋的神經元真的是必要的嗎?這就好比通過汽車的排氣管來研究其推進系統。儘管排氣管與車速有一定關係,但推動汽車前進的並不是它。那麼,類選擇性到底是「引擎」還是「排氣管」的一部分?

頗為意外的是,Facebook 的研究者發現,有強烈的證據表明即使 DNN 的大部分神經元沒有類選擇性,它也能運轉良好。他們還表示,其實,易於解釋的神經元可能會損害 DNN 的功能並使其更容易受到任意扭曲的輸入的影響。

為了研究這一問題,研究者開發了一種新的技術來直接控制 DNN 神經元的類選擇性。他們的研究結果表明,在理解 DNN 時過度依賴基於直覺的方法可能具有誤導性,如果這些方法沒有經過嚴格的測試和驗證。要完全理解 AI 系統,我們必須尋找那些不僅依靠直覺,還經歷過實驗檢驗的方法。

Facebook 研究者的發現

儘管很多研究者已經將類選擇性當做 DNN 可解釋性的一個工具進行了廣泛的研究,但令人意外的是,很少有人去研究易於解釋的神經元對於 DNN 發揮最佳作用是否必要。最近,部分研究者已經開始了這一問題的探索,但不同的研究給出了不同的結論。

在此背景下,Facebook AI 的研究者通過一種新的類選擇性操縱方法來探索上述問題。在訓練一個圖像分類網絡時,他們不僅指導網絡提高其分類圖像的能力,還添加了一個降低(或提高)神經元中類選擇性程度的激勵。

上圖顯示了操縱類選擇性神經元如何影響 DNN 正確分類圖像的能力(在 Tiny ImageNet 上訓練的 ResNet18)。每個點代表一個 DNN。點的顏色代表類選擇性在 DNN 神經元中被激勵的程度。x 軸表示 DNN 神經元間的平均類選擇性,y 軸表示 DNN 圖像分類的準確性。灰色的點表示中立——既不鼓勵也不抑制類選擇性——表示這種類型 DNN 在自然狀態下的類選擇性發生水平,研究者將其作為一個比較分類準確率的基線。通過抑制類選擇性(藍色點),我們可以將測試準確率提高 2% 以上。相比之下,激勵類選擇性(紅色的點)會對 DNN 的圖像分類能力產生明顯的負面影響。

在具體操作上,研究者通過在用於訓練網絡的損失函數中添加一個類選擇性項來實現這一點。他們使用一個參數來控制類選擇性對於網絡的重要性。通過這個參數可以激勵或抑制易於解釋的神經元,以及激勵 / 抑制的程度。這樣的話,研究者就相當於掌握了一個旋鈕,通過這個旋鈕可以操縱網絡中所有神經元的類選擇性。他們藉助這個旋鈕進行了實驗,以下是實驗的結果:

1. 減少 DNN 的類選擇性對於性能的影響非常小,在某些情況下甚至會帶來性能的提升。這些結果表明,儘管類選擇性在多種任務和模型中普遍存在,但它並不是 DNN 發揮作用所必需的,有時甚至會發揮負面作用;

2. 在增加類選擇性時,可以發現 DNN 性能顯著下降。這一結果表明,類選擇性的存在並不能保證 DNN 的良好運行;

3. 與學術環境相比,部署到現實世界的 DNN 通常要處理更加嘈雜、有挑戰性的數據。研究者發現,減少類選擇性之後,DNN 在處理有噪聲、扭曲的數據時更加穩健。有趣的是,減少類選擇性也使得 DNN 更容易受到針對性的攻擊(故意操縱圖像來欺騙 DNN)。

Facebook 的研究者認為,我們之所以對這些結果感到驚訝,可以歸結為兩方面的原因。首先,由於類選擇性天然地存在於多數 DNN 中,它已經被廣泛地用於理解 DNN 的性能。本文中的研究也表明,在沒有類選擇性操縱的情況下,DNN 自然而然地學習儘可能多的類選擇性,而不會對性能產生負面影響。這就引出了 Facebook 研究者希望在未來工作中回答的一個更深層次的問題:如果類選擇性對良好的表現來說不是必需的,為什麼網絡要學習它呢?

研究意義

研究者希望,他們提出的這個類選擇性旋鈕能夠鼓勵其他研究者利用該技術進一步研究類選擇性在 DNN 中扮演的角色。重要的是,他們開發的理解複雜神經網絡系統的方法是基於有意義的特徵。研究者表示,如果能夠訓練一個沒有貓神經元也能很好地識別貓的 DNN,我們就不應該試圖通過關注貓的神經元來理解 DNN。相比之下,AI 研究者應該更多地關注、分析大群神經元是如何一起工作的。

從更廣泛的意義上來說,研究者認為,他們的研究為將單個神經元特性作為理解 DNN 性能關鍵的方法提了個醒。在得出這些結論之後,他們還考察了一些廣泛使用的可解釋性方法如何產生有誤導性的結果。

為了解決這些問題,他們發表了一篇立場論文來評估兩個個案研究。

本文所討論的內容主要來自以下三篇論文:

《SELECTIVITY CONSIDERED HARMFUL: EVALUATING THE CAUSAL IMPACT OF CLASS SELECTIVITY IN DNNS》

連結:https://arxiv.org/pdf/2003.01262.pdf?fbclid=IwAR3PlRzcoiGXyfjqfySM5ZEQxeQsYkIknQI5PQfKhPe2XdxDtFUp2ohgAO8

《On the relationship between class selectivity, dimensionality, and robustness》

連結:https://arxiv.org/pdf/2007.04440.pdf?fbclid=IwAR0yRDRql1uii1O_kqqa7EP2gFhKKFHkbq1OE0C9YAf8e6kcge6lu7Q9C1s

《Towards falsifiable interpretability research 》

連結:https://arxiv.org/pdf/2010.12016.pdf?fbclid=IwAR0lN7qgvPbV3ZUF5WzHs14g5xSr_QVKP9GuG6tkIhY611jWb79oFG9_sBY

相關焦點

  • Facebook:易於解釋的神經元可能會阻礙深度神經網絡的學習
    易於解釋的神經元對於提升神經網絡的性能來說是必要的嗎?Facebook 的研究者給出了出人意料的答案。AI 模型能「理解」什麼?為什麼能理解這些東西?回答這些問題對於復現和改進 AI 系統至關重要。但遺憾的是,計算機科學家在解釋深度神經網絡(DNN)方面的能力遠遠落後於我們利用這些網絡獲取有用成果的能力。
  • Facbook最新研究:易於解釋的神經元會誤導DNN的學習
    換句話說,計算機科學家解釋深度神經網絡(DNNs)的能力大大落後於我們利用其取得有用結果的能力。 當前理解深度神經網絡的常見做法是在單個神經元特性上「折騰」。例如,激活識別貓圖像的神經元,而關閉其他神經元的「控制變量法」。這種方法的學術術語叫做「類選擇性」。 由於直觀和易理解,「類選擇性」在學界廣泛應用。
  • 《神經網絡和深度學習》系列文章三:sigmoid神經元
    本節譯者:哈工大SCIR碩士生 徐偉 (https://github.com/memeda)聲明:我們將在每周一,周四,周日定期連載該書的中文翻譯,如需轉載請聯繫wechat_editors@ir.hit.edu.cn,未經授權不得轉載。
  • 理解神經網絡:從神經元到RNN、CNN、深度學習
    神經網絡是目前最流行的機器學習算法之一。隨著時間的推移,證明了神經網絡在精度和速度方面,比其他的算法性能更好。並且形成了很多種類,像CNN(卷積神經網絡),RNN,自編碼,深度學習等等。 在理解一個神經網絡之前,有必要去理解神經網絡中的Layer(層),一層Layer是一組有輸入輸出的神經元。每一個神經元的輸入通過其所屬的激活函數處理,例如,這是一個小型神經網絡。
  • 神經網絡與深度學習
    其中有一種很厲害的模型,那就是人工神經網絡。這種模型從早期的感知機發展而來,對任何函數都有較好的擬合性,但自上個世紀90年代一直到2012年深度學習集中爆發前夕,神經網絡受制於計算資源的限制和較差的可解釋性,一直處於發展的低谷階段。
  • 斯坦福CS231N深度學習與計算機視覺第六彈:神經網絡結構與神經元激勵函數
    QQ群(鑑於微信人數限制問題)組織進行學習交流。特別說明:實際生物體內的神經元相當複雜,比如說,神經元的種類就灰常灰常多,它們分別有不同的功能。而加和信號之後的激勵函數的非線性變換,也比數學上模擬出來的函數複雜得多。我們用數學建模的神經網絡只是一個非常簡化後的模型,有興趣的話你可以閱讀材料1或者材料2。2.
  • 《神經網絡和深度學習》系列文章四:神經網絡的結構
    本節譯者:哈工大SCIR碩士生 徐偉 (https://github.com/memeda)聲明:我們將在每周一,周四,周日定期連載該書的中文翻譯,如需轉載請聯繫wechat_editors@ir.hit.edu.cn,未經授權不得轉載。
  • NIPS 2017系列 | 利用 SVCCA 解釋深度神經網絡
    特別是,與許多之前的機器學習方法不同,DNN 在分類中容易受對抗樣本的影響,在強化學習任務中容易出現災難性遺忘,以及在生成式建模中容易發生模式崩潰。為了構建更好、更可靠的 DNN 系統,能夠解釋這些模型就顯得尤為重要。具體來說,我們想要為 DNN 引入一種表示相似性概念:我們能夠有效確定兩個神經網絡學到的表示在何時相同嗎?
  • 神經網絡和深度學習簡史(全)
    讓我告訴你,說來話長——這不僅僅是一個有關神經網絡的故事,也不僅僅是一個有關一系列研究突破的故事,這些突破讓深度學習變得比「大型神經網絡」更加有趣,而是一個有關幾位不放棄的研究員如何熬過黑暗數十年,直至拯救神經網絡,實現深度學習夢想的故事。
  • 人工智慧-Andrew Ng版|神經網絡和深度學習|深度學習概述
    這是一個最簡單的神經網絡了,只經過了一層也就是一個神經元,從輸入面積Size (x),經過神經元到輸出價格Price (y)。但有點奇怪的是,你可能也發現了,我們知道價格永遠不會是負數的。因此,為了替代一條可能會讓價格為負的直線,我們把直線彎曲一點,讓它最終在零結束。那條粗的藍線最終就是你的函數,用於根據房屋面積預測價格。有部分是零,而直線的部分擬合的很好。
  • 深度學習和深度神經網絡
    深度學習深度學習是眾多機器學習方法中的一種。主要是通過神經網絡來實現。「深度」是指神經網絡的層數。
  • 裴健團隊KDD新作:革命性的新方法,準確、一致地解釋深度神經網絡
    雷鋒網 AI 科技評論按:你有沒有想過,深度神經網絡是依據什麼來準確識別有貓的圖片的?隨著深度神經網絡在金融、醫療及自動駕駛等領域的廣泛應用,深度神經網絡無法明確解釋自身決策行為的問題也引起了越來越多的關注。
  • 深度學習背後的基礎-神經網絡揭秘
    最近, 深度學習三傑獲得了計算機界最重要的圖靈獎, 它們的貢獻都集中在對深度學習的根據神經網絡的理論突破。 今天我們看到的所有和人工智慧有關的偉大成就, 從阿法狗到自動駕駛, 從海量人臉識別到對話機器人, 都可以歸功於人工神經網絡的迅速崛起。那麼對於不了解神經網絡的同學如何入門? 神經網絡的技術為什麼偉大, 又是什麼讓它們這麼多年才姍姍走來?
  • (圖解)類神經網絡的復興:深度學習簡史
    直到1986年,學者包括Rumelhart、Hinton等人提出「反向傳播算法」(Backpropagation)訓練神經網絡, 使的具備非線性學習能力的多層感知機 (Multi-Layer Perceptron)的可能露出一絲曙光。讓神經網絡紅極一時。還記得我們提過的類神經網絡的基本原理嗎?
  • 走近深度學習:神經網絡工作原理解析
    神經網絡是一種模仿生物神經網絡的結構和功能的數學模型或計算模型,由大量的人工神經元聯結進行計算。在深度學習時代,基於神經網絡的目標檢測算法也大放異彩。為了能夠幫助大家更好的了解目標檢測領域,猩算法開設「目標檢測」系列文章,精選乾貨文章,持續分享。
  • 什麼是深度學習? - 45分鐘理解深度神經網絡和深度學習
    但擬合誤差為0不代表模型就是好的,因為模型只在訓練集上表現好;由於模型擬合了訓練樣本數據中的噪聲,使得它在測試集上表現可能不好,泛化性能差。為此,人們採取了不同的方法來緩解過擬合(無法完全避免),比如正則化、數據增廣、Dropout、網絡剪枝等。在使用深度神經網絡來做深度學習的應用中,很多工作都是直接使用現有的深度神經網絡,或者改造現有的深度神經網絡。
  • 深度學習:神經網絡算法的昨天、今天和明天
    深度學習就是人工神經網絡(Artificial Neural Network)。神經網絡算法得名於其對於動物神經元傳遞信息方式的模擬,而深度學習這一「俗稱」又來自於多層級聯的神經元:眾多的層讓信息的傳遞實現了「深度」。
  • 深度學習祖師 Hinton 親自授權 | 《神經網絡》中文字幕版
    Geoffrey Hinton,可能未必所有人都聽過,但他創立的門派——深度學習,卻無人不知,點開本文的高傲的你
  • 反之亦然,科學家開始用深度神經網絡解釋人類大腦
    而目前的深度神經網絡研究正在表明,這種更加細緻的任務分區可能也是生物大腦用來處理信息的最高效的方式。圖示:現任史丹福大學的計算神經科學家丹尼爾-亞明斯(Daniel Yamins)同樣,研究人員已經證明,最擅長對語音、音樂和模擬氣味進行分類的深度網絡,其架構似乎與大腦的聽覺和嗅覺系統幾乎相同。
  • 為什麼深度神經網絡這麼難訓練?
    如果進行視覺模式識別,那麼第1層的神經元可能學會識別邊;第2層的神經元可以在此基礎上學會識別更加複雜的形狀,例如三角形或矩形;第3層將能夠識別更加複雜的形狀,以此類推。有了這些多層抽象,深度神經網絡似乎可以學習解決複雜的模式識別問題。正如電路示例所體現的那樣,理論研究表明深度神經網絡本質上比淺層神經網絡更強大。 如何訓練深度神經網絡呢?