Facebook:易於解釋的神經元可能阻礙深度神經網絡的學習

2021-01-10 機器之心Pro

編輯:張倩、杜偉

易於解釋的神經元對於提升神經網絡的性能來說是必要的嗎?Facebook 的研究者給出了出人意料的答案。

AI 模型能「理解」什麼?為什麼能理解這些東西?回答這些問題對於復現和改進 AI 系統至關重要。但遺憾的是,計算機科學家在解釋深度神經網絡(DNN)方面的能力遠遠落後於我們利用這些網絡獲取有用成果的能力。

理解 DNN 的一類常見方法是聚焦於單個神經元的屬性,如找到一個能夠被貓的圖像而非其他類型的圖像激活的神經元。我們把這種對於特定圖像類型的偏好稱之為「類選擇性(class selectivity)」。

選擇性的應用非常廣泛,部分原因在於它直觀、易懂,而且這些類型的神經元其實會自然地出現於多種不同任務上訓練的網絡中。例如,為不同類型圖像分類任務訓練的 DNN 包含針對拉布拉多尋回犬激活最強烈(有選擇性)的單個神經元。為了預測產品評論中單個字母而訓練的神經元包含對積極 / 消極情緒具有選擇性的神經元。

但是,要想讓 DNN 發揮作用,這些易於解釋的神經元真的是必要的嗎?這就好比通過汽車的排氣管來研究其推進系統。儘管排氣管與車速有一定關係,但推動汽車前進的並不是它。那麼,類選擇性到底是「引擎」還是「排氣管」的一部分?

頗為意外的是,Facebook 的研究者發現,有強烈的證據表明即使 DNN 的大部分神經元沒有類選擇性,它也能運轉良好。他們還表示,其實,易於解釋的神經元可能會損害 DNN 的功能並使其更容易受到任意扭曲的輸入的影響。

為了研究這一問題,研究者開發了一種新的技術來直接控制 DNN 神經元的類選擇性。他們的研究結果表明,在理解 DNN 時過度依賴基於直覺的方法可能具有誤導性,如果這些方法沒有經過嚴格的測試和驗證。要完全理解 AI 系統,我們必須尋找那些不僅依靠直覺,還經歷過實驗檢驗的方法。

Facebook 研究者的發現

儘管很多研究者已經將類選擇性當做 DNN 可解釋性的一個工具進行了廣泛的研究,但令人意外的是,很少有人去研究易於解釋的神經元對於 DNN 發揮最佳作用是否必要。最近,部分研究者已經開始了這一問題的探索,但不同的研究給出了不同的結論。

在此背景下,Facebook AI 的研究者通過一種新的類選擇性操縱方法來探索上述問題。在訓練一個圖像分類網絡時,他們不僅指導網絡提高其分類圖像的能力,還添加了一個降低(或提高)神經元中類選擇性程度的激勵。

上圖顯示了操縱類選擇性神經元如何影響 DNN 正確分類圖像的能力(在 Tiny ImageNet 上訓練的 ResNet18)。每個點代表一個 DNN。點的顏色代表類選擇性在 DNN 神經元中被激勵的程度。x 軸表示 DNN 神經元間的平均類選擇性,y 軸表示 DNN 圖像分類的準確性。灰色的點表示中立——既不鼓勵也不抑制類選擇性——表示這種類型 DNN 在自然狀態下的類選擇性發生水平,研究者將其作為一個比較分類準確率的基線。通過抑制類選擇性(藍色點),我們可以將測試準確率提高 2% 以上。相比之下,激勵類選擇性(紅色的點)會對 DNN 的圖像分類能力產生明顯的負面影響。

在具體操作上,研究者通過在用於訓練網絡的損失函數中添加一個類選擇性項來實現這一點。他們使用一個參數來控制類選擇性對於網絡的重要性。通過這個參數可以激勵或抑制易於解釋的神經元,以及激勵 / 抑制的程度。這樣的話,研究者就相當於掌握了一個旋鈕,通過這個旋鈕可以操縱網絡中所有神經元的類選擇性。他們藉助這個旋鈕進行了實驗,以下是實驗的結果:

1. 減少 DNN 的類選擇性對於性能的影響非常小,在某些情況下甚至會帶來性能的提升。這些結果表明,儘管類選擇性在多種任務和模型中普遍存在,但它並不是 DNN 發揮作用所必需的,有時甚至會發揮負面作用;

2. 在增加類選擇性時,可以發現 DNN 性能顯著下降。這一結果表明,類選擇性的存在並不能保證 DNN 的良好運行;

3. 與學術環境相比,部署到現實世界的 DNN 通常要處理更加嘈雜、有挑戰性的數據。研究者發現,減少類選擇性之後,DNN 在處理有噪聲、扭曲的數據時更加穩健。有趣的是,減少類選擇性也使得 DNN 更容易受到針對性的攻擊(故意操縱圖像來欺騙 DNN)。

Facebook 的研究者認為,我們之所以對這些結果感到驚訝,可以歸結為兩方面的原因。首先,由於類選擇性天然地存在於多數 DNN 中,它已經被廣泛地用於理解 DNN 的性能。本文中的研究也表明,在沒有類選擇性操縱的情況下,DNN 自然而然地學習儘可能多的類選擇性,而不會對性能產生負面影響。這就引出了 Facebook 研究者希望在未來工作中回答的一個更深層次的問題:如果類選擇性對良好的表現來說不是必需的,為什麼網絡要學習它呢?

研究意義

研究者希望,他們提出的這個類選擇性旋鈕能夠鼓勵其他研究者利用該技術進一步研究類選擇性在 DNN 中扮演的角色。重要的是,他們開發的理解複雜神經網絡系統的方法是基於有意義的特徵。研究者表示,如果能夠訓練一個沒有貓神經元也能很好地識別貓的 DNN,我們就不應該試圖通過關注貓的神經元來理解 DNN。相比之下,AI 研究者應該更多地關注、分析大群神經元是如何一起工作的。

從更廣泛的意義上來說,研究者認為,他們的研究為將單個神經元特性作為理解 DNN 性能關鍵的方法提了個醒。在得出這些結論之後,他們還考察了一些廣泛使用的可解釋性方法如何產生有誤導性的結果。

為了解決這些問題,他們發表了一篇立場論文來評估兩個個案研究。

本文所討論的內容主要來自以下三篇論文:

《SELECTIVITY CONSIDERED HARMFUL: EVALUATING THE CAUSAL IMPACT OF CLASS SELECTIVITY IN DNNS》

連結:https://arxiv.org/pdf/2003.01262.pdf?fbclid=IwAR3PlRzcoiGXyfjqfySM5ZEQxeQsYkIknQI5PQfKhPe2XdxDtFUp2ohgAO8

《On the relationship between class selectivity, dimensionality, and robustness》

連結:https://arxiv.org/pdf/2007.04440.pdf?fbclid=IwAR0yRDRql1uii1O_kqqa7EP2gFhKKFHkbq1OE0C9YAf8e6kcge6lu7Q9C1s

《Towards falsifiable interpretability research 》

連結:https://arxiv.org/pdf/2010.12016.pdf?fbclid=IwAR0lN7qgvPbV3ZUF5WzHs14g5xSr_QVKP9GuG6tkIhY611jWb79oFG9_sBY

相關焦點

  • Facebook:易於解釋的神經元可能阻礙深度神經網絡的學習
    編輯:張倩、杜偉易於解釋的神經元對於提升神經網絡的性能來說是必要的嗎?Facebook 的研究者給出了出人意料的答案。但遺憾的是,計算機科學家在解釋深度神經網絡(DNN)方面的能力遠遠落後於我們利用這些網絡獲取有用成果的能力。理解 DNN 的一類常見方法是聚焦於單個神經元的屬性,如找到一個能夠被貓的圖像而非其他類型的圖像激活的神經元。
  • 理解神經網絡:從神經元到RNN、CNN、深度學習
    隨著時間的推移,證明了神經網絡在精度和速度方面,比其他的算法性能更好。並且形成了很多種類,像CNN(卷積神經網絡),RNN,自編碼,深度學習等等。神經網絡對於數據科學和或者機器學習從業者,就像線性回歸對於統計學家一樣。因此,對神經網絡是什麼有一個基本的理解是有必要的,比如,它是怎麼構成的,它能處理問題的範圍以及它的局限性是什麼。
  • 神經網絡和深度學習簡史(全)
    讓我告訴你,說來話長——這不僅僅是一個有關神經網絡的故事,也不僅僅是一個有關一系列研究突破的故事,這些突破讓深度學習變得比「大型神經網絡」更加有趣,而是一個有關幾位不放棄的研究員如何熬過黑暗數十年,直至拯救神經網絡,實現深度學習夢想的故事。
  • 人工智慧系列(六) 深度學習中的神經網絡
    原力君在系列的第五篇《人工智慧系列(五) 深度學習簡介》中提到深度學習可以看作是一種更高級的函數擬合方法;人工神經網絡、激活函數、代價函數、梯度下降、反向傳播是深度學習的幾個關鍵點;常見的深度學習神經網絡結構有多層感知機、DNN、CNN、RNN等。
  • 深度學習背後的基礎-神經網絡揭秘
    最近, 深度學習三傑獲得了計算機界最重要的圖靈獎, 它們的貢獻都集中在對深度學習的根據神經網絡的理論突破。 今天我們看到的所有和人工智慧有關的偉大成就, 從阿法狗到自動駕駛, 從海量人臉識別到對話機器人, 都可以歸功於人工神經網絡的迅速崛起。那麼對於不了解神經網絡的同學如何入門? 神經網絡的技術為什麼偉大, 又是什麼讓它們這麼多年才姍姍走來?
  • 深度學習:神經網絡算法的昨天、今天和明天
    但是,深度學習還沒能全方面超越人類。相反,它的工作完全依賴於人類對算法的設計。深度學習從誕生到爆發用了大約五十年。從其發展歷程,我們可以窺見計算機科學家們的步步巧思,並從中探討其可能的發展方向。一、什麼是深度學習深度學習就是人工神經網絡(Artificial Neural Network)。
  • 「冪律與臨界」支配神經網絡,深度學習技術要向大腦學習
    導語近年來,怎樣讓深度學習的系統借鑑大腦的編碼機製成為了一個熱點問題。最近,研究人員從大腦的視覺神經網絡中發現了令人驚訝的臨界現象和冪律,這一發現對於深度學習系統的設計和穩定性分析都有重要的啟發。深度學習系統在平滑性方面也面臨著自己的問題:經過訓練的機器學習模型能夠識別出熊貓,但是即便是只改動了少量甚至人類無法分辨的像素,機器也有可能把它錯誤的標記為黑猩猩。Harris 說:「這就是人工智慧神經網絡的病理特徵,它們總會對某些細節過度敏感。」 計算機科學家一直在試圖確定這背後的原因,而 Harris 認為,他們團隊的發現能為解決這一問題提供線索。
  • 裴健團隊KDD新作:革命性的新方法,準確、一致地解釋深度神經網絡
    隨著深度神經網絡在金融、醫療及自動駕駛等領域的廣泛應用,深度神經網絡無法明確解釋自身決策行為的問題也引起了越來越多的關注。明確解釋深度神經網絡的決策行為,能夠大幅提升各類用戶對深度神經網絡的信任,並顯著降低大規模使用深度神經網絡所帶來的潛在風險,是基於深度神經網絡的人工智慧應用成功落地的重要一環。
  • 初探神經網絡與深度學習 —— 感知器
    【IT168 技術】人工神經網絡的第一個裡程碑是感知機perceptron, 這個名字其實有點誤導, 因為它根本上是做決策的。 一個感知機其實是對神經元最基本概念的模擬 ,都未必有多少網絡概念,他就是一個自動做決策的機器。
  • 【新智元專訪】神經元本身也能編程,神經網絡學習能力遠超預期
    日前,瑞典隆德大學研究人員發表在 PNAS 的一項研究發現,神經元本身也具有編程或者說學習的能力,單個神經元中存儲信息的容量遠超預期。論文作者在接受新智元採訪時表示,這一發現或將為設計全新的人工神經網絡帶來啟發。
  • 人工智慧-深度學習-神經網絡結構MLP,CNN,RNN,LSTM
    人工神經網絡、激活函數、代價函數、梯度下降、反向傳播是深度學習的幾個關鍵點;常見的深度學習神經網絡結構有多層感知器MLP、CNN、RNN、LSTM等。Neural Networks 卷積神經網絡由具有可學習的權重和偏置常量(biases)的神經元組成。
  • 深度神經決策樹:深度神經網絡和樹模型結合的新模型
    深度神經決策樹:深度神經網絡和樹模型結合的新模型 工程師郭婷 發表於 2018-08-19 09:14:44 近日,來自愛丁堡大學的研究人員提出了一種結合深度神經網絡和樹模型的新型模型
  • 一個模仿飛蛾識別味道的神經網絡,解釋飛蛾的學習速度遠超機器
    作為現代機器學習基石的深度神經網絡,雖然模仿的是生物神經網絡,但其實這兩者之間有著極大的區別。拋開僅有的一些相似處,有些重要的機器學習機制沒有任何自然界的版本,而這兩者學習過程之間也有著大量的不同。這些區別很有可能解釋了為什麼機器學習系統在某些領域中的表現遠遜於自然系統。就拿昆蟲來說,昆蟲僅需接觸幾次新的氣味就能學會如何識別這些新氣味。
  • 「深度學習被可微分編程取代?」展望30年後的神經網絡和函數編程
    最後,還有一種概率性的表述,把神經網絡解釋為隱藏變量(latent variables)。這些表述並不是相互排斥的,但是它們對深度學習的思考方式卻有著很大的不同。而這篇文章將把表示的表述延伸到一個新的答案:深度學習研究的是優化和函數編程之間的聯繫。
  • 新深度學習模型——少量人工神經元造就更高智能
    這種新型系統只需要少量人工神經元就能控制車輛。與之前的深度學習模型相比,該系統具有明顯的優勢:能更好地應對嘈雜輸入,而且其操作模式可以詳細解讀。與活體大腦相似,人工神經網絡也是由許多獨立的細胞組成的。這種細胞間的活動傳遞模式決定了該系統的行為模式——參數在自動學習過程中可以不斷調整,直至神經網絡能夠解決特定問題。「多年來,我們一直嘗試從自然中汲取改善深度學習的知識,」TUW網絡物理系統(CPS)研究小組負責人Radu Grosu教授說,「例如,雖然線蟲的神經元數量非常少,但其神經系統在處理信息時卻非常高效、和諧。」
  • 深度學習之卷積神經網絡經典模型
    隨著ReLU與dropout的提出,以及GPU帶來算力突破和網際網路時代大數據的爆發,卷積神經網絡帶來歷史的突破,AlexNet的提出讓深度學習走上人工智慧的最前端。在整個神經網絡中,隨機選取一半的神經元將它們的輸出變成0。這種方式使得網絡關閉了部分神經元,減少了過擬合現象。同時訓練的迭代次數也得以增加。當時一個GTX580 GPU只有3GB內存,這使得大規模的運算成為不可能。
  • 谷歌大腦提出概念激活向量,助力神經網絡可解釋性研究
    可解釋性仍然是現代深度學習應用的最大挑戰之一。計算模型和深度學習研究領域近期取得了很大進展,創建了非常複雜的模型,這些模型可以包括數千個隱藏層、數千萬神經元。雖然創建高級深度神經網絡相對簡單,但理解如何創建這些模型以及它們如何使用知識仍然是一個挑戰。
  • 人工神經網絡太簡陋了,《Science》新作揭露,神經元樹突也隱含計算...
    神經元並不單純只是為了連接,它們同樣能夠執行複雜運算,神經元本身可能也是一個多層網絡。這個發現對於構建人工神經網絡的計算機科學家們來講,或許會是一個非常重要的啟發。處理器中的處理器當然,並非所有的神經元都是如此。據論文作者 Gidon 所說,大腦的其他部分也存在很多更小的點狀神經元。或許發現的這種神經複雜性的存在是有原因的。神經元中的一個小區室,為什麼需要具有整個神經元或一個小型的神經網絡才具備的能力呢?一個可能是:多層神經網絡的神經元能夠有更好的處理能力,並且能夠有更好的學習和存儲能力。
  • 深度神經網絡DNN是否模擬了人類大腦皮層結構
    我試著從我的角度來說下我看到的深度學習和神經科學的聯繫。深度學習和神經科學這兩個學科現在都很大,我的經歷尚淺,如果大家發現哪裡說得不太對,歡迎提出指正,謝謝!那我們就自底往上說。我個人十分懷疑這一點,前幾天還看到一個關於神經元的進展,大意是神經元不僅能對單一信號產生反應,還能對一定一定間隔的信號產生反應。 神經元的底層編碼能力其實更強。我們神經科學發展了這麼久,可能真的連神經元都沒真正的搞清楚。在這另外說一句,深度神經網絡裡面,大部分節點都是等同的,但是在人類神經網絡裡面,並不是這樣。
  • 深度神經網絡(DNN)是否模擬了人類大腦皮層結構?
    我們是否足夠了解神經元? 我個人十分懷疑這一點,前幾天還看到一個關於神經元的進展,大意是神經元不僅能對單一信號產生反應。還能對一定一定間隔的信號產生反應。。 神經元的底層編碼能力其實更強。我們神經科學發展了這麼久,可能真的連神經元都沒真正的搞清楚。  在這另外說一句。 深度神經網絡裡面,大部分節點都是等同的,但是在人類神經網絡裡面,並不是這樣。