Hinton等人新研究:如何更好地測量神經網絡表示相似性

2020-12-11 機器之心Pro

近期很多研究試圖通過對比神經網絡表示來理解神經網絡的行為。谷歌大腦 Simon Kornblith、Geoffrey Hinton 等人的一項新研究引入了 centered kernel alignment (CKA) 作為相似性指數,並分析 CKA、線性回歸、典型相關分析(CCA)等相關方法之間的關係,證明 CKA 優於其他相似性指數。

在機器學習的很多任務中,深度神經網絡可以自動從數據中學習強大的特徵表示。儘管深度神經網絡在多種任務中取得了令人印象深刻的進展,但如何理解和描述神經網絡從數據中學習到的表示仍未得到充分研究。之前的工作(例如 Advani&Saxe (2017)、Amari et al. (2018)、Saxe et al. (2013))在理解神經網絡訓練過程的理論動態方面取得了一些進展。這些研究雖然很深刻,但卻存在基礎局限性,因為它們忽略了訓練動態過程和結構化數據之間複雜的相互作用。事實上,神經網絡表示會比損失函數提供更多機器學習算法和數據之間的交互信息。

谷歌大腦的這篇論文研究了測量深度神經網絡表示相似性的問題。測量表示相似性的有效方法可幫助回答許多有趣的問題,包括:(1)基於不同隨機初始化訓練得到的相同架構深度神經網絡是否學習相似的表示?(2)不同神經網絡架構的各個層之間是否可以建立對應關係?(3)相同的神經網絡架構從不同的數據集中學習的表示有多相似?

該論文的主要貢獻有:

討論了相似性指數的不變性及其對測量神經網絡表示相似性的影響。引入了 centered kernel alignment (CKA) 作為一種相似性指數,並分析 CKA、證明了 CKA 能夠確定基於不同隨機初始化和不同寬度訓練的神經網絡的隱藏層之間的對應關係,而以前提出的相似性指數在這些場景下是不適用的。驗證了網絡越寬學習到的表示越相似,並且前幾層的相似性比後幾層更容易飽和。該研究證明了神經網絡中的前幾層而非後幾層能從不同的數據集中學習到相似的表示。

問題描述

令 X∈R^(n×p_1) 表示 n 個樣本的 p_1 個神經元的激活矩陣,Y∈R^(n×p_2) 表示相同的 n 個樣本的 p_2 個神經元的激活矩陣。假設這些矩陣已經過預處理使得矩陣的每一列均值為零。在不失一般性的情況下,我們假設 p_1≤p_2。

為了可視化和理解深度學習中不同因素的影響,研究者設計和分析了標量相似性指數 s(X,Y),它可用於比較神經網絡內和神經網絡之間的表示相似性。

論文:Similarity of Neural Network Representations Revisited

論文地址:https://arxiv.org/pdf/1905.00414.pdf

最近一些工作試圖通過比較層之間和不同訓練模型之間的表示來理解神經網絡的行為。該論文研究了基於典型相關分析(CCA)對比神經網絡表示的方法,證明 CCA 屬於一類測量多元相似性的統計方法,但是 CCA 和其他對可逆線性變換具備不變性的統計方法都無法測量維度高於數據點個數的表示之間的相似性。

該研究介紹了一個相似性指數,它可以測量表示相似性矩陣之間的關係,並且不受上面的這種限制。該相似性指數等價於 centered kernel alignment (CKA),並且也與 CCA 緊密相關。不同於 CCA,CKA 可以可靠地識別基於不同初始化訓練的網絡學習得到的表示之間的對應關係。

相似性指標的不變性是針對什麼變換而言的?

相似性指標的不變性及其對測量神經網絡表示相似性的影響是很重要的。該研究認為,相似性的直觀概念和神經網絡訓練的動態過程都要求相似性指標對正交變換和各向同性縮放(isotropic scaling)是不變的,而不是可逆線性變換。

比較相似性結構(Similarity Structure)

與直接比較一個樣本在兩個表示中的多變量特徵(比如通過回歸的方法)不同,該研究的主要觀點是:首先分別測量每個表示中的每對樣本之間的相似性,然後比較相似性結構。在神經科學中,表示樣本之間相似性的矩陣被稱為表徵相似性矩陣(Kriegeskorte et al., 2008a)。下文證明了,如果使用內積來測量相似性,那麼表徵相似性矩陣之間的相似性可以簡化成成對特徵相似性的另一個直觀概念。

基於點積的相似性。下面是一個將樣本之間的點積與特徵之間的點積關聯的簡單公式:

Hilbert-Schmidt 獨立性準則(HSIC)。從等式 1 可以推出,對於均值為 0 的 X 和 Y 有:

令 K_ij = k(x_i , x_j ) , L_ij = l(y_i , y_j ),其中 k 和 l 是兩個核函數。HSIC 的經驗估計是:

Centered Kernel Alignment. HSIC 對各向同性縮放不具備不變性,但可以通過歸一化使其具有不變性。歸一化後的指標稱為 centered kernel alignment (Cortes et al., 2012; Cristianini et al., 2002):

相關的相似性指標

在測量神經網絡表示之間的相似性的背景下,研究者簡要回顧了線性回歸、典型相關和其他相關方法。表 1 總結了實驗中使用的公式、指標及其不變性。

表 1:各種相似性指標的總結。

Q_X 和 Q_Y 分別是 X 和 Y 的正交基。U_X 和 U_Y 分別是對 X 和 Y 做奇異值分解後按奇異值降序排列的左奇異向量。|| · || 表示核範數。T_X 和 T_Y 是截斷單位矩陣,利用 T_X 和 T_Y 選出的 X 和 Y 的左奇異向量可以使累積方差達到某個閾值。

線性回歸。線性回歸是關聯神經網絡表示的一種簡單方法。它可以將 Y 中的每個特徵擬合為 X 中特徵的線性組合。一個合適的匯總統計量是該擬合所能解釋的方差比例:

典型相關分析(CCA)。典型相關分析是求兩個矩陣的基,使得當原矩陣被投影到這些基上時,相關性最大。對於 1≤i≤p_1,第 i 個典型相關係數ρ_i 由下式給出:

SVCCA.當 X 或 Y 的條件數很大時,CCA 對擾動敏感。為了提高魯棒性,奇異向量 CCA 方法 (singular vector CCA, SVCCA) 對 X 和 Y 的奇異值分解截斷後使用 CCA。

Projection-Weighted CCA. Morcos 等人 (2018) 提出了一種不同的策略來降低 CCA 對擾動的敏感性,他們稱這種方法為「投影加權典型相關分析」(PWCCA):

結論

該研究首先研究了一種基於 All-CNN-C 的類 VGG 卷積網絡。圖 2 和表 2 說明只有 CKA 方法通過了完整性檢查,而其他方法則表現得很差。

圖 2:CKA 揭示了基於不同隨機初始化訓練的 CNN 的不同層之間的一致關係,而 CCA、線性回歸和 SVCCA 則無法揭示這種關係。

表 2:不同方法基於最大相似性識別基於不同初始化訓練的 10 個結構相同的 10 層 CNN 網絡中對應層的準確率,其中排除了 logits 層。

CKA 可以揭示神經網絡表示中的異常。圖 3 展示了具有不同深度的卷積網絡各層之間的 CKA,其中卷積網絡的各層分別重複 2、4 和 8 次。從中可以看出,深度加倍可以提高準確率,但是深度增加太多反而會降低準確率。

圖 3:CKA 揭示深度過深的神經網絡的表示會出現異常。上圖:在 CIFAR-10 上訓練的不同深度深度網絡的各層之間的線性 CKA。每個小圖的標題顯示了每個網絡的準確率。8 倍深度神經網絡的後幾層與最後一層類似。下圖:在相同神經網絡的各層上訓練的 logistic 回歸分類器的準確性與 CKA 一致。

CKA 還可用於比較在不同數據集上訓練的網絡。圖 7 展示了在 CIFAR-10 和 CIFAR-100 上訓練的模型在其前幾層中生成了類似的表示。這些表示需要訓練,而且這些表示與未經訓練的網絡生成的表示之間的相似性要低很多。

圖 7:CKA 顯示了在不同數據集(CIFAR-10 和 CIFAR-100)上訓練的模型產生了類似的表示,這些表示與未經訓練的模型產生的表示差異很大。左圖顯示了在 CIFAR-10 測試集上不同模型的同一層之間的相似性,而右圖顯示了在 CIFAR-100 測試集上的相似性。CKA 是每種類型的 10 個模型的均值(45 對)。

從可視化的角度看,RSM 方法比 CKA 匯總統計更有用,因為 RSM 方法不會將相似性匯總為單個數字,而是提供了更完整的 CKA 測量結果信息。圖 8 展示了,對於較大的特徵向量,XX^T 和 Y Y^T 作用相似,但是使之成立的子空間的秩遠低於激活函數的維度。

圖 8:基於隨機初始化訓練的兩個 10 層神經網絡的共享子空間主要由最大特徵值對應的特徵向量張成。每行表示不同的網絡層。平均池化層只有 64 個神經元。

相關焦點

  • Hinton一作新論文:如何在神經網絡中表示「部分-整體層次結構」?
    本人,這篇論文沒有介紹具體的算法,而是描繪了一個關於表示的宏觀構想:如何在神經網絡中表示部分-整體層次結構。 並表示,Hinton現在又回到了最初的起點。https://www.cs.toronto.edu/~hinton/absps/puppet.pdf局部和整體的一致性表示似乎一直是Hinton的研究重點。
  • Geoffrey Hinton:從神經網絡的黑暗時代堅守至今日黎明
    但是在過去的 5 年左右的時間裡,Hinton 的學生取得了一系列的驚人突破,神經網絡變得十分流行,Hinton 也被尊稱為計算新時代的宗師(guru of a new era of computing)。神經網絡已經在手機中為絕大多數語音識別軟體提供支持,其還能識別不同種類的狗的圖片,精確度幾乎可以和人類媲美。
  • Geoffrey Hinton專訪:如何解釋神經網絡的變遷
    那麼,什麼時候研究開始可行的?GH:80年代最令人沮喪的一件事是,如果你建立的網絡有很多隱藏層,你就無法訓練它們。這也不完全正確,因為你可以訓練一些相當簡單的任務,比如識別筆跡。但是大多數深層神經網絡,我們是不知道如何訓練它們的。大約在2005年,我想出了一種無人監督的深網訓練方法。你獲取到輸入,比如說像素,然後你會得到一堆特徵,它們很好地解釋為什麼像素是這樣的。
  • 人物 | Geoffrey Hinton的成功之路:從神經網絡黑暗時代的堅守到今天的勝利
    但是在過去的 5 年左右的時間裡,Hinton 的學生取得了一系列的驚人突破,神經網絡變得十分流行,Hinton 也被尊稱為計算新時代的宗師(guru of a new era of computing)。神經網絡已經在手機中為絕大多數語音識別軟體提供支持,其還能識別不同種類的狗的圖片,精確度幾乎可以和人類媲美。
  • 「神經網絡之父」GeoffreyHinton:寒冬之下的孤勇
    這個出生於英國的多倫多大學教授被譽為「神經網絡之父」,他將神經網絡將計算機算法的演算過程與人腦的思維方式相比擬,讓人工智慧在經歷寒冬後再一次為人所知,並像電一樣逐漸滲透入人們的生活。早在上世紀 80 年代,Hinton 就參與了一個使用計算機模擬大腦的研究,這也便是如今所說的「深度學習」概念。
  • Hinton等人新研究登Nature子刊
    在機器學習領域中,研究人員探索協調突觸更新的方法,以提高神經網絡的性能,同時不受生物現實情況的限制。他們首先定義了神經網絡的整體架構,包括大量神經元及其連接方式。例如,研究人員經常使用包含多層神經元的深層網絡,因為研究證明這些架構對於多項任務都非常有效。
  • 神經網絡之父Geoffrey Hinton傑弗裡·欣頓 跨過人工智慧寒冬談深度學習
    神經網絡的想法並不受待見,Hinton表示「傳統的思路無疑更受關注和信任」。1970年代導師都不看好的艱難時期,Hinton一直對神經網絡保持信心。1980年代,Hinton參與使用計算機模擬大腦的研究,這也便是如今所說「深度學習」概念。然而學術期刊因為不認可神經網絡這一理念而頻頻拒收論文,30多年漫長黑夜後,等到人工智慧黎明。
  • NIPS 2017系列 | 利用 SVCCA 解釋深度神經網絡
    但是,這些成功也帶來了一些新挑戰。特別是,與許多之前的機器學習方法不同,DNN 在分類中容易受對抗樣本的影響,在強化學習任務中容易出現災難性遺忘,以及在生成式建模中容易發生模式崩潰。為了構建更好、更可靠的 DNN 系統,能夠解釋這些模型就顯得尤為重要。具體來說,我們想要為 DNN 引入一種表示相似性概念:我們能夠有效確定兩個神經網絡學到的表示在何時相同嗎?
  • 如何從信號分析角度理解卷積神經網絡的複雜機制?
    機器之心原創作者:Qintong Wu參與:Jane W隨著複雜和高效的神經網絡架構的出現,卷積神經網絡(CNN)的性能已經優於傳統的數字圖像處理方法,如 SIFT 和 SURF。在計算機視覺領域,學者們開始將研究重點轉移到 CNN,並相信 CNN 是這一領域的未來趨勢。但是,人們對成效卓著的 CNN 背後的機理卻缺乏了解。
  • 伯克利AI研究:深度神經網絡的物理對抗實例
    2017 年 8 月,OpenAI 曾發現對抗樣本在圖像不斷變化時可能會失效,他們將一張小貓的圖片放大後,神經網絡分類器輸出的結果變成「桌上型電腦」。MIT 的 LabSix 研究小組在 11 月份也得出了相似的結論,他們在研究中製作了一些受到對抗幹擾的 3D 模型,從而成功欺騙分類器,證明神經網絡分類器完全可以被 3D 對抗樣本完美地欺騙。
  • Hinton:不要再問神經網絡是不是泡沫 | ACM專訪2018圖靈獎得主
    但就研究而言,我認為如果我們不能與那些試圖了解大腦工作原理的人保持合作,那將是一個巨大的損失。Yann LeCunHinton:也就是說,神經科學家現在正在認真研究這個問題。多年來,神經科學家認為,「人工神經網絡與真實的大腦非常不同,它們不會告訴我們大腦是如何工作的。」
  • 研究繪製人類大腦和宇宙之間的奇形結構相似性
    在一項大膽的新試驗研究中,一位天體物理學家和一位神經外科醫生利用定量分析比較了自然界中兩個最複雜的系統:人腦中的神經元網絡和宇宙中的星系網絡。 其實沒那麼奇特的比較。你可能已經看到一個圖像,偶爾被分享周圍,顯示一個人類神經元和一個模擬的星系團,並排;兩者看起來驚人地相似。
  • 兒子轉眼就長大:Hinton、LeCun、Bengio 口述神經網絡簡史
    他們始終堅信神經網絡將點亮世界,並改變人類的命運。這些先驅者們散落在世界各地,不過投身神經網絡研究的學者們在加拿大這個地方尤其集中。其實他們能來加拿大很大程度上只是因為運氣好:神經網絡的研究在當時無論如何都算不上時尚,那時候由政府支持的加拿大高級研究所(CIFAR),通過資助神經網絡研究的方式吸引了一小撮專業學者來到加拿大。
  • 從圖網絡表示到圖神經網絡
    而事實上, 關於圖的研究, 遠早於圖神經網絡已有之, 這個系列, 通過被稱為graph embding, 也就是把網絡的拓撲結構和節點本質, 通過一定方法壓縮到一個向量表示裡(正如通過CNN和RNN我們可以得到圖像或時間序列的向量表示)。我們在這裡展望下都有這個歷史門派:首先, 為什麼要研究圖網絡, 是因為這和machine learning的核心使命, 預測與決策,息息相關。
  • Jürgen發文直指Hinton不應獲2019本田獎
    Jürgen 則表示,他早在 1991 年就提出了用於深度神經網絡的無監督預訓練,而 Hinton 在 21 世紀初提出的類似無監督預訓練只是一種概念上的「舊方法重用」罷了。並且,這也與 2010 年之後出現的深度學習革命毫不相干。
  • 理解LSTM神經網絡
    傳統的神經網絡無法做到這一點,這似乎是一個重大缺陷。例如,假設您想對電影中每個點發生的事件進行分類。尚不清楚傳統的神經網絡如何利用其對電影中先前事件的推理來預測後續事件。遞歸神經網絡解決了這個問題。它們是具有循環的網絡,可以使信息持久存在。傳統網絡(全連接、CNN網)是相對於循環網絡而言的。傳統網絡只對當前信息進行解析,而不會利用先前的信息,所以,無法使信息持久存在。
  • 一份完全解讀:是什麼使神經網絡變成圖神經網絡?
    雷鋒網AI科技評論按:最近,Graph Neural Network(GNN)在很多領域日益普及,包括社交網絡、知識圖譜、推薦系統甚至於生命科學。GNN在對節點關係建模方面表現十分突出,使得相關的研究領域取得了一定突破。本文將就「為什麼圖有用」、「為什麼很難在圖上定義卷積」、「是什麼使神經網絡成為了圖神經網絡」這些問題進行討論。
  • 深度神經網絡推理時間的正確測量方法
    網絡延遲是將深度網絡部署到生產環境中要考慮的重要因素之一。大多數實際應用程式都需要非常快的推理時間,從幾毫秒到一秒不等。但是,正確而有意義地測量神經網絡的推理時間或延遲的任務需要對網絡有深刻的理解。即使是經驗豐富的程式設計師也經常會犯一些常見的錯誤,從而導致延遲測量不準確。這些錯誤有可能會引發錯誤的決策和不必要的支出。
  • SIGIR2020|圖靈獎得主Hinton:無監督對比學習將是神經網絡的未來
    【新智元導讀】7月27日上午,第43屆國際信息檢索大會(SIGIR 2020)線上開啟,圖靈獎得主Geoffrey Hinton作了主題演講,今天我們就跟隨Hinton一起走進「神經網絡的新時代」。人工神經網絡一直懸而未決的問題是如何像大腦一樣有效地進行無監督學習。
  • 綜述 | 異質信息網絡分析與應用綜述
    基於以上信息融合優勢,異質網絡分析迅速成為數據挖掘、資料庫和信息檢索等領域的研究熱點,且全面涉及各類基本任務,如相似性度量、推薦等。隨著網絡表示學習的興起,異質網絡表示學習也迅速激發了廣大研究者的興趣,學得的低維向量表示在加速下遊任務的同時也可以提升性能表現。