導語
深度學習的成功,正在反哺神經科學。例如現在如果想研究哺乳動物的大腦是如何區別貓和狗的,可以去考察判別貓和狗的神經網絡是如何工作的。然而11月12日Nature Communications雜誌在線發表的論文指出,由於神經網絡的訓練初始條件和超參數不同,即使具有相近的判別精度,不同的神經網絡也存在顯著差異。該研究還指出在比較網絡結構差異性時,需要考慮對比多組而不是多個神經網絡間的區別。這對計算神經科學尤其是視覺模型研究具有啟發意義。
論文題目:
Individual differences among deep neural network models
論文地址:
1. 如何衡量神經網絡間的異同
卷積神經網絡作為目前最成功AI模型,其靈感來自於模仿大腦的視覺皮層腹側視覺流(ventral visual stream)。由於視覺處理是分層次的,早期階段處理諸如邊緣、顏色等低級特徵。而整個物體和面孔這樣的抽象程度更高的特徵,只會在下額葉皮層這樣的後期處理階段才會湧現。
圖1:卷積神經網絡結構示意圖(判別圖片中的馬)
借鑑神經科學對大腦的研究,卷積神經網絡也採取了類似的結構。上圖表示的卷積神經網絡分為9層,通過對數據的分層壓縮,提取高層特徵,最後再利用該特徵分類。
研究大腦的神經科學家,需要了解大腦如何判別不同的物體。例如判別植物和動物,是否使用了相同的神經機制。但直接觀測大腦太難。而觀測和大腦具有相近結構的人工神經網絡就容易多了。神經科學家可以根據人工神經網絡在判別動物與識別植物時,有何差異,推斷大腦識別動物和植物的腦區的異同。
圖2:兩個神經網絡的差異性估計
根據人工神經網絡中的激活情況(即訓練好的網絡中的神經元權重向量),可以計算判別馬和卡車的神經網絡的差異,偏離右圖中的斜線越遠,兩個神經網絡的差異越大。這被稱為表徵差異性矩陣(representational dissimilarity matrices,RDMs)。
圖3:衡量兩組神經網絡差異的方法
對於兩組功能相同的神經網絡(例如一組判別馬,一組判別卡車),可以通過兩兩比較功能A和功能B網絡的RDMs,之後計算兩組網絡之間的皮爾森相關係數,來衡量這兩種功能對應的神經網絡間的差異。
2. 深度的增加
帶來了神經網絡間表徵差異性的異同
不論是判別動物還是植物,最初都是要分別諸如圖像的局部直線還是曲線這樣的特徵,而隨著抽象層次更高的特徵被抽取出來,判別任務相同的神經網絡,會在經由多維標度(multidimensional scaling)分析進行可視化後聚在一起,如圖4所示。
圖4:每一個點代表一個神經網絡,不同的顏色對應不同的判別功能,從左到右,神經網絡的深度不斷提升
將圖中判別每個物體的神經網絡看成一類,再將不同層的神經網絡間的相關性差異距離用設色熱圖展示,可以看到最神經網絡的第一層,判別不同物體的神經網絡並沒有什麼區別。
而隨著網絡層數的增加,對角線上的小正方形漸漸變淺,說明判別不同物體的神經網絡出現差異,這進一步說明了和待判別對象相關抽象表徵會在神經網絡的較高層次出現。如圖5所示。
圖5:神經網絡的個體差異隨著網絡深度的增加而湧現
3. 高層次的特徵各有不同
該研究的另一發現是,相同結構、相同判別能力的神經網絡,僅僅因為訓練過程中的隨機性,會導致高層表徵的差異。
下圖中,對於共享權重差異的神經網絡(藍線)以及7層的類似Alex Net的神經網絡(黑線),網絡深度的增加,會造成網絡間標準差異性的增加。
圖6:100種判別神經網絡每一層的表徵矩陣對應的相關係數的均值
這意味著訓練過程中的隨機性,會造成具有相同判別能力的神經網絡,依據著各自提取的、不盡相同的抽象特徵進行判別。而無論使用何種方式計算抽象特徵間的相似度,都會得出相近的結果。
如下圖所示,當將衡量差異的方式換成cos距離,曼哈頓距離或正則化後的距離時,也會得出相似的結果。
圖7:不同的衡量方式下,神經網絡每一層的表徵矩陣對應的相關係數的均值隨層數增加降低
4. 高層次表徵向量差異的根源
為何會出現上述「完成同一種判別任務的神經網絡,具有不同的高層表徵」,是本研究接下來討論的問題。
在人類的學習中,該問題可以類比為,為何老師教會學生一個任務,但不同的學生在最後的步驟中會自發地出現差異。
假設有10個判別貓的神經網絡,對這些網絡的表徵向量求質心(centroid),再用這樣的質心來計算判別不同物體的神經網絡間的相關性,會發現隨著網絡深度的增加,標準差異性並沒有顯著增加(下圖中綠線)。
圖8:不同層的表徵向量質心對應的相關性不隨網絡層數深度增加而增加
這意味著判別不同的任務,所需的特徵是類似的,同一任務間的表徵差異性來自於訓練初始化中引入的隨機性。
神經網絡在訓練過程中,為了避免梯度爆炸,會對權重進行正則化。這會在造成部分人工神經網絡中的神經元在實際中等效與被剔除。在深度學習中,為了提高泛化能力,一種常見的方式是dropout,即隨機失活部分神經元。
下圖展示了訓練過程中,隨著dropout的神經元的比例(縱軸)增加,神經網絡最後一層的表徵一致性先增加,後降低。
圖9:訓練過程中dropout比例不同的神經網絡最後一層的表徵一致性熱圖
如圖9所示,圖中的點越靠近黃色,抽象表徵的相似度越高。由於判別不同物體神經網絡間的抽象表徵相似,使得網絡具有了更好的泛化能力,進而解釋了為何dropout是一個有效的正則化機制。而當dropout的比例過高時,網絡無法提取出對分類任務有意義的特徵,因此最終的表徵有所差異。
5. 神經網絡模型個體差異性
對神經科學和人工智慧的啟發
該研究通過一系列的實驗,說明了由於前饋深度神經網絡訓練過程中初始權值的隨機性,在保持其他所有因素不變的情況下,會造成網絡學到的內部表示不同。且個體差異出現隨著網絡層數深度的增加而顯著增加。而湧現出的個體差異,部分可以通過正則化隨機導致的部分神經元失活解釋。
對於神經科學的研究者,如果忽略了相同功能的神經網絡本身的差異性,那麼在使用神經網絡類比大腦的運行時,得出的結論就會受到隨機性的影響。更合適的做法是去研究多個相同功能的神經網絡的質心,以此克服隨機因素的影響。
而對於人工智慧的研究者,該研究可使研究人員能夠估計在給定訓練參數(例如網絡結構多大,不同的網絡類型、不同的訓練集及待完成的任務目標)時,訓練得出的網絡,可能具有多少表徵差異性,這反映了預期網絡可變性。
據此可使研究者能夠更好地調整神經網絡的超參數和訓練過程,以確保從他們那裡得出的模型能夠具有更強的泛化能力。並更深入地理解不同難度的分類任務上,不同的神經網絡為何會出現性能差異。
作者:郭瑞東
審校:劉培源
編輯:鄧一雪
複雜科學最新論文