圖神經網絡越深,表現就一定越好嗎?

2020-12-05 雷鋒網

數十層甚至數百層神經網絡的應用,是深度學習的重要標誌之一。但現實情況卻遠非如此:比如今年被視作機器學習領域最火熱的研究方向之一——圖神經網絡,大多數都只運用了寥寥幾層網絡。

一般思路裡,我們會認為圖神經網絡越深,效果就會越好。然而,日前帝國理工學院教授Michael Bronstein 發出了靈魂拷問:圖神經網絡的深度,真的會帶來優勢嗎?

「深度圖神經網絡」是否被誤用了?或者說,我們是否應該重新審視以前認為「圖神經網絡越深,效果就會越好」的思路,說不定「深度」反而對基於圖的深度學習不利呢?

眾所周知,深度圖神經網絡的訓練過程非常艱難。除了研究者們能夠在深層神經體系結構中觀察到的典型難點外(比如大量參數導致反向傳播梯度消失和過度擬合),還有一些圖特有的難點,例如「過度平滑」:由於應用了多個圖卷積層,節點特徵趨於收斂到同一向量並逐漸變得難以區分。這個現象最早在GCN模型中觀察到,其作用類似於低通濾波器。另一個圖所特有的現象是「信息瓶頸」,會將信息從指數級數量的臨域「過度擠壓」到大小固定的向量中。

近日來,人們致力於解決圖神經網絡中的深度問題,希望圖神經網絡能有更好的表現,至少能避免「名義上是深度學習、實際上圖神經網絡卻只應用了兩層」的尷尬。

解決之道分為兩派:第一類是正則化技術(regularisation techniques),例如 DropEdge 方法,結點特徵之間的成對距離歸一化(PairNorm)或結點均值和方差歸一化(NodeNorm);第二類是架構調整,包括各類殘差連接,例如知識跳躍或仿射殘差連接。

雖然這些方法可以訓練出具有數十層深度圖神經網絡(這是一項壯舉,並非不可能實現),但卻沒有產生令人滿意的效果。更糟糕的是,使用深度結構體系通常會導致性能的倒退。下表顯示了一個典型的實驗評估結果,比較了node-wise分類任務上不同深度的圖神經網絡的表現。

此表顯示了深度圖神經網絡架構在CoauthorsCS引文網絡的結點分類任務上的一般結果。深度越深,基線(帶有殘差連接的GCN)的表現越差,性能也從88.18%急劇下降至39.71%。使用NodeNorm技術的神經網絡架構隨著深度的增加會變得更好, 但是性能卻開始下降(雖然僅是從89.53%降低到87.40%)。總體而言,64層深層架構獲得的最佳結果(87.40%)還不如簡單的基線(88.18%)。此外,我們注意到NodeNorm規則化可以改善淺層2層架構的性能(從88.18%增至89.53%)。上表源自論文《 Effective training strategies for deep graph neural networks》

從上表可以清晰看到,我們很難區分神經網絡的「優勢」是從深度網絡架構獲得的,還是從訓練此類神經網絡的「技巧」所獲得的。上述示例中的NodeNorm還改進了僅有兩層的淺層架構,從而實現了最佳性能。因此,我們無法確定在其他條件均相同的情況下,更深層數的圖神經網絡是否會表現得更好。

這些結果與基於網格結構數據的傳統深度學習形成了鮮明的對比。在傳統深度學習中,「超深度」架構能帶來性能上的突破,在當今也得到了廣泛應用。

接下來,作者嘗試從以下幾個方面來探索文章開頭所提出的問題:圖神經網絡的深度越深,真的優勢越大嗎?不過作者也表示,他目前也沒有一個明確的答案,希望下面這些探討能夠對大家的思考有所啟發。

1、圖結構

因為網格屬於特殊圖,目前也有一些案例可以說明深度對這類圖有益。除網格圖外,研究發現深度結構對一些象徵結構的幾何圖(如分子、點雲、網格等)是有促進作用的。為什麼這些圖與常用於評估圖神經網絡的引文網絡(如Cora、PubMed與CoauthorsCS)如此不同呢?其中一個差異是引文網絡就像直徑小的「小世界」( small world),在這個「小世界」裡,任意節點都可以在短短幾步跳到其他節點。因此,感受野只需具備幾層卷積層即能夠覆蓋整個圖,再增加層數也無更大助益。另一方面,在計算機視覺中,感受野成倍增長,需要更多層數來建立一個能捕捉圖中物體背景的感受野。

在上圖頂部的「小世界」圖中,只需幾步就能從一個節點跳到其他任意節點,因此鄰域的數量以及相應的圖卷積濾波器的感受野呈指數快速增長。我們可以看到,從紅色節點到任意節點僅需兩跳(不同顏色表示從紅色節點開始到達各個節點的圖層)。另一方面,在上圖底部的網格圖上,我們看到感受野呈多項式增長,因此需要更多的層數才能形成大小相同的感受野。

如上圖所示,鄰域呈指數增長,並出現了「信息瓶頸」現象:來自許多個領域的大量信息不得不被擠壓成單個的節點特徵向量,結果導致信息無法傳播,且模型性能下降。

2、遠程問題vs.短程問題

作者認為在探討深度與圖深度學習的關係時會涉及到遠程與短程信息的處理。比方說,社交網絡的預測只依賴本地領域節點的短程信息,無法添加遠程信息進行改善,因此多運用淺層GNN進行預測。另一方面,分子圖往往需要用到遠程信息,因為分子的化學性質可能由其相斥的原子組合決定。深度GNN可能會被應用於處理遠程信息,但如果圖結構導致感受野呈指數增長,信息瓶頸現象則會阻止遠程信息的有效傳播。這也是為什麼深度模型的性能無法提高。

3、理論局限性

深度結構除了能使感受野更廣,還能使計算機視覺基於簡單特徵合成複雜特徵。研究者通過將卷積神經網絡從人臉圖像學到的特徵可視化,發現簡單的幾何圖元逐漸變得越來越複雜,並最終能形成完成的面部結構。這個現象表明傳說中的「祖母神經元」(grandmother neuron)很可能真實存在。

這些將簡單特徵合成為複雜特徵的方法,對圖來說看似天方夜譚。比方說,無論神經網絡的層數有多深,都無法基於邊緣角/線合成一個三角形。另一方面,研究表明,必須設定最小深度,才能使用通過網絡的消息來計算圖的屬性。目前人們無法確定哪些圖的屬性可以通過淺層GNN計算、哪些必須通過深層模型計算、哪些又是任何類型的GNN都根本無法計算的。雷鋒網

以下是卷積神經網絡基於人臉圖像學習到的人臉特徵示例。大家可以注意到:隨著圖層的加深,圖像特徵逐漸變得更複雜,人臉結構也更加齊全。

圖源自Matthew Stewart的一篇博文:https://towardsdatascience.com/advanced-topics-in-deep-convolutional-neural-networks-71ef1190522d

4、深度與豐富度

圖深度學習與計算機視覺相反的一點在於:在計算機視覺中,底層網格是固定的,而在圖深度學習中,圖結構是一個非常重要的考慮要素。標準圖神經網絡無法定位的一些複雜高階信息(如motifs 和substructure counts),我們有可能設計出更精細的信息傳遞機制來解決。比方說,研究人員可以選擇配備多跳濾波器(multi-hop filters)的淺層網絡,而不是運用簡單的單跳卷積(1-hop convolutions)深度結構。

Michael Bronstein在他最近發表的一篇關於可伸縮初始類圖神經網絡(Scalable inception-like graph neutral networks, SIGN)的論文裡,詳盡講解了如何使用具備多個預計算濾波器(multiple pre-computed filters)的單層線性圖卷積結構,並展示了該網絡與更複雜數十倍的模型想比,性能不相上下。有趣的是,計算機視覺採取的方法與圖深度學習截然相反:早期使用大型濾波器(高達11×11)的淺層卷積神經網絡(CNN)結構(比如AlexNet),後來都被使用小型濾波器(一般為3×3)的深度結構所取代了。

5、評估 雷鋒網

目前評估圖神經網絡的常見方法,遭到了Oleksandr Shchur和Stephan Günnemann小組成員的嚴重質疑。他們聚焦於常見基準的缺陷,並指出簡單模型和複雜模型在相同條件下的表現相差無幾。

我們觀察到的一些與深度結構相關的現象(包括性能隨深度加深而降低),可能僅是因為小型數據集的過度擬合。全新的 Open Graph Benchmark能為大規模圖像提供嚴格的訓練和測試數據拆分方法,在一定程度上解決了上述的一些問題。作者認為,研究者需要精心設計實驗過程,以便更好地了解深度對圖深度學習是否有用、以及在什麼時候能發揮作用。雷鋒網

via:https://towardsdatascience.com/do-we-need-deep-graph-neural-networks-be62d3ec5c59

相關焦點

  • 一份完全解讀:是什麼使神經網絡變成圖神經網絡?
    雖然卷積網絡很難對球面數據進行分類,但是圖網絡可以很自然地處理它。可以把它當做是一個處理工具,但在實際應用程式中會出現許多類似的任務。雷鋒網AI科技評論按:最近,Graph Neural Network(GNN)在很多領域日益普及,包括社交網絡、知識圖譜、推薦系統甚至於生命科學。GNN在對節點關係建模方面表現十分突出,使得相關的研究領域取得了一定突破。
  • 南洋理工大學最新發布開源圖神經網絡基準
    介紹最近的許多研究讓我們看到了圖形神經網絡模型但大多數研究所使用的數據集都很小,如Cora和TU,在這種情況下,即使是非圖神經網絡的性能也相當可觀。只有使用中等大小的數據集進行進一步比較,圖形神經網絡的優勢才會變得明顯。在斯坦福圖形神經網絡bull Jure等人發布「開放圖形基準」之後,又一項旨在構建「圖形神經網絡圖像網」的研究應運而生。
  • 顏色越深越好?告訴你答案
    真的是顏色越深,對身體更好嗎?關於拔罐的這一系列問題,今天這篇文章我們就一起來了解一下。拔罐後皮膚上的顏色,代表了什麼?顏色越深越好嗎?拔過罐的人都知道,拔罐後,身上會出現一個有一個的印記,很多人會覺得這是身體排出來的毒素,顏色印記越深的,說明體內的毒素排出的就多,拔罐的效果也就更好。但事實或許並不是如此!
  • 知深行遠:關於圖神經網絡層數加深的探索
    圖 (Graph) 由結點和連邊組成,我們把應用於圖上的神經網絡算法稱為圖神經網絡 (Graph Neural Network, 簡稱GNN)。圖表示學習 [18]為什麼需要GNN?對於圖像、視頻、音頻等數據,經典的神經網絡 (如CNN和RNN) 已經能夠較好地處理,並且目前也已經取得了不錯的效果,為什麼我們還會需要GNN呢?
  • 中科院計算所沈華偉:圖神經網絡表達能力的回顧和前沿
    沈華偉老師還對近幾年圖神經網絡表達能力的相關研究進行了梳理,他說:「GNN出現的早期,大家對它表達能力的認識是基於其在半監督學習,尤其是節點分類任務上的優秀表現,一些應用向的研究也只是對圖神經網絡表達能力經驗上的證明」。基於這個認知,在介紹完圖神經網絡的基本知識之後,沈華偉老師對圖神經網絡的表達能力給予了理論上的介紹。
  • 中科院計算所沈華偉:圖神經網絡表達能力的回顧和前沿
    沈華偉老師還對近幾年圖神經網絡表達能力的相關研究進行了梳理,他說:「GNN出現的早期,大家對它表達能力的認識是基於其在半監督學習,尤其是節點分類任務上的優秀表現,一些應用向的研究也只是對圖神經網絡表達能力經驗上的證明」。基於這個認知,在介紹完圖神經網絡的基本知識之後,沈華偉老師對圖神經網絡的表達能力給予了理論上的介紹。
  • 簡單圖神經網絡(GNN)的基礎知識
    在社交網絡分析等一些應用中,圖神經網絡已經得到了廣泛的應用。新加坡科技研究局(A*STAR)的研究者 Rishabh Anand 近日通過圖解的方式介紹了圖與圖神經網絡的基本概念,或許能幫助初學者更直觀地理解圖神經網絡的內涵和價值。
  • 為什麼要進行圖學習?談一談逆勢而上的圖神經網絡
    相信你一定會說出來一個:圖神經網絡。圖嵌入表示:深度遊走(Deepwalk)圖系列|從圖(Graph)到圖卷積: 漫談圖神經網絡模型(I)圖系列|從圖(Graph)到圖卷積: 漫談圖神經網絡模模型(II)圖系列|從圖(Graph)到圖卷積: 漫談圖神經網絡模模型(III)圖卷積神經網絡Graph Convolutional Network(GCN):從問題到理論分析
  • 極驗發布全國首個專注於圖神經網絡的書籍,《深入淺出圖神經網絡...
    圖神經網絡是當前 AI 領域最為火爆的研究熱點之一,學術界與工業界各大公司紛紛投入大量資源研究。它在因果推理上擁有巨大潛力,有望解決深度學習無法處理的關係推理、可解釋性等一系列問題,而這些問題被業界認為是能夠推動 AI 出現實質性進展的關鍵。
  • 通過圖神經網絡了解玻璃
    因此,玻璃轉變首先表現為玻璃分子運動的劇烈阻滯。此過程是否對應於結構相變(如水凍結或超導過渡)是該領域的一個主要開放性問題。了解玻璃動力學的本質是了解原子級性質如何定義許多固體材料的可見特徵的基礎。利用圖神經網絡對玻化動力學建模可以將玻璃建模為粒子通過短程排斥勢相互作用的方法,這實際上可以防止粒子彼此之間過於靠近。這種潛力是關係性的(只有粒子對相互作用)和局部的(只有附近的粒子彼此相互作用),這表明尊重這種局部和關係結構的模型應該是有效的。
  • 拔罐顏色越深「毒」越多?
    但拔罐顏色越深就表示『排毒』越多嗎?拔罐究竟能起到什麼作用,又有哪些講究?今天就來講一講~01拔罐不止是排毒拔罐的作用,簡單來說主要有以下兩種:消腫止痛罐內負壓效應(產生的吸力),能改善拔罐局部的血液循環,加強新陳代謝,從而緩解肌肉緊張,改變局部的營養狀態,起到一定的止痛作用。
  • 如何使用Keras構建殘差神經網絡?
    什麼是殘差神經網絡?原則上,神經網絡的層數越多,應獲得越好的結果。一個更深層的網絡可以學到任何淺層的東西,甚至可能更多。如果對於給定的數據集,網絡無法通過添加更多的層來學習更多東西,那麼它就可以學習這些其他層的恆等映射(identity mappings)。這樣,它可以保留先前層中的信息,並且不會比較淺的層更糟糕。
  • 逆勢而上的技術:圖神經網絡學習來了!
    你一定不會忽略它——圖神經網絡。相比傳統神經網絡,圖神經網絡的優勢非常明顯:1、非順序排序的特徵學習:GNN 的輸出不以節點的輸入順序為轉移的。百度作為 AI 領域的領頭羊企業,在圖神經網絡領域的研究、產業實踐、工業落地方面,積累了豐富的經驗!作為百度圖神經網絡研究的中堅力量,百度 PGL 團隊戰績累累,刷新圖神經網絡權威榜單 OGB 三項榜單 SOTA以及獲得今年 COLING 協辦比賽 TextGraph 冠軍!
  • 圖神經網絡的表達能力,究竟有多強大?
    1圖神經網絡和 WL 圖同構測試之間的關係眾所周知,傳統的前饋神經網絡(多層感知機)是一種通用函數近似器:它們能夠以任意的準確率逼近任意的平滑函數。對於近期興起的圖神經網絡來說,其表徵性質還不太為人所知。在實驗中,我們經常可以看到圖神經網絡在某些數據集上性能優異,但同時又在另一些數據集上表現令人失望。
  • Twitter團隊最新研究:快速高效的可擴展圖神經網絡SIGN
    前言:迄今為止,阻礙圖神經網絡在行業應用中被廣泛採用的挑戰之一是難以將其縮放到大型圖(例如Twitter跟隨圖)。在這篇文章中,我們描述了Twitter開發的一種簡單的圖神經網絡架構,該架構可以處理大量的圖。本文由Fabrizo Frasca 和 Emanuele Rossi 合著。圖神經網絡(GNN)是一種新型的ML模型,專門用於處理圖數據。在不同領域,GNN可成功實現領域內關係及相互作用建模,如社會科學,計算機圖形與視覺,粒子物理學,化學和醫學。
  • Bengio 團隊力作:GNN 對比基準橫空出世,圖神經網絡的「ImageNet...
    然而,正如計算機視覺的崛起有賴於 ImageNet 的誕生,圖神經網絡也急需一個全球學者公認的統一對比基準。近日,Bengio 大神帶領其團隊發布了新的圖神經網絡對比基準測試框架以及附帶的 6 個標準化數據集。大家可以開始盡情刷榜了!
  • 一文讀懂圖神經網絡
    圖神經網絡作為神經網絡擴展,可以處理以圖結構表示的數據格式。在圖中,每個節點都由本身的特性以及其相鄰的節點和關系所定義,網絡通過遞歸地聚合和轉換相鄰節點的表示向量來計算節點的表示向量。圖神經網絡(GraphNeural Networks, GNNs),主要針對非歐幾裡得空間結構(圖結構)的數據進行處理。
  • AI的人工神經網絡
    人工神經網絡是模擬人和動物的神經網絡的某種結構和功能的模擬,所以要了解神經網絡的工作原理,所以我們首先要了解生物神經元。其結構如下圖所示:   從上圖可看出生物神經元它包括,細胞體:由細胞核、細胞質與細胞膜組成; 軸突: 是從細胞體向外伸出的細長部分
  • ...神經網絡重現生物視覺系統,發《自然:神經科學》後再中NeurIPS...
    他們以人類大腦的工作方式為樣本,重新設計人工神經網絡的結構,以淺層神經網絡+循環結構在物體識別任務中取得了優秀的、類似生物視覺系統的表現。這項成果的意義遠不在於物體識別和深度學習本身。實際上,James DiCarlo 教授團隊本來做的就是大腦與認知科學研究,探索、設計工作方式相仿的人工神經網絡可以幫助他們更好地理解生物大腦的原理。
  • [獨家]25張圖讓你讀懂神經網絡架構
    原標題:[獨家]25張圖讓你讀懂神經網絡架構 由於新的神經網絡架構無時無刻不在湧現,想要記錄所有的神經網絡是很困難的事情。要把所有這些縮略語指代的網絡(DCIGN,IiLSTM,DCGAN等)都弄清,一開始估計還無從下手。