深度圖神經網絡到底「深不深」

2020-12-23 中原動力智慧機器人

今年,圖深度學習在機器學習領域的最熱話題上一直居高不下。然而,那些習慣於想像具有數十甚至上百層卷積神經網絡才算有「深度」的人,看到圖「深度」學習最多只用幾層,一定會很失望。「深度圖神經網絡」是用詞不當嗎?我們是否解釋一下這個經典之詞來看看「深度」是否對圖學習是不利的?

訓練深度圖神經網絡非常困難。除了在深層神經結構中觀察到的常見困境,如反向傳播中的梯度消失和由於大量參數導致的過擬合,還有一些特定於圖的問題。其中一個問題是過渡平滑,由於應用了多個圖卷積層,節點特徵趨於收斂到同一個向量並變得幾乎不可分辨的現象[1]。這一行為在圖神經網絡模型中[2、3]被首先觀察到,類似於低通過濾器。另一個現象是瓶頸,「過度擠壓」多到指數級的相鄰數據到固定大小向量而產生的結果[4]。

最近大家一直致力於解決GNN中深度的問題,以期獲得更好的性能,同時也希望避免用術語「深度學習」提到GNN,而GNN只有兩層的尷尬局面。典型方法可以分成兩大類。首先,正則化技術,例如,隨機刪邊技術DropEdge[5]、節點特徵之間的成對距離歸一化PairNorm或者節點均值和方差歸一化NodeNorm。其次,體系結構的變化包括各種類型的殘差連結,如跳躍連接和仿射殘差連結[9]。這些技術用來訓練具有數十層的深度圖神經網絡(這是一項困難甚至不可能完成的壯舉),但是並沒有顯示出顯著的成果。更糟糕的是,使用深度架構帶來的常見結果是性能衰減。下表([7])顯示了一個典型的實驗評估,比較了節點分類任務中不同深度的圖神經網絡:

圖中展示了深度圖神經網絡體系在CoauthorsCS節點分類任務中的典型結果。基線(有殘差連結的GCN)隨著深度增加表現欠佳,可以看到從88.18%戲劇性的降到了39.71%。使用NodeNorm技術的架構在深度增加後可以持續性的表現兩號。不管怎樣,當深度增加表現就會下降(雖然不明顯,從89.53%降至87.40%)。總的來說,深度達到64層的結構表現出的最佳結果(87.40%)低於簡單基線(88.18%)。同時,觀察到Nodenorm正則化提升了淺層2層結構的性能(從88.18%升至89.52%)。錶轉載自[7](所示為每類5個標籤的情況;本文研究的其他設置也表現出類似的行為)。類似的結果在[5]和其他幾篇論文中也有展示。

從這張表中可以看出,很難將深層結構帶來的優勢與訓練這種神經網絡所需的「技巧」分開。實際上,NodeNorm在上面的例子中也只改進了一個僅有兩層的淺層結構,從而達到了最佳性能。因此,目前還不清楚具有其他更深層次的圖神經網絡是否表現更好。

這些結果顯然與網格數據結構上的深度學習的傳統設置形成了鮮明對比,極深網絡結構[10,11]帶來了性能上的突破,並在當今廣泛使用。在下面,我將嘗試提供一些思路,幫助回答這篇文章標題中提出的挑戰性問題。(我自己也還沒有一個明確的答案。)

圖的結構。由於網格是特殊的圖形,因此也有一些受益深度的圖像範例。除了網格之外,表示分子、點雲[12]或網格[9]等結構的「幾何」圖似乎也受益於深層結構。為什麼這樣的圖與Cora、PubMed或CoauthorsCS等常用於評價圖神經網絡的引文網絡有如此大的不同?區別之一是後者類似於低直徑的「小世界」網絡,在這種網絡中,人們可以在幾個跳躍中從任何其他節點到達任何節點。因此,僅僅幾個卷積層的感受野就已經覆蓋了整個圖[13],因此添加更多的層對到達遠程節點沒有幫助。另一方面,在計算機視覺中,感受野呈多項式增長,需要許多層來產生一個能捕捉圖像中物體上下文的感受野[14]。

在小世界圖(頂部)中,從另一個節點到達任何節點只需要幾個跳躍。結果,鄰域的數目(還有與此相應的圖卷積過濾器的感受野)以指數級的速度增長。在這個例子中,從紅色節點到每個節點只需要兩個跳躍(不同的顏色表示從紅色節點開始將到達相應節點的層)。另一方面,在網格(底部),感受野的增長是多項式的,因此需要更多的層來達到相同的感受野大小。

在鄰域指數增長的圖中,如上圖所示,會出現瓶頸現象:太多相鄰信息必須壓縮成單個節點的特徵向量。結果,消息無法傳播,性能受到影響。

範圍大小問題。一個稍有不同但相關的特徵是看需要大範圍信息還是小範圍信息。例如,在社交網絡中,預測通常只依賴於來自節點本地鄰域的小範圍信息,而不會通過添加大範圍信息來改善。因此,這些任務可以由淺層GNN來完成。另一方面,分子圖通常需要大範圍信息,因為分子的化學性質可能取決於其對側原子的組合[15]。深層GNN可能需要利用這些大範圍交互作用。然而,如果圖的結構導致感受野呈指數增長,瓶頸現象會阻止大範圍信息的有效傳播,這解釋了為什麼深層模型的性能沒有提高[4]。

理論局限性。除了更大的接受域外,深層結構在機器視覺問題中的一個關鍵優勢是它們能夠從簡單的信息中組合出複雜的特徵。將CNNs從人臉圖像中學習到的特徵可視化,顯示出從簡單的幾何圖元到整個面部結構逐漸複雜的特徵,表明傳說中的「祖母神經元」比神話更真實。這樣的組合對於圖形來說似乎是不可能完成的任務,例如,無論神經網絡有多深,都無法把邊組成三角形[16]。另一方面,研究表明,在沒有一定的最小深度的情況下,計算一些圖特徵,例如使用信息傳遞網絡的圖形矩,是不可能的[17]。總的來說,我們目前仍缺乏對圖像特徵計算的了解,不清楚對哪些圖像特徵可以用淺層GNN表示,哪些需要深層模型,哪些根本無法計算。

通過卷積神經網絡學習獲得的關於人臉圖像特徵的例子。注意,當進入更深層次時,特徵如何逐漸變得更加複雜(從簡單的幾何圖元到面部器官再到整個面部)。圖片來自Matthew Stewart的一篇博客文章。

深度與豐富度。與底層網格是固定的機器視覺不同,在圖深度學習中,圖像的結構確實很重要,並且需要考慮在內。有可能設計更精細的信息傳遞機制來解釋複雜的高階信息,例如標準GNNs無法發現的motif[18]或子結構計數[19]。與使用簡單的1個跳躍的卷積的深層結構不同,人們可以選擇具有更豐富的多跳躍過濾器的淺層網絡。我們最近的一篇關於可伸縮類初始圖神經網絡(SIGN)的論文通過使用帶有多個預計算過濾器的單層線性圖卷積結構,將這一思想發揮到了極致。我們展示的性能可以與更複雜的模型相比,只是時間複雜度的一小部分[20]。有趣的是,機器視覺社區走了一條相反的道路:早期的淺層CNN架構,像AlexNet這樣帶有大型(高達11×11)的過濾器,被帶有小型(通常為3×3)過濾器的非常深層的結構所取代。

評價。最後但同樣重要的是,圖神經網絡的主要評估方法受到了Oleksandr Shchur和Stephan Günnemann[21]小組的同事的嚴厲批評,他們提請注意常用基準的缺陷,並表明如果在公平的環境下進行評估,簡單模型的表現與更複雜的模型不相上下。我們在深層體系結構中觀察到的一些現象,例如性能隨深度而降低,可能只是源於對小數據集的過擬合。新的Open Graph Benchmark解決了其中的一些問題,為大型圖像提供了嚴格的訓練和測試數據切片。我認為我們需要做精心設計的具體實驗,以便更好地理解深度在圖深度學習中是否有用或何時有用。

參考文獻:

[1] More precisely, over-smoothing makes node feature vector collapse into a subspace, see K. Oono and T. Suzuki, Graph neural networks exponentially loose expressive power for node classification (2019). arXiv:1905.10947, which provides asymptotic analysis using dynamic systems formalist.

[2] Q. Li, Z. Han, X.-M. Wu, Deeper insights into graph convolutional networks for semi-supervised learning (2019). Proc. AAAI. Draws the analogy between the GCN model and Laplacian smoothing and points to the over-smoothing phenomenon.

[3] H. Nt and T. Maehara, Revisiting graph neural networks: All we have is low-pass filters (2019). arXiv:1905.09550. Uses spectral analysis on graphs to answer when GCNs perform well.

[4] U. Alon and E. Yahav, On the bottleneck of graph neural networks and its practical implications (2020). arXiv:2006.05205. Identified the over-squashing phenomenon in graph neural networks, which is similar to one observed in sequential recurrent models.

[5] Y. Rong et al. DropEdge: Towards deep graph convolutional networks on node classification (2020). In Proc. ICLR. An idea similar to DropOut where a random subset of edges is used during training.

[6] L. Zhao and L. Akoglu. PairNorm: Tackling oversmoothing in GNNs (2020). Proc. ICLR. Proposes normalising the sum of pairwise distances between node features in order to prevent them collapsing into a single point.

[7] K. Zhou et al. Effective training strategies for deep graph neural networks (2020). arXiv:2006.07107.

[8] K. Xu et al., Representation learning on graphs with jumping knowledge networks (2018). Proc. ICML 2018.

[9] S. Gong et al. Geometrically principled connections in graph neural networks (2020). Proc. CVPR.

[10] C. Szegedy et al. Going deeper with convolutions (2015). Proc. CVPR.

[11] K. He et al., Deep residual learning for image recognition (2016). Proc. CVPR.

[12] G. Li et al. DeepGCNs: Can GCNs go as deep as CNNs? (2019). Proc. ICCV. Shows the advantages of depth for geometric point-cloud data.

[13] Alon and Yahav refer to the case when a node is unable to receive information from nodes that are farther away than the number of layers as 「under-reaching」. This phenomenon was first pointed out by P Barceló et al., The logical expressiveness of graph neural networks (2020). Proc. ICLR. Alon and Yahav show experimentally on the problem of chemical properties prediction in molecular graphs (using GNNs with more layers than the diameter of the graphs) that the source of poor performance is not under-reaching but over-squashing.

[14] André Araujo and co-authors have an excellent blog post about receptive fields in convolutional neural networks. As CNN models evolved in computer vision applications, from AlexNet, to VGG, ResNet, and Inception, their receptive fields increased as a natural consequence of the increased number of layers. In modern architectures, the receptive field usually covers the entire input image, i.e., the context used by each feature in the final output feature map includes all of the input pixels. Araujo et al observe a logarithmic relationship between classification accuracy and receptive field size, which suggests that large receptive fields are necessary for high-level recognition tasks, but with diminishing return.

[15] M. K. Matlock et al. Deep learning long-range information in undirected graphs with wave networks (2019). Proc. IJCNN. Observes the failure of graph neural networks to capture long-distance interactions in molecular graphs.

[16] This stems from message-passing GNN equivalence to the Weisfeiler-Lehman graph isomorphism test, see e.g. V. Arvind et al. On Weisfeiler-Leman invariance: subgraph counts and related graph properties (2018). arXiv:1811.04801 and Z. Chen et al. Can graph neural networks count substructures? (2020). arXiv:2002.04025.

[17] N. Dehmamy, A.-L. Barabási, R. Yu, Understanding the representation power of graph neural networks in learning graph topology (2019). Proc. NeurIPS. Shows that learning graph moments of certain order requires GNNs of certain depth.

[18] F. Monti, K. Otness, M. M. Bronstein, MotifNet: a motif-based Graph Convolutional Network for directed graphs (2018). arXiv:1802.01572.

[19] G. Bouritsas et al. Improving graph neural network expressivity via subgraph isomorphism counting (2020). arXiv:2006.09252.

[20] E. Rossi et al. SIGN: Scalable inception graph neural networks (2020). arXiv:2004.11198

[21] O. Shchur et al. Pitfalls of graph neural network evaluation (2018). Workshop on Relational Representation Learning. Shows that simple GNN models perform on par with more complex ones.

(來源:towardsdatascience 作者:Michael Bronstein 編譯:ODRobots 轉載請標明出處)

相關焦點

  • 我們真的需要深度圖神經網絡嗎?
    深度學習的一大特點就是使用的神經網絡具有幾十層甚至數百層。與之形成鮮明對比的是,大多數用於圖深度學習的架構都很「淺」,只有少量的層。在本文中,作者提出了一個看上去有些離經叛道的問題:圖神經網絡架構的深度能否帶來任何優勢?
  • 【專利解密】深鑑科技結合神經網絡處理器與通用處理器的AI晶片
    【嘉德點評】深鑑科技發明的人工智慧晶片,結合了神經網絡專用處理器和通用處理器的晶片結構,不僅可以提供一個靈活的系統,並且可以適用於複雜的神經網絡。 深鑑科技的AI晶片基於FPGA設計,其設計的亞里斯多德架構是針對卷積神經網絡而設計的,其設計的笛卡爾架構是專為處理DNN/RNN網絡而設計的,可對經過結構壓縮後的稀疏神經網絡進行極致高效的硬體加速。 在人工智慧領域,卷積神經網絡尤其在圖像處理領域有著非常廣泛的應用,其具有訓練方法簡單、計算結構統一的特點。
  • 圖神經網絡越深,表現就一定越好嗎?
    數十層甚至數百層神經網絡的應用,是深度學習的重要標誌之一。但現實情況卻遠非如此:比如今年被視作機器學習領域最火熱的研究方向之一——圖神經網絡,大多數都只運用了寥寥幾層網絡。一般思路裡,我們會認為圖神經網絡越深,效果就會越好。然而,日前帝國理工學院教授Michael Bronstein 發出了靈魂拷問:圖神經網絡的深度,真的會帶來優勢嗎?
  • 反之亦然,科學家開始用深度神經網絡解釋人類大腦
    老實說,在我的實驗室裡,之前沒有人用深層網絡做任何事情,"麻省理工學院神經科學家南希-坎維舍說,"而現在,他們中的大多數人反而常常去訓練神經網絡模型。"01深度網絡和視覺人工智慧裡的神經網絡是由相互連接的感知器構建的,感知器是一種生物神經元的簡化數學模型。在這種神經網絡裡至少有兩層感知器,一層是輸入層,一層是輸出層。
  • 圖神經網絡最新發展
    圖 1:圖像卷積與圖卷積。卷積神經網絡(Convolutional Neural Network,CNN)和圖神經網絡(Graph Neural Network,GNN)的主要區別是什麼?簡單來說,就是輸入數據。你可能還記得,CNN 所需的輸入是一個固定大小的向量或矩陣。然而,某些類型的數據自然是用圖表示的,如分子、引用網絡或社交媒體連接網絡都可以用圖數據來表示。
  • 圖神經網絡加速晶片進入倒計時 全球首款商用圖神經網絡加速IP核...
    因此,該IP核是全球首款圖神經網絡加速IP核,專注於高效加速圖神經網絡的推斷階段。  適合圖神經網絡的算力  此款圖神經網絡加速IP核代號為「GCU Zero」,主要研究人員之一是中科院計算所特別研究助理嚴明玉博士,其畢業於中科院計算所,曾在美國加州大學聖巴巴拉分校 SEAL 實驗室訪學,主要從事圖計算和圖神經網絡加速結構研究。
  • 中科院計算所沈華偉:圖神經網絡表達能力的回顧和前沿
    以下是演講全文,AI科技評論做了不改變原意的整理。 此文經過沈老師修改。圖神經網絡過去幾年炙手可熱,也取得了一系列的突破,但是這兩年發展進入了相對停滯的狀態。當前更多的研究員是把圖神經網絡當做一個工具,也即把圖神經網絡泛化到其他領域進行應用方向的研究。
  • 圖神經網絡的「前世今生」
    深度學習通過端到端的訓練徹底改變了很多機器學習任務. 但是這些任務的數據都是歐式空間上的規則數據. 而現實中很多數據之間都有著相當複雜的關係, 一般表現為非歐空間之上的圖結構.為處理圖數據之上的任務, 圖神經網絡就應運而生了.
  • 手繪長圖 | 網絡詐騙 這些套路深!
    手繪長圖 | 網絡詐騙 這些套路深!原標題:《手繪長圖 | 網絡詐騙 這些套路深!》閱讀原文 特別聲明本文為澎湃號作者或機構在澎湃新聞上傳並發布,僅代表該作者或機構觀點,不代表澎湃新聞的觀點或立場
  • 基於深度神經網絡的脫硫系統預測模型及應用
    之後的預測結果表明,此做法增加了模型的魯棒性,模型對異常輸入的響應不敏感。圖 3 展示了本文所建立模型的數據預處理過程。圖 4 深度神經網絡的設計結構在神經網絡結構中,循環神經網絡(Recurrent Neural Network,RNN)一般用於解決時序問題。但 RNN在訓練過程中容易發生「梯度消失」現象。
  • 首款商用圖神經網絡加速IP核發布
    據介紹,這是全球首款商用圖神經網絡加速IP核,專注於高效加速圖神經網絡的推斷階段。   基於混合結構設計思想,GCU Zero分別為圖神經網絡的兩個主要執行階段——圖遍歷階段和神經網絡變換階段設計相應的加速引擎,並流水兩個引擎的執行。這一設計思路可匹配圖神經網絡對算力的特殊要求,大幅提升圖神經網絡的執行效率。
  • 圖神經網絡的十大學習資源分享
    字幕組雙語原文:【乾貨】圖神經網絡的十大學習資源分享英語原文:Top 10 Learning Resources for Graph Neural Networks翻譯:雷鋒字幕組(聽風1996)圖神經網絡(GNNs)是深度學習的一個相對較新的領域,從最近開始越來越流行。
  • 百度李偉彬:基於PGL的圖神經網絡基線系統
    而數據上的空間關聯特性,恰好是圖神經網絡所擅長的。圖神經網絡在非結構化數據上有著出色的處理能力,使得最近一段時間圖神經網絡在學界與工業界上大放光彩。因此,本次分享將介紹2020國際大數據比賽中,基於百度飛槳推出的圖學習框架Paddle Graph Learning(PGL)實現的基線系統。
  • 【乾貨】圖神經網絡的十大學習資源分享
    字幕組雙語原文:【乾貨】圖神經網絡的十大學習資源分享英語原文:Top 10 Learning Resources for Graph Neural Networks>翻譯:雷鋒字幕組(聽風1996)圖神經網絡(GNNs)是深度學習的一個相對較新的領域,從最近開始越來越流行。
  • 圖神經網絡前沿綜述:動態圖網絡
    導語 圖神經網絡已經被廣泛的應用於圖結構數據的建模和表徵學習,但是主流的研究都局限於處理靜態網絡數據,而真實的複雜網絡大多會隨時間發生結構和性質的演化
  • 中科院計算所提出全球首款圖神經網絡加速晶片設計
    「HyGCN,寓意向圖神經網絡的加速說『Hi』。」嚴明玉介紹道,圖神經網絡將深度學習算法和圖計算算法相融合,取長補短,能達到更優的認知與問題處理等能力,在搜索、推薦、風險控制等重要領域有著廣泛應用。現有的處理器晶片在執行圖神經網絡的計算中效率低下,其團隊前瞻性地展開面向圖神經網絡的加速晶片設計,為解決這一難題提供了可行方案。
  • ...3D結構光方式,最終生成3D深度圖,這個過程類似於人臉識別中的...
    說起近年來,最受矚目,最受爭議的手機新功能,我相信FaceID絕對可以排前三名,從2017年蘋果秋季發布會首次出現以來,已經在各大主流手機上得到充分的應用,自問世到現在,相信很多人都對其實際的操作不太熟悉,接下來我從軟體角度上介紹今天的主角——FaceID。
  • 為什麼說Transformer就是圖神經網絡?
    作者 | Chaitanya Joshi譯者 | Kolen前言有些工程師朋友經常問我這樣一個問題:「圖深度學習聽起來很棒,但是現在是否有非常成功的商業案例?是否已經在實際應用中部署?」通過這篇文章,我想建立起圖神經網絡(GNNs)和Transformers之間的聯繫。具體來說,我將首先介紹NLP和GNN領域中模型架構的基本原理,然後使用公式和圖表來闡述兩者之間的聯繫,最後將討論如何讓兩者協同運作來推動這方面的研究進展。我們先來談談模型架構的目的——表示學習。
  • 深度學習局限何在?圖網絡的出現並非偶然
    「我最初認為對抗樣本只是一個小煩惱,」多倫多大學的計算機科學家、深度學習先驅之一 Geoffrey Hinton 說:「但我現在認為這個問題可能非常重要,它告訴我們,我們到底做錯了什麼。」這是很多人工智慧從業者的同感,任何人都可以輕易說出一長串深度學習的弊端。例如,除了易受欺騙之外,深度學習還存在嚴重的低效率問題。
  • 表徵圖數據絕不止圖神經網絡一種方法
    近年來,圖神經網絡掀起了將深度學習方法應用於圖數據分析的浪潮。不過其作為一門古老的認識世界的方法論,人們對於圖表徵技術的研究從很早以前就開始了。雖然現在深度神經網絡在物體識別、圖像分類和自然語言處理領域都取得了巨大的成功。然而,「設計出最優的神經網絡,學習並輸出任意的圖」仍然是一個熱門的研究課題。