今年,圖深度學習在機器學習領域的最熱話題上一直居高不下。然而,那些習慣於想像具有數十甚至上百層卷積神經網絡才算有「深度」的人,看到圖「深度」學習最多只用幾層,一定會很失望。「深度圖神經網絡」是用詞不當嗎?我們是否解釋一下這個經典之詞來看看「深度」是否對圖學習是不利的?
訓練深度圖神經網絡非常困難。除了在深層神經結構中觀察到的常見困境,如反向傳播中的梯度消失和由於大量參數導致的過擬合,還有一些特定於圖的問題。其中一個問題是過渡平滑,由於應用了多個圖卷積層,節點特徵趨於收斂到同一個向量並變得幾乎不可分辨的現象[1]。這一行為在圖神經網絡模型中[2、3]被首先觀察到,類似於低通過濾器。另一個現象是瓶頸,「過度擠壓」多到指數級的相鄰數據到固定大小向量而產生的結果[4]。
最近大家一直致力於解決GNN中深度的問題,以期獲得更好的性能,同時也希望避免用術語「深度學習」提到GNN,而GNN只有兩層的尷尬局面。典型方法可以分成兩大類。首先,正則化技術,例如,隨機刪邊技術DropEdge[5]、節點特徵之間的成對距離歸一化PairNorm或者節點均值和方差歸一化NodeNorm。其次,體系結構的變化包括各種類型的殘差連結,如跳躍連接和仿射殘差連結[9]。這些技術用來訓練具有數十層的深度圖神經網絡(這是一項困難甚至不可能完成的壯舉),但是並沒有顯示出顯著的成果。更糟糕的是,使用深度架構帶來的常見結果是性能衰減。下表([7])顯示了一個典型的實驗評估,比較了節點分類任務中不同深度的圖神經網絡:
圖中展示了深度圖神經網絡體系在CoauthorsCS節點分類任務中的典型結果。基線(有殘差連結的GCN)隨著深度增加表現欠佳,可以看到從88.18%戲劇性的降到了39.71%。使用NodeNorm技術的架構在深度增加後可以持續性的表現兩號。不管怎樣,當深度增加表現就會下降(雖然不明顯,從89.53%降至87.40%)。總的來說,深度達到64層的結構表現出的最佳結果(87.40%)低於簡單基線(88.18%)。同時,觀察到Nodenorm正則化提升了淺層2層結構的性能(從88.18%升至89.52%)。錶轉載自[7](所示為每類5個標籤的情況;本文研究的其他設置也表現出類似的行為)。類似的結果在[5]和其他幾篇論文中也有展示。
從這張表中可以看出,很難將深層結構帶來的優勢與訓練這種神經網絡所需的「技巧」分開。實際上,NodeNorm在上面的例子中也只改進了一個僅有兩層的淺層結構,從而達到了最佳性能。因此,目前還不清楚具有其他更深層次的圖神經網絡是否表現更好。
這些結果顯然與網格數據結構上的深度學習的傳統設置形成了鮮明對比,極深網絡結構[10,11]帶來了性能上的突破,並在當今廣泛使用。在下面,我將嘗試提供一些思路,幫助回答這篇文章標題中提出的挑戰性問題。(我自己也還沒有一個明確的答案。)
圖的結構。由於網格是特殊的圖形,因此也有一些受益深度的圖像範例。除了網格之外,表示分子、點雲[12]或網格[9]等結構的「幾何」圖似乎也受益於深層結構。為什麼這樣的圖與Cora、PubMed或CoauthorsCS等常用於評價圖神經網絡的引文網絡有如此大的不同?區別之一是後者類似於低直徑的「小世界」網絡,在這種網絡中,人們可以在幾個跳躍中從任何其他節點到達任何節點。因此,僅僅幾個卷積層的感受野就已經覆蓋了整個圖[13],因此添加更多的層對到達遠程節點沒有幫助。另一方面,在計算機視覺中,感受野呈多項式增長,需要許多層來產生一個能捕捉圖像中物體上下文的感受野[14]。
在小世界圖(頂部)中,從另一個節點到達任何節點只需要幾個跳躍。結果,鄰域的數目(還有與此相應的圖卷積過濾器的感受野)以指數級的速度增長。在這個例子中,從紅色節點到每個節點只需要兩個跳躍(不同的顏色表示從紅色節點開始將到達相應節點的層)。另一方面,在網格(底部),感受野的增長是多項式的,因此需要更多的層來達到相同的感受野大小。
在鄰域指數增長的圖中,如上圖所示,會出現瓶頸現象:太多相鄰信息必須壓縮成單個節點的特徵向量。結果,消息無法傳播,性能受到影響。
範圍大小問題。一個稍有不同但相關的特徵是看需要大範圍信息還是小範圍信息。例如,在社交網絡中,預測通常只依賴於來自節點本地鄰域的小範圍信息,而不會通過添加大範圍信息來改善。因此,這些任務可以由淺層GNN來完成。另一方面,分子圖通常需要大範圍信息,因為分子的化學性質可能取決於其對側原子的組合[15]。深層GNN可能需要利用這些大範圍交互作用。然而,如果圖的結構導致感受野呈指數增長,瓶頸現象會阻止大範圍信息的有效傳播,這解釋了為什麼深層模型的性能沒有提高[4]。
理論局限性。除了更大的接受域外,深層結構在機器視覺問題中的一個關鍵優勢是它們能夠從簡單的信息中組合出複雜的特徵。將CNNs從人臉圖像中學習到的特徵可視化,顯示出從簡單的幾何圖元到整個面部結構逐漸複雜的特徵,表明傳說中的「祖母神經元」比神話更真實。這樣的組合對於圖形來說似乎是不可能完成的任務,例如,無論神經網絡有多深,都無法把邊組成三角形[16]。另一方面,研究表明,在沒有一定的最小深度的情況下,計算一些圖特徵,例如使用信息傳遞網絡的圖形矩,是不可能的[17]。總的來說,我們目前仍缺乏對圖像特徵計算的了解,不清楚對哪些圖像特徵可以用淺層GNN表示,哪些需要深層模型,哪些根本無法計算。
通過卷積神經網絡學習獲得的關於人臉圖像特徵的例子。注意,當進入更深層次時,特徵如何逐漸變得更加複雜(從簡單的幾何圖元到面部器官再到整個面部)。圖片來自Matthew Stewart的一篇博客文章。
深度與豐富度。與底層網格是固定的機器視覺不同,在圖深度學習中,圖像的結構確實很重要,並且需要考慮在內。有可能設計更精細的信息傳遞機制來解釋複雜的高階信息,例如標準GNNs無法發現的motif[18]或子結構計數[19]。與使用簡單的1個跳躍的卷積的深層結構不同,人們可以選擇具有更豐富的多跳躍過濾器的淺層網絡。我們最近的一篇關於可伸縮類初始圖神經網絡(SIGN)的論文通過使用帶有多個預計算過濾器的單層線性圖卷積結構,將這一思想發揮到了極致。我們展示的性能可以與更複雜的模型相比,只是時間複雜度的一小部分[20]。有趣的是,機器視覺社區走了一條相反的道路:早期的淺層CNN架構,像AlexNet這樣帶有大型(高達11×11)的過濾器,被帶有小型(通常為3×3)過濾器的非常深層的結構所取代。
評價。最後但同樣重要的是,圖神經網絡的主要評估方法受到了Oleksandr Shchur和Stephan Günnemann[21]小組的同事的嚴厲批評,他們提請注意常用基準的缺陷,並表明如果在公平的環境下進行評估,簡單模型的表現與更複雜的模型不相上下。我們在深層體系結構中觀察到的一些現象,例如性能隨深度而降低,可能只是源於對小數據集的過擬合。新的Open Graph Benchmark解決了其中的一些問題,為大型圖像提供了嚴格的訓練和測試數據切片。我認為我們需要做精心設計的具體實驗,以便更好地理解深度在圖深度學習中是否有用或何時有用。
參考文獻:
[1] More precisely, over-smoothing makes node feature vector collapse into a subspace, see K. Oono and T. Suzuki, Graph neural networks exponentially loose expressive power for node classification (2019). arXiv:1905.10947, which provides asymptotic analysis using dynamic systems formalist.
[2] Q. Li, Z. Han, X.-M. Wu, Deeper insights into graph convolutional networks for semi-supervised learning (2019). Proc. AAAI. Draws the analogy between the GCN model and Laplacian smoothing and points to the over-smoothing phenomenon.
[3] H. Nt and T. Maehara, Revisiting graph neural networks: All we have is low-pass filters (2019). arXiv:1905.09550. Uses spectral analysis on graphs to answer when GCNs perform well.
[4] U. Alon and E. Yahav, On the bottleneck of graph neural networks and its practical implications (2020). arXiv:2006.05205. Identified the over-squashing phenomenon in graph neural networks, which is similar to one observed in sequential recurrent models.
[5] Y. Rong et al. DropEdge: Towards deep graph convolutional networks on node classification (2020). In Proc. ICLR. An idea similar to DropOut where a random subset of edges is used during training.
[6] L. Zhao and L. Akoglu. PairNorm: Tackling oversmoothing in GNNs (2020). Proc. ICLR. Proposes normalising the sum of pairwise distances between node features in order to prevent them collapsing into a single point.
[7] K. Zhou et al. Effective training strategies for deep graph neural networks (2020). arXiv:2006.07107.
[8] K. Xu et al., Representation learning on graphs with jumping knowledge networks (2018). Proc. ICML 2018.
[9] S. Gong et al. Geometrically principled connections in graph neural networks (2020). Proc. CVPR.
[10] C. Szegedy et al. Going deeper with convolutions (2015). Proc. CVPR.
[11] K. He et al., Deep residual learning for image recognition (2016). Proc. CVPR.
[12] G. Li et al. DeepGCNs: Can GCNs go as deep as CNNs? (2019). Proc. ICCV. Shows the advantages of depth for geometric point-cloud data.
[13] Alon and Yahav refer to the case when a node is unable to receive information from nodes that are farther away than the number of layers as 「under-reaching」. This phenomenon was first pointed out by P Barceló et al., The logical expressiveness of graph neural networks (2020). Proc. ICLR. Alon and Yahav show experimentally on the problem of chemical properties prediction in molecular graphs (using GNNs with more layers than the diameter of the graphs) that the source of poor performance is not under-reaching but over-squashing.
[14] André Araujo and co-authors have an excellent blog post about receptive fields in convolutional neural networks. As CNN models evolved in computer vision applications, from AlexNet, to VGG, ResNet, and Inception, their receptive fields increased as a natural consequence of the increased number of layers. In modern architectures, the receptive field usually covers the entire input image, i.e., the context used by each feature in the final output feature map includes all of the input pixels. Araujo et al observe a logarithmic relationship between classification accuracy and receptive field size, which suggests that large receptive fields are necessary for high-level recognition tasks, but with diminishing return.
[15] M. K. Matlock et al. Deep learning long-range information in undirected graphs with wave networks (2019). Proc. IJCNN. Observes the failure of graph neural networks to capture long-distance interactions in molecular graphs.
[16] This stems from message-passing GNN equivalence to the Weisfeiler-Lehman graph isomorphism test, see e.g. V. Arvind et al. On Weisfeiler-Leman invariance: subgraph counts and related graph properties (2018). arXiv:1811.04801 and Z. Chen et al. Can graph neural networks count substructures? (2020). arXiv:2002.04025.
[17] N. Dehmamy, A.-L. Barabási, R. Yu, Understanding the representation power of graph neural networks in learning graph topology (2019). Proc. NeurIPS. Shows that learning graph moments of certain order requires GNNs of certain depth.
[18] F. Monti, K. Otness, M. M. Bronstein, MotifNet: a motif-based Graph Convolutional Network for directed graphs (2018). arXiv:1802.01572.
[19] G. Bouritsas et al. Improving graph neural network expressivity via subgraph isomorphism counting (2020). arXiv:2006.09252.
[20] E. Rossi et al. SIGN: Scalable inception graph neural networks (2020). arXiv:2004.11198
[21] O. Shchur et al. Pitfalls of graph neural network evaluation (2018). Workshop on Relational Representation Learning. Shows that simple GNN models perform on par with more complex ones.
(來源:towardsdatascience 作者:Michael Bronstein 編譯:ODRobots 轉載請標明出處)