圖神經網絡將成AI下一拐點!MIT斯坦福一文綜述GNN到底有多強

2020-12-25 千家智客

[導讀]深度學習在圖像分類,機器翻譯等領域都展示了其強大的能力,但是在因果推理方面,深度學習依然是短板。圖神經網絡在因果推理方面有巨大的潛力,有望成為 AI 的下一個拐點。本文將深入了解圖神經網絡背後的原理和其強大的表徵能力。

新智元推薦

來源:AI前線(ID: ai-front)

作者:MIT、史丹福大學 Keyulu Xu 等

編譯: 吳少傑 編輯:Natalie

【新智元導讀】深度學習在圖像分類,機器翻譯等領域都展示了其強大的能力,但是在因果推理方面,深度學習依然是短板。圖神經網絡在因果推理方面有巨大的潛力,有望成為 AI 的下一個拐點。本文將深入了解圖神經網絡背後的原理和其強大的表徵能力。

圖神經網絡(GNNs)廣泛應用於圖的表徵學習,其遵循鄰域聚合框架,通過遞歸聚合和轉換相鄰節點的特徵向量來計算節點的表徵向量。已經提出了許多 GNN 的變體,並在節點和圖形分類任務上取得比較好的結果。然而,儘管 GNN 使圖形表徵學習發生了革命性的變化,但是,對其表示屬性和局限性的理解還很有限。

本文譯介自MIT、史丹福大學的ICLR-19論文:HOW POWERFUL ARE GRAPH NEURAL NETWORKS

論文地址:https://arxiv.org/pdf/1810.00826.pdf

論文提出了一個在分析 GNN 捕獲不同圖結構表現力的理論框架。本論文描述了各種流行的 GNN 變體的判別能力,如 Graph Convolutional Networks (圖卷積神經網絡) 和 GraphSAGE,並表明他們無法學會區分某些簡單的圖結構。然後,本論文開發了一個簡單的體系結構,可以證明其在 GNNs 類中是最具表現力的,並且它和 Weisfeiler-Lehman (圖同構測試) 方法一樣強大。在許多圖分類基準測試上,通過經驗驗證了該理論發現,並證明本論文的模型達到了最佳的性能。

介紹

學習圖結構數據,例如:分子、社會、生物和金融網絡等,需要有效的表徵圖的結構。最近,研究者們對使用 Graph Neural Network (GNN) 方法來對圖進行表徵學習產生了極大的興趣。GNN 大部分都遵循循環遞歸鄰域聚合(或者消息傳遞)的模式,其中每個節點聚合其相鄰節點的特徵向量以計算其新的特徵向量。在 k 輪聚合迭代後,通過其轉換的特徵向量來表示該節點,該向量捕獲節點的 k-hop 網絡鄰節點的結構信息。然後,可以通過 pooling 來獲得整個圖結構的表徵,例如對圖中所有節點的表徵向量求和。許多基於不同 neighborhod aggregation 的 GNN 變體和 graph-level 的 pooling scheme 已經被許多學者提出。

根據經驗,這些 GNNs 已經在許多任務中達到最佳的性能,如節點分類,連結預測和圖分類。然而,新 GNN 的設計主要是基於經驗直覺,啟發式和實驗試錯。對於 GNN 的性質和局限性,目前理論層面的解釋還比較少。GNN 的表徵能力的正式分析還是有限的。

本論文提出了一個分析 GNN 表徵能力的理論框架。從形式上描述了不同 GNN 變體在學習表徵和區分各種圖結構方面的表現力。該框架是受 GNNs 和 WL 測試(Weisfeiler-Lehman 圖同構測試)緊密聯繫的啟發,WL 測試是以其強大的區分各種圖結構能力而聞名。與 GNNs 相似,WL 測試通過聚合給定節點的鄰近節點的特徵向量迭代更新其特徵向量。WL 測試的強大之處是其注入聚合(injective aggregation)更新,它映射不同節點的鄰近節點到不同的特徵向量。主要觀點是,如果 GNN 的聚合模式具有高度的表現力和能夠為注入函數建模的話,它就同 WL 測試一樣具有強大的區分能力。

為了數學形式化上述觀點,首先抽象出一個節點的鄰近節點的特徵向量作為多重集,該集合中可能有重複元素。然後,在 GNNS 中的領域聚合(neighbor aggregation)可以抽象為多集上的函數。我們嚴格學習不同多集函數的變體,並從理論上描述其識別能力,即不同的聚合函數可以區分不同的多重集。越具有區分力的多重集函數,GNN 的潛在表徵能力就越強。

本論文的主要結果總結如下:

1)我們發現在區分圖結構方面,GNN 跟 WL 測試能力一樣強大。

2)我們發現在建立領域聚合(neighbor aggregation)和圖池函數(graph pooling)的情況下,得到的 GNN 和 WL 測試一樣強大。

3)我們識別無法通過流行的 GNN 變體區分的圖結構,例如 GCN(Kipf&Welling,2017)和 GraphSAGE(Hamilton 等,2017a),並且我們對基於 GNN 模型可以捕獲的各種圖結構進行了精確的描述。

4)我們開發了一個簡單的神經網絡架構,圖同構網絡(Graph Isomorphism Network)GIN,並證明其判別 / 表徵能力等同於 WL 測試。

在圖分類數據集上,通過實驗驗證我們的理論,其中 GNN 的表達能力對於捕獲圖結構至關重要。特別是,我們對基於各種聚合函數的 GNN 性能進行了對比。我們的結果證實了最強大的 GNN(我們的圖同構網絡 GIN)具有很強的表徵能力,可以近乎完美的擬合訓練數據,然而較弱的 GNN 變體有嚴重的欠擬合問題。此外,在許多圖分類的基準測試集上,它的表徵能力和性能優於其他的 GNNs。

預備知識

首先,我們總結一些常見的 GNN 模型,順便介紹一下相關數學符號的含義。假設 G = (V, E) 表示一個圖,圖的節點向量用 X (v) 表示,其中,v ∈ V 。有兩個比較感興趣的任務:(1)節點分類,其中每個節點 v ∈ V 都有一個相關的標籤 y (v),目標是學習節點 v 的表徵向量 h (v),節點 v 的標籤可以被函數 y (v)=f (h (v)) 所預測。(2)圖分類,其中給定一組圖 {G1, ..., GN }? G 及其標籤 {y1, ..., yN } ? Y,我們的目標是學習一個表徵向量 h (G),它有助於預測整個圖的標籤 y (G) = g (h (G))。

圖神經網絡

GNNs 利用圖結構和節點特徵 X (v) 來學習一個節點的表徵向量 h (v),或者整個圖的表徵向量 h (G)。

新式的 GNNs 都遵循領域聚合(neighborhood aggregation)策略,其中我們通過聚合它的鄰近節點的表徵向量來迭代更新節點的表徵向量。在 k 次迭代後,節點的表徵可以在它的 k-hop 網絡鄰居中捕獲結構信息。形式上,GNN 的第 k 層是:

其中,h {k}(v) 是節點 v 在第 k 的迭代 / 層的特徵向量。我們初始化 h {0}(v)=X (v),N (v) 是與 v 節點鄰近的一組節點。在 GNNs 中選擇函數 AGGREGATE {k}(?) 和 COMBINE {k}(?) 非常關鍵。已經提出了許多用於聚合的體系結構。在 GraphSAGE 的 pooling 變體(Hamilton et al., 2017a),AGGREGATE 函數形式如下:

其中,W 是可以學習的矩陣,MAX 表示一個 element-wise 的 max-pooling。在 GraphSAGE 的 COMBINE 步是一個線性映射的連接 W?[h {k-1}(v)|a {k}(v)]。在圖卷積網絡中(GCN)(Kipf & Welling, 2017),element-wise 的 mean pooling 被替代,AGGREGATE 和 COMBINE 步集成在一體如下:

許多其他的 GNNs 可以類似的表示為 Eq. 2.1 (Xu et al., 2018; Gilmer et al., 2017)。

對於節點分類問題,最後一次迭代的節點表徵向量 h {K}(v) 用來做預測。對於圖分類問題,READOUT 函數從最後一次迭代中聚合節點特徵來獲取整個圖的表徵向量 h (G):

READOUT 函數可以是一個簡單的置換不變函數,例如求和或者 graph-level 級別的 pooling 函數 (Ying et al., 2018; Zhang et al., 2018)。

Weisfeiler-Lehman 測試

圖同構問題指的是驗證兩個圖在拓撲結構上是否相同。這是一個具有挑戰性的問題:因為現在很難知道計算的時間複雜度。WL(Weisfeiler-Lehman)測試是一種非常有效的一測試圖同構的方法,它可以區分各種圖。

在 1 維的情況下,它類似於在 GNN 中的領域聚合。假設每個節點都有一個分類標籤,WL 測試(1)迭代聚合節點標籤和他們的鄰近節點,(2)將聚合的標籤 hash 成唯一的新標籤。如果在某些迭代中兩個圖的節點標籤不同,則該算法判定它們是不同的。

基於 WL 試驗,Shervashidze 等人(2011)提出了 WL 子樹內核來測量圖之間的相似性。內核使用在 WL 測試不同迭代中的節點標籤計數作為圖的特徵向量。直觀的來看,在 WL 測試的第 k 次迭代中,一個節點的標籤表徵該根節點的高度為 k 的子樹結構(Figure 1)。因此,WL 子樹所考慮的圖的特徵本質上是圖中不同根子樹的計數。

理論框架:概述

我們首先概述了分析 GNNs 表達能力的框架。GNN 遞歸地更新每個節點的特徵向量,以捕獲其周圍其他節點的網絡結構和特徵,即其根子樹結構(圖 1)。在本文中,我們假設節點輸入特徵是一個宇宙內可數的數。對於有限圖,我們可以遞歸地證明在任何固定模型的深層節點特徵向量也是一個宇宙內可數的數。為了簡化符號,我們可以為每個特徵向量分配一個唯一的標籤∈{a,b,c……}。 然後,一組相鄰節點的特徵向量形成多重集:同一元素可以出現多次,因為不同的節點可以具有相同的特徵向量。

多重集定義:多重集是集合的一個廣義概念,它允許其元素有多個實例。更正式地講,多重集是一個二元組 X =(S,m),其中 S 是由其不同元素組成的 X 的基礎集合,而 m:S→N (≥1) 給出了元素的多樣性。

為了分析 GNN 的表達能力,我們分析了 GNN 何時將兩個節點映射到嵌入空間中的相同位置。直觀地說,最強大的 GNN 僅當兩個節點具有相同的子樹結構,並且在對應的節點上具有相同的特徵時,才會將它們映射到相同的位置。由於子樹結構是通過節點鄰域遞歸定義的(圖 1),因此當 GNN 將兩個鄰域映射到相同的嵌入時,我們可以遞歸地減少我們的分析。最強大的 GNN 永遠不會將兩個不同的鄰域(即,特徵向量的多重集)映射到相同的位置。這意味著它的聚合方案是單射的。 因此,我們將 GNN 的聚合方案抽象為其神經網絡可以表示的多重集合上的一類函數,並分析它們是否能夠表示單射的多重集函數。

接下來,我們使用這種推理開發一個最強大的 GNN。 在第 5 節中,我們研究了流行的 GNN 變體,並發現它們的聚合方案本質上不是單射的,因此功能較弱,但它們可以捕獲圖形的其他有趣屬性。

構建強大的圖神經網絡

理想情況下,GNN 能夠(1)通過將它們映射到嵌入空間中的不同位置來區分不同的圖結構,以及(2)在嵌入空間中捕獲它們的結構相似性。在本文中,我們主要關注第一部分,我們將簡要討論第二部分。然而,將不同的圖映射到不同的嵌入空間的能力意味著可以解決圖同構問題。

在我們的分析中,通過一個稍微弱一點的標準來描述 GNN 的表達能力:魏斯費勒 - 雷曼(WL)圖同構測試,除少數特例外,該測試通常工作得很好,特別是規則圖(Cai 等人,1992;Douglas,2011;Evdokimov&Ponomarenko,1999)。

引理 2. 設 G1 和 G2 為任何非同構圖。如果一個圖神經網絡 A: G → R (d) 遵循領域聚合方案,將 G1 和 G2 映射到不同的嵌入,Weisfeiler-Lehman 圖同構檢驗也判定 G1 和 G2 不是同構的。

因此,在區分不同圖方面任何基於聚合的 GNN 都至多與 WL 測試一樣強大。一個自然的問題是,在原則上是否存與 WL 測試一樣強大的 GNN? 我們在定理 3 中得到的答案是肯定的:如果鄰居聚合和圖池化函數是單射的,那麼得到的 GNN 就像 WL 測試一樣強大。

定理 3.設 A:G→R (d) 是一個遵循鄰域聚合方案的 GNN。 通過足夠的迭代,如果滿足以下條件,則 A 可以將通過 Weisfeiler-Lehman 測試的圖 G1 和 G2 為非同構圖映射到不同的嵌入:

a) A 每次迭代聚合更新節點特徵向量

b)A 的圖級別的 readout 函數,運行在節點特徵的多重集上{h (k)(v)},是一個單射函數。

在可數集上,單射性很好地描述了一個函數是否保留了輸入的區別性。在不可數集上,節點特徵是連續的,內射性和判別性的概念被 「削弱」。在本文中,我們假設輸入節點特徵來自可數集。鑑於輸入節點特徵的可計數性假設,人們可能會問,GNN 更深層的節點特徵的可數性是否仍然適用? 引理 4 表示是,即可數性可以跨層傳播。

引理 4. 假設輸入特徵空間 X 是可數的,g (k) 是由 GNN 的第 k 層參數化的函數,k=1,..,L。其中,g (1) 被定義在有限多重集 X ? X 上,g (k) 的範圍,節點的隱含特徵 h {k}(v) 空間,在 k=1,...,L 都是可數的。

在這裡,除了區分不同的圖之外,還值得討論 GNN 的一個重要好處,也就是說,捕捉圖結構的相似性。注意,WL 測試中的節點特徵向量本質上是一種獨熱編碼(one-hot 編碼),因此不能捕獲子樹之間的相似性。相反,滿足定理 3 標準的 GNN,通過學習將子樹嵌入低維空間來推廣 WL 測試。這使得 GNN 不僅可以區分不同的結構,而且可以學習將相似的圖結構映射到相似的嵌入,並捕獲圖結構之間的依賴關係。捕捉節點標籤的結構相似性對泛化有幫助,特別是在不同的圖中當子樹的共現稀疏或存在噪聲邊和節點特徵時(Yanardag 和 Vishwanathan,2015)。

圖異構網絡(GIN)

接下來,我們開發了一個可證明滿足定理 3 中條件的模型,從而推廣了 WL 測試。 我們將結果體系結構命名為 Graph Isomorphism Network(GIN)。為了模擬領域聚合的單射多重集函數,我們發展了一個 「深多重集」 的理論,即用神經網絡參數化通用多重集函數。我們的下一個引理表明,求和聚合器可以代表多重集合的單射,事實上,是多重集上的通用函數。

引理 5. 定義如下:

該引理擴展了設置 (Zaheer et al., 2017) 從集合到多重集。深多重集和集合之間的一個重要區別是某些單射集合函數,例如均值聚合器,不是多重集函數。利用引理 5 中通用多重集函數的建模機製作為構建塊,現在我們提出一種聚合方案,可以表示節點對和其鄰居的多重集合上的通用函數,從而滿足定理 3a 中的單射性條件。 我們的下一個推論在許多這樣的聚合方案中提供了簡單而具體的公式。

推論 6. 定義如下:

由於通用逼近定理(Hornik 等,1989; Hornik,1991),我們可以使用多層感知器(MLP)來推導和學習推論 6 中的 f 和 φ,在實際應用中,我們用一個 MLP 對 f (k+1) ? φ (k) 進行建模,因為 MLP 可以表示函數的組成。在第一個迭代中,如果輸入特徵是一個熱編碼,那麼在求和之前不需要 MLP,因為它們的求和是單射的。我們可以製作一個可學習的參數或固定的標量。然後,GIN 更新節點表徵如下:

通常,可能存在許多其他強大的 GNNs。 雖然 GIN 很簡單,但是它是最強大的 GNN 中的一個。

讀取不同部分的子樹結構

圖級讀出(readout)的一個重要方面是,隨著迭代次數的增加,對應於子樹結構的節點表徵變得更加精細和全局。足夠數量的迭代是實現良好區分力的關鍵。 然而,特徵的早期迭代有時可能更好地泛化。為了考慮所有的結構信息,GIN 從模型的所有深度 / 迭代使用信息。 我們通過類似於跳躍知識網絡(JK-Nets)(Xu 等人,2018)的架構來實現這一點,其中在所有的迭代中我們使用連接後的圖的表徵向量替換了 Eq.2.4:

根據定理 3 和推論 6,如果 GIN 使用對來自相同迭代的所有節點特徵求和來取代 Eq.4.2 中的 READOUT(在求和之前我們不需要額外的 MLP,原因與方程 4.1 相同),它可以推廣 WL 測試和 WL 子樹核。

能力不強但仍然有趣的其他 GNNs

接下來我們研究不滿足定理 3 中條件的 GNN,包括 GCN(Kipf&Welling,2017)和 GraphSAGE(Hamilton 等,2017a)。

我們對 Eq. 4.1 中聚合器的兩個方面進行消融研究:(1)使用 1 層的感知器代替 MLP;(2)利用平均或最大池而不是求和。

令人驚訝的是我們觀察到這些 GNN 變體被簡單的圖所迷惑,並且沒有 WL 測試強大。 儘管如此,使用平均聚合器的模型像 GCN 在節點分類任務中還是表現良好。 為了更好地理解這一點,我們精確地描述了不同 GNN 變體能夠和不能夠捕獲圖的哪些內容,並討論學習圖的含義。

1- 層的感知機並不充分

引理 5 中的函數 f 有助於將不同的多重集合映射到唯一的嵌入。它可以通過 MLP 通過通用逼近定理參數化(Hornik,1991)。儘管如此,許多現有的 GNN 使用 1- 層感知器 σ°W 代替(Duvenaud 等人,2015; Kipf&Welling,2017; Zhang 等人,2018),線性映射後跟非線性激活函數,如 ReLU。 這種 1- 層映射是廣義線性模型的例子(Nelder&Wedderburn,1972)。因此,我們對了解 1- 層感知器是否足以進行圖學習非常感興趣。引理 7 表明確實存在網絡鄰域(多重集合),具有 1- 層感知器的模型永遠無法區分。

引理 7. 定義如下:

引理 7 證明的主要思想是 1 層感知器的行為很像線性映射,因此 GNN 層退化為簡單地對鄰域特徵求和。我們的證據建立在線性映射中缺少偏差項的事實上。利用偏差項和足夠大的輸出維數,1- 層感知器可能能夠區分不同的多重集。 儘管如此,與使用 MLP 的模型不同,1- 層感知器(即使具有偏置項)也不是多重集函數的通用逼近器。

因此,即使具有 1- 層感知器的 GNN 在某種程度上可以將不同的圖嵌入到不同的位置,這種嵌入也可能不能充分地捕獲結構相似性,並且對於簡單的分類器(例如,線性分類器)來說可能難以擬合。 在第 7 節中,我們將憑經驗看到具有 1- 層感知器的 GNN,當應用於圖分類時,有時會嚴重欠擬合,並且在測試精度方面通常表現不及 MLP 的 GNN。

混淆平均值和最大池的結構

如果我們將 h (X)=sum (f (x)) ,其中 x∈X,中的求和替換為 GCN 和 GraphSAGE 中的均值或最大池,會發生什麼?平均和最大池聚合器仍然是定義良好的多重集函數,因為它們是置換不變的。但是,它們不是單射的。

圖 2 根據三個聚合器的表示能力對其進行排序,圖 3 說明了平均池和最大池聚合器對結構對無法區分。在這裡,節點顏色表示不同的節點特徵,我們假設 GNN 在將它們與中心節點組合之前先聚合鄰居。

在圖 3a 中,每個節點具有相同的特徵 a,並且 f (a) 在所有節點上是相同的(對於任何函數 f)。當執行鄰域聚合時,f (a) 上的均值或最大值仍為 f (a),並且通過歸納,我們總是在任何地方獲得相同的節點表示。因此,均值和最大池聚合器無法捕獲任何結構信息。相反,求和聚合器可以區分結構,因為 2?f (a) 和 3?f (a) 給出了不同的值。相同的參數可以應用於任何未標記的圖。如果節點度不是常量值,則可以用作節點輸入特徵,原則上,均值可以覆蓋求,但最大池不能。

圖 3a 表明均值和最大值難以區分具有重複特徵的節點的圖。假設 h (color)(r 代表紅色,g 代表綠色)表示由 f 轉換後的節點特徵。圖 3b 顯示藍色節點附近的最大值產生 max (h (g),h (r)) 和 max (h (g),h (r),h (r)),這兩個值摺疊成相同的表示。因此,最大池無法區分它們。相比之下,求和聚合器仍然有效,因為 1/2*(h (g)+h (r)) 和 1/3*(h (g)+h (r)+h (r)) 通常是不等同的。同樣地,在圖 3c 中,平均值和最大值均為失敗 1/2*(h (g)+h (r)) 和 1/4*(h (g)+h (g)+h (r)+h (r))。

平均學習分布

為了描述平均聚合器可以區分多重集的類,考慮示例 X1 = (S, m) and X2 = (S, k?m),其中 X1 和 X2 具有相同的一組不同元素的集合,但 X2 包含 X1 的每個元素的 k 個副本。任何平均聚合器都將 X1 和 X2 映射到相同的嵌入,因為它只需要對單個元素的特徵取平均值。因此,平均值可以捕獲多重集中元素的分布(或者比例),而不是精確的多重集。

推論 8. 定義如下:

對於任務而言,如果圖中的統計和分布信息比精確的結構更為重要,則平均聚合器可能表現良好。此外,當節點特徵多樣且很少重複時,平均聚合器與求和聚合器一樣強大。這就可以解釋為什麼,儘管存在第 5.2 節中提到的一些限制,但帶有平均聚合器的 GNN 對於節點分類任務還是有效,例如對文章主題進行分類和社區檢測,其中節點特徵豐富,並且鄰域特徵的分布為任務提供了一個強有力的信號。

具有不同元素的最大池學習集

圖 3 中的示例說明最大池認為具有相同的特徵的多個節點僅為一個節點(即,將多重集合視為一個集合)。 最大池不捕獲確切的結構和分布。 但是,它可能適用於某些識別任務,這些任務中識別元素或 「骨架」 更重要,而不是區分確切的結構或分布。( 齊等人.2017)憑經驗表明,最大池聚合器學習識別 3D 點雲的骨架,並且它對噪聲和異常值具有魯棒性。 為了完整起見,下一個推論顯示最大池聚合器捕獲多重集的基礎集。

推論 9. 定義如下

實驗設置

我們評估和比較 GIN 和不太強大的 GNN 變體的訓練和測試性能。

數據集

我們使用 9 個圖分類基準:4 個生物信息學數據集(MUTAG,PTC,NCI1,PROTEINS)和 5 個社交網絡數據集(COLLAB,IMDB-BINARY,IMDB-MULTI,REDDIT-BINARY 和 REDDIT-MULTI5K)(Yanardag&Vishwanathan,2015)。

在生物信息圖中,節點具有分類輸入特徵;在社交網絡中,它們沒有任何特徵。 對於 REDDIT 數據集,我們將所有節點特徵向量設置為相同(因此,這裡的特徵是無信息的); 對於其他社交圖,我們使用節點度的獨熱編碼。

模型和配置

我們評估 GIN(方程 4.1 和 4.2)和不太強大的 GNN 變體。在 GIN 框架下,我們考慮兩種變體:1)通過梯度下降,學習方程式 4.1 中的 ε 的 GIN,我們稱之為 GIN-ε;(2)更簡單(稍微不那麼強大)的 GIN,其中 ε 在方程式中 4.1 固定為 0,我們稱之為 GIN-0。

正如我們將要看到的,GIN-0 顯示出強大的經驗性能:GIN-0 不僅與 GIN-ε 一樣擬合的訓練數據好,它還表現出良好的泛化性,在測試精度方面略微但始終優於 GIN-ε。對於能力較弱的 GNN 變體,我們考慮使用 mean 或 max-pooling 替換 GIN-0 聚合中的求和的架構,或者用 1- 層感知器替換 MLP,即線性映射後面接 ReLU。在圖 4 和表 1 中,模型由它使用的聚合器 / 感知器命名。我們對 GIN 和所有 GNN 變體應用相同的圖級 readout(公式 4.2 中的 READOUT),特別是生物信息學數據集的求和 readout 以及由於更好的測試性能而在社交數據集上的平均 readout。

以下(Yanardag&Vishwanathan,2015; Niepert 等,2016),我們使用 LIB-SVM 進行 10 倍交叉驗證(Chang&Lin,2011)。我們公布了通過 cv 進行的 10- 交叉驗證 validate 集的準確度的平均值和標準差。對於所有的配置,應用 5 個 GNN 層(包括輸入層),並且所有 MLP 具有 2 個層。BN 標準化(Ioffe&Szegedy,2015)應用於每個隱藏層。我們使用 Adam 優化器(Kingma&Ba,2015),初始學習率為 0.01,並且每 50 個 epochs 將學習率衰減 0.5。我們針對每個數據集調優的超參數是:(1)生物信息圖的 hidden units 的大小∈{16,32} 和社交圖的大小為 64; (2)批量大小(batch size)∈{32,128}; (3)在 dense 層後,dropout 率∈{0,0.5}(Srivastava 等,2014); (4)epochs 的數量。

基準線

我們將上面的 GNN 與一些性能最佳的圖分類基線進行了比較:

(1)WL 子樹內核(Shervashidze 等,2011),其中使用了 C-SVM(Chang&Lin,2011) 作為分類器。 我們調優的超參數是 SVM 中的 C 和 WL 迭代的數量∈{1,2,...,6};

(2)性能最佳的深度學習架構擴散 - 卷積神經網絡(DCNN)(Atwood&Towsley,2016)、PATCHY-SAN(Niepert 等,2016)和 Deep Graph CNN(DGCNN)(Zhang et al.,2018);

(3)Anonymous Walk Embeddings(AWL)(Ivanov&Burnaev,2018)。

對於深度學習方法和 AWL,我們報告了原始論文中報告的準確性。

實驗結果

訓練集性能

通過比較它們的訓練精度,我們驗證了 GNNs 的強大表徵能力的理論分析。圖 4 顯示了具有相同超參數設置的 GIN 和不太強大的 GNN 變種的訓練曲線。

首先,理論上最強大的 GNN,即 GIN-ε (Sum–MLP),和 GIN-0 能夠完美擬合所有的訓練數據。在我們的實驗中,與在 GIN-0 中把 ε 固定為 0 相比,在擬合訓練數據時,用 GIN-ε 顯式學習 ε 沒有任何收益。相比之下,在許多數據集中,使用平均 / 最大池或 1- 層感知機的 GNN 變體嚴重欠擬合。特別是,訓練精度模式與我們通過模型的表徵能力進行的排名一致:具有 MLP 的 GNN 變體比具有 1- 層感知器的 GNN 變體具有更高的訓練精度,具有求和聚合器的 GNN 比具有平均和最大池聚合器的 GNN 更好的擬合訓練集。

然而,在我們的數據集上,GNN 的訓練精度從未超過 WL 子樹內核的精度,後者具有與 WL 測試相同的區分能力。例如,在 IMDBBINARY 上,沒有一個模型能夠完全擬合訓練集,而且 GNN 最多能達到與 wl 內核相同的訓練精度。此模式與我們的結果一致,即 WL 測試為基於聚合的 GNN 的表示能力提供了一個上限。我們的理論結果集中在表徵能力上,還沒有考慮到優化(例如局部極小)。儘管如此,實驗結果與我們的理論非常吻合。

測試集性能

接下來,我們比較測試集精度。雖然我們的理論結果並不能直接說明 GNN 的泛化能力,但有理由期待具有較強表達力的 GNN 能夠準確地捕獲感興趣的圖結構,因此泛化能力非常好。表 1 比較了 GINs (SUM-MLP)、其他 GNN 變種以及最佳基準線的測試精度。

結論

在本文中,我們建立了 GNN 表達能力推理的理論基礎,並對流行的 GNN 變體的表達能力進行了嚴格的論證。在此過程中,我們還在鄰域聚合框架下設計了一個可以證明是最強大的 GNN。未來工作的一個有趣方向是超越鄰域聚合(或消息傳遞)框架,以追求更強大的圖學習架構。理解和改進 GNN 的泛化性質也是很有意思的。

論文原文連結:

https://arxiv.org/pdf/1810.00826.pdf

相關焦點

  • 圖神經網絡前沿綜述:動態圖網絡
    連續化的表示雖然能夠最大程度上的保留時序信息,但是卻使得數據難以處理,不能簡單的挪用靜態網絡的表徵方法。 此外,到底應該將一個實際的動態網絡表示成離散的或是連續的,除了上面的考量,還必須該網絡本身的動態特性。對於時序網絡,用連續表示更合適;對於演化網絡,用離散表示更方便。讀者可以思考下其中緣由。 2.
  • 圖神經網絡概述第三彈:來自IEEE Fellow的GNN綜述
    ,參見:深度學習時代的圖模型,清華發文綜述圖網絡,和清華大學圖神經網絡綜述:模型與應用。在這種分類體系下,GNN 被分成了 5 個類別:圖卷積網絡、圖注意力網絡、圖自編碼器、圖生成網絡和圖時空網絡。我們確定了圖神經網絡和網絡嵌入之間的區別,並在不同的圖神經網絡架構之間建立了聯繫。全面的概述:這個綜述提供了在圖數據上的現代深度學習技術的全面概述。對每一種類型的圖神經網絡,我們提供了表徵算法的細節描述,並做了必要的對比和對應算法的總結。
  • 資源連結|深度學習教程資源整理(伯克利、斯坦福、MIT、阿里、吳恩達)
    文末附每日小知識點哦!!一門面向所有人的人工智慧公開課:MIT 6.S191,深度學習入門https://github.com/aamini/introtodeeplearning_labs對初學者來說,有沒有易於上手,使用流行神經網絡框架進行教學的深度學習課程?
  • 清華大學圖神經網絡綜述:模型與應用
    機器之心專欄作者:PaperWeekly近年來,圖神經網絡的研究成為深度學習領域的熱點,機器之心曾介紹過清華大學朱文武等人綜述的圖網絡。近日,清華大學孫茂松組在 arXiv 上發布預印版綜述文章 Graph Neural Networks: A Review of Methods and Applications。
  • CNN已老,GNN來了!清華大學孫茂松組一文綜述GNN
    對於這個問題,業界正在進行積極探索,而其中一個很有前景的方向就是圖神經網絡(Graph Neural Network, GNN)。MPNN結合了各種圖神經網絡和圖卷積網絡方法;NLNN結合了幾種「self-attention」類型的方法;而圖網絡GN可以概括本文提到的幾乎所有圖神經網絡變體。圖神經網絡如前所述,圖神經網絡(GNN)的概念最早是Scarselli等人在2009年提出的,它擴展了現有的神經網絡,用於處理圖(graph)中表示的數據。
  • 斯坦福ICLR2019圖網絡最新論文:圖神經網絡的表徵能力有多強?
    深度學習領域關於圖神經網絡(Graph Neural Networks
  • 一文讀懂圖神經網絡
    為什麼要使用圖神經網絡圖神經網絡有靈活的結構和更新方式,可以很好的表達一些數據本身的結構特性,除了一些自帶圖結構的數據集(如Cora,Citeseer等)以外,圖神經網絡目前也被應用在更多的任務上,比如文本摘要,文本分類和序列標註任務等,目前圖神經網絡以及其變種在很多任務上都取得了目前最好的結果
  • 專欄| 神經網絡架構搜索(NAS)綜述(附AutoML資料推薦)
    目前常見的一種網絡架構是鏈狀結構,如下圖:這種結構相當於一個 N 層的序列,每一層有幾種可選的算子,比如卷積、池化等,每種算子包括一些超參數最近的一些工作受啟發於一些人工設計的網絡架構,研究帶有多分支的網絡,如下圖:很多的深層 RNN 會有類似的結構,很多的網絡結構雖然很深
  • CVPR 2019 神經網絡架構搜索進展綜述
    這種智能體通常是用循環神經網絡實現的,它的目標是尋找能夠獲得更高收益的神經架構。其他的搜索算法還包括基於梯度的優化(所有可能的架構組成一個巨大的圖,每條邊有一個可學習的實值,代表每個block被使用的概率)、貝葉斯優化(搜索空間由某種啟發函數貫穿,這種啟發函數可以是用於預測採樣模型準度的代理損失函數)等等。
  • 近期必讀的五篇ICLR 2021【圖神經網絡(GNN)】相關論文和代碼
    How to Find Your Friendly Neighborhood: Graph Attention Design with Self-Supervision作者:Dongkwan Kim, Alice Oh摘要:圖神經網絡中的注意力機制將較大的權重分配給重要的鄰居節點,得到更好的表示
  • 【GNN】2020大風口!什麼是圖神經網絡?有什麼用?終於有人講明白了
    作者:劉忠雨來源:大數據DT(ID:hzdashuju)2019年初,短短一個月內有三篇關於圖神經網絡的綜述論文接連發表,這預示著2019年學術界對圖神經網絡的關注將顯著提高,事實也確實如此。2019 年包括深度學習、計算機視覺、文本處理以及數據挖掘在內的頂級會議,圖學習相關的論文較之於前都有十分明顯的增長。
  • 簡單圖神經網絡(GNN)的基礎知識
    圖深度學習(Graph Deep Learning,GDL)是一個很有發展前景的研究領域,基於圖數據來學習和分析非常有用。本文將介紹簡單圖神經網絡(GNN)的基礎知識及其內在工作原理背後的直觀知識。不過,大家不用擔心,為了能夠更直觀地看懂究竟發生了什麼,作者在文中使用了大量彩圖給出圖解信息。 圖(Graph)是什麼?
  • 學界| MIT將生物學機制引入神經網絡,新模型或揭開抑制神經元功能
    MIT CSAIL(計算機科學和人工智慧實驗室)研究員們開發出一個新的大腦神經迴路計算模型,這一模型將有助於理解抑制神經元(阻止其他神經元放電)的生物學功能。這一模型描述了一個由一列輸入神經元和等量輸出神經元構成的神經迴路,執行神經科學家所謂的「贏家通吃」策略(winner-take-all。
  • 六篇 CIKM 2019 最新公布的【圖神經網絡(GNN)】長文論文
    圖神經網絡(GNN)相關的論文依然很火爆,小編在官網上查看了,CIKM專門有專題,大約10篇長文接受為GNN專題論文。為此,專知小編提前為大家篩選了六篇GNN 長文論文供參考和學習!最近提出的基於深度學習的模型遵循了一種通用的範式:首先將原始的稀疏輸入multi-filed特徵映射到密集的field嵌入向量中,然後簡單地將其連接到深度神經網絡(DNN)或其他專門設計的網絡中,以學習高階特徵交互。然而,特徵field的簡單非結構化組合將不可避免地限制以足夠靈活和顯式的方式建模不同field之間複雜交互的能力。
  • 【GNN教程】圖神經網絡「開山之作」!
    「開山之作」,因為GCN利用了近似的技巧推導出了一個簡單而高效的模型,使得圖像處理中的卷積操作能夠簡單得被用到圖結構數據處理中來,後面各種圖神經網絡層出不窮,或多或少都受到這篇文章的啟發。問題定義考慮圖(例如引文網絡)中節點(例如文檔)的分類問題,假設該圖中只有一小部分節點標籤(label)是已知的,我們的分類任務是想通過這部分已知標籤的節點和圖的結構來推斷另一部分未知標籤的節點的標籤。這類問題可以劃分到基於圖結構數據的半監督學習問題中。
  • 圖神經網絡的十大學習資源分享
    字幕組雙語原文:【乾貨】圖神經網絡的十大學習資源分享英語原文:Top 10 Learning Resources for Graph Neural Networks翻譯:雷鋒字幕組(聽風1996)圖神經網絡(GNNs)是深度學習的一個相對較新的領域,從最近開始越來越流行。
  • AI 在安全、可靠性方面到底取得了哪些進展?斯坦福 AI 實驗室進行...
    本文將介紹一些致力於實現安全可靠的 AI 技術的研究案例。我們將從中看到新技術如何理解神經網絡的黑盒子、如何找到和消除偏見,以及如何確保自動化系統的安全性。理解神經網絡的黑盒子:可驗證性和可解釋性雖然神經網絡在近年來 AI 領域取得的成就中發揮了關鍵作用,但它們依舊只是有限可解釋性的黑盒函數近似器。即便是試圖將有限訓練數據泛化到未見過的輸入,它們在小的幹擾下也可能失敗,更何況這種做法還會導致難以驗證算法的魯棒性。
  • 打開人工智慧黑箱:看最新16篇可解釋深度學習文章,帶您了解增強AI透明性
    然而,將深度學習應用於無所不在的圖數據並非易事,因為圖形具有獨特的特性。近年來,這一領域的研究取得了很大的進展,極大地推動了圖分析技術的發展。在本研究中,我們全面回顧了應用於圖深度學習各種方法。我們將現有的方法分為三大類:半監督方法,包括圖神經網絡和圖卷積網絡; 非監督方法,包括圖自動編碼器; 然後,我們根據這些方法的發展歷史,系統地概述這些方法。
  • 【乾貨】圖神經網絡的十大學習資源分享
    Hamilton編寫的圖表示學習書籍Graph Representation Learning Book本書是改變遊戲規則的書,目前可以在線下載的預出版的版本。本書從圖理論和傳統圖方法等初級課題開始,到前沿GNN模型和最先進的GNN研究等高級課題。本書設計精巧,自成體系,擁有圖神經網絡所需的大部分理論。2.
  • 【強基固本】我們真的需要深度圖神經網絡嗎?
    https://towardsdatascience.com/do-we-need-deep-graph-neural-networks-be62d3ec5c59深度學習,特別是 CV 領域的模型,往往有數十上百層,與此相比,在圖「深度學習」中(大部分工作都 ≤5 層,談不上深,所以加個引號吧),大部分模型架構都是淺層的,設計深度模型到底有沒有用呢?