Bengio 團隊力作:GNN 對比基準橫空出世,圖神經網絡的「ImageNet...

2020-12-24 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:圖神經網絡(GNN)是當下風頭無兩的熱門研究話題。然而,正如計算機視覺的崛起有賴於 ImageNet 的誕生,圖神經網絡也急需一個全球學者公認的統一對比基準。

近日,Bengio 大神帶領其團隊發布了新的圖神經網絡對比基準測試框架以及附帶的 6 個標準化數據集。大家可以開始盡情刷榜了!

       

論文連結:https://arxiv.org/pdf/2003.00982.pdf

開源連結:https://github.com/graphdeeplearning/benchmarking-gnns

時至今日,圖神經網絡已經成為了分析圖數據並且進行學習的標準工具,被成功地應用到了各個領域(例如,化學、物理、社會科學、知識圖譜、推薦系統,以及神經科學)。隨著這個領域的興起,識別出在不同的網絡尺寸下都可以泛化的架構和關鍵機制就變得至關重要了,這讓我們可以處理更大、更複雜的數據集和領域。

不幸的是,在缺乏具有統一的實驗設置和大型數據集的標準化對比基準的情況下,衡量新型 GNN 的有效性以及對模型進行比較的難度越來越大。

在本文中,Bengio 團隊提出了一種可復現的 GNN 對比基準框架,而且為研究人員添加新數據集和模型帶來了便利。他們將這個對比基準框架應用於數學建模、計算機視覺、化學和組合問題等新穎的中型圖形數據集,從而在設計有效的 GNN 時創建關鍵操作。與此同時,還精確地將圖卷積,各向異性擴散,殘差連接和歸一化層作為通用構建模塊,用於開發魯棒且可擴展的 GNN。

一、引言

在許多前人的工作的努力下,近年來,圖神經網絡(GNN)已經成為了風口浪尖上的熱門研究話題,研究人員陸續開發出了一系列具有發展前景的方法。

隨著該領域的不斷發展,如何構建強大的 GNN 成為了核心問題。什麼樣的架構、基本原則或機制是通用的、可泛化的,並且能擴展到大型圖數據集和大型圖之上呢?另一個重要的問題是:如何研究並量化理論發展對 GNN 的影響?

對比基準測試為解決這些基本的問題給出了一個強大的範例。這種方法已經被證明在推動科學進步、確定基本思想、解決特定領域的問題等方面對於一些科學領域大有助益。

近年來,大名鼎鼎的 2012 ImageNet 挑戰賽提供了一個很好的對比基準測試數據集,它掀起了深度學習的革命。來自世界各國的研究團隊爭相開發出用於在大規模數據集上進行圖像分類的最幽默型。

由於在 ImageNet 數據集上取得的重大進展,計算機視覺研究社區已經開闢出了一條光明的發展道路,朝著發現魯棒的網絡架構和訓練深度神經網絡的技術邁進。

然而,設計出成功的對比基準是一件極具挑戰的事情,它需要:設計合適的數據集、魯棒的編碼接口,以及為了實現公平的比較而設立的通用實驗環境,所有上述元素都需要時可復現的。

這樣的需求面臨著一些問題:

首先,如何定義合適的數據集?想要收集到具有代表性的、真實的大規模數據集可能是很困難的。而對於 GNN 來說,這卻是最重要的問題之一。大多數已發表的論文關注的都是非常小的數據集(例如,CORA 和 TU 數據集),在這種情況下,從統計及意義上說,幾乎所有的 GNN 的性能都是相同的。有些與直覺相悖的是,那些沒有考慮圖結構的對比基線模型性能與 GNN 相當,甚至還有時要優於 GNN。

這就對人們研發新的、更複雜的 GNN 架構的必要性提出了疑問,甚至對使用  GNN  的必要性也提出了疑問。例如,在 Hoang&Maehara 等人以及 Chen 等人於 2019 年發表的工作中,作者分析了 GNN 中的組件的能力,從而揭示了模型在小數據集上收到的限制。他們認為這些數據集不適合設計複雜的結構化歸納學習框架。

GNN 領域面臨的另一個主要問題是如何定義通用的實驗環境。正如 Errica 等人於 2019 年發表的論文《A fair comparison of graph neural networks for graph classifification》所述,最近基於 TU 數據集完成的論文在訓練、驗證和測試集的劃分以及評估協議方面沒有達成共識,這使得比較新思想和架構的性能變得不公平。

人們目前尚不明確如何進行良好的數據集劃分(除了隨機劃分之外),已經證明這樣會得到過於樂觀的預測結果(Lohr,2009)。此外,不同的超參數、損失函數和學習率計劃(learning rate schedules)使得評價架構的新進展變得困難。

本文主要的貢獻如下:

發布了一個公開的 GNN 對比基準框架,它是基於 PyTorch 和 DGL 庫開發的,並將其託管於 GitHub 上。

目標:超越目前流行的小型資料庫 CORA 和 TU,引入了 12,000~70,000 張具有 9~500 個節點的圖組成的中型數據集。數據集涉及數學建模(隨機分塊模型)、計算機視覺(超像素),組合優化(旅行商問題)以及化學(分子溶解度)

提出的對比基準框架確定了 GNN 的重要構建模塊。圖卷積、各向異性擴散、殘差連接,以及歸一化層等技術對於設計高效的 GNN 是最有用的。

作者目的並不是對已發布的 GNN 進行排名。對於一個特定的任務來說,找到最佳的模型的計算開銷是非常高昂的(超出了相應資源限制),它需要使用較差驗證對超參數的值進行窮舉搜索。相反,作者為所有的模型設定了一個參數變化的實驗計劃,並且分析了性能的趨勢,從而確定重要的 GNN 機制。

數值化的結果是可以完全被復現的。

二、對比基準框架

這項工作的目的之一就是給出一系列易於使用的中型數據集,在這些數據集上,過去幾年提出的各種 GNN 架構在性能方面表現出明顯且具有統計意義的差異。如表 1 所示,本文給出了 6 個數據集。對於其中的兩個計算機視覺數據集,作者將經典的 MNIST 和 CIFAR10 數據集中的每張圖片使用「super-pixel」技術轉換為圖的形式(詳見原文第 5.2 節)。接下來的任務就是對這些圖進行分類。

表1:已提出的基準數據集統計表

「PATTERN」和「CLUSTER」數據集是根據隨機分塊模型生成的(詳見原文第 5.4 節)。對於 PATTERN 數據集,對應的任務是識別出預先定義好的子圖;對於 CLUSTER 數據集,對應的任務是識別出簇。上述兩個任務都是節點分類任務。

TSP 數據集是基於旅行商問題(給定一組城市,求訪問每個城市並回到原點的可能的最短路徑)構建的,詳見原文第 5.5 節。作者將隨機歐幾裡得圖上的 TSP 作為一個邊的分類/連接預測任務來處理,其中每條邊的真實值都是由 Concorde 求解器給出的 TSP 路徑確定的。

如原文第 5.3 節所述,ZINC 是一個已經存在的真實世界中的分子數據集。每個分子可以被轉換成圖的形式:每個原子作為一個節點,每個化學鍵作為一條邊。這裡對應的任務是對一種被稱為受限溶解度(Constrained Solubility)的分子特性進行回歸。

本文提出的每一個數據集都至少包含 12,000 個圖。這與 CORA 和經常使用的 TU 數據集形成了鮮明的對比,這些之前的數據集往往只包含幾百個圖。

另一方面,本文提出的數據集大多數都是人造或半人造的(除了 ZINC 之外),而 CORA 和 TU 卻並非如此。因此,可以認為這些對比基準是互為補充的。

這項工作的主要動機在於,提出足夠大的數據集,從而使觀察到的不同 GNN 架構之間的差異是具有統計意義的。

三、圖神經網絡簡介

從最簡單的形式上來說,圖神經網絡根據以下公式迭代式地從一層到另一層更新其中的節點表徵:

              

其中              是節點 i 在第 l+1 層中的 d 維嵌入表徵,              是圖中與節點 i 相連的節點集合,              則是節點 i 的度,σ 是一個非線性函數,              則是一個可學習的參數。我們將這個簡單版本的圖神經網絡稱為圖卷積網絡(GCN)。

GraphSage 和 GIN(圖同構網絡)提出了這種平均機制的簡單變體。在採用平均聚合版本的 GraphSage 中,公式(1)可以被改寫為:

             

 

在嵌入向量被傳給下一層之前,它會被投影到單位球之上。在 GIN 架構中,公式(1)可以被改寫為:

              

其中              是可學習的參數,BN 是批歸一化層。值得注意的是,為了最終的預測,GIN 在所有中間層都會使用特徵。在上述所有的模型中,每個鄰居對中央節點更新的貢獻是均等的。我們將這種模型稱為各向同性的,它們將所有的邊的方向等同視之。

另一方面,高斯混合模型網絡 MoNet,門控圖卷積網絡 GatedGCN,以及圖注意力網絡 GAT 提出了各向異性的更新方案:

              

其中,權重              和              是使用各種各樣的機制計算得到的(例如,GAT 中的注意力機制或 GatedGCN 中的門控機制)。

最後,還可以考慮一個層次化的圖神經網絡,即差分池化 DiffPool。它在層次的每一個階段以及池化的過程中都用到了 GraphSage 的公式(2)。

四、基準測試實驗

在這裡,我們來展示一下這篇文章所提出的開源對比基準測試框架的實驗結果。

這篇工作中使用的大多數 GNN 網絡(包括圖卷積網絡 GCN、圖注意力網絡 GAT、GraphSage、差分池化 DiffPool、圖同構網絡 GIN、高斯混合模型網絡 MoNet),都來源於深度圖代碼庫(DGL),並且使用 PyTorch 實現。作者使用殘差連結、批歸一化,以及圖尺寸歸一化對所有 DGL 版的 GNN 實現進行了改進。門控圖卷積網絡 GatedGCN 是其最終考慮使用的 GNN,並用「GatedGCN-E」代表使用了邊屬性/邊特徵的版本。

此外,作者還實現了一個簡單的與具體圖無關的對比基線,它以相同的方式將一個多層感知機應用於每個節點的特徵向量,而與其它的節點無關。可以選擇在後面接上一個門控機制,從而得到門控的多層感知機對比基線。

這篇文章中使用了英偉達 1080Ti 的 GPU,在 TU、MNIST、CIFAR10、ZINC 以及 TSP 數據集上進行了實驗,並且使用英偉達 2080Ti 的 GPU 在 PATTERN 和 CLUSTER 數據集上進行了實驗。

1、在 TU 數據集上進行圖分類

第一個實驗是在 TU 數據集上進行圖分類。論文中選用了 3 個 TU 數據集,ENZYMES(訓練集、驗證集、測試集分別包含 480、60、60 個尺寸為 2-126 的圖),DD(訓練集、驗證集、測試集分別包含 941、118、119 個尺寸為 30-5748 的圖),以及 PROTEINS(訓練集、驗證集、測試集分別包含 889、112、112 個尺寸為 4-620 的圖)。

實驗的數值結果如表 2 所示,從統計意義上說,所有的神經網絡都具有差不多的性能,然而標準差卻非常大。

表 2:在標準 TU 測試數據集上的模型性能(數值越高越好)。給出了兩次實驗的結果,這兩次實驗所使用的超參數是相同的,但是使用的隨機種子是不同的。作者分別展示了這兩次實驗的結果,從而說明排序和可復現性的差異。性能最好的結果用加粗的紅色表示,性能第二的結果用加粗的藍色表示,性能第三的結果用加粗的黑色表示。

 

              

2、使用超像素(SuperPixel) 的圖分類

在第二個實驗中,作者用到了計算機視覺領域流行的 MNIST 和 CIFAR10 圖像分類數據集。他們使用 SuperPixel 將原始的 MNIST 和 CIFAR10 圖像轉換為圖。

在 MNIST 數據集中,訓練集、驗證集、測試集分別包含 55,000、5,000、10,000 個尺寸為 40-75 個節點(即 SuperPixel 的數量)的圖;在 CIFAR10 數據集中,訓練集、驗證集、測試集分別包含 45,000、5,000、10,000 個尺寸為 85-150 個節點的圖。

對於每一個樣本,作者構建了一個 k 最近鄰鄰接矩陣,權值              ,其中 x_i,x_j 是超像素 i,j 的二維坐標,σ_x 是放縮參數(通過計算每個節點的 k 個最近鄰的平均距離 x_k 得到)。MNIST 和 CIFAR10 的超像素圖的可視化結果如圖 1 所示。

             

圖 1:示例圖及其超像素圖。通過 SLIC 得到的超像素圖(MNIST 最多有 75 個節點,CIFAR10 中最多有 150 個節點)是歐氏空間中得到的 8-最近鄰圖,圖中節點的顏色表示平均的像素強度。

在 MNIST 和 CIFAR 10 數據集上的圖分類結果如表 3 所示。

表 3:在標準的 MNIST 和 CIFAR10 測試數據集上的模型性能(數值越高越好)。實驗結果是根據四次使用不同的種子進行的實驗求平均得到的。紅色代表最優的模型,紫色代表較優模型,加粗黑色代表具有殘差連接和不具有殘差連接的模型之中的最優模型(如果二者性能相同,則都是加粗黑色字體)。

              

3、在分子數據集上進行圖回歸

作者將 ZINC 分子圖數據集用於對被稱為「受限溶解度」(constrained solubility)的分子性質進行回歸。在 ZINC 數據集中,訓練集、驗證集、測試集分別包含 10,000、1,000、1,000 個尺寸為 9-37 個節點/原子。對於每個分子圖來說,節點特徵是原子的種類,邊的特徵是邊的種類。實驗結果如表 4 所示。

表 4:在標準的 ZINC 測試數據集上的模型性能(數值越低越好)。實驗結果是根據四次使用不同的種子進行的實驗求平均得到的。紅色代表最優的模型,紫色代表較優模型,加粗黑色代表具有殘差連接和不具有殘差連接的模型之中的最優模型(如果二者性能相同,則都是加粗黑色字體)。

 

              

4、在隨機分塊模型(SBM)數據集上進行節點分類

在這裡,作者考慮節點級的圖模式識別任務,以及半監督圖聚類任務。圖模式識別任務旨在找出一種嵌入在各種尺寸的大型圖 G 中的固定圖模式 P。對於 GNN 來說,識別出不同的圖中的模式是最基本的任務之一。模式和嵌入後的圖是通過隨機分塊模型(SBM)生成的。SBM 是一種隨機圖,它為每個節點按照以下的規則分配所屬社區:對於任意兩個節點來說,如果它們從屬於同一個社區則它們被連接在一起的概率為 p,如果它們從屬於不同的社區則它們被連接在一起的概率為 q(q 的值作為噪聲水平)。

在所有的實驗中,作者生成了包含 5 個社區的圖 G,每個社區的規模在 [5, 35] 之間隨機生成。每個社區的 SBM 規則為 p = 0.5,q = 0.2,G 上的信號是通過在 3 個變量(即{0,1,2})的均勻隨機分布上採樣得到的。作者隨機生成了由 20 個節點組成的 100 個模式 P,內部概率為 p_P = 0.5,且外部概率 q_P = 0.5(即 P 中 50% 的節點與 G 中非 P 部分相連)。P 上的信號也是在{0,1,2}中生成的隨機信號。在 PATTERN 數據集中,訓練集、驗證集、測試集分別包括 10,000、2,000、2,000 個尺寸為 50-180 個節點的圖。當節點從屬於 P 時輸出信號的值為 1,節點在 G 中且不從屬於 P 時輸出信號的值為 0。

半監督聚類任務是網絡科學中的另一類基本任務。作者生成了 6 個 SBM 簇,其尺寸為 [5, 35] 之間隨機生成的值,概率  p = 0.55,q = 0.25。在 CLUSTER 數據集中,訓練集、驗證集、測試集分別包括 10,000、1,000、1,000 個尺寸為 40-190 個節點的圖。作者僅僅為每個社區給出了隨機選取的單一標籤。輸出信號被定義為聚類類別的標籤。

表 5:在標準的 PATTERN 和 CLUSTER SBM 圖測試集上的模型性能(數值越高越好)。紅色代表最優的模型,紫色代表較優模型,加粗黑色代表具有殘差連接和不具有殘差連接的模型之中的最優模型。

              

5、在 TSP 數據集上進行邊的分類

近年來,將機器學習用於求解 NP-hard 的組合優化問題(COP)成為了備受關注的研究熱點。最近提出的 COP 深度學習求解器將 GNN 與經典的圖搜索方法結合了起來,用於直接根據問題實例(表徵為圖)預測近似解。在這裡,作者考慮被廣泛研究的旅行商問題(TSP):給定一個二維的歐氏圖,我們需要找到一個最優的節點順序(路徑),遍歷所有節點一次,並且邊的權重之和(路徑長度)最小。TSP 的多尺度特性使其成為了一個極具挑戰的圖任務,它要求我們同時做到局部節點鄰居和全局圖結構的推理。

在這裡的 TSP 實驗中,作者遵循了 Li 等人於 2018 年發表的論文「Combinatorial optimization

with graph convolutional networks and guided tree search」中所描述的基於學習的 COP 求解方法,其中 GNN 是為每條邊賦予屬於/部署於某個預測解集的概率的主幹架構。接著,作者會通過圖搜索技術將概率轉換為離散決策。訓練集、驗證集、測試集分別包含 10,000、1,000、1,000 個 TSP 實例,其中每個實例都是一個在單位正方形              中均勻採樣得到的 n 個節點位置組成的圖(              )。作者通過為每個實例均勻地採樣得到 n 個節點(              ),從而生成尺寸和複雜度不一的多個 TSP 問題。

為了將主幹 GNN 架構和搜索部分的影響獨立開來,作者將 TSP 作為了一個邊的二分類任務,TSP 路徑中每條邊的真實值是由  Concorde 求解器得到的。為了拓展到大的實例上,作者使用了稀疏的 k = 25 的最近鄰圖,而並非使用完全圖。採樣得到的各種各樣尺寸的 TSP 實例請參閱圖 2。

             

圖 2:TSP 數據集中採樣得到的圖。節點用藍色表示,TSP 路徑中的真實邊用紅色表示。

五、給我們的啟示

1、在小型數據集上,與圖無關的神經網絡(多層感知機)的性能與 GNN 相近

表 2 和表 3 說明對於小型的 TU 數據集和簡單的 MNIST 數據集來說,將 GNN 用在與圖無關的 MLP 對比基線上沒有明顯的性能提升。此外,MLP 有時比 GNN 的性能還要好(例如在 DD數據集上)。

2、在大型數據集上,GNN 可以提升與圖無關的神經網絡性能

表 4 和表 5 顯示出,在 ZINC、PATTERN 以及 CLUSTER 數據集上,所有的 GNN 都相較於兩個 MLP 對比基線模型有很大的性能提升。表 6 說明使用了殘差連接的 GNN 模型在 TSP 數據集上的性能要優於 MLP 對比基線。表 3 中的實驗結果說明,在 CIFAR10 數據集上差異較小,儘管最佳的 GNN 模型性能顯著優於 MLP 模型。

3、原始的 GCN 性能較差

GCN 是最簡單的 GNN 形式。它們對節點表徵的更新依賴於一個如公式(1)所述的在鄰居節點上的各向同性平均操作。Chen 等人於 2019 年發表的論文《Are Powerful Graph Neural Nets Necessary? A Dissection on Graph Classification》中對這種各向同性的性質進行了分析,結果表明這種方法無法區分簡單的圖結構,這也解釋了 GCN 在所有的數據集上為什麼性能較差。

4、在 GCN 上進行改進的新型各向同性 GNN 架構

GraphSage 通過圖卷積層的公式(2)說明了使用中心節點信息的重要性。GIN 也在公式(3)中利用了中心節點的特徵,並採用了一個與所有中間層的卷積特徵相連的新的分類器層。DiffPool 考慮了一種可學習的圖池化操作,其中在每一個解析度的層級上使用了 GraphSage。這三種各向同性的 GNN 在除了 CLUSTER 的所有數據集上都極大提升了 GCN 的性能。

5、各向異性 GNN 更加精確

諸如 GAT、MoNet、GatedGCN 等各向異性模型在除了 PATTERN 之外的所有數據集上都取得了最佳的性能。同時,作者也注意到 GatedGCN 在所有的數據集上都展現出了很好的性能。

與主要依賴於對鄰居節點特徵的簡單求和的各向同性 GNN 不同,各向異性 GNN 採用了複雜的機制(GAT 用到了稀疏注意力機制,GatedGCN 用到了邊的門控機制),這使得它們更難得以高效地實現。

此外,這種 GNN 還有一個優點,那就是它們可以顯式地使用邊的特徵(例如,分子中兩個原子之間的化學鍵類型)如表 4 所示,對於 ZINC 分子數據集而言,GatedGCN-E 使用化學鍵的邊特徵,相較於不使用化學鍵的 GatedGCN 極大地提升了 MAE 性能。

6、殘差連接可以提升性能

殘差連接在計算機視覺領域的深度學習架構中已經成為了一種通用的組成部分。使用殘差連接可以從兩方面幫助 GNN 提升性能:

一方面,它在深度網絡中限制了反向傳播過程中的梯度彌散的問題。另一方面,它使得在 GCN 和 GAT 這樣的模型中可以在卷積階段包含自節點信息,而這些模型本身並沒有顯式地使用這些信息。

表 7:對於帶有殘差連接/不帶有殘差連接的深度 GNN(最多 32 層),在 TSP 測試數據集上的模型性能(數值越高越好)。L 代表層數,加粗的黑色字體代表帶有殘差連接和不帶有殘差連接的模型中最優的一方(如果性能相同則都是加粗的黑色字體)。

 

              

             

圖 3:帶有殘差連接(實線)和不帶有殘差連接(虛線)的深度 GNN(最多 32 層)在 ZINC 和 CLUSTER 測試數據集上的模型性能。實驗結果是根據四次使用不同的種子進行的實驗求平均得到的。

7、歸一化層可以提升學習性能

大多數現實世界中的圖數據集是具有不同圖大小的不規則圖的集合。將大小不同的圖當做一批處理,可能會導致節點表徵處於不同的尺度。因此,對激活值進行歸一化處理可能會有助於提升學習和泛化的性能。

在試驗中,作者使用了兩個歸一化層:批量歸一化(BN)以及圖尺寸歸一化(GN)。圖尺寸歸一化是一種簡單的操作,其產生的節點特徵 h_i 是根據圖的尺寸進行歸一化之後的結果,即              ,其中 V 是節點的個數。這種歸一化層被應用在卷積層之後、激活層之前。

 

             

表 8:有/沒有經過批量歸一化(BN)和圖歸一化(GN)的模型在 ZINC、CIFAR10、CLUSTER 測試數據集上的性能。

實驗結果是根據四次使用不同的種子進行的實驗求平均得到的,表示為(均值±標準差),對於 ZINC 數據集來說數值越低越好,對於 CIFAR10 和 CLUSTER 數據集來說數值越高越好。加粗的黑色字體代表使用和不使用歸一化層的模型之中最優的一方(當二者性能相同時則都為加粗黑色字體)。

六、結語

在本文中,Begio等人提出了一種促進圖神經網絡研究的對比基準測試框架,並解決了實驗中的不一致性問題。他們證明了被廣為使用的小型 TU 數據集對於檢驗該領域的創新性是不合適的,並介紹了框架內的 6 個中型數據集。

在多個針對圖的任務上進行的實驗表明:

1)當我們使用更大的數據集時,圖結構是很重要的;

2)作為最簡單的各向同性 GNN,圖卷積網絡 GCN 並不能學習到複雜的圖結構;

3)自節點信息、層次、注意力機制、邊門控以及更好的讀取函數(Readout Function)是改進 GCN 的關鍵;

4)GNN 可以使用殘差連接被擴展地更深,模型性能也可以使用歸一化層得到提升。

最後需要說明的是,本文提出的對比基準框架是利用 PyTorch 和 DGL 實現的,是完全可復現的,並且對 GitHub 上的用戶開放,供大家試驗新的模型和添加數據集。 雷鋒網雷鋒網


雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 結合神經網絡,提升ImageNet分類準確率且可解釋
    如上圖所示,這個決策樹不只是給出輸入數據 x 的預測結果(是「超級漢堡」還是「華夫薯條」),還會輸出一系列導致最終預測的中間決策。我們可以對這些中間決策進行驗證或質疑。然而,在圖像分類數據集上,決策樹的準確率要落後神經網絡 40%。
  • 73歲Hinton老爺子構思下一代神經網絡:屬於無監督對比學習
    受人腦的啟發,他和其他研究者提出了「人工神經網絡」(artificial neural network),為機器學習研究奠定了基石。那麼,30 多年過去,神經網絡的未來發展方向在哪裡呢?Hinton 在此次報告中回顧了神經網絡的發展歷程,並表示下一代神經網絡將屬於無監督對比學習。
  • 一個被稱為「模式自適應神經網絡」的新神經網絡架構
    針對四足動物的動畫生成問題,愛丁堡大學的研究人員開發了一個被稱為「模式自適應神經網絡」的新神經網絡架構,它可以從實際的運動數據學習,生成非常自然的動畫。團隊在今天開源了所有代碼、數據和編譯的demo。
  • 一圖抵千言:帶你了解最直觀的神經網絡架構可視化
    神經網絡是複雜、多維、非線性的數組運算。如何在避免過於複雜或重複的情況下呈現深度學習模型架構的重要特徵呢?又該以何種方式清晰直觀、啟發性地呈現它們呢?(好看也是加分項!)無論研究還是教學項目對此都沒有固定標準。本文我們就來了解一下可視化整個神經網絡架構和特定模塊的工具和技巧。
  • 開源神經網絡框架Caffe2全介紹
    這個不斷嘗試和逼進的過程,我們稱為訓練你可能需要在移動端/伺服器端/物聯網設備/嵌入式系統上部署你的神經網絡算法那麼Caffe2作為一個神經網絡框架,為你提供了模型搭建、訓練、和跨平臺的部署。簡而言之,全包辦了。
  • 性能超越圖神經網絡,將標籤傳遞和簡單模型結合實現SOTA
    譯者 | 劉暢出品 | AI科技大本營頭圖 | CSDN付費下載自視覺中國圖神經網絡(GNNs)是圖學習中一種主流的技術。然而,對於GNN為什麼在實際使用中很成功以及它們是否是優異性能所必需的技術,了解相對較少。
  • 表徵圖數據,絕不止圖神經網絡一種方法
    雖然現在深度神經網絡在物體識別、圖像分類和自然語言處理領域都取得了巨大的成功。然而,「設計出最優的神經網絡,學習並輸出任意的圖」仍然是一個熱門的研究課題。本文是一篇出自倫敦大學學院的圖表徵學習綜述,詳細介紹了圖核、卷積、圖神經網絡、圖嵌入、概率模型共五類圖表徵學習方法的起源與發展,並對圖數據表徵學習方法的最新進展和未來發展方向進行總結和討論。
  • ...的神經網絡:實習生領銜打造,效果不輸傳統CNN | CVPR 2020 Oral
    關注前沿科技 量子位曉查 發自 凹非寺量子位 報導 | 公眾號 QbitAI沒有乘法的神經網絡,你敢想像嗎?無論是單個神經元的運算還是卷積運算,都不可避免地要使用乘法。
  • 圖神經網絡的十大學習資源分享
    字幕組雙語原文:【乾貨】圖神經網絡的十大學習資源分享英語原文:Top 10 Learning Resources for Graph Neural Networks翻譯:雷鋒字幕組(聽風1996)圖神經網絡(GNNs)是深度學習的一個相對較新的領域,從最近開始越來越流行。
  • 極驗發布全國首個專注於圖神經網絡的書籍,《深入淺出圖神經網絡...
    圖神經網絡是當前 AI 領域最為火爆的研究熱點之一,學術界與工業界各大公司紛紛投入大量資源研究。它在因果推理上擁有巨大潛力,有望解決深度學習無法處理的關係推理、可解釋性等一系列問題,而這些問題被業界認為是能夠推動 AI 出現實質性進展的關鍵。
  • 蒙特卡洛樹搜索在黑盒優化和神經網絡結構搜索中的應用
    原創 Synced 機器之心機器之心專欄作者:王林楠、田淵棟布朗大學在讀博士王林楠在本文中介紹了他與 Facebook 田淵棟團隊合作,在 2020 年 NeurIPS 取得亮眼表現的新算法,以及其在神經網絡結構搜索中的應用
  • 深度神經決策樹:深度神經網絡和樹模型結合的新模型
    這種模型不僅具有了基於樹模型的可解釋性的優點,同時還可以利用神經網絡中的梯度下降法來進行訓練,並可方便地利用現有的神經網絡框架實現,將使得神經網絡的過程得以用樹的方式得到有效的解釋。 愛丁堡大學的研究人員們基於樹和神經網絡的結構提出了一種新型的模型——深度神經決策樹(DNDT),並探索了樹和網絡之間的相互作用。DNDT是一種具有特殊結構的神經網絡,任意一種配置下的DNDT都對應著決策樹,這使其具有了可解釋性。
  • 李飛飛總結 8 年 ImageNet 歷史,宣布挑戰賽最終歸於 Kaggle
    另一篇論文《ImageNet Large Scale Visual Recognition Challenge》(2015),也有 2847 的引用量,這篇論文描述了 ImageNet 數據集基準的創造、物體識別領域的研究進展。
  • 多種HPC應用中進行對比的基準
    基於ARM處理器的「Isambard」超級計算機將包含10,000個內核(採用Cavium的ThunderX2 ARM處理器),將於明年在英國布裡斯託大學面世,負責開發該超級計算機的團隊一直致力於基於ARM的HPC系統的研究和開發工作。
  • 「神經網絡」能否代替「決策樹算法」?
    所以,我們擴展一下題目把對比延伸到:單棵決策樹,如比較常見的C4.5等以決策樹為基模型的集成學習算法(Ensemble Tree),如隨機森林,gradient boosting,和xgboost神經網絡,包括各種深度和結構的網絡我的看法是,
  • 建神經網絡模型,哪種優化算法更好?35000次測試告訴你丨圖賓根大學...
    蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI想要優化自己的神經網絡,卻不知道哪種優化器更適合自己?又或者,想知道深度學習中梯度下降的算法到底都有哪些?現在,最全面的優化算法分析來了。
  • 如何使用神經網絡彈奏出帶情感的音樂?
    而現在,由於 GPU 計算資源和可獲得的大數據,結果可以變得相當好,於是作者就希望使用像圖 1 中的神經網絡來進行一個音樂實驗,來實現音樂風格的神經轉換。在這篇文章中,作者給出了非常詳細的分析和什麼會這樣思考,本文也表明使用作者提出的方法,我們可以得到良好的結果。
  • 神經網絡並不是尚方寶劍,我們需要正視深度 NLP 模型的泛化問題
    Agrawal 等人論文中給出的例子一個改進最先進的自然語言處理模型的 workshop因此,儘管在對比基準數據集上表現良好,現代的自然語言處理技術在面對新穎的自然語言輸入時,在語言理解和推理方面還遠遠達不到人類的水平
  • DeepMind新GNN模型,將谷歌地圖預估到達準確率提升50%!
    近日,DeepMind宣布幫「兄弟一把」——與谷歌地圖展開合作,利用了一種圖神經網絡(GNN),成功提升了谷歌地圖在柏林、東京、雪梨等大城市的實時 ETA 準確率,最高提升了50%。DeepMind此次的研究,就是如何解決這個動態預測問題。
  • 用深度神經網絡求解『薛丁格方程』,AI開啟量子化學新未來|Nature...
    最近,來自柏林自由大學(Freie Universität Berlin) 的科學團隊取得了突破性進展,他們發表的一篇名為《利用深度神經網絡解電子薛丁格方程》的論文,登上了《Nature Chemistry》子刊。