性能超越圖神經網絡,將標籤傳遞和簡單模型結合實現SOTA

2021-01-13 AI科技大本營

譯者 | 劉暢

出品 | AI科技大本營

頭圖 | CSDN付費下載自視覺中國

圖神經網絡（GNNs）是圖學習中一種主流的技術。然而，對於GNN為什麼在實際使用中很成功以及它們是否是優異性能所必需的技術，了解相對較少。

本文展示了許多標準的傳導節點網絡的分類基準結果，作者通過將忽略圖結構的淺層模型與利用標籤結構中相關性的兩個簡單後處理步驟相結合，可以超越或匹配SOTA的GNN的性能，這裡主要有兩個相關性（i）將訓練數據中的殘餘誤差帶到測試數據中，用於矯正錯誤的「誤差相關性」（error correlation），以及（ii）一個「預測相關性」，它可以平滑測試數據上的預測。本文稱整個過程為矯正且平滑（Correct and Smooth, C&S），後處理步驟是通過對早期基於圖的半監督學習方法的標準標籤傳導技術的簡單修改來實現的。

本文的方法在各種基準測試上超過或接近於SOTA的GNNs的性能，並且它只需要一小部分的參數，運行速度更快。例如，本文方法在OGB產品數據集中以減少137倍的參數和100倍的訓練時間超過了最著名的GNN性能。本文方法的性能突出展現了如何直接將標籤信息納入學習算法（如在傳統技術中所做的那樣），並產生簡單而實質性的性能提升，也可以將技術融入大型GNN模型中，提供適度增益。

OGB結果的代碼是：

https://github.com/Chillee/correctandsooth。

引言

隨著神經網絡在計算機視覺和自然語言處理方面的成功，現在有許多的圖神經網絡（GNN）來對關係性數據進行預測。這些模型已經取得了很大的成功，並且在開放的圖基準排行榜上名列前茅。通常，GNN的方法主要是圍繞著創建比基本結構更具表現力的體系結構，如圖卷積網絡（GCN）或GraphSAGE；例子如圖注意力網絡，圖同構網絡和各種深層模型。許多新GNN架構的想法都是從語言（例如注意力）或視覺（例如深層CNN）模型中的新架構改編而來的，希望能成功轉化為圖形。然而，隨著這些模型變得越來越複雜，理解它們的性能增益是一個主要的挑戰，並且將它們擴展到大型數據集是很困難的。

在本文中，我們將展示，通過組合更簡單的模型，我們可以達到多大的程度，重點是了解在圖學習中，特別是轉化節點分類中，哪裡有容易提高性能的機會。本文提出了一個包含三個主要部分的簡單管道（pipeline）（圖1）：（i）使用忽略圖結構的節點特徵進行基礎預測（例如，MLP或線性模型）；（ii）校正步驟，它將訓練數據中的不確定性傳播到圖中，以校正基礎預測；以及（iii）對圖上的預測進行平滑處理。步驟（ii）和（iii）只是後處理，使用的是經典的基於圖的半監督學習方法，即標籤傳播。

圖1 任意GNN模型，校正和平滑過程整體概述，並附帶一個示例。

假設左側簇屬於橙色類，右側簇屬於藍色類。我們使用mlp進行基礎的預測，假設在本例中，圖結構對所有節點都給出了相同的預測。然後，通過傳遞訓練數據中的誤差來校正基礎的預測。最後，通過標籤傳遞對校正後的預測進行平滑處理。

本文方法性能改進的一個主要來源是直接使用標籤進行預測。這種想法並不是什麼新鮮事，早期的基於擴散的半監督學習算法，如光譜圖傳感器、高斯隨機場模型和標籤擴散都使用了這一思想。然而，這些方法的動機是在點雲數據上進行半監督學習，因此使用特徵來構造圖。從那時起，這些技術被用於僅從標籤（即無特徵）學習關係數據，但在GNNs中基本上被忽略了。

儘管如此，本文發現即使是簡單的標籤傳播（忽略了特徵）在許多基準測試中都表現得出奇地好。這就為組合兩個預測能力的正交提供了動力，一個來自節點特徵（忽略圖結構），另一個來自直接在預測中使用已知標籤。

最近的研究將GNN與標籤傳播以及馬爾可夫隨機場聯繫起來，並且一些技術在特徵中使用了標籤信息。然而，這些方法的訓練成本仍然很高，而本文是以兩種可理解的低成本方式使用標籤傳播。本文從一個忽略了圖結構的模型的「基礎預測」開始。之後，使用標籤傳播進行誤差修正，然後平滑最終預測。這些後處理步驟基於這樣一個事實，即連接節點上的錯誤和標籤是正相關的。

總的來說，本文的方法表明，結合幾個簡單的思想，在傳導節點分類中，無論是在模型大小還是在訓練時間方面，成本都只佔一小部分。例如，在OGB產品基準測試中，我們用少於兩個數量級的參數和訓練時間，超過了目前最著名的GNN方法。

然而，本文的目標並不是說當前的圖學習方法很差或不合適。相反，本文的目標是強調在圖學習中提高預測性能的更簡單的方法，這樣可以更好地理解性能增加的緣由。本文的主要發現是在學習算法中更直接地加入標籤是非常關鍵的。通過將我們的想法與現有的GNN相結合，我們也看到了一些提升，儘管這些提升是微不足道的。但作者希望本文的方法能為其他的圖學習任務，如歸納節點分類、連結預測和圖預測提供一些思路。

方法

我們的方法從一個簡單的基於節點特徵的基礎預測器開始，這個預測器不依賴於圖的任何學習。之後，我們執行兩種類型的標籤傳播（LP）：一種是通過建模相關誤差來修正基礎的預測，另一種是平滑最終的預測結果。我們稱這兩種方法的組合是校正和平滑（C&S；圖1）。LP（Label Propagation, 標籤傳遞）只是一個後處理的步驟，本文的算法pipeline不是一個端到端的訓練。此外，該圖僅用於這些後處理步驟和增強特徵的前處理步驟。而一般的基礎預測方式不是這樣的。與標準GNN模型相比，這使得訓練變得更快且可擴展。此外，我們利用了LP（在沒有特性的情況下，它本身的性能往往相當好）和節點特徵。我們將看到，將這些補充的信息結合起來會產生很好的預測。

首先，我們使用一個不依賴於圖結構的簡單的基礎預測器。這個預測器可以是線性的模型或者一個淺的多層感知器，接下來，我們通過合併標籤來關聯修正錯誤，從而提高基礎預測器的精度。為了最終的預測，出於圖中的相鄰節點可能具有相似標籤的考慮，作者進一步平滑了修正後的預測值。回顧整個處理的流程，就是從簡單的基礎預測Z開始，只使用節點特徵，而不是圖結構。然後，通過在訓練數據上傳遞已知誤差來估計誤差，得到誤差修正後的預測Z（r）=Z+^E。最後，作者將這些作為未標記節點上的得分向量，通過另一個LP步驟將其與已知標籤相結合，得到平滑的最終預測。這就是Correct and Smooth(C&S)方法。

實驗

為了證明本文方法的有效性，我們使用了九個數據集（表1）。Arxiv和Products數據集來自開放圖基準數據集；Cora、Citeseer和Pubmed是三個經典的引文網絡基準數據集；wikiCS是一個網絡圖。在這些數據集中，類標籤是論文、產品或頁面的種類，而特徵是從文本派生出來的。本文還使用Rice 大學的Facebook社交網絡，其中類標籤是宿舍，特徵是性別、專業和班級年份等屬性，以及美國的地理數據集，類標籤是2016年選舉結果，特徵是人口統計。最後，我們使用了一個歐洲研究機構的電子郵件數據集，其中的類標籤是部門成員，沒有特徵。

具體的對比方法和結果如下圖所示，其他更詳細的實驗步驟和對比結果，可以詳細閱讀論文。

結論

GNN模型正變得越來越有泛化能力，參數也越來越多，訓練成本相應的也變得越來越高。本文的研究結果表明，我們應該探索其他提高性能的技術，例如標籤傳遞和特徵增強。特別是，標籤傳遞和它的變體是一種可持續發展的想法。直接地將它們結合到圖學習模型中就會帶來很大的好處，而且本文已經證明這些方法可以使預測結果更好，訓練更快。

相關焦點

深度神經決策樹:深度神經網絡和樹模型結合的新模型

深度神經決策樹：深度神經網絡和樹模型結合的新模型工程師郭婷發表於 2018-08-19 09:14:44 近日，來自愛丁堡大學的研究人員提出了一種結合深度神經網絡和樹模型的新型模型
Bengio 團隊力作:GNN 對比基準橫空出世,圖神經網絡的「ImageNet...

三、圖神經網絡簡介從最簡單的形式上來說，圖神經網絡根據以下公式迭代式地從一層到另一層更新其中的節點表徵：則是一個可學習的參數。我們將這個簡單版本的圖神經網絡稱為圖卷積網絡（GCN）。GraphSage 和 GIN（圖同構網絡）提出了這種平均機制的簡單變體。
超越蒙特卡洛樹搜索:北大提出深度交替網絡和長期評估圍棋模型

在這種思路下，蒙特卡洛樹搜索（MCTS）（Gelly & Silver 2011）是最為流行的方法，它構建了一個廣泛而深入的搜索樹來模擬和評估每個落子位置的價值。利用這種方法構建的圍棋程序已經獲得了很大成功。AlphaGo 結合了監督學習與強化學習的優勢。通過訓練形成一個策略網絡，將棋盤上的局勢作為輸入信息，並對有所可行的落子位置形成一個概率分布。
NeurIPS 2020線上分享 | 華為諾亞方舟:超越CNN的加法神經網絡

目前出現了多種獲得高計算能效深度神經網絡的算法，如從準確度損失極少的預訓練神經網絡中刪除不重要參數或濾波器的權重剪枝方法，以及通過模仿教師模型輸出分布來直接學習學生模型的知識蒸餾方法。另一個獲得高效神經網絡的研究途徑是減少權重和激活值的位寬以降低內存使用和功耗。這類方法有很多，也可以大幅度降低計算複雜度，但生成網絡的性能依然低於 CNN 方法。
結合神經網絡,提升ImageNet分類準確率且可解釋

儘管決策樹有諸多優點，但歷史經驗告訴我們，如果遇上 ImageNet 這一級別的數據，其性能還是遠遠比不上神經網絡。「準確率」和「可解釋性」，「魚」與「熊掌」要如何兼得？把二者結合會怎樣？最近，來自加州大學伯克利分校和波士頓大學的研究者就實踐了這種想法。
表徵圖數據,絕不止圖神經網絡一種方法

這裡的核方法的特點是，引入神經學習技術將核方法用於圖數據。深度圖核（Deep graph kernels）：是將圖核與深度學習技術相結合的重要方法之一。他們試圖解決獲取子結構之間有意義的語義的問題。結構袋方法存在子結構依賴、子結構稀疏和對角優勢的問題。
用飛槳做自然語言處理:神經網絡語言模型應用實例

但這種方法會有一個很大的問題，那就是前面提到的維度災難，而這裡要實現的神經網絡語言模型（Neural Network Language Model），便是用神經網絡構建語言模型，通過學習分布式詞表示（即詞向量）的方式解決了這個問題。
普林、DeepMind新研究:結合深度學習和符號回歸,從深度模型中看見...

符號模型緊湊，具備可解釋性和良好的泛化能力，但很難處理高維機器學習問題；深度模型擅長在高維空間中學習，但泛化性和可解釋性卻很差。那麼有沒有什麼辦法可以取二者之所長呢？這項研究做到了。如何將深度模型轉換為符號方程？來自普林斯頓、DeepMind 等機構的研究人員提出了一種解決方案：結合深度學習和符號回歸實現這一目標。
神經受控微分方程:非規則時間序列預測新SOTA

機器之心報導參與：Racoon、魔王、小舟使用神經微分方程對時間序列的動態進行建模是一個很有潛力的選擇，然而目前方法的性能往往受限於對初始條件的選擇。這項新研究提出了改進策略，實現了新的 SOTA 性能。
性能媲美BERT,但參數量僅為1/300,這是谷歌最新的NLP模型

在過去的十年中，深度神經網絡從根本上變革了自然語言處理（NLP）領域的發展，但移動端有限的內存和處理能力對模型提出了更高的要求。人們希望它們可以變得更小，但性能不打折扣。去年，谷歌發布了一種被稱為 PRADO 的神經架構，該架構當時在許多文本分類問題上都實現了 SOTA 性能，並且參數量少於 200K。
看圖猜口袋妖怪屬性,這個神經網絡可能比你強!教程

他寫了一篇博客文章，通過卷積神經網絡ConvNets實現口袋妖怪中精靈屬性的分類任務，該網絡可通過某個精靈的圖像來判斷該遊戲精靈的屬性。他在博客中詳細介紹了數據集構建、預處理過程和訓練步驟，以及分析所選模型的性能指標，同時在GitHub上公開了所有的數據，實現代碼和分析結果。
簡述基於神經網絡的抽取式摘要方法

按照有無監督數據可以分為有監督摘要和無監督摘要。本文主要關注單文檔、有監督、抽取式、生成式摘要。 2. 抽取式摘要抽取式方法從原文中選取關鍵詞、關鍵句組成摘要。這種方法天然的在語法、句法上錯誤率低，保證了一定的效果。傳統的抽取式摘要方法使用圖方法、聚類等方式完成無監督摘要。目前流行的基於神經網絡的抽取式摘要往往將問題建模為序列標註和句子排序兩類任務。
用飛槳做自然語言處理:神經網絡語言模型應用實例 - 量子位

但這種方法會有一個很大的問題，那就是前面提到的維度災難，而這裡要實現的神經網絡語言模型（Neural Network Language Model），便是用神經網絡構建語言模型，通過學習分布式詞表示（即詞向量）的方式解決了這個問題。
陳丹琦新作:關係抽取新SOTA,用pipeline方式挫敗joint模型

近期研究大多採取 joint 方式建模這兩項子任務，要麼將二者統一在一個結構化預測網絡中，要麼通過共享表示進行多任務學習。而近期來自普林斯頓大學的 Zexuan Zhong、陳丹琦介紹了一種非常簡單的方法，並在標準基準（ACE04、ACE05 和 SciERC）上取得了新的 SOTA 成績。該方法基於兩個獨立的預訓練編碼器構建而成，只使用實體模型為關係模型提供輸入特徵。
73歲Hinton老爺子構思下一代神經網絡:屬於無監督對比學習

受人腦的啟發，他和其他研究者提出了「人工神經網絡」（artificial neural network），為機器學習研究奠定了基石。那麼，30 多年過去，神經網絡的未來發展方向在哪裡呢？Hinton 在此次報告中回顧了神經網絡的發展歷程，並表示下一代神經網絡將屬於無監督對比學習。
性能提升30%以上,實時實例分割算法SOLOv2實現產業SOTA

第一類可以被稱為實時的實例分割的模型是 YOLACT 和 YOLACT++，它們基於 RetainNet，將實例分割分為兩個並行的子任務，採用單階段的網絡結構，使網絡計算量儘量小，後者訓練 54 個 epoch 左右，最終在 COCO test-dev 數據集上的 mask AP 達到 34.6%，在 Titan Xp 的 GPU 環境中達到 27.3~33.5FPS
光神經網絡,正在照亮智能計算的未來

如果問一個問題——能夠進行深度神經網絡計算的晶片有哪些？大家給出的答案可能五花八門：CPU、GPU、DSP、NPU……過去幾年裡，電子計算已經成為實現人工智慧算法——尤其是深度神經網絡模型——最重要的算力支撐。
實戰|手把手入門神經網絡,74行代碼實現手寫數字識別

以我們學習「機器學習」的經驗來看，很多高大上的概念剛開始不懂也沒關係，先寫個東西來跑跑，有個感覺了之後再學習那些概念和理論就快多了。如果別人已經做好了輪子，直接拿過來用則更快。因此，本文直接用Michael Nielsen先生的代碼作為例子，給大家展現神經網絡分析的普遍過程：導入數據，訓練模型，優化模型，啟發式理解等。
純貝葉斯神經網絡沒有意義?OpenAI科學家何出此言?

最終，將真實數據 D 和損壞數據 Z˙ 結合得到一個組合數據集 C。（假設∣Z˙∣較小，這樣我們可以繼續使用過參數化機制，即∣C∣<<∣θ∣。）理解 f_θ^ 和 f_θ_C 之間差異的直觀方式是觀察其泛化性。假設 D 是訓練集，Z 是測試集。函數 f_θ^ 泛化性能優異：它在訓練集上實現了不錯的性能（即 Pr(D∣f_θ_C)≈1），在測試集上也取得了優秀的性能（即 Pr(Z∣f_θ_C)≈1）。
一個被稱為「模式自適應神經網絡」的新神經網絡架構

上圖展示了基於動作捕捉實現的動畫製作，但捕捉的動畫是非結構化的，而且隨機動作太過廣泛。捕捉的數據不是很精準，動作存在很多噪波，細節的地方還需要後期修正。上圖是通過標準神經網絡生成的動畫，但會產生失真和明顯的滑步。

性能超越圖神經網絡,將標籤傳遞和簡單模型結合實現SOTA

相關焦點

深度神經決策樹:深度神經網絡和樹模型結合的新模型

Bengio 團隊力作:GNN 對比基準橫空出世,圖神經網絡的「ImageNet...

超越蒙特卡洛樹搜索:北大提出深度交替網絡和長期評估圍棋模型

NeurIPS 2020線上分享 | 華為諾亞方舟:超越CNN的加法神經網絡

結合神經網絡,提升ImageNet分類準確率且可解釋

表徵圖數據,絕不止圖神經網絡一種方法

用飛槳做自然語言處理:神經網絡語言模型應用實例

普林、DeepMind新研究:結合深度學習和符號回歸,從深度模型中看見...

神經受控微分方程:非規則時間序列預測新SOTA

性能媲美BERT,但參數量僅為1/300,這是谷歌最新的NLP模型

看圖猜口袋妖怪屬性,這個神經網絡可能比你強!教程

簡述基於神經網絡的抽取式摘要方法

用飛槳做自然語言處理:神經網絡語言模型應用實例 - 量子位

陳丹琦新作:關係抽取新SOTA,用pipeline方式挫敗joint模型

73歲Hinton老爺子構思下一代神經網絡:屬於無監督對比學習

性能提升30%以上,實時實例分割算法SOLOv2實現產業SOTA

光神經網絡,正在照亮智能計算的未來

實戰|手把手入門神經網絡,74行代碼實現手寫數字識別

純貝葉斯神經網絡沒有意義?OpenAI科學家何出此言?

一個被稱為「模式自適應神經網絡」的新神經網絡架構