南洋理工大學最新發布開源圖神經網絡基準

2020-11-19 圖像算法


作者


介紹


最近的許多研究讓我們看到了圖形神經網絡模型(GNN)的強大潛力,許多研究團隊也在不斷改進和構建基礎模塊。但大多數研究所使用的數據集都很小,如Cora和TU,在這種情況下,即使是非圖神經網絡的性能也相當可觀。只有使用中等大小的數據集進行進一步比較,圖形神經網絡的優勢才會變得明顯。


在斯坦福圖形神經網絡bull Jure等人發布「開放圖形基準」之後,又一項旨在構建「圖形神經網絡圖像網」的研究應運而生。近日,來自南洋理工大學、洛約拉·馬裡蒙特大學、蒙特婁大學、米蘭大學等機構的論文已提交到該平臺的預印本上,這項新的研究得到了深造先鋒Yoshua Bengio的參與,也得到了Yann LeCun的關注。


在該研究中,作者同時介紹了六個中型基準數據集(12k-70k圖,8-500節點),並測試了一些有代表性的圖神經網絡。除了只使用節點特徵的基線模型外,圖神經網絡還分為兩類,有無邊對邊注意。GNN研究界一直在尋找一個共同的基準來評估新模型的能力,這個工具可以讓我們實現我們的目標。


方法


這項工作的目標之一是提供一個易於使用的中型數據集,在這個數據集上,過去幾年提出的不同GNN體系結構的性能有著顯著的不同。同時,從統計角度來看,這些差異相當顯著。基準包含6個數據集,如表1所示:


對於這兩個計算機視覺數據集,來自經典MNIST(LeCun et al.,1998)和CIFAR10(Krizhevsky et al.,2009)數據集的每個圖像都使用所謂的超級像素變換來映射。


下一個任務是對這些數字進行分類。在模式和集群數據集中,圖形是基於隨機塊模型生成的。這些任務包括標識特定的子圖結構(模式數據集)或標識集群(集群數據集)。這些都屬於節點分類的任務。


Tsp數據集是基於銷售人員旅行的問題,假設有一個城市列表,訪問每個城市並返回原始城市的最短路徑是什麼?


將隨機歐氏圖上的TSP問題作為邊界分類或連接預測任務。協和解算器給出的TSP旅行中每個邊界的真實值屬於現實世界中已經存在的分子數據集。每個分子都可以轉換成一個圖形:每個原子可以成為一個節點,每個鍵可以成為一個邊。

  • 基準測試設置

GatedGCN選通卷積網絡(Bresson&Laurent,2017)是最後一個正在考慮中的GNN。如果在數據集中可用,GatedGCN-e使用邊緣屬性/特徵表示版本。此外,作者還實現了一個不使用圖結構的簡單基線模型。它使用MLP作為並行情況下每個節點的特徵向量,並且與其他節點無關。


這是後續的可選選通機制,用於獲取選通MLP基線(有關詳細信息,請參閱補充資料)。作者在Nvidia 1080Ti GPU上進行了MNIST、CIFAR10、zn和TSP的實驗,並在nvidia2080tigpu上進行了圖形和簇的實驗。


  • 圖形分類與超像素數據集

本節使用計算機視覺中最流行的MNIST和CIFAR10圖像分類數據集。超解析度格式為SLIC(Knyazev等人,2019)。MNIST有55000個訓練/5000個驗證/10000個測試圖,節點在40-75之間(即超級混合數)。CI-FAR10有45000個訓練/5000個驗證/10000個測試圖,節點數為85-150。

表2:不同方法在基於MNIST和CI-FAR10的標準測試集上的測試結果(值越高越好)。結果是使用4種不同種子的4次運行結果的平均值。紅色是最好的等級,紫色是最高的等級。粗體表示剩餘連結和非剩餘連結之間的最佳模型(如果兩個模型處於同一級別,則均以粗體顯示)


  • SBM數據集上的節點分類


研究者考慮了節點級圖模式識別任務和半監督圖聚類任務。為了在圖形模式識別過程中找到一個固定的圖形模式P,將其嵌入到一個較大的圖形G中。


半監督聚類任務是網絡科學中的另一個重要任務。研究人員為上述兩項任務生成了相應的數據集。



  • 圖回歸與分子數據集


ZINC分子數據集用於限制溶解度分子性質的回歸分析。這裡ZINC有10000個訓練/1000個驗證/1000個測試圖,節點/原子數為9-37。對於每個分子圖,節點特徵是原子類型,邊緣特徵是邊緣類型。

  • 邊緣分類是TSP數據級別


TSP(旅行商問題)是指旅行商問題:給定一個二維歐氏圖,該算法需要找到一個名為Tour的最優序列節點。它應該有最小的側重。TSP的大規模特性使得它成為一個具有挑戰性的圖任務,需要對局部節點的鄰域和全局圖結構進行推理。


更重要的是,組合優化問題也是GNN中一個具有研究意義的應用場景。研究這類問題不僅在現實中有著廣泛的應用,而且對於理解圖模型的優化和學習過程以及圖網絡的局限性具有重要意義。


在基準測試中,研究人員採用了基於學習的方法,建立了一個GNN作為骨架網絡,對每一條邊緣以及是否屬於預測結果集進行概率預測。該概率通過圖搜索技術轉化為離散決策。研究人員分別創建了10000個訓練實例和1000個驗證和1000個測試實例。

結果


在具有和不具有BN(批量歸一化)和GN(圖形歸一化)的ZINC,CIFAR10和CLUSTER測試集圖上的性能。將4種種子的4次運行結果平均,顯示為Acc±s.d。

ZINC越低越好,CIFAR10和CLUSTER越高越好。

粗體表示在使用和不使用歸一化層之間的最佳模型(如果兩個模型表現均等,則兩個模型均為粗體)。



論文地址:

https://arxiv.org/pdf/2003.00982.pdf

開源地址:

https://github.com/graphdeeplearning/benchmarking-gnns

相關焦點

  • Bengio 團隊力作:GNN 對比基準橫空出世,圖神經網絡的「ImageNet...
    然而,正如計算機視覺的崛起有賴於 ImageNet 的誕生,圖神經網絡也急需一個全球學者公認的統一對比基準。近日,Bengio 大神帶領其團隊發布了新的圖神經網絡對比基準測試框架以及附帶的 6 個標準化數據集。大家可以開始盡情刷榜了!
  • 金吉列助力,圓夢新加坡南洋理工大學
    學生背景學生姓名:F同學院校背景:加拿大多倫多大學均分成績:78錄取結果:新加坡南洋理工大學1955年由民間發動籌款運動而創辦的南洋大學,1981年,新加坡政府在南洋大學校址成立南洋理工學院,為新加坡經濟培育工程專才;1991年,南洋理工學院進行重組,將國立教育學院納入旗下,更名為南洋理工大學,與快速發展的教育事業齊驅並進。
  • 助推環保產業發展 大渡口牽手新加坡南洋理工大學南洋環境與水源...
    藉此東風,重慶市大渡口區人民政府、重慶龍大科技有限公司,與新加坡南洋理工大學南洋環境與水源研究院,共同籤訂了環保項目三方合作協議,將在環保教育、環保技術開發、環保投資、環保城市建設等領域開展合作。  搭建環保教育培訓平臺 建立技術研發中心  重慶市大渡口區人民政府與重慶龍大科技有限公司、新加坡南洋理工大學南洋環境與水源研究院將在中新(重慶)戰略性互通互聯示範項目的基礎上,以「國家環保產業發展重慶基地大渡口環保科技產業園」為核心,在環保教育、環保技術開發、環保投資、環保城市建設等領域開展合作。
  • 一行命令跑評測,港中文MMLab開源自監督表徵學習代碼庫
    近日,香港中文大學多媒體實驗室(MMLab)和南洋理工大學的研究者開源了一套統一的自監督學習代碼庫 OpenSelfSup。前言近幾個月來自監督表徵學習領域獲得了顯著突破,特別是隨著 Rotation Prediction、DeepCluster、MoCo、SimCLR 等簡單有效的方法的誕生,自監督表徵學習大有超越有監督表徵學習的趨勢。
  • 圖神經網絡GNN的可解釋性問題與解釋方法最新進展
    本文是一篇稍有深度的教程,假設讀者具備圖神經網絡的基礎知識和一點計算化學的知識。如果你想為本文做好準備,我在下面列出了一些有用的文章。 本文最初發表於 TowardsDataScience 博客,經原作者 Kacper Kubara 授權,InfoQ 中文站翻譯並分享。
  • 極驗發布全國首個專注於圖神經網絡的書籍,《深入淺出圖神經網絡...
    圖神經網絡是當前 AI 領域最為火爆的研究熱點之一,學術界與工業界各大公司紛紛投入大量資源研究。它在因果推理上擁有巨大潛力,有望解決深度學習無法處理的關係推理、可解釋性等一系列問題,而這些問題被業界認為是能夠推動 AI 出現實質性進展的關鍵。
  • 圖神經網絡快速爆發,最新進展都在這裡了
    近年來,圖神經網絡(GNNs)發展迅速,最近的會議上發表了大量相關的研究論文。本文作者正在整理一個GNN的簡短介紹和最新研究報告的摘要。希望這對任何準備進入該領域或試圖趕上最新技術進展的人有所幫助。什麼是圖神經網絡?圖是一種包含節點(頂點)的數據類型,這些節點(頂點)通過邊相互連接,邊可以是有向的,也可以是無向的。
  • 資源| 讓手機神經網絡速度翻倍:Facebook開源高性能內核庫QNNPACK
    選自code.fb作者:MARAT DUKHAN、YIMING WU、HAO LU機器之心編譯機器之心編輯部今天,Facebook 開源了一個高性能內核庫——QNNPACK,專為移動 AI 進行優化。該內核庫加速了許多運算,如深度類型的卷積,促進了神經網絡架構的使用。
  • 告別調參煉丹,谷歌「權重無關」神經網絡開源了!
    」終於開源了!其關鍵思想是通過不再強調權重來搜索網絡結構,僅使用隨機共享的權重,也可以執行各種任務的神經網絡。終於可以不用調參煉丹了嗎?快來復現看看! 神經網絡訓練中 「權重」 有多重要不言而喻。但谷歌前段時間發表的研究表明,即使拋棄神經網絡權重訓練,使用隨機共享權重,也可以執行各種任務。
  • OpenAI發布「顯微鏡」,可視化神經網絡內部結構
    OpenAI Microscope顯微鏡地址:https://microscope.openai.com/models如上圖所示,初始版本包含8個計算機視覺領域的神經網絡模型。每個神經網絡都用可視化的形式展示了一些重要神經元的內部結構。
  • 小米開源監控系統Open-Falcon國際化推進 0.2版本英文文檔發布
    據悉後續還有如公有雲、網絡、MySQL、硬體監控、GPU等插件陸續發布和更新。在此之前,小米已經推出了一系列開源項目:Linden(分布式實時搜索系統)Open-Falcon(網際網路企業級監控系統)Pegasus(分布式KV存儲系統)MACE(自研移動端深度學習框架)MobileAIBench(移動端神經網絡框架基準測試項目)實際上,小米一直在倡導擁抱開源,並致力於推動AI技術賦能中國的科技產業的發展
  • 為什麼要進行圖學習?談一談逆勢而上的圖神經網絡
    相信你一定會說出來一個:圖神經網絡。隱空間attribute-structure對齊來解決論文快訊 | NeurIPS20:有向圖卷積網絡Digraph Inception Convolutional Networks拉普拉斯矩陣與拉普拉斯算子的關係 (乾貨預警,需慢讀細品)論文快訊 | TMM20-半監督學習的各向異性圖卷積網絡最新《圖神經網絡推薦系統》2020綜述論文,27頁
  • Twitter團隊最新研究:快速高效的可擴展圖神經網絡SIGN
    字幕組雙語原文:Twitter團隊最新研究:快速高效的可擴展圖神經網絡SIGN英語原文:Simple scalable graph neural networks翻譯:雷鋒字幕組(季一帆、何月瑩)前言:迄今為止,阻礙圖神經網絡在行業應用中被廣泛採用的挑戰之一是難以將其縮放到大型圖(例如Twitter跟隨圖)。
  • 新加坡南洋理工大學研發二氧化鈦納米纖維
    新加坡南洋理工大學研發二氧化鈦納米纖維 2013-04-22 16:47:35 來源:網上輕紡城 新加坡南洋理工大學土木與環境工程學院的研究小組近日成功研發出一種二氧化鈦納米纖維
  • 7篇必讀ACM MM 2019論文:圖神經網絡+多媒體
    圖神經網絡在多媒體領域應用非常多,本文整理了七篇ACM MM 2019最新GNN相關論文,並附上論文連結供參考——個性化推薦、短視頻推薦、多視頻摘要、基於文本的行人搜索、視頻關係檢測、社區問答(CQA)系統等。來新智元 AI 朋友圈和AI大咖們一起討論吧。
  • 基於複數神經網絡首發量子機器學習開發工具 「量槳」,飛槳布局...
    (圖:百度首席技術官王海峰)百度集團副總裁、深度學習技術及應用國家工程實驗室副主任吳甜正式對外發布飛槳最新的全景圖,包含飛槳開源深度學習平臺和飛槳企業版兩部分。飛槳開源深度學習平臺部分,包含核心框架、基礎模型庫、端到端開發套件與工具組件,持續開源核心能力,為產業、學術、科研創新提供基礎底座。
  • 自動給神經網絡找bug,Google發布TensorFuzz
    給神經網絡捉蟲,更是比普通程序難得多:絕大部分bug都不會導致神經網絡崩潰、報錯,只能讓它訓練了沒效果,默默地不收斂。能不能把煉丹師們從無休止無希望的debug工作中拯救出來?兩位谷歌大腦研究員Augustus Odena和Ian Goodfellow說,好像能。他們推出了一種自動為神經網絡做軟體測試的方法:TensorFuzz。
  • 什麼是SeetaFace開源人臉識別引擎?
    為此,整個人臉識別社區需要有基準(Baseline)系統,而且基準系統的水平顯然會極大影響著該領域的發展水平。可是令人尷尬的是,這個領域迄今尚無一套包括所有技術模塊的、完全開源的基準人臉識別系統!我們希望改變現狀,因此開源了SeetaFace人臉識別引擎。該引擎由中科院計算所山世光研究員帶領的人臉識別研究組研發。
  • 南洋理工大學科學家開發出節能「液體窗」
    【solardaily網11月6日報導】 新加坡南洋理工大學(NTU Singapore)的科學家們研發出一種液體窗,它不僅可以阻擋陽光以調節日光射入量,同時還能捕獲熱能並在晝夜間釋放,以降低建築能耗。
  • TensorLayer 2.0:保有最多官方神經網絡層的通用Python庫
    近日,TensorLayer人工智慧開源社區發布了TensorLayer 框架的2.0版本,由即將加入北京大學前沿計算研究中心的董豪博士主持開發,以支持動態訓練模式和動/靜態神經網絡模型切換,以及TensorFlow2.0。