導語
近段時間,圖神經網絡(GNN)作為機器學習最熱門的領域之一,唱盛有之,唱衰也不少。就在前兩天,一位數據科學家發表了一篇題為「為什麼我對GNN不感冒」的文章,歷數 GNN 的多項弊端,在reddit上引發廣泛討論。但儘管如此,GNN作為一項方興未艾的研究領域,在 2020年依然取得了諸多進展,在2021年也依然存在許多亟待挖掘的課題。
Michael Bronstein |作者
智源社區 |來源
近段時間,圖神經網絡(GNN)作為機器學習最熱門的領域之一,唱盛有之,唱衰也不少。
就在前兩天,一位數據科學家發表了一篇題為「為什麼我對GNN不感冒」的文章,歷數 GNN 的多項弊端,在reddit上引發廣泛討論。
過去5年中,大多數GNN論文提供的結果,對從業者沒有太多幫助。
糟糕的圖數據結構
全局方法,是個死胡同
.....
但儘管如此,GNN作為一項方興未艾的研究領域,在 2020年依然取得了諸多進展,在2021年也依然存在許多亟待挖掘的課題。
在新年伊始,以色列計算機科學家 Michael Bronstein 徵求了 12 位在Graph ML及其應用領域做出傑出工作的研究人員的意見,對過去一年 GML 領域的亮點進行了總結,並預測了2021年的發展,內容涉及GNN研究的方方面面。
1.消息傳遞的限制
Will Hamilton,麥吉爾大學的助理教授,蒙特婁 CIFAR 主席,GraphSAGE 作者。
Will Hamilton:
2020年,圖機器學習領域面臨著消息傳遞模式的基本限制。
這些限制包括所謂的「瓶頸」問題,過度平滑問題,以及表徵能力理論上的限制。展望未來,我希望在2021年,我們能夠為圖機器學習尋找下一個重要的範例。我不確定下一代圖機器學習算法到底會是什麼樣子,但我相信,要想取得進展,就需要打破2020年及之前統治該領域的消息傳遞模式。
我也希望,2021年圖機器學習也能進入更有影響力和更具挑戰性的應用領域。最近有太多的研究集中在簡單、同質的節點分類任務上。我也希望在需要更複雜的算法推理任務上看到方法上的進步,比如涉及知識圖表、強化學習和組合優化的任務。
2.算法推理
Petar Veli kovi ,DeepMind 高級研究員,Graph Attention Networks)作者
Petar Veli kovi :
2020已經決定性地、不可逆轉地將圖表徵學習變成了機器學習的「第一公民」。
今年在該領域取得的巨大進展數不勝數,無法一一列舉,但我個人最為興奮的要屬神經算法推理。傳統上,神經網絡在插值機制中是非常強大的,但眾所周知,神經網絡是可怕的外推器,推理能力嚴重不足;推理的主要特徵之一,就是能夠發揮OOD的功能。
推理任務對於 GNN 的未來發展來講可能是十分理想的,不僅因為它們與這類任務非常契合,還因為許多現實世界的圖任務表現出趨同性,這意味著最有影響力和可擴展的方法通常是更簡單形式的GNN。
基於先前神經執行器過往的成功案例,如神經圖靈機和可微分神經計算機(DNC),再加上現在無處不在的圖機器學習工具箱,2020年發表的幾項相關工作探索了神經執行器的理論極限,基於 GNNs 衍生出新穎而強大的推理結構,並在神經推理任務上展現出強大的泛化能力。
儘管這樣的架構自然可以在2021年實現組合優化,但我個人最感到興奮的是,預訓練的算法執行器可以讓我們將經典算法應用於過於原始或者不適合該算法的輸入。
例如,我們的 XLVIN 代理恰恰使用了這些概念,以允許 GNN 在強化學習 pipeline 中執行值迭代樣式的算法,即使不知道底層 MDP 的細節。我相信2021年的時機已經成熟,GNN 應用程式將普遍應用於強化學習。
3.關係結構發現
Thomas Kipf,Google Brain 科學家,圖卷積網絡的作者
Thomas Kipf:
自從基於GNN的模型被廣泛採用以來,Graph ML社區中一個特別值得注意的趨勢便是將計算結構與數據結構分離。
在最近的一次ICML研討會的演講中,我將這種趨勢稱為「關係結構發現」。
GNNs 允許學習一個狀態轉換圖(右側),來解釋複雜的多粒子系統(左側)。
通常我們設計的圖神經網絡,是為了在數據集提供的一個固定(或隨時間演進)結構上去傳遞消息。也即,將數據集的節點和邊緣作為模型計算結構或消息傳遞結構的黃金標準。
但在2020年,有許多研究開始對能夠適應計算結構的模型產生興趣。這些模型超越了簡單的基於注意力的模型,可以動態地選擇使用哪些組件作為節點以及在哪些節點上進行消息傳遞。
比較有影響的例子包括
攤銷因果發現(Amortised Causal Discovery) [19–20],這項研究利用了神經關係推理從時間序列數據中推斷因果圖,並用它來做推理。
具有科學係指針的GNN[21,15];
關聯機制[22,23];
學習具有自適應計算圖的基於網格的物理模擬器[24]
學習推斷抽象節點的模型[25,26]
這個方向的探索的意義顯而易見,因為它使我們能夠有效利用其它領域(例如文本或視頻處理)中的GNN架構提供的對稱性(例如節點置換方差)和歸納偏差(例如成對交換函數建模)。
展望下未來,我比較期待的進展是:在不依賴明確監督的情況下,給定一些數據和任務,能夠學習出最佳的計算圖結構(不管是節點還是關係)。
一個好處是,對學習到的這種結構進行探究,我們可以對學到的模型如何解決某個任務做可解釋性分析,也可以讓我們對因果推理做進一步的類比。
4.表示能力
Haggai Maron,英偉達的科學家,可表示的高維圖神經網絡(expressive high-dimensioanl graph neural networks)的作者
Haggai Maron:
圖神經網絡的表達能力是2020年Graph ML的核心主題之一。
當下有許多優秀的論文,討論了:
各種GNN架構的表達能力;
當GNN的深度和寬度受限時的表達極限;
使用GNN哪些類型的結構可以進行檢測和計數;
使用固定數量的GNN對許多圖任務是無效的,因此建議使用迭代GNN來學習自適應終止消息傳遞過程。
2021年,我希望看到的進展包括:
圖生成模型的原理方法;
使用GNN的圖匹配和GNN的表達能力之間的聯繫;
學習圖像、語音等結構數據的圖;
在scene graphs上,GNN社區和CV社區能夠建立更多的合作。
5.可擴展性
Matthias Fey,多特蒙德工業大學博士,PyTorch幾何圖和開放圖基準測試的開發者
Matthias Fey:
2020年Graph ML研究中最熱門的主題之一是解決GNN的可擴展性問題。
在可擴展性方面,有幾種方法採用將預測與傳播解耦,來簡化基礎計算過程。
我們也看到有不少論文只是簡單地將不可訓練的傳播策略和graph-agnostic(圖不可知)模塊結合在一起,用作預處理[30,7]或後處理[6]的步驟。這種方式得到了極好的結果,並且能夠顯著提高同構圖的同等性能。
隨著數據集越來越大,我們希望能夠看到這方面的進一步發展,以及如何以可擴展的方式來利用可訓練的表示的傳播。
6.動態圖
Emanuele Rossi,Twitter機器學習研究員,帝國理工學院博士,Temporal Graph Networks作者。
Emanuele Rossi:
許多有趣的Graph ML應用本質上都是動態的,這種動態包括圖拓撲以及屬性隨時間的演變。
動態圖
在社交網絡、金融交易網絡或用戶項目交互網絡中,圖網絡都是動態的。但直到最近,對Graph ML的絕大多數研究都集中在靜態圖上,而一些嘗試處理動態圖的工作也主要是離散時間的動態圖(即固定時間間隔的一系列靜態圖)。
2020年,我們看到有一些關於連續時間動態圖的工作,這裡將動態圖視為事件的異步流。也有一些將動態圖模型成功應用的案例,例如假帳戶檢測,欺詐檢測,流行病傳播控制。
我個人認為,這個領域仍然處於探索階段,仍然有許多有趣的問題尚未得到解答。比較重要的問題包括
動態圖的可擴展性;
對動態模型的理論解釋;
單個框架中如何更好地結合信息的時空擴散;
如何構建更可靠、更具挑戰性的基準,從而確保可以更好地評估和跟蹤研究進展;
如何將動態圖神經架構應用到更多的行業場景中等。
7.新的硬體
Mark Saroufim,Graphcore的機器學習工程師
Mark Saroufim:
在與我合作過的客戶中,幾乎所有人都在生產過程中部署過圖神經網絡,或者至少是在計劃這樣做。
在NLP、蛋白質設計和分子特性預測等領域中,人們往往會把語言、蛋白質或者分子直接當做序列進行處理,以適應當下技術比較成熟的機器學習模型,例如Transformers。但Transformers 本質上就是有著多頭注意力的 GNN。
半導體公司Graphcore,正在開發用於圖數據的新硬體。
在計算機領域,某些算法之所以獲勝,並不是因為它們非常適合解決某個問題,而是因為它們在現有硬體上運行良好,這種現象稱之為「硬體彩票」(Hardware Lottery)—— Transformers 能運行在 GPU 上就是這種情況。
在 Graphcore上,我們構建了一個有1472個核的 MIMD 架構,可以並行運行8832個程序,我們稱之為智能處理單元(IPU)。這種架構非常適合 GNN 加速。Graphcore 的軟體棧利用稀疏性將計算圖的不同節點分配給不同的核。
對於可以納入 IPU 900MB 晶片存儲的模型,我們的架構通過 GPU 實現了吞吐量的實質性改進;此外,只需幾行代碼,就可以將模型分發到數千個 GPU 上。
我很高興看到我們的用戶利用我們的架構做了大量的研究,包括各類應用,例如 SLAM 中的光束法平差,使用本地更新訓練深層網絡,或者解決粒子物理學中的各種問題。我希望在2021年看到更多研究人員利用我們先進的機器學習硬體。
8.工業應用
Sergey Ivanov,Criteo科學家
Sergey Ivanov:
對於Graph ML研究來說,這是令人震驚的一年。在所有主要的ML會議上,有關圖神經網絡的論文中約佔全部的 10%至20%。在這種規模下,每個人都可以找到自己感興趣且有趣的研究進展。
在NeurIPS 2020上,谷歌的圖挖掘團隊全方位介紹了他們在產品中如何使用Graph ML,在312頁的slide裡,他們介紹了他們利用時空GNN建模COVID-19、欺詐檢測、隱私保護等方面的應用工作。
另外,DeepMind利用GNN在谷歌地圖中做了全球旅行時間預測,這個工作一個有趣的細節是,將強化學習模型集成到一個batch中,選擇相似的採樣子圖來訓練GNN的參數,這種超參調整能使實時到達時間估算的精度提高50%以上。
SuperGlue,使用GNN解決了計算機視覺中的特徵匹配問題。
另一個比較有趣的應用來自 Magic Leap,這家公司專門研究3D圖形生成。他們將SuperGlue架構[39]應用到了圖像特徵匹配(這是3D重建、位置識別、定位和映射的重要課題)上。這種端到端的特徵表示,與最佳運輸優化相結合,在實時的室內和室外姿態估計上表現極佳。
這些當然只是GNN在2020年工業應用的一個縮影。在2021年,我們會在工業中看到更多Graph ML的身影,例如生產流程和框架、新的開源圖數據集、電子商務、工程設計、製藥等,都會有GNN的大規模部署。
9.在物理學中的應用
Kyle Cranmer,紐約大學物理學教授,希格斯玻色子的發現者之一
Kyle Cranmer:
看到圖機器學習在過去兩年中在物理領域變得非常流行,真是太神奇了。
早期在粒子物理中使用深度學習,通常的做法是,把各種數據轉換成圖像的表示形式,然後輸入到CNN中,這整個過程是極為不自然的,因為我們的數據本身並非網格狀的,表示成圖像會非常稀疏。圖,對我們的數據來說,則是一個非常自然的表示形式。
粒子噴射可以表示為一個圖。研究人員正在探索使用GNN來檢測粒子物理學中的發現。圖片來源:LHC
大型強子對撞機的研究人員現在正在努力將圖機器學習集成到每秒處理數十億次碰撞的實時數據處理系統當中。研究人員正在努力通過部署推理伺服器將圖機器學習與實時數據採集系統集成在一起,並試圖在FPGA和其他特殊硬體上實現這些算法。
Graph ML 在2020年的另一個亮點是證明其歸納偏置可以與符號方法配對。
例如,我們使用GNN來學習預測各種動力學系統,然後對沿著邊發送的消息進行符號回歸。我們不僅能夠復現那些已知動力系統的力學規律,而且能夠獲知那些完全不知道規律的系統的力學方程。
此外,獲得的這些方程還可以放到GNN中,更新原始的學習組建,從而來更好地歸納分布數據。
10.醫學中的應用
Anees Kazi,慕尼黑工業大學的博士生 ,曾撰寫了多篇有關 Graph ML 在醫學成像中應用的論文。
Anees Kazi:
在醫學領域,Graph ML改變了分析多模態數據的方式,這種方式與專家如何通過臨床常規中的所有可用維度觀察患者的狀況非常相似。
最近,在醫學成像和醫療保健應用中,與Graph ML相關的研究出現了大爆發,包括腦區圖像分割,以及使用針對疾病預測的MRI / fMRI數據進行腦結構分析和藥物作用分析。
GNN 可以利用人口圖進行疾病分類
說起2020年,Graph ML在醫學領域中的應用,有以下方面脫穎而出。
首先,潛圖學習,通過給定數據來經驗性定義一個圖的潛圖學習之前是優化結果的瓶頸,但現在已經被自動學習潛圖結構的方法解決了。
其次,數據重建,因為數據丟失是醫學領域許多數據集的一個常見問題,因此基於圖的方法可以根據鄰近圖的關係完成數據重建。
第三,Graph ML模型的可解釋性,對於臨床和技術專家來說,重點在於推理出Graph ML模型的結果,並將其可靠地合併到CAD系統(計算機輔助檢測)中。2020年醫學領域的另一個重要亮點當然是新冠,並且使用Graph ML方法檢測Covid-19。
到2021年,Graph ML可以用於進一步提升ML模型的可解釋性,從而做出更好的決策。其次,研究人員觀察到 Graph ML方法仍然對圖結構敏感,因此,針對圖擾動和對抗攻擊的魯棒性是重要的議題。最後,將自監督學習與Graph ML的集成應用於醫療領域將會是很有趣的。
11.蛋白質結構預測
Bruno Correia,瑞士洛桑聯邦理工學院助理教授、蛋白質設計和免疫工程實驗室負責人,MaSIF的開發商之一。
2020年,蛋白質結構預測取得了令人興奮的進展,這是生物信息學中的關鍵問題。
對於蛋白質來說,其分子表面的化學和幾何模式直接影響其功能。
使用幾何機器學習架構MaSIF設計的不同蛋白結合劑,用於腫瘤靶向治療。
基於分子表面表示的研究,已經有數十年了,也同時給機器學習帶來了極大的挑戰。
其中讓人比較印象深刻的研究是幾何深度學習的方法,這種方法能夠處理不規則數據,特別適合蛋白質的表示。在MASIF中,在基於網格的分子表面表示上,使用幾何深度學習進行訓練,可以學習到可預測蛋白質和其他分子相互作用的模式,而且可以將計算速度提升幾個數量級。反過來,這也可以促進更大範圍的蛋白質-蛋白質相互作用網絡的預測。
在MASIF框架的基礎上,我們做到了動態生成化學和表面模式,從而避免了所有預計算的階段。我們預計,這些進展將為蛋白質和小分子設計帶來變革,長遠來看,將有助於更快地開發生物藥物。
12.生命科學
Marinka Zitnik,哈佛醫學院生物醫學信息學助理教授,Decagon系統的作者。
Marinka Zitnik:
很高興看到Graph ML在2020年進入到生命科學領域。
我們已經看到,圖神經網絡在精心設計的基準數據集上可以勝過傳統方法,另一方面,在新藥開發上,也從根本上開闢了一條新的途徑。比較顯著的進展包括單細胞生物學、蛋白質和結構生物學,藥物發現和重定位等。
在Decagon中使用GNN,來預測藥物的副作用。
幾個世紀以來,科學家所使用的科學方法一直保持不變。我們希望,在2021年,我們能夠利用Graph ML 對這一現象做出一些實質性的進展。
因此,我認為,我們需要設計出一種方法,能夠優化和操縱網絡系統,然後預測其結果;基於這種方法,我們可以通過微擾和幹預數據來控制實驗,而數據本身不需要我們在現實世界中進行觀測)
另外,我希望我們可以開發出更多的方法來學習可操作的表示形式,這些方法可以更加容易地應用到科學中的可操作的假設中,從而避免在高風險環境(例如化學測試、粒子物理、臨床試驗等)中進行決策,還能獲得更有意義的精確解釋以及可靠的預測。
原文地址:
https://towardsdatascience.com/predictions-and-hopes-for-graph-ml-in-2021-6af2121c3e3d
參考資料
[1] U. Alon and E. Yahav, On the bottleneck of graph neural networks and its practical implications (2020) arXiv:2006.05205.
[2] Q. Li, Z. Han, X.-M. Wu, Deeper insights into graph convolutional networks for semi-supervised learning (2019) Proc. AAAI.
[3] K. Xu et al. How powerful are graph neural networks? (2019) Proc. ICLR.
[4] C. Morris et al. Weisfeiler and Leman go neural: Higher-order graph neural networks (2019) Proc. AAAI.
[5] K. Xu et al. What can neural networks reason about? (2019) arXiv:1905.13211.
[6] Q. Huang et al. Combining label propagation and simple models out-performs graph neural networks (2020) arXiv:2010.13993.
[7] F. Frasca et al. SIGN: Scalable Inception Graph Neural Networks (2020) arXiv:2004.11198.
[8] A. Graves, G. Wayne, and I. Danihelka, Neural Turing Machines (2014) arXiv:1410.5401.
[9] A. Graves et al. Hybrid computing using a neural network with dynamic external memory (2016). Nature 538:471–476.
[10] G. Yehuda, M. Gabel, and A. Schuster. It’s not what machines can learn, it’s what we cannot teach (2020) arXiv:2002.09398.
[11] K. Xu et al. How neural networks extrapolate: From feedforward to graph neural networks (2020) arXiv:2009.11848.
[12] P. Veli kovi et al., Neural execution of graph algorithms (2019) arXiv:1910.10593.
[13] O. Richter and R. Wattenhofer, Normalized attention without probability cage (2020) arXiv:2005.09561.
[14] H. Tang et al., Towards scale-invariant graph-related problem solving by iterative homogeneous graph neural networks (2020) arXiv:2010.13547.
[15] P. Veli kovi et al. Pointer Graph Networks (2020) Proc. NeurIPS.
[16] Y. Yan et al. Neural execution engines: Learning to execute subroutines (2020) Proc. ICLR.
[17] C. K. Joshi et al. Learning TSP requires rethinking generalization (2020) arXiv:2006.07054.
[18] A. Deac et al. XLVIN: eXecuted Latent Value Iteration Nets (2020) arXiv:2010.13146.
[19] S. L we et al., Amortized Causal Discovery: Learning to infer causal graphs from time-series data (2020) arXiv:2006.10833.
[20] Y. Li et al., Causal discovery in physical systems from videos (2020) Proc. NeurIPS.
[21] D. Bieber et al., Learning to execute programs with instruction pointer attention graph neural networks (2020) Proc. NeurIPS.
[22] A. Kazi et al., Differentiable Graph Module (DGM) for graph convolutional networks (2020) arXiv:2002.04999
[23] D. D. Johnson, H. Larochelle, and D. Tarlow., Learning graph structure with a finite-state automaton layer (2020). arXiv:2007.04929.
[24] T. Pfaff et al., Learning mesh-based simulation with graph networks (2020) arXiv:2010.03409.
[25] T. Kipf et al., Contrastive learning of structured world models (2020) Proc. ICLR
[26] F. Locatello et al., Object-centric learning with slot attention (2020) Proc. NeurIPS.
[27] W. Azizian and M. Lelarge, Characterizing the expressive power of invariant and equivariant graph neural networks (2020) arXiv:2006.15646.
[28] A. Loukas, What graph neural networks cannot learn: depth vs width (2020) Proc. ICLR.
[29] Z. Chen et al., Can graph neural networks count substructures? (2020) Proc. NeurIPS.
[30] A. Bojchevski et al., Scaling graph neural networks with approximate PageRank (2020) Proc. KDD.
[31] E. Rossi et al., Temporal Graph Networks for deep learning on dynamic graphs (2020) arXiv:2006.10637.
[32] S. Kumar, X. Zhang, and J. Leskovec, Predicting dynamic embedding trajectory in temporal interaction networks (2019) Proc. KDD.
[33] R. Trivedi et al., DyRep: Learning representations over dynamic graphs (2019) Proc. ICLR.
[34] D. Xu et al., Inductive representation learning on temporal graphs (2019) Proc. ICLR.
[35] M. Noorshams, S. Verma, and A. Hofleitner, TIES: Temporal Interaction Embeddings for enhancing social media integrity at Facebook (2020) arXiv:2002.07917.
[36] X. Wang et al., APAN: Asynchronous Propagation Attention Network for real-time temporal graph embedding (2020) arXiv:2011.11545.
[37] E. A. Meirom et al., How to stop epidemics: Controlling graph dynamics with reinforcement learning and graph neural networks (2020) arXiv:2010.05313.
[38] S. Hooker, Hardware lottery (2020), arXiv:2009.06489.
[39] P. E. Sarlin et al., SuperGlue: Learning feature matching with graph neural networks (2020). Proc. CVPR.
[40] S. Ruhk et al., Learning representations of irregular particle-detector geometry with distance-weighted graph networks (2019) arXiv:1902.07987.
[41] J. Shlomi, P. Battaglia, J.-R. Vlimant, Graph Neural Networks in particle physics (2020) arXiv:2007.13681.
[42] J. Krupa et al., GPU coprocessors as a service for deep learning inference in high energy physics (2020) arXiv:2007.10359.
[43] A. Heintz et al., Accelerated charged particle tracking with graph neural networks on FPGAs (2020) arXiv:2012.01563.
[44] M. Cranmer et al., Discovering symbolic models from deep learning with inductive biases (2020) arXiv:2006.11287. Miles Cranmer is unrelated to Kyle Cranmer, though both are co-authors of the paper. See also the video presentation of the paper.
[45] Q. Cai et al., A survey on multimodal data-driven smart healthcare systems: Approaches and applications (2020) IEEE Access 7:133583–133599
[46] K. Gopinath, C. Desrosiers, and H. Lombaert, Graph domain adaptation for alignment-invariant brain surface segmentation (2020) arXiv:2004.00074
[47] J. Liu et al., Identification of early mild cognitive impairment using multi-modal data and graph convolutional networks (2020) BMC Bioinformatics 21(6):1–12
[48] H. E. Manoochehri and M. Nourani, Drug-target interaction prediction using semi-bipartite graph model and deep learning (2020). BMC Bioinformatics 21(4):1–16
[49] Y. Huang and A. C. Chung, Edge-variational graph convolutional networks for uncertainty-aware disease prediction (2020) Proc. MICCAI
[50] L. Cosmo et al., Latent-graph learning for disease prediction (2020) Proc. MICCAI
[51] G. Vivar et al., Simultaneous imputation and disease classification in incomplete medical datasets using Multigraph Geometric Matrix Completion (2020) arXiv:2005.06935.
[52] X. Li and J. Duncan, BrainGNN: Interpretable brain graph neural network for fMRI analysis (2020) bioRxiv:2020.05.16.100057
[53] X. Yu et al., ResGNet-C: A graph convolutional neural network for detection of COVID-19 (2020) Neurocomputing.
[54] P. Gainza et al., Deciphering interaction fingerprints from protein molecular surfaces using geometric deep learning (2020) Nature Methods 17(2):184–192.
[55] F. Sverrisson et al., Fast end-to-end learning on protein surfaces (2020) bioRxiv:2020.12.28.424589.
[56] A. Klimovskaia et al., Poincaré maps for analyzing complex hierarchies in single-cell data (2020) Nature Communications 11.
[57] J. Jumper et al., High accuracy protein structure prediction using deep learning (2020) a.k.a. AlphaFold 2.0 (paper not yet available).
[58] J. M. Stokes et al., A deep learning approach to antibiotic discovery (2020) Cell 180(4):688–702.
[59] D. Morselli Gysi et al., Network medicine framework for identifying drug repurposing opportunities for COVID-19 (2020) arXiv:2004.07229.
(可上下滑動瀏覽)
複雜科學最新論文