【新智元導讀】近兩年,圖機器學習可謂是機器學習研究領域的新星,隨著模型的更新和應用的推廣,越來越多的人開始把注意力轉向了這一方向。過去一年中,圖機器學習在哪方面有突破呢,在未來的一年中,哪些分支和方向會成為新的研究趨勢呢?這篇文章,帶你領略該領域諸多名人的最新思考。
2020年,圖機器學習成為了機器學習領域中炙手可熱的」明星「。
不管是剛入門的小白,還是在該領域深耕的專家,都會對該領域的迅速發展有深刻的體驗。
而此篇文章,就涵蓋了圖機器學習及其應用領域的大佬們的一些深入思考,其中包括了對2020年的總結,以及對2021年的的展望。
在這些人中,有GraphSAGE的作者、GCN的作者,Graph Attention Network的作者等這樣的巨佬。
他們的觀點,又會給我們帶來什麼引導和啟示呢?
相關領域和感興趣的小夥伴們,準備好了嗎?
消息傳遞(Message Passing)
威爾·漢密爾頓(Will Hamilton),麥吉爾大學(McGill University)助理教授,Mila CIFAR主席,GraphSAGE一書作者表示:
「2020年,圖機器學習領域開始接受消息傳遞範式的基本限制。這些限制包括所謂的「瓶頸」問題、過度平滑的問題,以及表徵能力方面的理論限制。
展望未來,我希望在2021年,我們會尋找圖機器學習的下一個大的範式。我不確定到底下一代圖機器學習算法的會是什麼樣子,但是我相信,如果想要進步,那麼就需要脫離在2020年之前成主導地位的消息傳遞機制。
此外,我還希望在2021年,也能出現更多的富有更大影響力和更具挑戰性的圖機器學習應用領域。最近,已經有太多的研究是集中在簡單的同質節點分類任務上的。實際上,我更希望在需要更複雜算法推理的任務上看到方法論的進步:比如涉及知識圖、強化學習和組合優化的任務。」
算法推理(Algorithmic reasoning)
Petar Velikovi是DeepMind的高級研究員,也是圖注意網絡的作者表示:
「2020年絕對且不可逆轉地,將圖表示學習轉變為了機器學習的『一等公民』。」
今年取得的巨大進步太多了,無法簡單列舉,但我個人最興奮的,則是神經算法推理。
傳統上,神經網絡在插值領域是非常強大的,但眾所周知,它的推理能力是不充分的。推理的主要特徵之一,就是能夠在分布之外發揮作用。
對於GNN的未來發展,推理任務很可能會佔有很重要的地位,不僅因為GNN與這些任務匹配地非常好,還因為許多真實世界中的圖任務具有同質性。這意味著最有效的可擴展的方法,通常會以更簡潔的GNN框架形式出現。
建立在先前如神經圖靈器和差分神經計算機之類神經設計的成功上,又經過當前圖機器學習工具的普遍應用,2020年的許多工作,探索了神經設計的理論局限性、發明了更加新穎且強大的GNN推理結構、並使神經推理任務的泛化能力得到了大幅提高。
我個人最激動的是,經過預訓練的算法執行者,可以讓我們將經典算法應用於過於原始甚至不適合該算法的輸入。例如,我們的XLVIN代理,正是使用了這些概念,即使在底層MDP的具體情況尚不清楚的情況下,也能允許GNN在強化學習中執行值迭代風格的算法。
我相信,到2021年,GNN應用於強化學習的時機將成熟。」
關係結構發現(Relational structure discovery)
Thomas Kipf是谷歌Brain的研究科學家,也是Graph Convolutional Networks的作者,他表示:
「自從最近基於GNN的模型被廣泛採用以來,在圖機器學習領域中,一個特別值得注意的趨勢是計算結構與數據結構的分離。
在最近的ICML研討會上,我將這種趨勢稱為關係結構發現。通常,我們設計的是具有固定結構的圖神經網絡,而固定結構一般是由對應數據集而來,即數據集的節點和邊被作為我們模型的計算結構,或者是消息傳遞結構的黃金標準。
在2020年,我們已經看到人們對能夠適應計算結構的模型越來越感興趣,也就是說,它們使用哪些組件作為節點,在哪些節點對上執行消息傳遞,而不僅僅是簡單的基於注意力的模型。
2020年,具有影響力的例子包括使用神經關係推理,從時間序列順序去推斷因果圖的攤銷因果發現( Amortised Causal Discovery)、具有可學習指針和關係機制的GNN、以及在學習出的推理抽象節點上進行計算的模型。
這些發展都具有廣泛的意義,因為它們允許我們有效地利用GNN架構在其他領域((如文本或視頻處理) 中提供的對稱性(如節點排列等)和歸納偏差(如成對交互函數建模)。
展望未來,我希望,我們能夠看到在不依賴明確監督的情況下,如何在給定數據和任務的情況下,學習最佳的計算圖結構(包括節點和關係)。
對這些學習到的結構進行探索,將有助於更好地解釋學習到的模型在解決任務時的計算行為,並可能使我們進一步進行類比因果推理。」
表現力(Expressive Power)
Nvidia的研究科學家Haggai Maron,是可證明表達的高維圖神經網絡的作者,他表示:
「圖神經網絡的表達能力是2020年圖機器學習的核心主題之一。
有許多優秀的論文討論了各種GNN架構的表達能力,並展示了當GNN的深度和寬度受到限制時其基本的表達極限,並描述了可以使用GNN進行檢測和計數的結構類型。
這表明使用固定數量的GNN對許多圖形任務沒有意義,此外,這些論文還提出了使用迭代GNN學習,來自適應地終止消息傳遞過程的建議。
在2021年,我很高興看到在圖生成模型的原理方法、圖匹配和GNN之間的聯繫、GNN的表達能力、學習圖像和音頻等結構化數據的圖上的發展和進步,並在GNN領域和研究場景圖的計算機視覺領域之間建立更牢固的聯繫。」
可擴展性 (Scalability)
Matthias Fey是多特蒙德工業大學的博士學生,也是PyTorch幾何圖形和開放圖基準測試的開發人員,他表示:
「2020年圖機器學習研究中最熱門的主題之一,是解決GNN的可擴展性問題。
我們已經看到了許多論文,這些論文簡單地將不可訓練的傳播方案與圖形不可知的模塊結合在一起,作為前面或後面的處理步驟。這導致了極短的運行時間,並且顯著地提高了同構圖的性能。」
動態圖(Dynamic graphs)
Emanuele Rossi,Twitter的機器學習研究員,帝國理工學院的博士生,也是Temporal Graph Networks的作者,他表示:
「許多有趣的圖機器學習應用,本質上都是動態的,其中,圖拓撲和屬性都會隨著時間而演變。
社交網絡,金融交易網絡以及用戶項目交互網絡就是動態圖的例子。之前的大部分時間,對圖機器學習的絕大多數研究,都集中在靜態圖上。嘗試處理動態圖的工作,主要涉及的則是離散時間動態圖。
在2020年,我們看到了一系列關於連續時間動態圖的更廣泛類別的最新研究,這些作品可以被視為定時事件的異步流。
此外,動態圖模型的第一個有趣的成功應用也開始出現:我們看到了虛假帳戶檢測,欺詐檢測和控制流行病的傳播之類的實際用途。
我認為我們還處於持續摸索的狀態中,許多有趣的問題仍未得到解答。
重要的開放問題包括可擴展性,對動態模型的更好的理論理解,以及在單個框架中結合時間和空間的信息擴散。
此外,我們還需要更可靠,更具挑戰性的基準,以確保可以更好地評估和跟蹤進度。
最後,我希望看到動態圖神經架構的更多成功應用,特別是在工業界中。」
新硬體(New hardware)
Mark Saroufim是Graphcore的機器學習工程師,他表示:
「在和我曾經合作過的客戶中,永遠都找不到既沒有在生產中部署Graph Neural Network,也沒有計劃這樣做的人。
不使用GNN的部分原因是,忽略了諸如NLP,蛋白質設計或分子特性預測等實際應用中的自然圖結構,而選擇將數據視為適合現有和完善的機器學習模型(如Transformers)的序列。
但是,我們知道,Transformer不過是注意力被用作鄰域聚集函數的GNN,其中。在計算中,某些算法獲勝的現象不是因為它們非常適合解決特定問題,而是因為它們在現有硬體上運行良好而被稱為「硬體福利」 ,而在GPU上運行的Transformers就是這種情況。
在Graphcore,我們建立了具有1472個內核的新MIMD體系結構,該體系結構可以並行運行總共8832個程序,我們稱為智能處理單元(IPU)。該架構非常適合加速GNN。
我們的Poplar軟體堆棧,主要利用了稀疏性,將計算圖的不同節點分配給不同的核心。對於可容納IPU 900 MB內存的型號,我們的架構可大大提高GPU的吞吐量。
我很高興看到我們的客戶可以使用我們的架構來進行大量的研究。
我希望在2021年,能夠看到更多使用我們先進機器學習硬體的研究人員」
參考連結:
https://towardsdatascience.com/predictions-and-hopes-for-graph-ml-in-2021-6af2121c3e3d