圖神經常微分方程,如何讓 GNN 在連續深度域上大顯身手?

2020-12-12 雷鋒網


瑞利-貝納德對流(Rayleigh–Bénard Convection)。利用有限元方法將空間上連續的問題離散化,將複雜的關係歸納偏差顯示為實體集合。資料來源:原作者。

多智能體系統被廣泛應用於各種不同的科學領域:從物理學到機器人學、博弈論、金融學和分子生物學等等。通常來說,預測或決策任務依賴於具有噪聲且無規則採樣的的觀測,因此封閉形式的分析公式對此是無效的。

這類系統對關係歸納偏差提供了生動形象的樣例。在樣本統計或機器學習過程中引入歸納誤差,是一種普遍用於提高樣本有效性和泛化性的方式。從目標函數的選擇到適合某項具體問題的自組織深度學習的框架設計,設定偏差也是非常常見且有效的方式。

關係歸納偏差[1]代表一類特殊的偏差,涉及實體之間的關係。無論是圖形模型、概率模型還是其他模型,都是一類專門對實體施加先驗結構形式的關係偏差的傳統模型。這些圖形結構能夠在不同領域中發揮作用,它可以通過引入條件獨立性假設來降低計算複雜度,也可以通過將先驗知識編碼為圖的形式來增強樣本的有效性。

圖神經網絡(GNN)是圖模型對應的深度學習網絡。GNN 通常會在這兩種情況中使用:一是當目標問題結構可以編碼為圖的形式;二是輸入實體間關係的先驗知識本身可以被描述為一張圖。

GNN 在許多應用領域都展示了顯著的效果,例如:節點分類[2]、圖分類、預測[3][4]以及生成任務[5]

一、深度學習中的常微分方程

一種類型不同但重要性相等的歸納偏差與收集到數據所使用系統的類別相關。儘管從傳統上看,深度學習一直由離散模型主導,但在最近的研究提出了一種將神經網絡視為具有連續層的模型[6]的處理方法。

這一觀點將前向傳播過程,重定義為常微分方程(ODE)中初值求解的問題。在這個假設下,可以直接對常微分方程進行建模,並可以提高神經網絡在涉及連續時間序列任務上的性能。

《Graph Neural Ordinary Differential Equations》這項工作旨在縮小几何深度學習和連續模型之間的差距。圖神經常微分方程(Graph Neural Ordinary Differential Equations ,GDE)將圖結構數據上的一般性任務映射到一個系統理論框架中。我們將常見的圖結構數據放入系統理論框架中,比如將數據結構化到系統中:

無論 GDE 模型的結構是固定還是隨時間變化的,它都可以通過為模型配備連續的 GNN 圖層來對定義在圖上的向量場建模。

GDE 模型由於結構由連續的 GNN 層定義,具備良好的靈活性,可以適應不規則序列樣本數據。

GDE 模型的主要目的是,提供一種數據驅動的方法為結構化系統建模,特別是當這個動態過程是非線性時,更是難以用經典的分析方法進行建模。

下面是對GDE的介紹。關於更多細節和推導,請參閱原論文,論文相關連結如下:

目前我們正在開發一個用於介紹GDE模型的 Github Repository(倉庫),其中包含使用 Jupyter notebook 且帶有注釋的相關示例,Github 相關地址如下:

據悉,我們正計劃將它最終部署成具有不同功能的設置(包括預測、控制…),其中包括所有主要圖形神經網絡(GNN)架構下不同 GDE 變體的工作示例。

二、序言和背景

GDE 和 GNN 一樣,都是在圖上進行操作。關於符號和基本定義更詳細的介紹,我們參閱了關於 GNN 的優秀的相關綜合研究(相關研究連結為:https://arxiv.org/abs/1901.00596)以及原論文中的背景部分。

下面,我們將對 GDE 進行簡要的介紹,不夠實際上,只有下面兩點關於圖的基本知識是我們即將需要了解到的:

三、圖神經常微分方程

圖神經常微分方程(GDE)定義如下:

GDE的一般公式

其中,H是節點特徵矩陣。上式中定義了函數 F 參數化的 H 的向量場,其中函數 F 可以是任意已知的圖神經網絡(GNN)層。

換句話說,F 利用圖 G 節點的連接信息及其節點特徵來描述 H 在 S 中的變化過程。其中,S 是模型的深度域;不同於 GNN 由自然數的子集來指定的深度域,S 是連續的,它表示由函數 F 定義的常微分方程的積分域。

GDE 可以通過多種方式進行訓練,這一點很像標準的神經常微分方程[6]。原論文中也對系統的適定性進行了詳細闡釋和討論。

一般的 GDE 公式帶有幾種含義。在一般神經常微分方程中,觀察到選擇離散化方案可以對 ResNets(殘差網絡)已知的先前離散多步驟變量進行描述[7]。因此,深度學習中連續動態系統的觀點不僅局限於微分方程的建模,而且可以利用豐富的數值方法相關文獻來指導發現新的通用模型。

與 ResNets 相比,GNN 作為一個模型類別來說算是相對年輕的。因此,關於多步驟的複雜變體以及類似分形殘差連接的相關文獻發展得並沒有那麼完善;而我們可以發現一些新的 GNN 變體是通過應用GDE的各種離散化方案來指導的,而不是完全從頭開始。

靜態圖結果:節點分類

通過在 Cora、Pubmed 和 Citeseer 上進行一系列半監督節點分類實驗,證明 GDE 可以作為高性能的通用模型。這些數據集包含靜態圖,其中鄰接矩陣 A 保持不變,從而使其遠離運用GDE的動態系統設置。我們評估圖卷積常微分方程(GCDE)的性能,定義為:

GCDE模型。在我們的論文中包含了一個更加詳細的版本,以及一些GNN流行的GDE變體版本。

它們的完全離散的形式對應圖卷積網絡(GCN)[8]。我們參考了包括著名的圖注意力網絡(GAT)[9]在內的文獻作為參考:

節點分類任務的準確性。上表取值為100次運行的平均值和標準偏差。

GCDE 被證明可以媲美最先進的模型,並且優於它們的離散模型。我們評估了如下兩種 GCDE的版本:

固定步長的離散方案並不能保證 ODE 近似仍然接近解析解;在這種情況下,求解一個適當的 ODE 是不必要的,GCDE—rk4能夠提供一個計算效率高的類子結構的FractalNet(比如GCN模型的結構)來提高準確率。         

如圖為Cora的訓練損失和準確率,其中陰影區域是95%置信區間

另一方面,使用自適應步長解算器訓練 GCDE 自然會比使用 vanilla GCN 模型的深度更深,後者網絡層的深度使該網絡性能大大降低。

實驗中我們成功地訓練了GCDE-dpr5,它有多達200個ODE函數評估(NFE),這使得它對圖中的計算量明顯高於vanilla GCN(由於層數太深使得性能大幅度降低)。應該注意的是,由於GDE在求解函數中會對參數重利用,它比對應的離散項需要更少的參數。

有趣的是,自適應步長GDE似乎不受節點特徵過度平滑的影響。過度平滑問題[10]阻礙了深層GNN在各個領域的有效使用,特別是在多智能體強化學習(MARL)中,我們目前正在積極探索GDE這一特性,並能夠很快進行更為詳細的分析。

四、時空 GDE

GDE 中一項關鍵的設定涉及到時空圖數據信息。在處理圖的序列信息時,需要用到 GNN 的遞歸版本 [11][12]
然而, 與常規的遞歸神經網絡(RNN)及其變體一樣,在固定的離散度的情況下不允許其對不規則的樣本數據進行操作。這一事實進一步推動了基於到達次數之間的變動的先驗假設下 RNN 形式的發展,比如 RNN 的 ODE 版本 [14] 。

在涉及時間分量的場景中,GDE 中 S 的深度域與時間域一致,並且可以根據需求進行調整。例如,給定時間窗口 Δt,使用 GDE 進行預測的公式形式如下:

儘管擁有特殊的結構,GDE 代表了一類圖序列的自回歸模型,以混合動態系統的形式自然地通往擴展的經典時空結構,比如:以時間連續和時間離散的動力學相互作用為特徵的系統。

它的核心思想是,讓一個 GDE 在兩種時間點之間平滑地控制潛在的節點特徵,然後應用一些離散算子,讓節點特徵 H 快速移動,接著由輸出層來處理這些節點特徵 H 。

給定一系列的時間常數以及一種數據的狀態——圖數據信息流,自回歸 GDE 的一般公式為:

如圖為自回歸GDE。擁有已知連續變量的時空GNN模型可以通過從這個系統中通過選擇合適的F,G,K參數來獲得。

其中,參數 F,G,K 是類似於 GNN 的操作或者一般的神經網絡層,H+表示經過離散變換後的 H 值。該系統的轉變過程可以通過混合自動機進行可視化處理:

自回歸 GDE的混合自動機原理圖

與只具有離散跳躍的標準遞歸模型相比,自回歸 GDE 在跳躍間包含了一個潛在特徵節點的連續流 H。自回歸 GDE 的這一特性使它們能夠從不規則的觀測結果中來跟蹤動態系統。

F,G,K 的不同組合可以產生最常見的時空 GNN 模型的連續變量。

為了評估自回歸 GDE 模型對預測任務的有效性,我們在建立的 PeMS 流量數據集上進行了一系列實驗。我們遵循文獻[15]的實驗預設參數,並且附加了一個預處理步驟:對時間序列進行欠採樣,為了模擬在具有不規則時間戳或有缺失值等具有挑戰性的環境,這裡將每個輸入以 0.7 的概率進行刪除。

為了在由連續時間系統生成的數據設置中測量 GDE 獲得的性能提升,我們使用 GCDE-GRU 及其對應的離散 GCGRU[12],並將結果置於 vanilla GRU 度量標準中進行測量。

對於所考慮的每個模型,我們收集了標準化 RMSE(NRMSE)和平均絕對百分比誤差(MAPE)結果。關於所選指標和數據的更多細節請參見原論文。

由於在訓練和測試過程中平均的預測時間範圍會發生急劇變化,這種時間戳之間的非恆定差異導致單個模型的預測任務更加具有挑戰性。為更加公平的對模型進行比較,我們將增量時間戳信息作為 GCGN 和 GRU 的附加節點特徵。

不規則數據預測任務的結果。此處取5次訓練的平均值和標準差。

由於 GCDE-GRU 和 GCGRU 的設計在結構和參數數量上是匹配的,我們可以在 NRSME 中測量到 3% 的性能增長,在MAPE中測量到7%的性能增長。

對具有連續動態和不規則數據集的其他應用領域採用 GDE 作為建模工具,也將同樣使其擁有優勢,例如在醫學、金融或分布式控制系統等領域。我們正在這些領域進行另外的一些相關實驗,歡迎提出任何要求、想法或合作意見。

六、結論

如上所述,我們目前正在開發一個Github庫,其中包含一系列針對 GDE 模型不同類型的示例和應用程式。

我們鼓勵大家對GDE的其他應用程式在Github中進行請求/建議操作:我們計劃它最終可以包括所有主流圖神經網絡(GNN)架構的GDE變體的相關工作示例,部署在各種設置(預測、控制…)之中。

我們的論文可以在arXiv上作為預印本:如果您覺得我們的工作有用,請考慮引用我們的論文。

文中相關參考文獻,可閱讀原文: 

https://towardsdatascience.com/graph-neural-ordinary-differential-equations-a5e44ac2b6ec

雷鋒網(公眾號:雷鋒網) AI 科技評論編譯雷鋒網雷鋒網

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 「神經常微分方程」提出者之一:如何利用深度微分方程模型處理連續...
    2020 WAIC·開發者日將於7月10日-11日線上舉辦。多倫多大學助理教授、向量學院聯合創始人、NeruIPS 2018 最佳論文獎得主,將帶著對微分方程和連續時間的最新思考出現在 WAIC 開發者日。
  • 偏微分方程(組)的數值解法介紹
    一些典型物理方程的構建及解析解法,有興趣的用戶可參考顧樵編著的《數學物理方法》。涉及到多變量或多領域的偏微分方程就存在著變量的耦合,很難用數解析解法或無法用解析解法求得耦合偏微分方程解,此時就需要我們是用數值解法進行求解,本文的主題就放在耦合的偏微分方程組的數值解法介紹上。
  • 天生一對,硬核微分方程與深度學習的「聯姻」之路
    微分方程真的能結合深度神經網絡?真的能用來理解深度神經網絡、推導神經網絡架構、構建深度生成模型?我們將從鄂維南、董彬和陳天琦等研究者的工作中,窺探微分方程與深度學習聯袂前行的路徑。在 17 年的《Communications in Mathematics and Statistics》中,鄂維南發表了一篇文章,他討論了使用連續動力學系統建模高維非線性函數的想法,即微分方程與深度學習之間的關係。
  • 最新研究:新的深度學習技術破解偏微分方程的數學難題
    通過解此偏微分方程,可以得知任何時間點的流體運動,並模擬將如何繼續運動或之前是如何運動的。但這些計算非常複雜且計算量很大,所以常常依賴超級計算機來進行數學運算。這就是人工智慧領域可以發揮作用的地方。通過使用深度學習來加快解決的速度,將對科學探索和工程應用產生很大的好處。
  • 科學網—隨機微分方程近似解的弱連續迭代
    《計算與應用數學雜誌》2008年214卷1期 隨機微分方程近似解的弱連續迭代
  • 隨機微分方程近似解弱連續迭代
    在金融數學和最優控制理論等實際應用中,經常涉及數值求解隨機微分方程(SDEs)問題,目前關於SDEs的數值求解算法正在進一步的研究中。針對該類數值問題,具有廣闊前景的連續型數值算法是目前研究的熱點。該類算法可用於如極小步長情形下某時間點上近似值的求解以及實際問題近似解的圖形化輸出等情形。 由於伊藤(Itô)積分有別於以往情形下的積分,累積求和時的積分點只能取自積分區間的左端點,從而隨機微分方程的數值算法不同於常微分方程(ODEs)。通過改進ODEs的數值求解算法,如龍格-庫塔法(RK)等,以期得到隨機微分方程的數值算法,如隨機龍格-庫塔法(SRK)等。
  • 微分方程有限元解法——有限差分法&加權殘值法
    有限——我們可以理解為連續(無限)的求解域,通過離散化變為由有限個網格節點構成的求解域。下圖形象的將r和y構成的連續域離散為由網格節點構成的有限域。有限差分法求解偏微分方程的基本過程是:1)劃分網格。將連續的求解域劃分為有限的差分網格,將求解的變量存放在網格的各個節點上。2)差分構建。
  • 應用隨機過程|第7章 隨機微分方程
    目錄 目錄7.1 H 空間和均方收斂7.2 均方分析7.3 Itô 隨機積分7.4 Itô 過程與 Itô 公式7.5 Itô 隨機微分方程常係數的線性隨機微分方程簡單的線性齊次隨機微分方程一般的線性非齊次隨機微分方程
  • (數一)二階常係數線性微分方程
    我想花兩次或者三次把這一題型講完,一下子灌輸接受不了且效果不好,況且我這書上做了很多筆記,萬一哪天這本專接本書丟了豈不是很可惜,廢話少說,直接上題。正文:什麼是二階常係數線性微分方程?二階常係數線性微分方程是形如y''+py'+qy=f(x)的微分方程,其中p,q是實常數。自由項f(x)為定義在區間I上的連續函數,即y''+py'+qy=0時,稱為二階常係數齊次線性微分方程。若函數y1和y2之比為常數,稱y1和y2是線性相關的;若函數y1和y2之比不為常數,稱y1和y2是線性無關的。
  • 常微分方程中的重要方程:黎卡提方程(一階二次非線性微分方程)
    前面我們了解了什麼是一階線性微分方程,可分離變量微分方程,以及齊次微分方程,本篇講升上一個高度,一階微分方程中的二次微分方程義大利數學家在17世紀提出了著名的「黎卡提方程」,這個方程看上去挺簡單的,但分析起來相當複雜
  • 高數複習重點解析之——微分方程與無窮級數
    針對考生需求,教研老師精心準備了2014年暑期考研數學複習重點解析,以下是高數微分方程與無窮級數部分,供參考。 一、微分方程 微分方程可視為一元函數微積分學的應用與推廣。該部分在考試中以大題與小題的形式交替出現,平均每年所佔分值在8分左右。常考的題型包括各種類型微分方程的求解,線性微分方程解的性質,綜合應用。
  • 一文解構神經常微分方程
    它描述了某個變量(這就是為什麼是常微分)在某個過程中的變化,這種隨時間的變化用導數來表示為:簡單的常微分方程例子如果存在一些初始條件(變化過程的起始點),並且想要觀察該過程將如何發展到某個最終狀態的話,我們可以探討此微分方程的求解。函數解也稱為積分曲線(因為可以對方程進行積分得到解x(t))。
  • 求解微分方程
    微分方程。微分方程中出現的未知函數的最高階導數的階數稱為微分方程的階。按照不同的分類標準,微分方程可以分為線性或非線性,齊次或非齊次。一般地,微分方程的不含有任意常數的解稱為微分方程的特解,含有相互獨立的任意常數,且任意常數的個數與微分方程階數相等的解稱為微分方程的通解(一般解)。下面介紹微分方程的求解方法。
  • 計算機視覺與模式識別論文摘要:神經常規微分方程、推理視覺問答
    神經常規微分方程論文一:標題:Neural Ordinary Differential Equations,神經常規微分方程神經常規微分方程論文摘要:介紹了一種新的深度神經網絡模型。我們使用神經網絡參數化隱藏狀態的導數,而不是一個具體指定的離散隱藏層的序列。
  • 微分萬物:深度學習的啟示
    微分編程通過學習一般的電腦程式,可以更加充分地利用問題相關的特定領域的先驗知識,同時還能保證模型的可解釋性。另一方面,越來越多其他領域的科學家們也認識到微分編程的價值,認為它是聯繫深度學習與科學計算的一條紐帶。讓我們通過幾個例子來直觀地認識微分編程。圖1(a)定義了這樣一個問題:如何設計合適的外勢場,使得其中的自由電子的基態密度分布達到期望的形式。
  • 硬核NeruIPS 2018最佳論文,一個神經了的常微分方程
    他們提出了一種名為神經常微分方程的模型,這是新一類的深度神經網絡。神經常微分方程不拘於對已有架構的修修補補,它完全從另外一個角度考慮如何以連續的方式藉助神經網絡對數據建模。在陳天琦的講解下,機器之心將向各位讀者介紹這一令人興奮的神經網絡新家族。
  • 偏微分方程的數值解之偏微分方程的定解問題
    這些規律的定量表述一般地呈現為關於含有未知函數及其導數的方程。我們將只含有未知多元函數及其偏導數的方程,稱之為偏微分方程。方程中出現的未知函數偏導數的最高階數稱為偏微分方程的階。如果方程中對於未知函數和它的所有偏導數都是線性的,這樣的方程稱為線性偏微分方程,否則稱它為非線性偏微分方程。
  • 常微分方程:線性微分方程解的三個重要特徵
    前一篇《帶你走進微積分的堂學習:一階線性微分方程式的基礎原理》詳細討論了線性微分方程的結構以及通解特性,本篇我們藉此機會指出一階線性微分方程解的三個重要特徵1)有一階線性微分方程>的通解是可以看出,它等於(1)的一個特解(對應於上式的C=0)再加相應的齊次線性(2)的通解,因此如果求得非齊次線性微分方程(1)的一個特解為y=φ1(x)和相應的齊次線性方程(2)的通解,則(1)的通解為2)設a(x)和b(x)在區間α<x<β上連續,則由上述通解公式可知
  • 微分方程重點一:常係數齊次線性微分方程
    上一篇文章講到了那化腐朽為神奇的常數變易法。小編也說過,在考試中,那一節不是重點。微分方程前面的都是一些基礎,如果是一些和其他題型結合在一起的題目的話,可能會考前面的微分方程內容,比如說求知道函數的全微分,讓求原函數這類的。
  • 001一階微分方程
    定義 含有未知函數的導數階數為一的方程即為一階微分方程(1)變量可分離的微分方程若由)  (5)全微分方程若由 上連續 故所以 故該方程為全微分方程