神經受控微分方程:非規則時間序列預測新SOTA

2020-12-11 機器之心Pro

機器之心報導

參與:Racoon、魔王、小舟

使用神經微分方程對時間序列的動態進行建模是一個很有潛力的選擇,然而目前方法的性能往往受限於對初始條件的選擇。這項新研究提出了改進策略,實現了新的 SOTA 性能。

神經常微分方程是對時序動態建模的不錯選擇。但是,它存在一個基本問題:常微分方程的解是由其初始條件決定的,缺乏根據後續觀察調整軌跡的機制。

那麼如何解決這一問題呢?來自牛津大學、阿蘭圖靈研究所和大英圖書館的一項研究展示了,如何通過受控微分方程的數學知識解決該問題。

該研究提出的神經受控微分方程(neural controlled differential equation)模型可直接用於部分觀測的不規則採樣多變量時間序列的通用設置,(與之前的解決方案不同,)它甚至可以在跨觀測的情況下利用節約內存的共軛反向傳播(adjoint-based backpropagation)。

該研究在多個數據集上進行了實驗,發現該模型超過類似的(基於 ODE 或者 RNN)模型,實現了 SOTA 性能。最後,該研究還提供了理論結果,證明該模型是通用逼近器,且該模型包含了替代性的 ODE 模型。

論文連結:https://arxiv.org/abs/2005.08926代碼連結:https://github.com/patrick-kidger/NeuralCDE引言

循環神經網絡(RNN)是處理序列數據(如時序數據)時常用的模型選擇。通常將數據本身假定為來自潛在過程的觀測序列,RNN 可以被解釋為對該過程某些功能的離散近似。然而當數據是不規則採樣或者不是完全可觀測時,這種離散化方法通常會失效,該問題經常通過丟棄或填充數據來掩飾。一種更佳的方法是意識到,用於對潛在過程建模的模型,應該和該過程一樣在時間上是連續的。

因此,針對以上問題,神經微分方程不失為一個較好的選擇。然而目前方法的性能往往受限於對初始條件的選擇,不能較好地捕捉時變的新數據。這項研究提出一種神經受控微分方程來解決這一問題。

方法

假設有一個完全可觀測但很可能是不規則採樣的時間序列:

其中每一個觀測值 x_i 都具有對應的時間戳 t_i,且

定義為在

有對應 knot 的神經三次樣條(natural cubic spline),於是我們可將其表示為:

x 常被假設為對一個過程的離散樣本,X 可看作為對該過程的近似表示。神經三次樣條處理這類任務有其自身獨特的潛力。

定義為任意以θ為參數的神經網絡模型。w 的值用於描述隱藏狀態的大小。

同樣,將

定義為任意以θ為參數的神經網絡模型。

於是,可將神經受控微分方程定義為 CDE 的解:

其中

使用該初始條件是為了避免平移不變性(translational invariance)。類似於 RNN,該模型的輸出可能是變化過程的狀態 z,也可能是最後一個狀態 z_{tn},最終預測值為對該模型輸出的線性映射。下圖比較了之前神經微分方程的研究與本文所提方法的不同。

不規則時間序列採樣預測示意圖,其中左圖為之前的研究,右圖為本文提出的方法。

實驗結果

研究者將該研究提出的方法與 GRU-t、GRU-D、GRU-ODE、ODE-RNN 等現有模型,在多個數據集上進行了基準對比。

CharacterTrajectories 數據集上不同數量的缺失數據

首先,該研究展示了在不規則採樣時間序列上神經 CDE 的效果。

研究者首先在 CharacterTrajectories 數據集上進行實驗。該數據集包含 2858 個長度為 182 的時間序列,包括筆尖 x, y 的位置以及下筆時所用的力量。

實驗結果見表 1。

表 1:不同方法在 CharacterTrajectories 數據集上的測試準確率和內存使用情況。

PhysioNet 敗血症預測的觀測強度

接下來,研究者考慮一個既不規則採樣又不完全觀測的數據集,並研究觀測強度的益處。

該研究使用來自 PhysioNet2019 敗血症預測挑戰賽的數據。這是一個含有長度不一的 40335 個時間序列的數據集,描述了病人在 ICU 內的狀態。

大多數值是缺失的,只有 10.3% 的值被觀測。該研究考察了病人在 ICU 內前 72 小時的狀態,預測他們在整個住院期間(有些患者長達一個月)是否會發生敗血症。

實驗結果如表 2 所示。由於數據集高度不平衡,該研究使用了 AUC 作為度量指標,而不是準確率。

表 2:在 PhysioNet 敗血症預測數據集上的測試 AUC 和內存使用情況。

Speech Commands 數據集中的規則時間序列

最後,該研究展示了神經 CDE 模型在規則、完全觀測的時間序列上的效果。

該研究使用 Speech Commands 數據集,實驗結果如表 3 所示。

表 3:不同模型在 Speech Commands 數據集上的測試準確率和內存使用情況。

相關焦點

  • AI攻破高數核心,1秒內精確求解微分方程、不定積分
    每求出一個新函數的積分,就把它加入訓練集。如果fG和Fg都不在訓練集裡,就重新生成一對F和G。如此一來,不藉助外部的積分工具,也能輕鬆得到x10sin(x)這樣的函數了。一階常微分方程,和它的解從一個二元函數F(x,y)說起。有個方程F(x,y)=c,可對y求解得到y=f(x,c)。
  • 微分方程重點一:常係數齊次線性微分方程
    微分方程前面的都是一些基礎,如果是一些和其他題型結合在一起的題目的話,可能會考前面的微分方程內容,比如說求知道函數的全微分,讓求原函數這類的。但是如果微分方程考大題的話,就是考二階常係數非齊次線性微分方程了。之前講的微分方程解的結構是基礎,主要是為了說明做題時我們需要求什麼。
  • 常微分方程:線性微分方程解的三個重要特徵
    前一篇《帶你走進微積分的堂學習:一階線性微分方程式的基礎原理》詳細討論了線性微分方程的結構以及通解特性,本篇我們藉此機會指出一階線性微分方程解的三個重要特徵1)有一階線性微分方程,線性微分方程(1)的一切解在α<x<β上存在,面對非線性微分方程,一般就沒有這種解的全局存在性,例如非線性微分方程關於x的定義域為-∞<x<+∞,而它的解,例如y=tanx的存在區間只是-π/2<x<π/2,這就表明,非線性微分方程解的存在區間一般是局部的,而不像線性微分方程的解那樣是全局的。
  • 今日Paper|隨機微分方程;流式自動語音識別;圖像分類等
    /Duvenaud David發表時間:2020/1/5論文連結:https://paper.yanxishe.com/review/8518?from=leiphonecolumn_papereview0110推薦理由:伴隨靈敏度方法可縮放地計算常微分方程解的梯度。
  • 了解高階線性微分方程——初識二階線性微分方程
    小編照舊當大家都做了哦 ,現在微分方程篇已經算是複習了一半了,也不知道大家複習得怎麼樣,不過每天有進步終究還是好的。對於不想荒廢大學四年的同學,小編建議每天還是應該做一些學的課程裡面的題目,每天都有那份感覺在那裡,最終要用到的時候起碼不會生疏。下面小編開始對答案了。
  • 用深度神經網絡求解『薛丁格方程』,AI開啟量子化學新未來
    最近,來自柏林自由大學(Freie Universität Berlin) 的科學團隊取得了突破性進展,他們發表的一篇名為《利用深度神經網絡解電子薛丁格方程》的論文,登上了《Nature Chemistry》子刊。
  • 用深度神經網絡求解『薛丁格方程』,AI開啟量子化學新未來|Nature...
    該研究團隊的負責人弗蘭克·諾(FrankNoé)教授自信地表示:「相信我們提出的神經網絡計算方法可以極大地影響量子化學的未來。」他們將這種神經網絡命名為—PauliNet.在介紹它之前,我們先來簡單了解下薛丁格方程。什麼是薛丁格方程?
  • 考研數學:線性方程組與線性微分方程的通解對比
    線性方程組是線性代數中的一個重要知識點,而線性微分方程是高等數學中微分方程部分的一個重要知識點,二者雖然分別屬於不同的數學課程內容,但其通解形式卻有著驚人的相似之處,有些同學在學習中感覺到了二者有相似之處,但並不十分清楚其相似在何處和怎麼相似,以及線性微分方程的通解是否包含其全部解,對此的蔡老師就這些問題做些歸納總結,供複習2018考研數學的同學和學習高等數學及線性代數的同學參考
  • 2017考研數學:n階線性微分方程的通解公式分析
    微分方程是高等數學中的一個重要章節,在實際中也有廣泛的應用,對於考研數學來講更是每年必考。關於線性微分方程的通解公式,在一般高等數學教材中只是簡單地做了些介紹,並沒有進行詳細的分析證明,因此有很多同學對其感到有些困惑,對其含義和作用也不能很好理解,為了幫助2017考研學子消除這些困惑,本文對n階線性微分方程的通解公式做些分析和證明,供同學參考。
  • 第十一屆全國微分方程穩定性理論與應用學術會議召開
    第十一屆全國微分方程穩定性理論與應用學術會議召開 中國教育在線    2017-08-25  大 中 小   中國教育在線訊 8月18日至21日,第十一屆全國微分方程穩定性理論與應用學術會議在濰坊召開。
  • 分析學的5大「步」:微積分到函數論、泛函分析、微分方程
    泛函分析:n維空間到無窮維空間的幾何學和微積分學微分方程伴隨著微積分的發展,以及客觀物質世界中關於物質運動規律的描述,都促進了常微分方程、偏微分方程的發展。而隨著物理科學、工程技術所研究領域的廣度和深度的擴展,微分方程的應用範圍也越來越廣泛。反過來,從數學自身的角度看,偏微分方程的求解促使函數論、變分法、級數展開、常微分方程、代數、微分幾何等各方面的發展。從這個角度說,偏微分方程變成了數學的中心。
  • 乾貨|時間序列預測類問題下的建模方案探索實踐
    時間序列預測類問題在金融領域比較常見,例如股票價格的預測,網點現金流量的預測等等,在氣象、人口密度預測等領域也有很廣泛的應用。傳統的時間序列預測模型通常是統計學模型,比如經典的ARMA系列,它們建立在統計學基礎上,需要滿足一些基本假設(例如平穩性假設等),因此適用場景比較少,在現實中比較容易受限。
  • 氣象預測:從物理過程到深度學習
    一個基本的問題在於支配大氣的偏微分方程的混沌性質,不可能精確地求解這些方程,並且小誤差會隨著時間而增長(大約每五天增加一倍)。即使輸入數據準確且模型無誤,這種混沌性質也會將準確的預測限制在14天左右。一種思路是使用神經網絡來對複雜的物理方程進行擬合學習,這樣不僅可以使用離散的方式對連續物理過程仿真預測,而且可以對現有數值方式進行加速。
  • 「每周一識」一階非齊次線性微分方程求解及應用舉例
    本文介紹一階非齊次線性微分方程的通解的應用、特解求解舉例,以及二階微分方程可用該通解求解的情形。一、方程通解公式一階非齊次線性微分方程的解析式為:y'+p(x)=q(x),則其通解表達式如下:y=e^[-∫p(x)]dx{∫q(x)*e^[∫p(x)dx]dx+c}.
  • 求微分方程y''+y=(sin3x+cos3x)e^2x通解的方法
    本文主要內容,介紹求微分方程y''+y=(sin3x+cos3x)e^2x通解的方法。解:微分方程的特徵方程為:r2+1=0,r1,2=±i,即該方程的齊次微分方程的通解為:y*=c1sinx+c2cosx;
  • 微分方程y〞+y=(sin2x+cos2x)e^2x怎麼解?
    微分方程的特徵方程為:r2+1=0,r1,2=±i,即該方程的齊次微分方程的通解為:y*=c1sinx+c2cosx>又因為λ+iw=2+2i,不是特徵方程的根,則設特解為:y1=(msin2x+ncos2x)e^2x;兩次求導得:y1'=(2mcos2x-2nsin2x)e^2x+2(msin2x+ncos2x)e^2x;
  • 機器學習中的時間序列預測概述
    在正常的機器學習問題中,我們通過觀察值來進行預測,預測往往與時間因素無關。在某些情況下,機器學習也可以預測未來的結果,但這將同等對待所有過去的觀察結果。然而,時間序列數據集是完全不同的。時間序列任務增加了一個「時間維度」,並且在觀察之間也有一個明確的依賴順序。簡單地說:時間序列是按時間順序進行的一系列觀察。時間序列數據的組成部分平均水平(level):序列的基線值。
  • 電腦程式可以精準預測天氣嗎?
    首先要解釋--下什麼是數值天氣預報,也就是你提到的利用超級計算機進行的氣象預測。人類在歷史上因為飽受氣象災害困擾,很早就開始觀察和監視天氣形勢並嘗試對未來天氣進行預測。科學家們很早就從理論上總結出了描述大氣環流運動的納維一斯託克斯方程。
  • 「創作開運禮」求微分方程y''+2y'+3y=0在定點處的特解
    本文介紹微分方程y''+2y'+3y=0在y(0)=1,y'(0)=5處的特解.具體步驟如下:二階微分方程y''+2y'+3y=0,其特徵方程為:r^2+2r+3=0r^2+2r+1=-2(r+1)^2=-2
  • 關於「時間序列回歸」,這些你必須知道的事!
    作者 | 時序人 責編 | 張文 頭圖 | CSDN 下載自東方 IC 上篇我們講了時間序列預測,其中提到了時序預測模型與回歸預測模型的不同