機器之心報導
參與:Racoon、魔王、小舟
使用神經微分方程對時間序列的動態進行建模是一個很有潛力的選擇,然而目前方法的性能往往受限於對初始條件的選擇。這項新研究提出了改進策略,實現了新的 SOTA 性能。
神經常微分方程是對時序動態建模的不錯選擇。但是,它存在一個基本問題:常微分方程的解是由其初始條件決定的,缺乏根據後續觀察調整軌跡的機制。
那麼如何解決這一問題呢?來自牛津大學、阿蘭圖靈研究所和大英圖書館的一項研究展示了,如何通過受控微分方程的數學知識解決該問題。
該研究提出的神經受控微分方程(neural controlled differential equation)模型可直接用於部分觀測的不規則採樣多變量時間序列的通用設置,(與之前的解決方案不同,)它甚至可以在跨觀測的情況下利用節約內存的共軛反向傳播(adjoint-based backpropagation)。
該研究在多個數據集上進行了實驗,發現該模型超過類似的(基於 ODE 或者 RNN)模型,實現了 SOTA 性能。最後,該研究還提供了理論結果,證明該模型是通用逼近器,且該模型包含了替代性的 ODE 模型。
論文連結:https://arxiv.org/abs/2005.08926代碼連結:https://github.com/patrick-kidger/NeuralCDE引言
循環神經網絡(RNN)是處理序列數據(如時序數據)時常用的模型選擇。通常將數據本身假定為來自潛在過程的觀測序列,RNN 可以被解釋為對該過程某些功能的離散近似。然而當數據是不規則採樣或者不是完全可觀測時,這種離散化方法通常會失效,該問題經常通過丟棄或填充數據來掩飾。一種更佳的方法是意識到,用於對潛在過程建模的模型,應該和該過程一樣在時間上是連續的。
因此,針對以上問題,神經微分方程不失為一個較好的選擇。然而目前方法的性能往往受限於對初始條件的選擇,不能較好地捕捉時變的新數據。這項研究提出一種神經受控微分方程來解決這一問題。
方法
假設有一個完全可觀測但很可能是不規則採樣的時間序列:
其中每一個觀測值 x_i 都具有對應的時間戳 t_i,且
。
將
定義為在
有對應 knot 的神經三次樣條(natural cubic spline),於是我們可將其表示為:
x 常被假設為對一個過程的離散樣本,X 可看作為對該過程的近似表示。神經三次樣條處理這類任務有其自身獨特的潛力。
將
定義為任意以θ為參數的神經網絡模型。w 的值用於描述隱藏狀態的大小。
同樣,將
定義為任意以θ為參數的神經網絡模型。
於是,可將神經受控微分方程定義為 CDE 的解:
其中
使用該初始條件是為了避免平移不變性(translational invariance)。類似於 RNN,該模型的輸出可能是變化過程的狀態 z,也可能是最後一個狀態 z_{tn},最終預測值為對該模型輸出的線性映射。下圖比較了之前神經微分方程的研究與本文所提方法的不同。
不規則時間序列採樣預測示意圖,其中左圖為之前的研究,右圖為本文提出的方法。
實驗結果
研究者將該研究提出的方法與 GRU-t、GRU-D、GRU-ODE、ODE-RNN 等現有模型,在多個數據集上進行了基準對比。
CharacterTrajectories 數據集上不同數量的缺失數據
首先,該研究展示了在不規則採樣時間序列上神經 CDE 的效果。
研究者首先在 CharacterTrajectories 數據集上進行實驗。該數據集包含 2858 個長度為 182 的時間序列,包括筆尖 x, y 的位置以及下筆時所用的力量。
實驗結果見表 1。
表 1:不同方法在 CharacterTrajectories 數據集上的測試準確率和內存使用情況。
PhysioNet 敗血症預測的觀測強度
接下來,研究者考慮一個既不規則採樣又不完全觀測的數據集,並研究觀測強度的益處。
該研究使用來自 PhysioNet2019 敗血症預測挑戰賽的數據。這是一個含有長度不一的 40335 個時間序列的數據集,描述了病人在 ICU 內的狀態。
大多數值是缺失的,只有 10.3% 的值被觀測。該研究考察了病人在 ICU 內前 72 小時的狀態,預測他們在整個住院期間(有些患者長達一個月)是否會發生敗血症。
實驗結果如表 2 所示。由於數據集高度不平衡,該研究使用了 AUC 作為度量指標,而不是準確率。
表 2:在 PhysioNet 敗血症預測數據集上的測試 AUC 和內存使用情況。
Speech Commands 數據集中的規則時間序列
最後,該研究展示了神經 CDE 模型在規則、完全觀測的時間序列上的效果。
該研究使用 Speech Commands 數據集,實驗結果如表 3 所示。
表 3:不同模型在 Speech Commands 數據集上的測試準確率和內存使用情況。