AAAI 2020 | 時序轉化為圖用於可解釋可推理的異常檢測

2021-02-22 時序人
時間序列表示學習旨在學習一個將原始時間序列自動轉換為向量表示的函數,是時間序列領域研究的基本問題。近年來,將時序進行分段並學習特徵表示是熱門的研究方向,比如 Shapelet (具有特徵信息的一種或幾種時序波形)。然而,時序所反饋的是不斷變化的動態信息,這種動態信息應該如何進行直觀的表示,用於有高可解釋需求的異常檢測任務中呢?時間序列異常檢測[2]在工業界是非常常見的任務,模型常常要求對所判斷出的異常給出合理的解釋,從而幫助人們做出相應的動作。近年來,可解釋的時序建模多著眼於離散時序,在時間軸上將時序分段,然後從分段中抓出可以用於判斷異常的表示,常見的方法有:

字典方法[3],找時序分段的特徵值

形狀方法[4],找時序分段的特殊波形


聚類方法[5],找時序分段的分類特徵

基於以上背景為出發,為了描述時間序列的動態信息,同時提供可解釋的模型表示用於異常檢測,該論文嘗試將Shapelet映射回時序中, 探尋位置的敏感度,並隨時間累積轉移關係,構建Graph進行表示,形成一種可推理可解釋的方法用於時序建模與異常分析。其研究成果被美國人工智慧頂級會議 AAAI-20 收錄發表。

美國人工智慧協會(American Association for Artificial Intelligence)是人工智慧領域的主要學術組織之一,成立於1979年。該協會主辦的年會(AAAI, The National Conference on Artificial Intelligence)是人工智慧領域頂級學術會議之一,被列為《中國計算機學會推薦國際學術會議和期刊目錄》(CCF) 中的A類學術會議,錄用率在20%左右。AAAI在全球有超過6000名會員,匯集了全球最頂尖的人工智慧領域專家學者。

圖 |  獲得圖靈獎的深度學習三巨頭齊聚AAAI 2020

論文標題 | Time2Graph: Revisiting Time Series Modeling with Dynamic Shapelets

論文來源 | AAAI 2020

論文連結 | https://arxiv.org/abs/1911.04143

代碼連結 | https://github.com/zjunet/Time2Graph

Shapelet[4],是時序形狀分析方法的典型代表,旨在找到特殊的特徵片段波形用於時序分類,具有良好的可解釋性。基於Shapelet的模型在各種研究中都被證明是有前景的[6,7,8]。

上圖展現的是一個Shapelet的例子。每一個Shapelet會在時序中找到最匹配的位置,以及匹配程度。現有的工作主要著眼於靜態的分析,但現實中常常可以觀察到,Shapelet通常是動態的,這體現在兩個方面:首先,出現在不同時間位置的同一個Shapelet可能會有不同的含義其次,Shapelet的動態轉變對於全面理解時間序列十分重要該論文的研究將能夠反映不同片段上的Shapelet稱為具有時間意識的Shapelet (Time-aware Shapelet)。此外,為了深入挖掘Shapelet的動態性和相關性,文章提出了一種新穎的方法,即提取Time-aware Shapelet並構建Shapelet演化圖來學習時間序列的表示,具體的可以參考發表在 AAAI 2020 的全文[1]。

上圖展示了一個關於用電時序的例子,用於展現Time2Graph方法的構圖動機:圖a展示的是竊電用戶在一年中的用電情況。該研究將時序按月進行分段,並給每個月學習分配了最有代表性的Shapelet。圖b展示了兩個特殊的Shapelet,72和67號,以及它們的時間位置注意力分數,其中深色區域表示的位置相對於淺色區域更重要。如圖c所示,Shapelet演變圖展示了時序的動態變化,即圖中的節點表示一個Shapelet而邊表示Shaplet之間的關係演化圖展現了在時序中Shaplet是如何從一個轉移到另一個的

這表明Shapelet轉移路徑可以為檢測時序異常提供參考信息。該論文將學習Shapelet和時間序列表示的問題轉化為圖嵌入(Graph Embedding)問題,並用圖算法進行解決。


一、Time-aware Shapelet

為了捕獲Shapelet 的動態性,文章定義了兩個因素來衡量Shapelet在不同時間位置上的時序影響。具體來說,文章定義一個局部因素 來表示特定Shapelet的第n個元素的內部重要性。Shapelet 與時序片段之間的距離可以被定義為

這裡  指的用DTW距離進行Shapelet與時序片段的匹配衡量。另一方面,在全局範圍內,文章旨在衡量跨片段的時間位置對Shapelet的判別力的影響。這裡該研究直接通過添加時序分段的權重,設定了一個全局因素  ,來測量此類偏差以捕獲跨時序片段影響。然後,Shapelet  與時序  之間的距離可以寫為給定一個分類任務,該研究建立了一套監督學習方法,以選擇最重要的具有時間意識的Shapelet,並學習每一個Shapelet對應的時間因素  和  。特別地,該研究用一組帶標籤的時間序列 ,從所有子序列中篩選可作為Shapelet的片段候選池。對於每個候選者  ,都有以下目標函數:在分別從Shapelet候選者那裡學習了時序因素之後,文章選擇損失最小的前K個Shapelet作為最終的具有時間意識的Shapelet
二、構建Shapelet演化圖

Shapelet 演化圖是有向加權圖  ,其中圖由K個頂點所組成,每個頂點表示一個Shapelet,每個有向邊  與其權重  ,表示在相同的時間序列中,Shapelet  跟著另一個Shapelet  的出現概率。這裡的關鍵思想是,圖中的路徑可以自然反映出Shapelet的演變及其轉移模式,然後可以將圖嵌入算法應用於Shapelet特徵的學習以及時間序列表示

該研究首先分配每個時序片段  到距離最近的幾個Shapelets。詳細地說,這裡將shapelet的賦值概率標準化為


這裡有

的預定義約束,  。然後,對於每個Shapelet組  ,該研究為 到創建加權邊,並通過權重  合併所有的重複邊。最後,將從每個節點獲得的邊權重歸一化為1,自然解釋為每對節點之間的邊緣權重。
三、時序表示學習

最後,文章對如上構造的Shapelet演化圖進行建模,並學習Shaplet和給定時間序列的表示。

首先採用現有的圖形嵌入算法DeepWalk[9]來獲得頂點(Shapelet)的表示向量,然後對於在時間序列中的每個片段,將其分配到不同的Shapelet及其權重,最後連接或聚合所有這些嵌入向量以獲得原始時間序列的表示向量。學習到的表示向量應用於各種下遊時序任務。
四、實驗結果文章對來自UCR-Archive [10]的三個公共數據集,和來自中國國家電網和中國電信的兩個真實世界數據集進行時間序列分類任務。實驗結果如下表所示:

文章還進行了廣泛的消融實驗和觀察研究,以驗證其提出的框架。
在這裡,該研究在不同的時間位置上構建了Shapelet演化圖,以更深入地了解Shapelet的動態演變。如上圖所顯示了兩個圖,一個表示一月,另一個表示七月。在1月,Shapelet 45具有較大的出入度,並且在1月和2月(深色區域)突出顯示了其對應的時間意識分數。這表明45號Shapelet很可能在年初開始成為一種常見模式。至於7月份,Shapelet 45不再像1月份那樣重要。同時,Shapelet 42(在1月幾乎是一個孤立點)在7月變得非常重要。儘管在構造Shapelet演化圖時沒有明確考慮季節性信息,但包含的時機因素意味著它們已被納入圖生成過程中。Reference
[1] Cheng, Z; Yang, Y; Wang, W; Hu, W; Zhuang, Y and Song, G, 2020, Time2Graph: Revisiting Time Series Modeling with Dynamic Shapelets, In AAAI, 2020[2] Chandola V, Banerjee A, Kumar V, et al. Anomaly detection: A survey[J]. ACM Computing Surveys, 2009, 41(3).[3] Jessica Lin, Rohan Khade, and Yuan Li. 「Rotation-invariant similarity in time series using bag-of-patterns representation」. In: JIIS. 39.2 (2012), pp. 287–315.[4] Ye, L., and Keogh, E. 2011. Time series shapelets: a novel technique that allows accurate, intepretable and fast classifi- cation. DMKD. 22(1):149–182.[5] D. Hallac, S. Vare, S. P. Boyd, and J. Leskovec, 「Toeplitz inverse covariance-based clustering of multivariate time series data,」 SIGKDD, pp. 215–223, 2017.[6] Bostrom, A., and Bagnall, A. 2017. Binary shapelet transform for multiclass time series classification. In TLSD- KCS』17. 24–46.[7] Hills, J.; Lines, J.; Baranauskas, E.; Mapp, J.; and Bagnall, A. 2014. Classification of time series by shapelet transformation. DMKD. 28(4):851–881[8] Lines, J.; Davis, L. M.; Hills, J.; and Bagnall, A. 2012. A shapelet transform for time series classification. In KDD』12, 289–297.[9] Perozzi, B.; Al-Rfou, R.; and Skiena, S. 2014. Deepwalk: Online learning of social representations. In KDD, 701–710.[10] Dau, H. A.; Keogh, E.; Kamgar, K.; Yeh, C.-C. M.; Zhu, Y.; Gharghabi, S.; Ratanamahatana, C. A.; Yanping; Hu, B.; Begum, N.; Bagnall, A.; Mueen, A.; and Batista, G. 2018. The ucr time series classification archive. https://www.cs.ucr.edu/~eamonn/time_series_data_2018/.

記得把TSer設為星標哦~ \(^o^)/

相關焦點

  • 時序預測競賽之異常檢測算法綜述
    暫時變更異常temporary change (TC):造成這種離群點的幹擾是在T時刻幹擾發生時具有一定初始效應,以後隨時間根據衰減因子的大小呈指數衰減。上面的解釋可能不太容易理解,我們結合圖片來看一下:通常,異常檢測算法應該將每個時間點標記為異常/非異常,或者預測某個點的信號,並衡量這個點的真實值與預測值的差值是否足夠大,從而將其視為異常。
  • AAAI 2020學術會議提前看:常識知識與常識推理
    促進人工智慧發展,使得機器具有「常識思維」,對於常識知識、常識推理的研究是值得關注的未來發展方向。本次 AAAI 2020 學術會議論文提前看,筆者挑選了常識知識、常識推理相關的 3 篇論文為大家作以解讀。
  • Python異常值檢測——kNN算法
    異常值檢驗發現和剔除異常觀測值的統計檢驗方法。異常值或離群值,是觀測或試驗過程中由於過失誤差破壞了原有統計規律性而產生的觀測值。 異常值檢驗在許多生物工程、環境工程等相關領域有著極為廣泛的應用,其可以有利於做環境監測和環境治理,生物重點疫苗研製等等。
  • Cleanits:製造業時序數據清洗系統
    (3) 用戶定製化:本系統設計了全面、高效率、自動、要求時間這四種清洗模式,用於滿足不同工業用戶的需求。該系統是國內外研發的首個面向實際工業時序數據、實現多類數據質量問題的智能檢測與修復的數據清洗系統。
  • 四篇AAAI 2020論文,解讀微信大規模跨領域文本內容建模研究
    同時,為了避免模型總是選取到離群的異常樣本,並約束了樣本取值範圍 . 最終的目標為最大化不確定性、最大化多樣性、最小化取值範圍,得到優化目標如下:此外,由於生成的樣本使用特徵空間表示,標註人員難以理解和標註,本文把生成的樣本利用 sparse reconstruction 近似表示成一些概括性詞語,使得標註人員能更快速便捷的進行標註,避免了閱讀整篇文章。
  • 快速學習時序圖:時序圖簡介、畫法及實例
    二、 時序圖的作用是什麼?1、展示對象之間交互的順序。將交互行為建模為消息傳遞,通過描述消息是如何在對象間發送和接收的來動態展示對象之間的交互;2、相對於其他UML圖,時序圖更強調交互的時間順序;3、可以直觀的描述並發進程。三、 組成元素有哪些?
  • ECCV 2020 | 再見,遷移學習?可解釋和泛化的行人再辨識
    機器之心專欄作者:廖勝才阿聯起源人工智慧研究院(IIAI)科學家提出一種可解釋和泛化的行人再辨識方法,通過查詢圖自適應的卷積和相似度的時序提舉,該方法的預訓練模型無需遷移學習即可在 Market-1501 上達到 88.4% 的 Rank
  • 異常檢測的N種方法,阿里工程師都盤出來了
    近期使用多種算法挖掘異常點,下面從不同視角介紹異常檢測算法的原理及其適用場景,考慮到業務特殊性,本文不涉及特徵細節。1.時間序列1.1 移動平均(Moving Average,MA)移動平均是一種分析時間序列的常用工具,它可過濾高頻噪聲和檢測異常點。
  • 史丹福大學教授提出全可微神經網絡架構MAC:可用於機器推理
    為解決這一問題,本文提出了一種新的全可微神經網絡架構 MAC,可使網絡具有結構化推理和迭代思考的能力, 提升其推理的明確性和表現力;在通過 CLEVR 數據集解決視覺推理的任務中,MAC 實現了 98.9% 的當前最優準確率,同時所需數據量減少 5 倍。
  • 復旦大學:利用場景圖針對圖像序列進行故事生成 | AAAI 2020
    該文章認為將圖像轉為圖結構的表示方法(如場景圖),然後通過圖網絡在圖像內和跨圖像兩個層面上進行關係推理,有助於表示圖像,並最終有利於描述圖像。實驗結果證明該方法可以顯著的提高故事生成的質量。但是僅使用CNN提取到的特徵來表示所有的視覺信息,這不大符合直覺而且損害了模型的可解釋性和推理能力。回想一下人是如何看圖寫故事的呢?人會先分辨出圖像上面有什麼物體,推理他們的關係,接下來把一個圖像抽象成一個場景,然後依次看觀察圖像,推理圖像間的關係。對於視覺敘事這個任務,本文認為也可以採用類似方法。
  • 【速覽】AAAI 2020 | SOGNet: 用於全景分割的場景遮蓋圖網絡
    對於實例分割部分,採用標準的Mask R-CNN,利用實例分割的監督信息,完成對物體檢測和分割。對於語義分割部分,採用UPSNet的方法,FPN各個尺度輸出的特徵首先經過三層deformable convolution, 其次上採樣到統一尺度並沿channel維度拼接,最後經過1x1的卷積層輸出對每個像素的類別的預測。語義分割部分利用全景分割的監督信息,預測全部類別(包括語義類別和實例類別)。
  • 時序圖和類圖的關係
    什麼是時序圖   時序圖(Sequence Diagram),又名序列圖、循序圖、順序圖,是一種UML交互圖。它既用於應用程式的系統分類的一般概念建模,也用於詳細建模,將模型轉換成編程代碼。類圖也可用於數據建模。   時序圖和類圖的關係
  • 高敏肌鈣蛋白T試驗可用於檢測亞臨床心臟結構異常
    據12月8日發表於《美國醫學會雜誌》(JAMA)的一項大規模研究報告,普查中採用新型高敏心肌肌鈣蛋白T試驗可在25%的成人中檢出這種生物標誌物,而這部分人使用標準肌鈣蛋白T試驗則無法檢出此標誌物。
  • 羅姆發布車載語音合成LSI新品,可根據播放音檢測異常
    相比之下,藍碧石半導體語音合成 LSI 中內置有通信接口、邏輯、存儲器、放大器,可構建不依賴於主控 MCU 的語音輸出系統,同時還減少了主控 MCU 的軟體設計。更重要的是,本次發布的 ML2253x 新產品可以利用「播放音異常檢測功能」來檢測語音問題。
  • 解析UML時序圖的四大元素
    解析UML時序圖的四大元素 本文向大家介紹一下UML時序圖,UML時序圖描述對象是如何交互的,並且將重點放在消息序列上。也就是說,描述消息是如何在對象間發送和接收的。
  • 圖神經網絡 | BrainGNN: 用於功能磁共振成像分析的可解釋性腦圖神經網絡
    研究人員在文章中提出了一種圖形神經網絡(GNN)框架——BrainGNN,用於分析功能性磁共振圖像(fMRI)並發現神經生物學標誌物,以此來了解大腦。通過將感興趣的大腦區域(ROI)定義為頂點,將ROI之間的功能連接性定義為邊,將fMRI時間序列定義為成對相關性,文章把大腦建模為圖作為輸入,然後輸出預測結果和解釋結果。
  • plc時序圖怎麼畫_plc時序圖編程方法
    時序圖是描述設備工作過程的時間次序圖,也是用於直觀分析設備工作過程的一種圖形。如電子技術中的觸發器、定時器、計數器等均用時序圖來描述其工作原理。在plc順序控制設計法編制梯形圖程序時往往是先畫出時序圖,再根據時序圖設計流程圖,再按流程圖編制梯形圖程序。   一、plc時序圖編程方法:   時序圖編程設計法適用PLC各輸出信號的狀態變化有一定的時間順序的場合,要求系統工作時所有的動作都在定時器的控制下按時間順序工作。
  • AI頂會解讀|時序動作分割與檢測,附代碼連結
    時序動作的分割與檢測是視頻計算機視覺技術的一大常規任務,對自動駕駛和機器人等應用至關重要,下面 3 篇論文是騰訊 AI Lab 在這一方向的探索成果
  • ECCV 2020 | 人臉識別的可解釋性
    自然深度學習中的很重要領域人臉識別的可解釋性也是一個很大的挑戰,當前在這方面探索的方法有網絡注意力、網絡解剖或綜合語言解釋,然而,缺乏網絡比較和量化可解釋結果的真相,尤其是在人臉識別中近親或近親之間的差異很微妙,解釋並不明顯。
  • 使用 ML.NET 實現峰值檢測來排查異常
    機器學習中一類問題稱為峰值檢測,它旨在識別與大部分時序中明顯不同但臨時突發的數據值。