機器之心發布
機器之心編輯部
近期,上海交通大學盧策吾團隊在《自然 - 機器智能》上發表視覺序列理解的研究成果,通過模仿人類的認知機制,提出了可應用於高維度信息的半耦合結構模型(SCS)。此外,他們還開源了視頻理解工具箱 AlphaVideo。
近期,上海交通大學盧策吾團隊在《自然 - 機器智能》子刊上發表了關於高維度視覺序列理解的研究成果《Complex sequential understanding through the awareness of spatial and temporal concepts》。
與此同時,該團隊將論文代碼與近兩年在視頻理解領域的先進成果開源為視頻理解工具箱 AlphaVideo。
開源地址:https://alpha-video.github.io/
AlphaVideo 在物體跟蹤任務(MOT)和行為理解(AVA 單模型)上都達到最高準確率,相比 SlowFast [4](AVA 單模型)有 12.6% 的性能提升。
圖 1:動作理解任務的時空信息特徵圖。左:輸入序列;右:空間特徵更關注物體形狀,時間特徵更關注物體運動趨勢。
00:00/00:00倍速
圖 2:AlphaVideo 中的行為理解(Alphaction)
圖 3:時空概念提取展示
人類視覺理解機理
在人類的視覺認知過程中,時間和空間概念是解耦的。神經科學領域的研究發現在人類的記憶形成過程中,時間信息與空間上下文信息通過兩個相對獨立的信息通路到達海馬體,進而形成完整的記憶 [1]。
新技能:自主學習時空概念
通過模仿人類的認知機制,盧策吾團隊提出了應用於高維度信息的半耦合結構模型(SCS)。
SCS 自主發掘(awareness)時間 - 空間概念,並讓他們耦合協作以理解序列信息。這種能力代表著機器學習模型自主掌握了時空的概念,這是一種更高層的智能。更進一步,時空信息概念的分離也讓「概念編輯」成為可能。
半耦合結構模型(SCS)
半耦合結構首先解耦時空信息(模仿人腦中的兩條信息通路),並在分別處理時間和空間信息之後將二者耦合(模仿海馬體):
該研究通過堆疊這種半耦合的元結構來構建深度模型,其中時空信息始終以先解耦再融合的模式向後流動。
為了讓 h_s 和 h_t 各司其職,研究者將 h_s 和 h_t 設計為不對稱的結構,同時,使用兩個特殊的監督目標 r_s、r_t 來進一步約束二者關注各自的工作。
該研究進一步提出了一種訓練注意力機制。這種注意力機制控制模型在優化過程中學習哪種信息。例如在視頻信息中,模型可以優先將注意力集中在空間信息上,待空間信息有效且穩定時,再逐步將模型訓練的注意力轉換到時間信息上。
SCS 的表現如何?
該研究展示了 SCS 在多項任務中與傳統 LSTM 的性能對比結果:
SCS 在視頻動作分類、自動駕駛、天氣預報等 4 個任務上的性能均超越傳統的序列模型。
相關代碼參見:https://doi.org/10.5281/zenodo.3679134
概念編輯
有了時空分離的能力,SCS 就可以初步做到「概念編輯」。比如,通過編輯空間概念且保留時間概念,我們可以讓一個原本用於預測狗運動軌跡的模型來預測貓的軌跡。這樣就能以較小的代價實現模型的泛化,同時也拓寬了模型的使用場景,降低了部署難度。如圖 6 所示:
圖 6:概念編輯 demo
研究者讓計算機看 Flappy Bird 的視頻,然後看一張靜態的 Mario 圖片(外觀形象)。在這個過程中,模型並沒有接觸到任何 Mario 在管道中穿梭的運動信息。但通過「概念編輯」,在測試時 SCS 可以準確地預測 Mario 的運動軌跡。
視頻理解工具箱 AlphaVideo
在視頻理解工具箱 AlphaVideo 中,除了上述 SCS 時空概念分解,研究者還提供了單階段端對端訓練的多目標跟蹤模型 TubeTK 和視頻動作檢測模型 AlphAction。使用一行代碼,即可調用預訓好的各類模型。
AlphAction
AlphAction 是面向行為理解的開源系統,基於 MVIG 提出的交互理解與異步訓練策略 [5] 在 AVA 數據集上達到最優準確率,速度達到 10 幀每秒。其中包含的 15 個開源常見行為基本模型的 mAP 達到約 70%,接近可以商用的水平。
TubeTK
TubeTK 是上海交大 MVIG 組提出的基於 Bounding-Tube 的單階段訓練模型(CVPR2020-oral),是首個單階段端對端訓練的多目標跟蹤模型。它在 MOT-16 數據集上達到了 66.9 MOTA 的精度,是目前 online 模型僅在 MOT 訓練數據下達到的最高精度 [3]。
圖 7:TubeTK 可視化結果
圖 8:Bounding-Tube 示意圖。使用 bounding-tube 可以輕鬆跟蹤到 bounding-box 無法檢測到的被遮擋目標(圖中黃色框)。
參考文獻
[1] Kitamura, T. et al. Entorhinal cortical ocean cells encode specific contexts and drive context-specific fear memory. Neuron 87, 1317–1331 (2015).
[2] Simonyan, K. & Zisserman, A. Two-stream convolutional networks for action recognition in videos. In Proceedings of the 27th International Conference on Neural Information Processing Systems 568–576 (ACM, 2014).
[3] https://motchallenge.net/tracker/3184&chl=5
[4] Feichtenhofer, C., Fan, H., Malik, J., & He, K. (2019). Slowfast networks for video recognition. In Proceedings of the IEEE International Conference on Computer Vision (pp. 6202-6211).
[5] Tang, J., Xia, J., Mu, X., Pang, B., & Lu, C. (2020). Asynchronous Interaction Aggregation for Action Detection. arXiv preprint arXiv: 2004.07485.