AAAI 2018 論文解讀:基於強化學習的時間行為檢測自適應模型 |...

2020-12-05 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:網際網路上以視頻形式呈現的內容在日益增多,對視頻內容進行高效及時的審核也變得越來越迫切。因此,視頻中的行為檢測技術也是當下熱點研究任務之一。本文主要介紹的就是一種比傳統視頻行為檢測方法更加有效的視頻行為檢測模型。

在近期雷鋒網 GAIR 大講堂舉辦的線上公開上,來自北京大學深圳研究生院信息工程學院二年級博士生黃靖佳介紹了他們團隊在 AAAI 2018 上投稿的一篇論文,該論文中提出了一種可以自適應調整檢測窗口大小及位置的方法,能對視頻進行高效的檢測。視頻回放地址:http://www.mooc.ai/open/course/459

黃靖佳,北京大學深圳研究生院信息工程學院二年級博士生。2016 年畢業於華中科技大學計算機學院信息安全專業,獲學士學位。現研究方向為計算機視覺、行為檢測、增強學習等。

以下是 AI 科技評論對嘉賓分享的內容回顧。

分享主題:AAAI 2018 論文解讀:基於強化學習的時間行為檢測自適應模型

分享提綱:

  • 行為檢測任務的介紹

  • SAP模型的介紹

  • 實驗效果介紹

  • 總結

分享內容:

大家好,我的分享首先是介紹一下行為檢測的應用背景,接下來介紹我們團隊提出的 SAP 模型,以及模型在實驗數據集上的性能,最後是對本次分享的總結。

行為檢測任務的介紹

一般對於視頻目標行為檢測任務的解決方法是:在一整段視頻中,對行為可能發生的時間段做一個定位,做完定位之後,把可能發生的行為送到分類器中做分類。這就是比較常用的「兩階段方法」。

但是這種方法在解決任務時存在兩個難點。

首先是對於一個沒有切割過的視頻,比如在圖中這個視頻中,所需要檢測的目標是一個三級跳運動,三級跳在不同的情況下,根據人的不同,所持續的時間也是不同的。

第二個難點是,目標時間出現的位置是在視頻中的任意時間點。

所以說用「兩階段方法」進行目標行為預測,會產生非常多不同尺度,不同位置 proposal。最簡單的方法是用不同尺度的滑動窗口,從前到後滑動,產生非常多的 proposal,然後再做分類。這種方法雖然行之有效,但時間複雜度和計算複雜度都相當高,使得在完成這項任務時往往需要花費大量的計算資源。


SAP模型的介紹

為了避免這種低效的檢測方法,我們提出了一種可以自適應調整檢測窗口大小及位置的方法,對視頻進行高效的檢測。

我們最開始的想法是能不能僅使用一個滑動窗口,只需要從頭到尾滑動一遍就完成 proposal 產生過程呢?

這就必須要求窗口能不斷地自適應地根據窗口所覆蓋的內容,能夠不斷調節窗口的大小,最終的窗口大小能精確覆蓋目標運動,從而得到檢測的窗口區間。

我們使用增強學習作為背後的模型支撐來完成這樣的循環過程,達到我們的目的。下面是 SAP 模型的框架圖。

關於 Temporal Pooling Layer

在原有的 C3D 模型中,要求輸入的視頻幀是固定的,一般是 16 幀或 8 幀。以 16 幀為例,當視頻幀多於 16 幀,就需要對視頻幀下採樣,採樣成 16 幀,送到視頻中進行處理,這樣在採樣過程中會丟失非常多細節信息,造成特徵表達不準確等問題。

而我們提出的 Temporal Pooling Layer 的輸入幀可以是任意長度。

我們在增強學習中的獎勵設置機制。在增強學習中,對於一個 agent,如果 agent 執行了一個動作後,我們認為是執行正確的,就給一個獎勵;如果認為是錯的,就給一個懲罰。

SAP 模型的訓練過程,可到文末觀看嘉賓的視頻回放,或關注嘉賓的 GitHub 地址獲取相關代碼。

SAP 模型的測試

實驗過程

我們的實驗是在 THUMOS'14 數據集展開的,用它的 validation set 訓練模型,在 test set 上進行實驗評估。我們使用了是以下兩個衡量標準。第一個是 recall 值和平均 proposal 數量函數第二個是 recall 和 IoU。

proposal 做分類後的評判標準是:Average Precison 和 mAP

檢測性能的結果

上圖紅色圈注的部分比較的是不同的模型,在取相同的 proposal 數量,用同樣的分類器做分類,哪個模型的性能會更好。結果發現,在只有 50 個 proposal 的時候,我們的方法表現的最好。


總結

  • 首先,我們提出了 SAP 模型,能夠不斷自適應調整當前觀測窗口大小,從而使觀測窗口能夠更為精確覆蓋可能存在目標運動的區域。

  • 我們的方法是通過增強學習來驅動,讓 agent 通過增強學習網絡學習到調整策略,使它調整自身的位置和大小。

  • 在 C3D 模型中,我們還提出了 temporal pooling layer,使得模型能夠處理不限於 16 幀的視頻片段,並且能夠獲得比均勻採樣所得到的特徵表達更有效,更有利於做後面的視覺任務。

  • 最後,我們在 THUMOS 14 數據集上驗證了我們的模型,得到了不錯的結果。

代碼相關資料GitHub地址:https://github.com/hjjpku/Action_Dection_DQN

雷鋒網GAIR大講堂視頻回放地址:http://www.mooc.ai/open/course/459

更多免費直播視頻,請關注微信公眾號:AI科技評論。

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • AAAI 2020 論文解讀:關於生成模型的那些事
    除了 GAN 相關的模型,其他的生成模型也是很多人在研究的方向,AAAI 中收錄的 1500 多篇文章中就有 100 多篇直接以「生成」命名的文章。本文對其中一些重要論文進行了解讀。,很多專家將這個問題歸結成圖像分類、對象檢測等任務。
  • ICLR 2018最佳論文:基於梯度的元學習算法
    於 4 月 30 日開幕的 ICLR 2018 最近公布了三篇最佳論文,分別關注於最優化方法、卷積神經網絡和元學習算法。不出所料的是,這三篇最佳論文在 2017 年 11 月公布的評審結果中,都有很高的得分。機器之心以前已經介紹過關於修正 Adam 與球面 CNN 的最佳論文,本文將重點介紹第三篇關於元學習的最佳論文。
  • 中科大劉淇:從自適應學習的角度理解AI+教育
    主要研究數據挖掘與知識發現、機器學習方法及其應用,相關成果獲得過IEEE ICDM 2011最佳研究論文獎、ACM KDD 2018 (Research Track)最佳學生論文獎。首先,劉淇老師指出相較於傳統的考試方式,自適應測試的方式可以花費更少的時間來測試學生的水平。自適應測試需要設計一個能夠診斷學生認知水平的認知模型,然後加上一些自適應的選題策略。劉淇老師對於接下來的步驟提出了一個問題:在得到學生的認知水平之後,怎樣結合學生的認知背景去給學生做個性化學習的推薦?
  • 百度AAAI 2018錄用論文:基於注意力機制的多通道機器翻譯模型
    這一論文已被 AAAI 2018 錄用。在編碼層與解碼層之間,加入注意力機制融合輸入序列的全部的時間步(time step),並將注意力放到解碼層的當前時間步上。在生成目標詞的過程中,控制器會整合:上一生成詞、當前隱層狀態、由注意力機制計算出的上下文信息這三項,從而確定最終的目標詞。
  • 獨家| AAAI-17獲獎論文深度解讀(下):蒙特卡羅定位和推薦系統
    機器之心原創作者:Elva Wang、李俊毅、Hao Wang參與:微胖、吳攀、李亞洲前天機器之心的頭條文章深度解讀了 AAAI-17 大會評出的傑出論文和 Blue Sky Idea Awards 獲獎論文,今天機器之心分析師則為我們帶來了對 AAAI-17 兩篇經典論文獎獲獎論文的深度解讀。論文原文可點擊文末「閱讀原文」下載。
  • 港中文AAAI錄用論文詳解:ST-GCN 時空圖卷積網絡模型 | AAAI 2018
    雷鋒網 AI 科技評論按:第 32 屆 AAAI 大會(AAAI 2018)日前在美國紐奧良進行,於當地時間 2 月 2 日至 7 日為人工智慧研究者們帶來一場精彩的學術盛宴。AAAI 2018 今年共收到論文投稿 3808 篇,接收論文 938 篇,接收率約為 24.6 %。
  • AAAI 2018入選論文——關於網絡表示學習的最新研究 | 分享總結
    如何用合理的方式表示這些數據是網絡挖掘的關鍵問題,本文探討的就是網絡的表示學習問題。在近期雷鋒網 GAIR 大講堂舉辦的一期關於網絡表示學習的直播中,來自浙江大學本科三年級的馮瑞同學講解了關於網絡表示學習的相關知識,以及他最新入選 AAAI 2018 的一篇論文的主要內容。本文根據馮瑞同學的直播分享整理記錄,有刪減,推薦大家觀看 GAIR 大講堂提供的視頻回放。
  • 哈工大 AAAI 2018 錄用論文解讀:基於轉移的語義依存圖分析 | 分享...
    本文介紹的工作來自哈工大 SCIR 實驗室錄用於 AAAI 2018 的論文《A Neural Transition-Based Approach for Semantic Dependency Graph Parsing》。在近期雷鋒網 GAIR 大講堂舉辦的線上公開課上,來自哈爾濱工業大學在讀博士生王宇軒分享了一篇他在 AAAI 2018 投中的論文:基於轉移的語義依存圖分析。
  • 從NLP終生學習開始,談談深度學習中記憶結構的設計和使用
    通過記憶能力增強模型表現其實並不是新鮮事,「經驗重放(experience replay)」的思路最早可以追溯到 1990 年代的強化學習機器人控制論文 《Programming Robots Using Reinforcement Learning and Teaching》(https://www.aaai.org/Papers/AAAI/1991/AAAI91
  • ...CVPR 2020 論文推薦:元轉移學習;ABCNet;動態圖像檢索;點雲分類...
    目錄12-in-1: 多任務視覺和語言表示學習CVPR 2020 | 用於零樣本超解析度的元轉移學習CVPR 2020 | ABCNet:基於自適應Bezier-Curve網絡的實時場景文本定位CVPR
  • 華為諾亞ICLR 2020滿分論文:基於強化學習的因果發現算法
    在此論文中,華為諾亞方舟實驗室因果研究團隊將強化學習應用到打分法的因果發現算法中,通過基於自注意力機制的 encoder-decoder 神經網絡模型探索數據之間的關係,結合因果結構的條件,並使用策略梯度的強化學習算法對神經網絡參數進行訓練,最終得到因果圖結構。在學術界常用的一些數據模型中,該方法在中等規模的圖上的表現優於其他方法,包括傳統的因果發現算法和近期的基於梯度的算法。
  • 今日Paper|強化學習;可重構GANs;BachGAN;時間序列分類等
    目錄通過強化學習對抽取的摘要進行排序用於抽象文本摘要的基於深度遞歸生成解碼器用於可控圖像合成的學習布局和風格的可重構GANsBachGAN:基於顯著物體布局的高解析度圖像合成時間序列分類:近鄰vs深度學習模型通過強化學習對抽取的摘要進行排序論文名稱:Ranking Sentences
  • 強化學習的10個現實應用
    該系統的工作方式如下:當然,具體的措施還是由本地控制系統操作完成。強化學習在金融貿易中的應用有監督的時間序列模型可用來預測未來的銷售額,還可以預測股票價格。然而,這些模型並不能決定在特定股價下應採取何種行動,強化學習(RL)正是為此問題而生。通過市場基準標準對RL模型進行評估,確保RL智能體正確做出持有、購買或是出售的決定,以保證最佳收益。
  • 強化學習機器人也有很強環境適應能力,伯克利AI實驗室賦能元訓練+...
    舉個例子,當我們意識到我們的車在路上打滑時(如圖二),這會告知我們,我們的行為出現了意料之外的不同影響,因此,這讓我們相應地規劃我們後續的行動。要讓機器人能夠更好地適應現實世界,就要讓它們能夠利用它們過去的經驗,擁有快速地、靈活地適應的能力,這是重要的一點。為此,BAIR 開發了一個基於模型的快速自適應元強化學習算法。
  • 基於SVM和sigmoid函數的字符識別自適應學習算法
    手寫字符的一個突出特點就是模式具有較大的變化性,表現為模式空間的類內分布過於分散,類間交疊嚴重,這使得識別模型無法「恰當」地擬合每類模式的數據分布或類別之間的判別面。在識別模型過程中,通過自適應學習就能較好地擬合特定書寫者筆跡特徵向量的空間分布,從而有利於識別率的提高。
  • 【AAAI論文】阿里提出新圖像描述框架,解決梯度消失難題
    我們在本論文中提出了一種粗略到精細的多級圖像描述預測框架,該框架由多個解碼器構成,其中每一個都基於前一級的輸出而工作,從而能得到越來越精細的圖像描述。通過提供一個實施中間監督的學習目標函數,我們提出的學習方法能在訓練過程中解決梯度消失的難題。
  • 強化學習如何使用內在動機?
    針對具有學習預測因子(即世界模型)的系統所捕獲的內在動機因素,通過構建自適應的神經網絡模型生成基於預測誤差或預測誤差減少的內在學習信號,從而找到能夠學習到最多知識的環境因素 [7]。雖然外在動機和內在動機都傾向於涉及共同的生物學進化的學習機制,並改變相同的大腦結構,但它們涉及不同的指導機制:內在動機是基於驅動技能和知識學習的機制的動機,以及基於在大腦內直接檢測到的這些技能和知識的水平和變化而對行為和行為進行剝削和激勵的動力。內在動機使得生物體能夠學習技能和知識,而無需在獲取技能時直接影響體內的穩態需求和健康狀況。
  • UC伯克利 NIPS 2018 Spotlight論文:依靠視覺想像力的多任務強化...
    2018 的錄用論文近期已經陸續揭開面紗,強化學習毫不意外地仍然是其中一大熱門的研究領域。上面一行展示了目標圖片,下面一行展示了該策略達到這些目標的過程在下面的博客中,我們將討論一個無人工監督的,可以同時學習多個不同任務的強化學習算法。對於能夠在無人工幹預的情況下學會技能的智能體(agent),它必須能夠為自己設定目標(goal),與環境交互,並評估自己是否已經達到目標,並朝目標方向改善其行為。
  • 上海交通大學ECCV 2018四篇入選論文解讀
    ECCV 2018 論文接收列表:https://docs.google.com/document/d/1FuKeKgTxm_Vt8cH3HbNxaYuU8T4NnhjAm6xVGetKXgA/edit?
  • AlphaZero制勝解讀,通用強化學習算法自我對弈 | 2分鐘論文
    雷鋒網:雷鋒字幕組出品系列短視頻《 2 分鐘論文 》,帶大家用碎片時間閱覽前沿技術,了解 AI 領域的最新研究成果。本期論文:用通用強化學習算法自我對弈,掌握西洋棋和將棋Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm觀看論文解讀大概需要 6 分鐘回顧AlphaZero