【乾貨】首次使用分層強化學習框架進行視頻描述生成,王威廉組最新工作

2021-02-20 專知

點擊上方「專知」關注獲取專業AI知識!

【導讀】加州大學-聖塔芭芭拉計算王威廉組最新工作Video Captioning via Hierarchical Reinforcement Learning ,首次提出分層強化學習方法來加強不同等級的視頻描述,通過分層深度強化學習,在文本生成上可以做到語言表達更加連貫,語義更加豐富,語法更加結構化。達在MSR-VTT數據集上達到了的最佳結果,並且提出了新的Charades Caption數據集。文章中指出,未來將計劃注意力機制(Attention),以提升提出的層次強化學習(HRL)框架。作者相信,提出的方法的結果可以通過使用不同類型的特徵,如C3D特徵,光流等進一步改善。同時,作者將在其他相似的序列生成任務(如視頻/文檔摘要)中探索提出的HRL框架。

▌作者

William Yang Wang(王威廉) 加州大學-聖塔芭芭拉計算機科學系助理教授

http://www.cs.ucsb.edu/~william/

微博:http://weibo.com/u/1657470871/

論文:Video Captioning via Hierarchical Reinforcement Learning

摘要

視頻描述是根據視頻中的動作自動生成的文本描述的任務。儘管之前的工作(例如,序列到序列模型)已經在短視頻的粗略摘要描述中獲得有希望的結果,但是要對包含許多細節動作的視頻生成詳細描述,仍然是非常具有挑戰性的任務。本文旨在通過提出一種新的基於分層強化學習框架的視頻描述方法來解決這個問題,其中高級管理模塊學習設計子目標,而低級工作模塊識別原始動作以實現子目標。通過這個組合框架從不同級別的增強視頻描述效果,我們的方法明顯優於其他所有基準方法,並新引入了一個用於細粒度視頻描述研究的大規模數據集。此外,我們在MSR-VTT數據集上達到最佳結果。

詳細內容


對於大多數人來說,觀看簡短的視頻並用文本描述視頻中發生的事情是一個容易的任務。對於機器來說,從視頻的像素中提取含義並生成自然的文本描述是一個非常具有挑戰性的任務。然而,由於智能視頻監控對視覺疲勞人群的輔助等方面的廣泛應用,視頻描述最近引起了計算機視覺領域越來越多的關注。與旨在描述靜態場景的圖像描述技術不同,為了聯合生成多個描述文本片段(參見圖1),視頻字幕需要理解一系列相關場景,因此視頻描述更具挑戰性。

圖1:視頻字幕示例。第一行是在MSR-VTT數據集[40]的示例,其中視頻是用三個標題來概括的。最後一行是Charades數據集[30]上的示例,它由幾個相關的人類活動組成,用複雜結構的多重長句來描述。

目前的視頻描述任務主要可以分為兩個系列:單句生成[40,19]和段落生成[26]。單句生成傾向於將整個視頻抽象為簡單和高級的描述性句子,而段落生成傾向於理解視頻中更詳細的活動,並生成多個描述句子。然而,段落生成問題經常會根據視頻時間間隔被分成多個單句生成場景。有些研究採用動作檢測技術來預測時間間隔[12],但沒有明顯改善視頻描述的結果。

 

在很多實際情況下,人類的活動過於複雜,不能用簡短的句子來描述,而且如果沒有對語言語境很好地的理解,時間間隔就難以被提前預測。例如,在圖1的底部例子中,總共有五個動作:坐在床上、把一臺筆記本電腦放進一個包裡(這兩個動作是同時發生的)、然後站起來、把包放在一個肩膀上、走出房間(順序發生的動作)。這種細粒度的文本生成需要一個精細且具有表達性的機制來捕捉視頻時間上的動態內容,並將其與自然語言中的語義表示聯繫起來。

 

為了解決這個問題,本文提出了一個「分而治之」的解決方案,它首先將一個長文本分成許多小文本段(例如不同的段如圖1所示用不同的顏色表示),然後採用序列模型處理每個部分。本文建議引導模型逐個生成句子,而不是強制模型生成整個序列。利用高層次的序列模型設計每個片段的上下文,低層次序列模型用來逐個生成單個片段。

 

在本文中,作者提出了一個新的分層強化學習(HRL)框架來實現這個兩級機制。文本和視頻上下文可以被看作是強化學習環境。提出的框架是一個完全可微分的深度神經網絡(見圖2),包括(1)高層次的序列模型管理模塊(Manager),以較低的時間解析度設置目標;(2)低層次序列模型工作模塊(Worker)根據Manager中的目標在每個時間步選擇基本操作;(3)用內部評價模塊(Internal Critic)決定一個目標是否完成。更具體地說,通過從環境和完成的目標中挖掘上下文,Manager為新的片段發出新的目標,並且Worker接受該目標並通過依次產生單詞來生成序列。此外,Internal Critic是用來評估目前生成的文本段是否完成。

圖2:HRL視頻描述框架概述。

此外,本文為ManagerWorker都設置了基於視頻特徵的注意模塊(3.2節),以在內部引入層次性注意力,以便Manager將注意力集中在更廣泛的時間動態,而Worker的注意力被縮小到當前目標條件下的局部動態。同時,由於詞典通常包含數千個單詞,導致了一個難以搜索的大的動作空間。使用分層強化學習,Manager的目標可以在很大程度上限制Worker的搜索空間,提高單詞預測的準確性。

 

文章指出這是用分層強化學習方法來加強不同等級的視頻描述的首次工作。本文的主要貢獻有四個:

提出了一個分層強化學習框架,以有效地學習視頻描述的語義動態性。

制定了一個新穎的、可選擇的訓練方法,可用隨機和確定策略梯度進行訓練。

通過對原始Charades數據集進行預處理,引入了一個新的大規模細粒度視頻描述數據集Charades Captions,並驗證了該方法的有效性。

在MSR-VTT數據集上進一步評估我們的方法,即使在單一類型的特徵上進行訓練也能達到最先進的結果。

模型簡介

本文提出的HRL框架採用的通用的編碼器-解碼器框架(如圖2所示)。HRL的核心是其策略網絡,策略網絡主要由注意力模塊(Attention Module)、管理和工作模塊(Managerand Worker)和內部評價模塊(Internal Critic)組成。

圖3:在解碼階段(時間從t到t+5)將HRL框架展開示例。黃色區域顯示了注意裡模塊如何結合到編碼器-解碼器框架中。

以Worker的attention module為例,其計算方式如下:

其中w,Wa,Ua,ba是可學習的參數,ht-1是Worker LSTM上一時刻的隱層狀態。Manager的注意模塊與Worker的結構一樣。

 

Manager通過如下方式產生隱目標向量gt用以指導Worker生成具體的caption:

這裡SM是Manager LSTM中的非線性函數,uM是一個將隱狀態投影到目標空間的函數。

Worker接收到Manager產生的目標gt,然後通過softmax計算一個概率分布來產生caption的每一個單詞:

Internal Critic用於評價Worker是否完成了目標gt,其通過給定groundtruth來最大化似然函數進行訓練:

當Interal Critic訓練完成後,其在Manager的使用過程中被固定。

實驗結果

圖4:在Charades數據集上用我們的方法與基準方法進行定性比較。

 

圖5:在MSR-VTT數據集上用我們的方法與基準方法進行定性比較。

 

圖6:不同視頻描述模型的CIDEr分值的學習曲線。包括XE基準模型,RL基準模型和HRL模型分別在目標尺寸為16,32, 64條件下。

 

表1:在MSR-VTT數據集上與最先進的方法進行比較。

 

表2:Charades數據集上的結果。我們分別記錄了我們的HRL模型以及兩個基準方法的不同得分:包括BLEU(B),METEOR(M),ROUGH-L(R)和CIDEr(C)等得分。

結論

本文引入了視頻描述的分層強化學習框架,其目的在於改進在具有豐富活動的細粒度視頻場景下生成文本描述的方法。兩層結構相互作用,在這個複雜的任務中展現出結構和語義的協調性。本文首先在流行的MSR-VTT數據集上評估其方法,並證明提出的方法的有效性。接下來,本文介紹了一個用於細粒度視頻描述的新的大規模數據集,並進一步展示了提出的HRL模型的優良性能。

文章中指出,在未來,作者將計劃探索注意力空間(attention space),並結合空間注意力形成一個時空注意力模型,以提升提出的HRL框架。此外,到目前為止,本文只是從一個預訓練的CNN模型獲得幀級特徵,並用幀級特徵進行實驗。作者相信,提出的方法的結果可以通過使用不同類型的特徵,如C3D特徵[35],光流等進一步改善。同時,作者將在其他相似的序列生成任務(如視頻/文檔摘要)中探索本文提出的HRL框架。

參考文獻

https://arxiv.org/abs/1711.11135

特別提示-Video Captioning via Hierarchical Reinforcement Learning 論文下載

請關注專知公眾號(掃一掃最下面專知二維碼,或者點擊上方藍色專知),

相關焦點

  • 強化學習如何使用內在動機?
    因此,希望 RL 中的主要激勵能夠鼓勵涉及學習系統這一部分環境特徵的多種行為,包括涉及好奇心、新穎性、驚奇以及通常與內在獎勵相關的其他內部介導特徵的行為。這將給改進 RL 提供新的思路和方向。為了解決在稀疏反饋的環境中學習目標導向的行為,文獻 [3] 中提出了分層深度 Q 網絡強化學習(hierarchical-DQN,h-DQN)框架。
  • TensorTrade:基於深度強化學習的Python交易框架
    網際網路上有很多關於強化學習交易系統零零碎碎的東西,但是沒有一個是可靠和完整的。出於這個原因,我們決定創建一個開源的Python框架,使用深度強化學習,有效地將任何交易策略從想法轉化為實際應用。Tensortrade 是一個開源的 Python 框架,用於使用深度強化學習進行訓練、評估和部署穩健的交易策略。
  • 【AAAI論文】阿里提出新圖像描述框架,解決梯度消失難題
    現有的圖像描述方法通常都是訓練一個單級句子解碼器,這難以生成豐富的細粒度的描述。另一方面,由於梯度消失問題,多級圖像描述模型又難以訓練。我們在本論文中提出了一種粗略到精細的多級圖像描述預測框架,該框架由多個解碼器構成,其中每一個都基於前一級的輸出而工作,從而能得到越來越精細的圖像描述。通過提供一個實施中間監督的學習目標函數,我們提出的學習方法能在訓練過程中解決梯度消失的難題。
  • ACL2020|使用強化學習為機器翻譯生成對抗樣本
    對於MDP的無監督學習問題,我們可以使用強化學習(reinforcement learning, RL)建模學習值函數估計,通過對受害系統的不斷交互反饋得到對抗樣本的生成策略。不同於一般的梯度優化,強化學習並不受限於優化離散建模,因此適合建模本問題的優化。
  • 【專知薈萃08】圖像描述生成Image Caption知識資料全集(入門/進階/論文/綜述/視頻/專家等)
    ◦[https://arxiv.org/pdf/1612.00563.pdf]Deep Reinforcement Learning-based Image Captioning with Embedding Reward 2017 cvpr 由 Snapchat 與谷歌合作的這篇論文也使用強化學習訓練圖像描述生成網絡,並採用 Actor-critic 框架。
  • 強化學習精品書籍
    本書主要目標是提供關於強化學習領域中的最新研究文章,內容包括部分可觀察環境,分層任務分解,關係知識表示和預測狀態表示。此外,本書有幾章還回顧了機器人,遊戲和計算神經科學中的強化學習方法。在 2018 年阿里巴巴開放了一本描述強化學習在實踐中應用的書籍《強化學習在阿里的技術演進與業務創新》,這本書重點描述了阿里巴巴在推動強化學習輸出產品及商業化的實踐過程。
  • DeepMind最新Science論文生成查詢網絡GQN
    在這項發表在 Science 的研究中,DeepMind 引入了生成查詢網絡(Generative Query Network/GQN)的框架,其中機器通過到處走動並僅在由它們自己獲取的數據中訓練來感知周圍環境。該行為和嬰兒、動物很相似,GQN 通過嘗試觀察周圍的世界並進行理解來學習。
  • NIPS2019 | 深度強化學習重點論文解讀
    在這裡,我們研究了深度強化學習智能體的區間定時能力,這些代理能力是在間隔再生範式上進行端到端訓練,這種範式受到關於時間機制的實驗文獻的啟發。並描述了由經常性和前饋性代理人開發的策略,這些策略都使用不同的機制在時間再生上取得成功,其中一些機制與生物系統具有特定且有趣的相似性。這些發現推動了我們對代理人如何代表時間的理解,並突出了實驗啟發的方法來表徵代理人能力的價值。
  • 谷歌開源SEED RL強化學習框架,訓練成本降低多達80%
    智東西3月24日消息,美國當地時間3月23日,谷歌開源了一個名為SEED RL的強化學習(RL)框架,能夠將人工智慧(AI)模型訓練擴展到數千臺機器,有助於在一臺機器上以每秒數百萬幀的速度進行訓練,並將訓練成本降低多達
  • 【乾貨】ICML2018:63篇強化學習論文精華解讀!
    在解決基於圖像的目標描述的新任務時,學習到的表示還提供了使用圖像指定目標的度量。3. Automatic Goal Generationfor Reinforcement Learning Agents ->使用生成模型(在本例中為GANs)來學習生成理想的「目標」(狀態空間的子集),並使用生成模型而不是目標的統一抽樣。使用基於生成模型的自動課程生成算法來解決多任務問題,該生成模型跟蹤學習代理的性能。
  • OpenAI實習生提出分層強化學習新算法
    接著他開始了工作,沒有任何學位,僅僅是一名高中生。Frans 致力於解決一個機器人和強化學習領域的關鍵問題:機器如何利用先前已學知識解決新問題?這對人類來講易如反掌。即使你是第一次做食譜,也無需重新學習如何做焦糖洋蔥和篩麵粉。相反,機器學習軟體通常不得不重複漫長的訓練過程才能解決新問題——甚至面對包含相同元素的問題也不例外。
  • 如何解決稀疏獎勵下的強化學習?
    改進模型的方法主要是執行分層強化學習(Hierarchical Reinforcement Learning),使用多層次的結構分別學習不同層次的策略來提高模型解決複雜問題的能力,以及元學習(Meta-Learning)的方法。本文針對每一類方法選擇了一篇近兩年的文章進行示例性介紹,以了解稀疏獎勵下的強化學習的最新研究進展。
  • Bengio、Sutton的深度學習&強化學習暑期班又來了,2019視頻已放出
    今年夏季課程的視頻已經全部出爐,導師包括 Yoshua Bengio、Richard Sutton 等業內大牛,Youtube 可在線觀看,還有實時機翻字幕。心心念念的 2019 深度學習&強化學習夏季課程終於來了。機器之心從 2016 年起就開始報導這一夏季課程,每一年都是大師雲集,幾十節課程視頻都乾貨滿滿、廣受好評。
  • ACL 2018|Facebook AI 研究室:分層神經網絡故事生成
    我們用一個層次化模型來處理故事講述的挑戰,該模型首先生成一個稱為提示的句子,用於描述故事的主題,然後在生成故事時根據該提示進行調整。對提示或前提進行調整可以更容易地生成一致的故事,因為它們為整個情節提供了基礎,也減少了標準序列模型產生主題漂移的傾向。
  • IJCAI 2018|騰訊知文等提出結合主題信息和強化訓練生成更優摘要
    就我們所知,這是生成式文本摘要中首個採用卷積框架結合聯合注意力機制引入主題信息的研究,這能將主題化的和上下文的對齊信息提供到深度學習架構中。此外,我們還通過使用強化學習方法 [Paulus et al., 2017] 對我們提出的模型進行了優化。
  • 後Xposed時代的Xposed框架使用途徑 | 乾貨
    | 乾貨」這篇文章中簡單說了一下Xposed框架,那篇文章中沒談到什麼實際性的操作,本文將補全介紹一些後Xposed時代可操作的乾貨。上篇文章說了Xposed框架的現狀,作者停更是一方面的原因,還有一方面是Google對於Android的安全管控越來越高,使Xposed框架的生存難度越來越高。
  • 2019年度最佳書單:深度學習/機器學習/強化學習(附部分電子書下載)
    它描述了業內從業者使用的深度學習技術,包括深度前饋網絡,正則化,優化算法,卷積網絡,序列建模和實用方法;它調查了自然語言處理,語音識別,計算機視覺,在線推薦系統,生物信息學和視頻遊戲等應用。最後,本書提供了研究視角,涵蓋了線性因子模型,自動編碼器,表示學習,結構化概率模型,蒙特卡羅方法,分區函數,近似推理和深度生成模型等理論主題。
  • DeepMind推出深度學習與強化學習進階課程(附視頻)
    昨天,DeepMind 與 UCL 合作推出了一門深度學習與強化學習進階課程,以在線視頻形式呈現。該課程共有 18 節課,每節課都長達 1 小時 40 分鐘,內容從深度學習框架 TensoFlow 的介紹到構建遊戲智能體,可謂全面。
  • CVPR 2020|看圖說話之隨心所欲:細粒度可控的圖像描述自動生成
    本文介紹的是CVPR 2020上錄用為Oral的論文《Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graph》(已開源),文章作者是中國人民大學博士生陳師哲同學,這項工作是陳師哲同學在澳大利亞阿德萊德大學吳琦老師組訪問時所完成。
  • 使用多尺度注意力進行語義分割
    圖4,我們的分層多尺度注意力方法。下圖:推理以鏈式/分層的方式完成,以便將多個預測尺度組合在一起。低尺度注意力決定了下一個更高尺度的貢獻。這種方法的主要好處如下:訓練只在成對的尺度上進行,推理是靈活的,可以在任意數量的尺度上進行。