ICLR2019 | 你追蹤,我逃跑:一種用於主動視覺跟蹤的對抗博弈機制

2021-01-10 新智元

新智元推薦

來源:北京大學前沿計算研究中心

【新智元導讀】本文是ICLR2019入選論文《AD-VAT: An Asymmetric Dueling mechanism for learning Visual Active Tracking》的深入解讀。該論文由北京大學數字視頻編解碼技術國家工程實驗室博士生鍾方威、嚴汀沄在王亦洲老師和騰訊AI Lab研究員孫鵬、羅文寒的指導下合作完成。該研究也入選了2018騰訊AI Lab犀牛鳥專項研究計劃。

什麼是主動視覺跟蹤?

主動視覺跟蹤(Visual Active Tracking)是指智能體根據視覺觀測信息主動控制相機的移動,從而實現對目標物體的跟蹤(與目標保持特定距離)。主動視覺跟蹤在很多真實機器人任務中都有需求,如用無人機跟拍目標拍攝視頻,智能跟隨旅行箱等。要實現主動視覺跟蹤,智能體需要執行一系列的子任務,如目標識別、定位、運動估計和相機控制等。

然而,傳統的視覺跟蹤方法的研究僅僅專注於從連續幀中提取出關於目標的2D包圍框,而沒有考慮如何主動控制相機移動。因此,相比於這種「被動」跟蹤,主動視覺跟蹤更有實際應用價值,但也帶來了諸多挑戰。

左圖:一個機器人主動跟隨目標移動(圖片來自網絡)

右圖:對比基於強化學習的端到端主動跟蹤和傳統的跟蹤方法[1]

深度強化學習方法有前景,但仍有局限性

在前期的工作[1][2]中,作者提出了一種用深度強化學習訓練端到端的網絡來完成主動視覺跟蹤的方法,不僅節省了額外人工調試控制器的精力,而且取得了不錯的效果,甚至能夠直接遷移到簡單的真實場景中工作。

然而,這種基於深度強化學習訓練的跟蹤器的性能一定程度上仍然受限於訓練的方法。因為深度強化學習需要通過大量試錯來進行學習,而直接讓機器人在真實世界中試錯的代價是高昂的。一種常用的解決方案是使用虛擬環境進行訓練,但這種方法最大的問題是如何克服虛擬和現實之間的差異,使得模型能夠部署到真實應用當中。雖然已經有一些方法嘗試去解決這個問題,如構建大規模的高逼真虛擬環境用於視覺導航的訓練,將各個因素(表面紋理/光照條件等)隨機化擴增環境的多樣性。

對於主動視覺跟蹤的訓練問題,不僅僅前背景物體外觀的多樣性,目標運動軌跡的複雜程度也將直接影響跟蹤器的泛化能力。可以考慮一種極端的情況:如果訓練時目標只往前走,那麼跟蹤器自然不會學會適應其它的運動軌跡,如急轉彎。但對目標的動作、軌跡等因素也進行精細建模將會是代價高昂的且無法完全模擬所有真實情況。

讓目標與跟蹤器「鬥起來」

因此,作者提出了一種基於對抗博弈的強化學習框架用於主動視覺跟蹤的訓練,稱之為AD-VAT(Asymmetric Dueling mechanism for learning Visual Active Tracking)。

在這個訓練機制中,跟蹤器和目標物體被視作一對正在「決鬥」的對手(見下圖),也就是跟蹤器要儘量跟隨目標,而目標要想辦法脫離跟蹤。這種競爭機制,使得他們在相互挑戰對方的同時相互促進共同提升。

當目標在探索逃跑策略時,會產生大量多種多樣的運動軌跡,並且這些軌跡往往會是當前跟蹤器仍不擅長的。

在這種有對抗性的目標的驅動下,跟蹤器的弱點將更快地暴露隨之進行強化學習,最終使得其魯棒性得到顯著提升。

在訓練過程中,因為跟蹤器和目標的能力都是從零開始同步增長的,所以他們在每個訓練階段都能夠遇到一個能力相當的對手與之競爭,這就自然得構成了從易到難的課程,使得學習過程更加高效。

然而,直接構造成零和遊戲進行對抗訓練是十分不穩定且難以收斂的。

AD-VAT概覽

如何讓對抗更加高效且穩定?

為解決訓練的問題,作者提出了兩個改進方法:不完全零和的獎賞函數(partial zero-sum reward)和用於目標的跟蹤可知模型(tracker-aware model)。

不完全零和獎賞是一種混合的獎賞結構,僅鼓勵跟蹤器和目標在一定相對範圍內進行零和博弈,當目標到達一定距離外時給予其額外的懲罰,此時將不再是零和博弈,因此稱之為不完全零和獎賞。

這麼設計獎賞函數是為了避免一個現象,當目標快速遠離跟蹤器時,跟蹤器將不能觀察到目標,以至於訓練過程變得低效甚至不穩定。

上式為跟蹤器的獎賞函數,沿用了[1]中的設計思想,懲罰項由期望位置與目標之間的距離所決定。

上式為目標的獎賞函數,在觀測範圍內,目標與跟蹤器進行零和博弈,即獎賞函數為跟蹤器的獎賞直接取負。在觀測範圍外,將在原來的基礎上得到一個額外的懲罰項,懲罰項的取值取決於目標與跟蹤器的觀測邊界的距離。

跟蹤可知模型是為了讓目標能夠針對跟蹤策略學會更優的對抗策略,所謂「知己知彼,百戰不殆」。具體的,除了其自身的視覺觀測外,還額外獲得了跟蹤器的觀測和動作輸出作為模型的輸入。

為了更好地學習關於跟蹤器的特徵表示,作者還引入了一個輔助任務:預測跟蹤器的即時獎賞值。

基於以上改進,「決鬥(Dueling)」雙方在觀測信息、獎賞函數、目標任務上將具備不對稱性(Asymmetric),因此將這種對抗機制稱之為「非對稱決鬥(Asymmetric Dueling)」。

實驗環境

作者在多種不同的2D和3D環境開展了實驗以更進一步驗證該方法的有效性。2D環境是一個簡單的矩陣地圖,用不同的數值分別表示障礙物、目標、跟蹤器等元素。

作者設計了兩種規則生成地圖中的障礙物分布(Block, Maze)。作者設計了兩種基於規則的目標運動模型作為基準:漫步者(Rambler)和導航者(Navigator)。

漫步者是隨機從選擇動作和持續的時間,生成的軌跡往往在一個局域範圍內移動(見Block-Ram中的黃色軌跡)。

導航者則是從地圖中隨機採樣目標點,然後沿著最短路逕到達目標,因此導航者將探索更大範圍(見Block-Nav中的黃色軌跡)。

將這些不同種的地圖和目標依次組合,構成了不同的訓練和測試環境。作者只用其中的一種地圖(Block)用作訓練,然後在所有可能的組合環境中測試,從而證明模型的泛化能力。

3D環境是基於UE4和UnrealCV[3]構建的虛擬環境。作者只用一個採取域隨機技術(環境中物體表面紋理、光照條件都可以進行隨機設置)的房間(DR Room, Domain Randomized Room)進行訓練,然後在三個不同場景的近真實場景中測試模型的性能。

實驗結果

在2D環境中,作者首先驗證了AD-VAT相比基準方法能夠帶來有效提升,同時進行了消融實驗來證明兩個改進方法的有效性。

左圖為AD-VAT(藍線)和基準方法在2D環境中的訓練曲線,可見AD-VAT能夠讓跟蹤器學得更快更好。右圖為消融實驗的結果,對比刪減不同模塊後的學習曲線,作者提出的兩個改進方法能夠使對抗強化學習的訓練更高效。

作者在3D環境中的實驗更進一步證明該方法的有效性和實用性。

在訓練過程中,作者觀測到了一個有趣的現象,目標會更傾向於跑到背景與其自身紋理接近的區域,以達到一種「隱身」的效果來迷惑跟蹤器。而跟蹤器在被不斷「難倒」後,最終學會了適應這些情況。

作者對比了由AD-VAT和兩種基準方法訓練的跟蹤器在不同場景中的平均累計獎賞(左圖)和平均跟蹤長度(右圖)。

其中,雪鄉(Snow Village)和地下停車場(Parking Lot)是兩個十分有挑戰性的環境,每個模型的性能都有不同程度的下降,但該論文提出的模型取得了更好的結果,說明了AD-VAT跟蹤器對複雜場景的適應能力更強。

雪鄉主要的挑戰在於地面崎嶇不平,且相機會被下落的雪花、逆光的光暈等因素幹擾導致目標被遮擋:

左圖為跟蹤器第一人稱視角,右圖為第三人稱視角

停車場中光線分布不均勻(亮暗變化劇烈),且目標可能被立柱遮擋:

左圖為跟蹤器第一人稱視角,右圖為第三人稱視角

參考文獻:

[1]Wenhan Luo*, Peng Sun*, Fangwei Zhong, Wei Liu, Tong Zhang, and Yizhou Wang. End-to-end active object tracking via reinforcement learning, In ICML 2018.

[2]Wenhan Luo*, Peng Sun*, Fangwei Zhong*, Wei Liu, Tong Zhang, and Yizhou Wang. End-to-end active object tracking and its real-world Deployment via reinforcement learning, In TPAMI 2019 (in press).

[3]Weichao Qiu, Fangwei Zhong, Yi Zhang, Siyuan Qiao, Zihao Xiao, Tae Soo Kim, Yizhou Wang, and Alan Yuille. Unrealcv: Virtual worlds for computer vision. In ACM-MM 2017.

相關焦點

  • 【新智元乾貨】計算機視覺必讀:目標跟蹤、圖像分類、人臉識別等
    Show, attend, and tell 注意力(attention)機制是機器翻譯中用於捕獲長距離依賴的常用技巧,也可以用於看圖說話。在解碼網絡中,每個時刻,除了預測下一個詞外,還需要輸出一個二維注意力圖,用於對深度卷積特徵進行加權匯合。使用注意力機制的一個額外的好處是可以對網絡進行可視化,以觀察在生成每個詞的時候網絡注意到圖像中的哪些部分。
  • 亮風臺推出全球最大單目標跟蹤數據集 LaSOT | CVPR 2019
    接下來,雷鋒網 AI 科技評論將為大家介紹亮風臺在 CVPR 2019 上展示的大規模單目標跟蹤高質量數據集 LaSOT,這一數據集包含超過 352 萬幀手工標註的圖片和 1400 個視頻,這也是目前為止最大的擁有密集標註的單目標跟蹤數據集。
  • Inside-out追蹤技術為何被業界一致看好
    可以這麼認為,電影中的五個情緒控制小精靈是一個人工智慧「小眼睛」,這個機器小眼睛被「植入」到你的頭戴顯示設備中,負責追蹤你和現實世界中的一舉一動,並通過計算機視覺算法同步到眼前的虛擬場景中,實現實時的多維度人機互動。
  • 什麼是Inside-out位置追蹤?為何被業界一致看好
    可以這麼認為,電影中的五個情緒控制小精靈是一個人工智慧「小眼睛」,這個機器小眼睛被「植入」到你的頭戴顯示設備中,負責追蹤你和現實世界中的一舉一動,並通過計算機視覺算法同步到眼前的虛擬場景中,實現實時的多維度人機互動。
  • 反無人機技術近期發展跟蹤
    一、無人機探測技術2019年2月,MyDefence公司聲稱研發出「諾克斯」(KNOX)可定製型端對端反無人機技術方案。「諾克斯」系統配有專用射頻傳感器、無人機雷達和視覺跟蹤使用的光電紅外線模組(EO/IR)。系統能探測闖入保護空域的小型無人機,抵禦無人機帶來的威脅。
  • 博弈論是如何用於遊戲中的策略設計的?
    博弈論本身是經濟學的一個分支,但是不要認為經濟學的東西只能用於MMO中的經濟系統的構建,而博弈論最為有趣的地方在於將人們的行為和目的量化成數學模型並以數學的方式分析。博弈論本身是一門很深入的學科(很多經濟學家也靠博弈論的研究獲得過諾貝爾獎),所以我這裡只是簡單的思考一下如何將博弈論用於遊戲中的策略設計。我將會從以下幾點去試著從博弈論的角度去分析遊戲中的策略設計:策略類型有幾種?
  • 《絕密跟蹤》明日震撼上映!!
    曾主演過《雛菊》、《劍雨》、《好雨時節》等多部影片的鄭雨盛從影20年首次顛覆形象在片中飾演最大反派角色,而擅長駕馭「文戲」的薛景求也將「棄武從文」與鄭雨盛赤手空拳一決高下,兩位影帝首次合作即展開一場慘烈的廝殺。該片在2小時內將警察與悍匪鬥智鬥勇的過程全盤託出,超強帶入感牽引觀眾一起追蹤,節奏緊張到窒息,成為此類犯罪片亮點,堪稱「犯罪神作」。
  • 索尼一系列VR專利曝光:有共享虛擬空間、注視點追蹤等功能的PSVR
    從現實世界的定位、面部跟蹤、手指跟蹤到內置耳機,索尼都對VR產生了極大的興趣,因為其最近提交的大量VR專利已經浮出水面。請注意,這些都是專利,因此不意味著它們中的功能可以用於任何商業產品。這些專利中的部分已於今年提交,並已在本月公開,因此所有人都可以訪問本文中找到的所有信息。
  • 快評|莫讓「網絡追蹤」變跟蹤
    無論是使用手機APP,還是使用電腦瀏覽網頁,你的網絡足跡可能正在被追蹤。所謂網絡追蹤,實際上是一種用於記憶和識別過往網站訪問痕跡的技術,通過解讀用戶在上網過程中留下的電子蹤跡,就可以搜集用戶的相應信息。而這些信息一般是用於算法分析,從而為客戶提供定製化的服務,以及廣告的個性化投放。前者可優化用戶體驗,後者能讓服務商盈利。
  • 谷歌上線Santa Tracker:用於跟蹤聖誕老人如何在全球各地送禮物
    據外媒CNET報導,在世界各地的聖誕節到來之際,谷歌已經開啟了「聖誕老人追蹤器」(Santa Tracker),用於跟蹤快樂的聖誕老人如何在全球各地送禮物。「聖誕老人追蹤器」網站上有一個聖誕老人路徑的實時 「追蹤器」,例如可以追蹤到聖誕老人在太平洋時間上午11點左右離開馬達加斯加。除了跟蹤路徑外,谷歌還有一個正在運行的 「送禮 」計數器,以及不斷更新的 「下一站」列表,顯示聖誕老人的去向。該網站類似於北美防空司令部的聖誕老人追蹤器,這是北美航空防務司令部的長期年度項目。
  • 三分靠運氣,七分靠博弈——心理博弈桌遊推薦
    但其實萬變不離其宗,遊戲中依然有很明顯的心理博弈方案可循,也算是這部經典劇集一種致敬了。 選擇了高收益絕不意味著高枕無憂,只要後面有玩家打出同樣的行動牌,你的收益將立即為零。
  • 預告:單目視覺的運動目標跟蹤定位|硬創公開課
    市場上空間定位的技術方案分為單目、雙目以及雷射雷達三大陣營,其中雷射雷達由於成本高昂市場接受度較低,而在都是基於計算機視覺的單目和雙目中在國內做計算機視覺技術方案的企業如圖漾、速感、人加智能等大多選擇了雙目,而選擇了單目的歡創科技則成為了少數派。那麼,雙目為何比單目更受市場青睞,兩者之間的技術差異在哪裡,單目又是如何實現空間定位與位置追蹤?本期雷鋒網硬創公開課邀請到歡創科技CEO周琨,詳細講解單目定位技術。嘉賓介紹:
  • ECCV 2020 | 騰訊優圖8篇論文入選,涵蓋目標跟蹤、行人重識別...
    ECCV(European Conference on ComputerVision,即歐洲計算機視覺國際會議)是國際頂尖的計算機視覺會議之一,每兩年舉行一次。隨著人工智慧的發展,計算機視覺的研究深入和應用迅速發展,每次舉行都會吸引大量的論文投稿,而今年ECCV的投稿量更是ECCV2018的兩倍還多,創下歷史新高。
  • 蘋果最新iPhone/iPad專利提出「遠程眼動追蹤」解決方案
    在遠程眼動追蹤的一個實施例中,兩個紅外光源以最小的基線距離相隔,並產生單獨的角膜反射。蘋果認為,現有的計算系統、傳感器和應用不能充分提供遠程眼動追蹤功能。日前美國專利商標局公布了一份名為「Sensor Fusion Eye Tracking」的專利申請,其主要描述了用於智慧型手機或平板電腦等設備的遠程眼動追蹤系統和方法。
  • 小心你的瀏覽痕跡被追蹤
    ◎ 科技日報記者 謝開飛 通訊員 許曉鳳 董佳琪在使用購物軟體、視頻軟體的時候,你想必都有這樣的體驗,購物軟體中「刷」到的內容,大多是依據你的喜好,精準推送的相似物品、款式;而你一旦瀏覽過「二次元」視頻,下次再打開視頻軟體,就會看到推送相似內容。這背後是網絡追蹤器在「作怪」。
  • Boris FX發布全新Mocha Pro 2019, Sapphire 2019 和Continuum 2019
    Mocha Pro 2019的新必備工作區和磁性 spline 工具在運動跟蹤和 roto-masking 方面得到了顯著進步。還發布了一款新的 Boris FX 應用程式管理工具,它可以讓啟動和停用Sapphire,Continuum 和 Mocha Pro 的使用許可相當輕鬆。
  • 《清徵江湖》第十九期:區塊鏈與博弈論:對抗與統一
    舉個最簡單的例子,你在跟朋友打麻將的過程中偷偷出老千,只要你的技術夠好,你的朋友也是發現不了的,這時候就算重複博弈再多次,就算打他十圈八圈,也不會失去對方的信任,當然前提是你不能把把都胡清一色自摸三家哈。徵:要不然就算你不是出老千的,你的朋友也肯定不願意跟你打麻將了。
  • 《絕密跟蹤》好一個跟蹤
    電影開頭,女主角跟蹤後來監視班的領導,在快餐店被發現,隨即被問了一連串問題:很喜歡這個情節設定,女主將一路跟蹤的點點滴滴回想、複述,讓觀眾看起來不禁會「哇」的一聲叫出來。隨後情節便來到跟蹤大反派,鄭雨盛。當時是,鄭雨盛手底下的班子在搶劫銀行,鄭雨盛是總指揮。
  • 大華股份AI榮獲視覺目標跟蹤算法評測全球排名第一
    近日,大華股份基於深度學習的視覺目標跟蹤算法,在通用目標跟蹤評測集GOT-10k(Generic Object Tracking Benchmark)上獲得綜合精度排行榜第一,超越了其它一流AI公司和頂尖的學術研究機構;同時在OTB2015/VOT2018/VOT2019數據集上刷新了當前跟蹤算法
  • 讓行李「主動說話」 南航獲國際航協行李追蹤全網絡合規認證
    原標題:讓行李「主動說話」 南航獲國際航協行李追蹤全網絡合規認證