TPAMI | 從虛擬到現實,一種基於強化學習的端到端主動目標跟蹤方法

2020-11-28 雷鋒網

雷鋒網 AI 科技評論按：本文是人工智慧頂級國際期刊 TPAMI 入選論文《End to end Active Object Tracking and Its Real world Deployment via Reinforcement Learning》的深入解讀，首發於北京大學前沿計算研究中心，雷鋒網 AI 科技評論獲其授權轉載。

該論文由騰訊 AI Lab 與北京大學合作共同完成，該研究同時也入選了 2018 騰訊 AI Lab 犀牛鳥專項研究計劃。該論文主要提出了一種基於強化學習的端到端主動目標跟蹤方法，通過自定義獎賞函數和環境增強技術在虛擬環境中訓練得到魯棒的主動跟蹤器，並在真實場景中對模型的泛化能力進行了進一步的驗證。

簡介

主動目標跟蹤是指智能體根據視覺觀測信息主動控制相機的移動，從而實現對目標物體的跟蹤（與目標保持特定距離）。主動視覺跟蹤在很多真實機器人任務中都有需求，如用無人機跟拍目標拍攝視頻，智能跟隨旅行箱等。然而，傳統的實現方法是將圖像中的目標跟蹤和相機控制分成兩個獨立的任務，這導致系統在進行聯調優化時變得繁瑣複雜。此外，要單獨實現這兩個任務的代價也是高昂的，既需要大量人工標註目標位置用於訓練跟蹤模塊，也需要在真實系統中通過試錯制定相機控制器參數。

為了解決上述問題，本文提出一種基於深度強化學習的端到端的解決方案，即用一個 Conv-LSTM 神經網絡直接將圖像序列輸入映射成控制信號輸出（如前進、左轉等）。為了避免人工標記數據和在真實環境試錯，我們使用仿真環境進行訓練。我們進一步提出了一種環境增強技術和自定義的獎賞函數，以保證訓練得到一個魯棒的端到端主動跟蹤器。

實驗證明，在仿真環境訓練得到的跟蹤器能取得很好的泛化能力，在沒見過的目標外觀、移動軌跡、背景外觀和幹擾物體出現等情況下都能較穩定工作。當目標偶然消失時，跟蹤器也能魯棒地恢復跟蹤。我們還發現，這種只在仿真器中訓練得到的主動跟蹤器是有可能直接遷移到真實場景中工作的。我們分兩階段實驗，驗證了這種虛擬到現實遷移的能力。首先，我們在 VOT 數據集進行了定性測試，即觀察動作輸出的合理性。最終，我們系統解決了虛擬到現實的問題，將主動跟蹤器成功部署在真實移動機器人上，並進行了定量測試。

左圖：一個機器人主動跟隨目標移動（圖源：網絡）

右圖：對比基於強化學習的端到端主動跟蹤和傳統的跟蹤方法

主要貢獻

論文的主要貢獻包括：

一種基於強化學習的端到端主動目標跟蹤的方法；設計了一種用於主動跟蹤的獎賞函數用於訓練，並採用環境增強技術提升模型泛化能力；第一個實現將端到端主動跟蹤器從虛擬環境遷移部署到現實世界。本文以之前會議版本（ICML2018）的論文 [1] 為基礎，主要擴展實現了從虛擬到現實的遷移（第三點貢獻），即提供了將在虛擬環境中訓練獲得的端到端跟蹤器成功部署在真實機器人上的實現方案。具體地，為了克服因虛擬與現實之間的差異帶來的挑戰，我們主要考慮解決以下三個問題：

如何進一步增強環境來提升模型的泛化能力？什麼樣的動作空間更適合真實機器人？如何將網絡輸出的動作映射成真實的控制信號？主要方法介紹

首先我們生成了大量的虛擬跟蹤場景用於訓練和測試。然後，我們採用 Conv-LSMT 網絡結構實現端到端的映射（輸入圖像，輸出動作），並用經典的強化學習算法 A3C[2] 進行訓練。為了保證訓練的魯棒性和有效性，我們提出了環境增強方法和設計了獎賞函數。具體的介紹如下：

跟蹤環境

強化學習的訓練需要大量試錯，這導致在真實環境下訓練主動跟蹤器基本上是不可能的。因此，我們基於兩種遊戲引擎（VizDoom 和 Unreal Engine）分別構建了不同的跟蹤場景用於訓練和測試，如下圖所示：

Vizdoom 環境的地圖和示例。其中，綠色點代表跟蹤器（箭頭代表方向），灰色點代表目標, 藍線代表規劃的目標的路徑，黑線代表牆壁。最左邊的場景為訓練環境，其餘場景為測試環境，包含了不同的目標軌跡、目標外觀、背景顏色，以及幹擾物體等情況。

Unreal Engine 環境的地圖和示例。從左到右分別為兩種外觀的目標（Stefani 和 Malcom），兩種軌跡（Paht1 和 Path2）和地圖（Square1 和 Square2），對應的兩種場景的示例，通過不同組合構成了不同的跟蹤場景。我們用其中一種組合進行訓練，其餘組合環境進行測試。

網絡結構

端到端的主動跟蹤器主要由三個部分組成：觀測編碼器（Observation Encoder），序列編碼器（Sequence Encoder）和演員-批評家網絡（Actor-Critic Network）。如下圖所示：

每個部件有著特定的功能，都是實現端到端主動跟蹤必不可少的組成部分：

觀測編碼器主要將原始圖像編碼成一個特徵向量，作為序列編碼器的輸入。與很多圖像編碼網絡一樣，它通常包含了卷積層、池化層和全連接層等。序列編碼器將歷史觀測特徵進行融合，從而獲得一個包含時序特徵的表示，作為後續演員-批評家網絡的輸入。因為對於主動跟蹤問題而言，除了要識別和定位目標，相應的時序特徵（目標的速度、移動方向等）也是至關重要的。一般，它的功能由循環神經網絡來實現。演員-批評家網絡共享序列編碼器的特徵作為輸入，分別輸出近似的價值函數和動作策略。近似的價值函數代表著期望的累計獎賞值，主要在訓練時用於計算演員的策略梯度，來更新網絡。當動作空間為離散時，演員輸出選擇每種動作的概率；當動作空間為連續時，演員輸出每一維度動作的平均值和標準差，並用高斯分布來表示動作分布。實驗中，它們分別由全連接層來實現。獎賞函數

在強化學習中，獎賞函數會引導智能體學習，對最終學習效果起著至關重要的作用。針對主動目標跟蹤任務，我們需要設計一個獎賞函數以引導智能體學習。最直觀的想法應該是在目標接近期望位置時給與獎勵，在遠離時給與懲罰。因此，我們以跟蹤器為中心定義了一個平行於地面的坐標系，y 軸指向相機前方，x 軸由相機左方指向正右方。對應的，我們用 (x,y) 和 ω 分別表示目標相對跟蹤器的位置和朝向。從而，我們得到了如下一個獎賞函數：

其中，A，c，d，λ 均大於 0，為可以調整的超參, d 代表了期望保持的距離。在這個獎賞函數引導下，智能體最終學會控制相機位置，保持目標始終在其正前方距離為 d 處。下圖為地圖俯視圖下的示例：

綠點代表了跟蹤器，灰點代表了不同位置和朝向（箭頭指向）的目標，虛線與跟蹤器的 y 軸相平行。

環境增強技術

為了保證模型的泛化能力，我們提出了簡單但有效的環境增強技術用於訓練。

我們主要採用了以下隨機化方式：

隨機生成跟蹤器和目標的初始位置和朝向將輸入圖像進行左右鏡像對稱（對應的動作空間也將鏡像對稱）隨機隱藏一定數目的背景物體

上述三點（細節見原文），一定程度上保證了跟蹤器的泛化能力。

為了更近一步提升模型的泛化能力以便直接遷移至真實場景，我們對關鍵要素進行了更進一步的隨機化，包括：

目標和背景的表面材質（紋理圖案、反射率、粗糙度等）；光照條件（光源位置、方向、顏色和強度）；目標移動（軌跡和移動速度）。具體地，從地圖中隨機選擇一個位置並用內置導航模塊生成相應路徑引導目標移動。在移動過程中隨機調節速度，其範圍在（0.1m/s, 1.5m/s）之間。紋理和光照的隨機化主要為了提升觀測編碼器的泛化能力，避免網絡對特定場景和目標外觀過擬合。而目標移動的隨機化是為了提升序列編碼器的泛化能力，避免網絡對特定的移動軌跡過擬合。

下圖為採用上述隨機化方法後生成的示例：

實驗驗證

首先，我們分別在 ViZDoom 和 UE 環境中開展實驗，並在 VOT 數據集中定性驗證了模型遷移到真實場景的可能性。之後，我們將介紹如何將主動跟蹤器部署到真實機器人上工作，並分別在兩個室內室外真實場景中進行了定量實驗。

在虛擬環境中進行訓練和測試

這裡，我們將展示幾段虛擬環境中的演示視頻 (實驗細節可參考原文)，展示我們的方法訓練得到的跟蹤器在 VizDoom 和 UE 環境中的結果。

虛擬到真實遷移的可能性

我們選擇了幾段 VOT 數據集中的片段定性驗證模型遷移到真實數據集的可能性。因為輸出動作無法直接作用到已經錄製好的視頻序列，控制下一時刻的觀察，因此我們只能通過觀察當模型輸入給定視頻序列時對應的動作輸出與真實期望的情況是否一致來判定定性分析模型性能，如目標在畫面左邊時，觀察是否輸出左轉動作。

跟蹤器輸出動作與目標位置和大小的關係。橫坐標代表目標中心相對畫面中心的偏差，縱坐標代表目標包圍框的面積，綠點代表輸出左轉動作，紅點代表右轉動作，黃點代表停止/後退。

由上圖可見，當目標在左（右）邊上，跟蹤器會傾向於輸出左（右）轉，以期望通過旋轉將目標移動到畫面中心，另外，當目標尺寸變大時，會更傾向於輸出停止/後退動作, 以避免目標尺寸變得過大。以上結果，可以說明當輸入真實圖像時，用純虛擬環境訓練的主動跟蹤器仍然是可以輸出合理的動作的。但是，用錄製好的視頻作為輸入時，相機無法被跟蹤器所控制，這與真實的主動跟蹤不完全符合，這就無法最終證明我們方法的實際應用價值。因此，我們將開展實驗，將虛擬環境訓練的主動跟蹤模型遷移到真實機器人上的。

在真實場景中的主動目標跟蹤

我們在增強的虛擬環境中進行訓練，嘗試了不同動作空間（更多的候選動作，連續的動作），並直接將訓練得到的模型在不同真實環境（室內，室外）中進行測試。

動作空間的選擇

除了採用上文提到的更先進的環境增強技術，我們還嘗試了不同的動作空間。最早虛擬環境中的實驗只提供了六種動作，而對於複雜的真實場景，要適應不同的目標速度和運動方向，這是不夠的。因此，我們擴展了原來六種動作至九種，新增的動作有後退和兩種不同速度的前進和後退。加入後退使得機器人可以適應更複雜的軌跡，如目標正面向跟蹤器走來時。不同速度使得機器人可以更好地適應不同的移動速度。下表為九種動作在虛擬和真實場景下的設置（第二列為虛擬環境，第三列為真實機器人）：

我們也對連續動作空間下的表現能力感興趣，因此我們嘗試了一種二維的動作空間，由線速度和角速度組成。具體的虛擬和現實的設置如下表：

真實場景實驗設置

我們採用一個輪式機器人進行實驗，如下圖 (a) 中所示。機器人上方固定有一個 RGB-D 攝像頭，離地面約 80cm 高。我們用一個帶有 8 核 Intel CPU 的筆記本電腦作為計算平臺，執行圖像採集，神經網絡的推理和傳送控制指令至底層控制器等系列任務。每個 50ms (20Hz) 跟蹤器的狀態和動作會更新迭代一次。

我們分別在室內房間下圖 (b) 和室外陽臺下圖 (c) 進行測試，以衡量模型部署到真實場景工作的性能。

真實場景實驗的部署設置。(a) 為實驗所用的機器人；(b) (c) 分別為用於測試的室內、室外場景。

室內房間包括了一張桌子和反射的玻璃牆，玻璃牆會使得機器人在運動過程中觀測到的背景發生動態變化。另外，牆上還貼了一張與目標外型接近的海報，可能會對跟蹤者產生幹擾。為了控制變量，目標將沿著紅線進行行走。下圖為執行連續動作的主動跟蹤器在室內的演示序列。

執行連續動作的主動跟蹤器在室內場景的觀測與輸出動作的關係。注意，數值極性對應不同速度方向。至於角速度，正值為左，負值為右。至於線速度，正值為向前，負值為後退。圖像中心的紅點是一個參考點，可以幫助我們標記目標和機器人的相對位置。底部綠條的長度代表速度的大小，水平條代表角速度，垂直條表示線速度。橙色線代表零值。

室外陽臺的背景包含了建築物、桌子、椅子、植物和天空。相比於室內場景，室外陽臺更加複雜，因為物體是隨機雜亂擺放的。另外，由於光線不均勻，相機很難準確曝光，這就需要跟蹤器適應不同曝光程度的圖像觀測（如下圖序列）。測試時，目標將沿著場地行走一圈。

一段跟蹤器在室外執行離散動作進行跟蹤的序列。紅點代表畫面中心，水平條形代表跟蹤器輸出的期望角速度，垂直的則代表期望線速度。橙線代表零值。

真實場景的實驗結果

我們對跟蹤器在上述兩個真實場景下的性能進行了定量測試，主要考慮模型的準確性和魯棒性。因為在真實場景中我們無法獲得計算獎賞函數所需要的具體坐標位置，因此我們需要採用其它方式衡量。我們規定，當跟蹤器讓目標持續出現在當前畫面當中，直到目標走完全程軌跡，視作一次成功跟蹤，反之，當目標從畫面中持續消失 3s 以上時，就認為是一次失敗的跟蹤。關於準確度，我們考慮目標大小和目標到畫面中心的偏差兩個指標。目標大小的穩定代表了跟蹤器對相對距離的控制能力，目標到畫面中心的偏差代表了跟蹤器對相對夾角的控制能力。我們採用當前流行的檢測器 YOLOv3[3] 來提取目標的包圍框，以計算上述指標。

我們在兩個真實環境中，分別測試了跟蹤器執行離散動作和連續動作下的性能指標（每種跟蹤器在每個場景中分別執行了十次），結果如下表所示：

通過上表可見，採取離散動作的跟蹤器在兩個場景中都可以取得更高的成功率。在室外，離散動作可以讓目標大小保持更加穩定（更小的方差）。無論是室內室外，基於離散動作的跟蹤器都能保證更小的平均偏差。綜合這些結果，說明了採用離散動作可以幫助模型更好更魯棒地遷移到真實場景。我們猜想對動作空間離散化可以使得智能體對場景中的幹擾和機器人控制系統的噪聲都更加魯棒，而連續空間會更加敏感。

下面，我們將分別展示兩段主動跟蹤器在室內外真實場景中的演示視頻。

總結

在本文中，我們提出了一種基於深度強化學習的端到端主動目標跟蹤方法。與傳統視頻跟蹤不同，我們提出的跟蹤器只需要在模擬器中訓練，節省人工標記和在現實世界中的試錯調參。實驗表明，它對未見過的環境有著良好的泛化能力。通過開發更先進的環境增強技術並採用更合適的動作空間，我們已成功將跟蹤器部署在了一個機器人上，在真實世界中實現主動目標跟蹤。

更多細節和實驗結果請參考原文：

https://ieeexplore.ieee.org/document/8642452/

參考文獻：

[1]Wenhan Luo*, Peng Sun*, Fangwei Zhong, Wei Liu, Tong Zhang, and Yizhou Wang. End-to-end active object tracking via reinforcement learning, In ICML 2018.

[2]V. Mnih, A. P. Badia, M. Mirza, A. Graves, T. Lillicrap, T. Harley, D. Silver, and K. Kavukcuoglu, Asynchronous methods for deep reinforcement learning, in International conference on machine learning, 2016, pp. 1928–1937.

[3]J. Redmon and A. Farhadi, Yolov3: An incremental improvement, arXiv preprint arXiv: 1804.02767, 2018.

TPAMI

IEEE Transactions on Pattern Analysis and Machine Intelligence（IEEE TPAMI）是人工智慧領域最頂級國際期刊（CCF A 類，SCI 一區，2017 年影響因子 9.455），對論文的原創性有很高的要求，並以嚴苛的審稿過程著稱，每年收錄的論文數量十分有限。

TPAMI | 從虛擬到現實,一種基於強化學習的端到端主動目標跟蹤方法

相關焦點

伯克利開源端到端深度強化學習方案,無需獎勵工程即可高效學習

深度學習預測RNA二級結構,螞蟻金服提出端到端模型E2Efold

Arm分享:從科幻到現實,移動端全息顯示計算的發展進步

今日Paper | COVID-19感染者篩查;生成式摘要;圖像融合數據集;端到...

基於虛擬實境的網絡化上肢康復訓練系統

以點代物,同時執行目標檢測和跟蹤,這個新方法破解目標跟蹤難題

端到端聲源分離研究:現狀、進展和未來

語音識別新範式:完全的「端到端」模型,優勢在哪裡?

強化學習的10個現實應用

紐約大學提出端到端優化圖像壓縮方法,全面超越JPEG 2000 | ICLR...

12倍端到端加速,陳天奇創業公司OctoML提克服二值網絡瓶頸新方法

紐約大學提出端到端優化圖像壓縮方法,全面超越JPEG2000|ICLR2017

谷歌提出移動端AutoML模型MnasNet:精度無損速度更快

構建端到端ML框架的經歷啟示錄

谷歌開源基於 ML 的手部跟蹤算法:手機端實時檢測,多個手勢同時捕捉

從數據集到2D和3D方法,一文概覽目標檢測領域進展

會移動的實驗室:NOBOOK虛擬實驗室可在移動端安裝

增強現實技術及其實現方法初探

ICML論文|阿爾法狗CTO講座: AI如何用新型強化學習玩轉圍棋撲克遊戲

圖鴨科技獲CVPR 2018圖像壓縮挑戰賽單項冠軍,技術解讀端到端圖像...