TPAMI | 從虛擬到現實,一種基於強化學習的端到端主動目標跟蹤方法

2020-11-28 雷鋒網

雷鋒網 AI 科技評論按:本文是人工智慧頂級國際期刊 TPAMI 入選論文《End to end Active Object Tracking and Its Real world Deployment via Reinforcement Learning》的深入解讀,首發於北京大學前沿計算研究中心,雷鋒網 AI 科技評論獲其授權轉載。

該論文由騰訊 AI Lab 與北京大學合作共同完成,該研究同時也入選了 2018 騰訊 AI Lab 犀牛鳥專項研究計劃。該論文主要提出了一種基於強化學習的端到端主動目標跟蹤方法,通過自定義獎賞函數和環境增強技術在虛擬環境中訓練得到魯棒的主動跟蹤器,並在真實場景中對模型的泛化能力進行了進一步的驗證。

簡介

主動目標跟蹤是指智能體根據視覺觀測信息主動控制相機的移動,從而實現對目標物體的跟蹤(與目標保持特定距離)。主動視覺跟蹤在很多真實機器人任務中都有需求,如用無人機跟拍目標拍攝視頻,智能跟隨旅行箱等。然而,傳統的實現方法是將圖像中的目標跟蹤和相機控制分成兩個獨立的任務,這導致系統在進行聯調優化時變得繁瑣複雜。此外,要單獨實現這兩個任務的代價也是高昂的,既需要大量人工標註目標位置用於訓練跟蹤模塊,也需要在真實系統中通過試錯制定相機控制器參數。

為了解決上述問題,本文提出一種基於深度強化學習的端到端的解決方案,即用一個 Conv-LSTM 神經網絡直接將圖像序列輸入映射成控制信號輸出(如前進、左轉等)。為了避免人工標記數據和在真實環境試錯,我們使用仿真環境進行訓練。我們進一步提出了一種環境增強技術和自定義的獎賞函數,以保證訓練得到一個魯棒的端到端主動跟蹤器。

實驗證明,在仿真環境訓練得到的跟蹤器能取得很好的泛化能力,在沒見過的目標外觀、移動軌跡、背景外觀和幹擾物體出現等情況下都能較穩定工作。當目標偶然消失時,跟蹤器也能魯棒地恢復跟蹤。我們還發現,這種只在仿真器中訓練得到的主動跟蹤器是有可能直接遷移到真實場景中工作的。我們分兩階段實驗,驗證了這種虛擬到現實遷移的能力。首先,我們在 VOT 數據集進行了定性測試,即觀察動作輸出的合理性。最終,我們系統解決了虛擬到現實的問題,將主動跟蹤器成功部署在真實移動機器人上,並進行了定量測試。

左圖:一個機器人主動跟隨目標移動(圖源:網絡)

右圖:對比基於強化學習的端到端主動跟蹤和傳統的跟蹤方法

主要貢獻

論文的主要貢獻包括:

一種基於強化學習的端到端主動目標跟蹤的方法;設計了一種用於主動跟蹤的獎賞函數用於訓練,並採用環境增強技術提升模型泛化能力;第一個實現將端到端主動跟蹤器從虛擬環境遷移部署到現實世界。本文以之前會議版本(ICML2018)的論文 [1] 為基礎,主要擴展實現了從虛擬到現實的遷移(第三點貢獻),即提供了將在虛擬環境中訓練獲得的端到端跟蹤器成功部署在真實機器人上的實現方案。具體地,為了克服因虛擬與現實之間的差異帶來的挑戰,我們主要考慮解決以下三個問題:

如何進一步增強環境來提升模型的泛化能力?什麼樣的動作空間更適合真實機器人?如何將網絡輸出的動作映射成真實的控制信號?主要方法介紹

首先我們生成了大量的虛擬跟蹤場景用於訓練和測試。然後,我們採用 Conv-LSMT 網絡結構實現端到端的映射(輸入圖像,輸出動作),並用經典的強化學習算法 A3C[2] 進行訓練。為了保證訓練的魯棒性和有效性,我們提出了環境增強方法和設計了獎賞函數。具體的介紹如下:

跟蹤環境

強化學習的訓練需要大量試錯,這導致在真實環境下訓練主動跟蹤器基本上是不可能的。因此,我們基於兩種遊戲引擎(VizDoom 和 Unreal Engine)分別構建了不同的跟蹤場景用於訓練和測試,如下圖所示:

Vizdoom 環境的地圖和示例。其中,綠色點代表跟蹤器(箭頭代表方向),灰色點代表目標, 藍線代表規劃的目標的路徑,黑線代表牆壁。最左邊的場景為訓練環境,其餘場景為測試環境,包含了不同的目標軌跡、目標外觀、背景顏色,以及幹擾物體等情況。

Unreal Engine 環境的地圖和示例。從左到右分別為兩種外觀的目標(Stefani 和 Malcom),兩種軌跡(Paht1 和 Path2)和地圖(Square1 和 Square2),對應的兩種場景的示例,通過不同組合構成了不同的跟蹤場景。我們用其中一種組合進行訓練,其餘組合環境進行測試。

網絡結構

端到端的主動跟蹤器主要由三個部分組成:觀測編碼器(Observation Encoder),序列編碼器(Sequence Encoder)和演員-批評家網絡(Actor-Critic Network)。如下圖所示:

每個部件有著特定的功能,都是實現端到端主動跟蹤必不可少的組成部分:

觀測編碼器主要將原始圖像編碼成一個特徵向量,作為序列編碼器的輸入。與很多圖像編碼網絡一樣,它通常包含了卷積層、池化層和全連接層等。序列編碼器將歷史觀測特徵進行融合,從而獲得一個包含時序特徵的表示,作為後續演員-批評家網絡的輸入。因為對於主動跟蹤問題而言,除了要識別和定位目標,相應的時序特徵(目標的速度、移動方向等)也是至關重要的。一般,它的功能由循環神經網絡來實現。演員-批評家網絡共享序列編碼器的特徵作為輸入,分別輸出近似的價值函數和動作策略。近似的價值函數代表著期望的累計獎賞值,主要在訓練時用於計算演員的策略梯度,來更新網絡。當動作空間為離散時,演員輸出選擇每種動作的概率;當動作空間為連續時,演員輸出每一維度動作的平均值和標準差,並用高斯分布來表示動作分布。實驗中,它們分別由全連接層來實現。獎賞函數

在強化學習中,獎賞函數會引導智能體學習,對最終學習效果起著至關重要的作用。針對主動目標跟蹤任務,我們需要設計一個獎賞函數以引導智能體學習。最直觀的想法應該是在目標接近期望位置時給與獎勵,在遠離時給與懲罰。因此,我們以跟蹤器為中心定義了一個平行於地面的坐標系,y 軸指向相機前方,x 軸由相機左方指向正右方。對應的,我們用 (x,y) 和 ω 分別表示目標相對跟蹤器的位置和朝向。從而,我們得到了如下一個獎賞函數:

其中,A,c,d,λ 均大於 0,為可以調整的超參, d 代表了期望保持的距離。在這個獎賞函數引導下,智能體最終學會控制相機位置,保持目標始終在其正前方距離為 d 處。下圖為地圖俯視圖下的示例:

綠點代表了跟蹤器,灰點代表了不同位置和朝向(箭頭指向)的目標,虛線與跟蹤器的 y 軸相平行。

環境增強技術

為了保證模型的泛化能力,我們提出了簡單但有效的環境增強技術用於訓練。

我們主要採用了以下隨機化方式:

隨機生成跟蹤器和目標的初始位置和朝向將輸入圖像進行左右鏡像對稱(對應的動作空間也將鏡像對稱)隨機隱藏一定數目的背景物體

上述三點(細節見原文),一定程度上保證了跟蹤器的泛化能力。

為了更近一步提升模型的泛化能力以便直接遷移至真實場景,我們對關鍵要素進行了更進一步的隨機化,包括:

目標和背景的表面材質(紋理圖案、反射率、粗糙度等);光照條件(光源位置、方向、顏色和強度);目標移動(軌跡和移動速度)。具體地,從地圖中隨機選擇一個位置並用內置導航模塊生成相應路徑引導目標移動。在移動過程中隨機調節速度,其範圍在(0.1m/s, 1.5m/s)之間。紋理和光照的隨機化主要為了提升觀測編碼器的泛化能力,避免網絡對特定場景和目標外觀過擬合。而目標移動的隨機化是為了提升序列編碼器的泛化能力,避免網絡對特定的移動軌跡過擬合。

下圖為採用上述隨機化方法後生成的示例:

實驗驗證

首先,我們分別在 ViZDoom 和 UE 環境中開展實驗,並在 VOT 數據集中定性驗證了模型遷移到真實場景的可能性。之後,我們將介紹如何將主動跟蹤器部署到真實機器人上工作,並分別在兩個室內室外真實場景中進行了定量實驗。

在虛擬環境中進行訓練和測試

這裡,我們將展示幾段虛擬環境中的演示視頻 (實驗細節可參考原文),展示我們的方法訓練得到的跟蹤器在 VizDoom 和 UE 環境中的結果。

虛擬到真實遷移的可能性

我們選擇了幾段 VOT 數據集中的片段定性驗證模型遷移到真實數據集的可能性。因為輸出動作無法直接作用到已經錄製好的視頻序列,控制下一時刻的觀察,因此我們只能通過觀察當模型輸入給定視頻序列時對應的動作輸出與真實期望的情況是否一致來判定定性分析模型性能,如目標在畫面左邊時,觀察是否輸出左轉動作。

跟蹤器輸出動作與目標位置和大小的關係。橫坐標代表目標中心相對畫面中心的偏差,縱坐標代表目標包圍框的面積,綠點代表輸出左轉動作,紅點代表右轉動作,黃點代表停止/後退。

由上圖可見,當目標在左(右)邊上,跟蹤器會傾向於輸出左(右)轉,以期望通過旋轉將目標移動到畫面中心,另外,當目標尺寸變大時,會更傾向於輸出停止/後退動作, 以避免目標尺寸變得過大。以上結果,可以說明當輸入真實圖像時,用純虛擬環境訓練的主動跟蹤器仍然是可以輸出合理的動作的。但是,用錄製好的視頻作為輸入時,相機無法被跟蹤器所控制,這與真實的主動跟蹤不完全符合,這就無法最終證明我們方法的實際應用價值。因此,我們將開展實驗,將虛擬環境訓練的主動跟蹤模型遷移到真實機器人上的。

在真實場景中的主動目標跟蹤

我們在增強的虛擬環境中進行訓練,嘗試了不同動作空間(更多的候選動作,連續的動作),並直接將訓練得到的模型在不同真實環境(室內,室外)中進行測試。

動作空間的選擇

除了採用上文提到的更先進的環境增強技術,我們還嘗試了不同的動作空間。最早虛擬環境中的實驗只提供了六種動作,而對於複雜的真實場景,要適應不同的目標速度和運動方向,這是不夠的。因此,我們擴展了原來六種動作至九種,新增的動作有後退和兩種不同速度的前進和後退。加入後退使得機器人可以適應更複雜的軌跡,如目標正面向跟蹤器走來時。不同速度使得機器人可以更好地適應不同的移動速度。下表為九種動作在虛擬和真實場景下的設置(第二列為虛擬環境,第三列為真實機器人):

我們也對連續動作空間下的表現能力感興趣,因此我們嘗試了一種二維的動作空間,由線速度和角速度組成。具體的虛擬和現實的設置如下表:

真實場景實驗設置

我們採用一個輪式機器人進行實驗,如下圖 (a) 中所示。機器人上方固定有一個 RGB-D 攝像頭,離地面約 80cm 高。我們用一個帶有 8 核 Intel CPU 的筆記本電腦作為計算平臺,執行圖像採集,神經網絡的推理和傳送控制指令至底層控制器等系列任務。每個 50ms (20Hz) 跟蹤器的狀態和動作會更新迭代一次。

我們分別在室內房間下圖 (b) 和室外陽臺下圖 (c) 進行測試,以衡量模型部署到真實場景工作的性能。

真實場景實驗的部署設置。(a) 為實驗所用的機器人;(b) (c) 分別為用於測試的室內、室外場景。

室內房間包括了一張桌子和反射的玻璃牆,玻璃牆會使得機器人在運動過程中觀測到的背景發生動態變化。另外,牆上還貼了一張與目標外型接近的海報,可能會對跟蹤者產生幹擾。為了控制變量,目標將沿著紅線進行行走。下圖為執行連續動作的主動跟蹤器在室內的演示序列。

執行連續動作的主動跟蹤器在室內場景的觀測與輸出動作的關係。注意,數值極性對應不同速度方向。至於角速度,正值為左,負值為右。至於線速度,正值為向前,負值為後退。圖像中心的紅點是一個參考點,可以幫助我們標記目標和機器人的相對位置。底部綠條的長度代表速度的大小,水平條代表角速度,垂直條表示線速度。橙色線代表零值。

室外陽臺的背景包含了建築物、桌子、椅子、植物和天空。相比於室內場景,室外陽臺更加複雜,因為物體是隨機雜亂擺放的。另外,由於光線不均勻,相機很難準確曝光,這就需要跟蹤器適應不同曝光程度的圖像觀測(如下圖序列)。測試時,目標將沿著場地行走一圈。

一段跟蹤器在室外執行離散動作進行跟蹤的序列。紅點代表畫面中心,水平條形代表跟蹤器輸出的期望角速度,垂直的則代表期望線速度。橙線代表零值。

真實場景的實驗結果

我們對跟蹤器在上述兩個真實場景下的性能進行了定量測試,主要考慮模型的準確性和魯棒性。因為在真實場景中我們無法獲得計算獎賞函數所需要的具體坐標位置,因此我們需要採用其它方式衡量。我們規定,當跟蹤器讓目標持續出現在當前畫面當中,直到目標走完全程軌跡,視作一次成功跟蹤,反之,當目標從畫面中持續消失 3s 以上時,就認為是一次失敗的跟蹤。關於準確度,我們考慮目標大小和目標到畫面中心的偏差兩個指標。目標大小的穩定代表了跟蹤器對相對距離的控制能力,目標到畫面中心的偏差代表了跟蹤器對相對夾角的控制能力。我們採用當前流行的檢測器 YOLOv3[3] 來提取目標的包圍框,以計算上述指標。

我們在兩個真實環境中,分別測試了跟蹤器執行離散動作和連續動作下的性能指標(每種跟蹤器在每個場景中分別執行了十次),結果如下表所示:

通過上表可見,採取離散動作的跟蹤器在兩個場景中都可以取得更高的成功率。在室外,離散動作可以讓目標大小保持更加穩定(更小的方差)。無論是室內室外,基於離散動作的跟蹤器都能保證更小的平均偏差。綜合這些結果,說明了採用離散動作可以幫助模型更好更魯棒地遷移到真實場景。我們猜想對動作空間離散化可以使得智能體對場景中的幹擾和機器人控制系統的噪聲都更加魯棒,而連續空間會更加敏感。

下面,我們將分別展示兩段主動跟蹤器在室內外真實場景中的演示視頻。

總結

在本文中,我們提出了一種基於深度強化學習的端到端主動目標跟蹤方法。與傳統視頻跟蹤不同,我們提出的跟蹤器只需要在模擬器中訓練,節省人工標記和在現實世界中的試錯調參。實驗表明,它對未見過的環境有著良好的泛化能力。通過開發更先進的環境增強技術並採用更合適的動作空間,我們已成功將跟蹤器部署在了一個機器人上,在真實世界中實現主動目標跟蹤。

更多細節和實驗結果請參考原文:

https://ieeexplore.ieee.org/document/8642452/

參考文獻:

[1]Wenhan Luo*, Peng Sun*, Fangwei Zhong, Wei Liu, Tong Zhang, and Yizhou Wang. End-to-end active object tracking via reinforcement learning, In ICML 2018.

[2]V. Mnih, A. P. Badia, M. Mirza, A. Graves, T. Lillicrap, T. Harley, D. Silver, and K. Kavukcuoglu, Asynchronous methods for deep reinforcement learning, in International conference on machine learning, 2016, pp. 1928–1937.

[3]J. Redmon and A. Farhadi, Yolov3: An incremental improvement, arXiv preprint arXiv: 1804.02767, 2018.

TPAMI

IEEE Transactions on Pattern Analysis and Machine Intelligence(IEEE TPAMI)是人工智慧領域最頂級國際期刊(CCF A 類,SCI 一區,2017 年影響因子 9.455),對論文的原創性有很高的要求,並以嚴苛的審稿過程著稱,每年收錄的論文數量十分有限。

相關焦點

  • 伯克利開源端到端深度強化學習方案,無需獎勵工程即可高效學習
    然而,這種作法顯然無法讓此類機器人掌握一切新型任務,意味著我們在機器人領域廣泛採用強化學習技術時勢必面臨重大瓶頸,更遑論在缺乏傳感設置的開放世界環境中直接使用強化學習方法。為此,我們開發出一種端到端新方法,允許機器人從描述任務成功完成的適度數量圖像中學習,從而擺脫對手動獎勵工程的依賴性。
  • 深度學習預測RNA二級結構,螞蟻金服提出端到端模型E2Efold
    本文將介紹一種用於預測 RNA 二級結構的端到端深度學習模型 E2Efold,在結構預測方面具有顯著更優表現,同時大大縮短新冠病毒 RNA 二級結構預測時間,為病毒研究、藥物篩選、疫苗研製等工作提供更多助力。這項成果來自螞蟻金服的研究團隊,目前這篇論文已被 ICLR 2020 接收為 Talk 論文。
  • Arm分享:從科幻到現實,移動端全息顯示計算的發展進步
    數字全息術的革命:基於快速傅立葉變換(Fast Fourier Transform;FFT)的全息圖生成 傳統的計算全息術是用基點計算(Point-Based Compute;PBC)來實現。三維虛擬對象可以表示為點雲,點雲攜帶顏色和深度信息。在PBC中,計算虛擬對象的每個點到顯示器的每個像素的光線,並將相關值相加。
  • 今日Paper | COVID-19感染者篩查;生成式摘要;圖像融合數據集;端到...
    MFFW:一種新的多聚焦圖像融合數據集基於互連卷積神經網絡的端到端臉部分析AAAI2020|基於多任務驅動特徵模型的熱紅外目標跟蹤  異常呼吸模式分類器可能有助於以準確和不顯眼的方式對COVID-19感染者進行大規模篩查論文名稱:Abnormal
  • 基於虛擬實境的網絡化上肢康復訓練系統
    虛擬實境是一種新興的並且迅速發展的技術,它的主要特點是:利用計算機和傳感技術生成一個具有多種感官刺激的虛擬境界,這種虛擬境界可以使人產生一種身臨其境的感覺;人能以自然的方式與虛擬境界中的對象進行交互[3]。將虛擬實境技術應用到康復醫療領域,可以有效的解決現有的康復醫療方法的局限性[4]。
  • 以點代物,同時執行目標檢測和跟蹤,這個新方法破解目標跟蹤難題
    選自arXiv作者:Xingyi Zhou等機器之心編譯參與:小舟、Jamin、魔王近日,來自德克薩斯奧斯汀分校和英特爾研究院的研究人員提出一種基於點的同時檢測和跟蹤方法,該方法比當前最優技術更加簡單、快速、準確。傳統的跟蹤是在時空中跟隨興趣點。隨著強大深度網絡的興起,情況發生了變化。
  • 端到端聲源分離研究:現狀、進展和未來
    本文是由哥倫比亞大學博士生羅藝主講的『端到端聲源分離研究進展』整理而來。內容主要覆蓋了單通道和多通道上端到端音源分離的現狀和進展以及未來的研究方向。-本文約5580字,閱讀約需20min-端到端音源分離定義與進展什麼是端到端音源分離呢?羅藝老師首先介紹了端到端音源分離的定義。
  • 語音識別新範式:完全的「端到端」模型,優勢在哪裡?
    語音識別新範式以自然語言處理的子領域「語音識別」為例,從 2012 年引入深度學習技術開始,語音識別的研究熱點經歷了三個階段:2011年前後,基於 DNN+HMM(深度神經網絡+隱馬爾科夫模型)的語音識別 2014年前後,基於 LSTM+CTC(長短時記憶網絡+連接時序分類)的不完全端到端語音識別
  • 強化學習的10個現實應用
    Eunsol Choi、Daniel Hewlett和Jakob Uszkoret在論文中提出了一種基於RL的長文本問答方法。具體而言,首先從文檔中選出幾個與問題相關的句子,然後結合所選句子和問句通過RNN生成答案。
  • 紐約大學提出端到端優化圖像壓縮方法,全面超越JPEG 2000 | ICLR...
    數據壓縮是一種基礎工程問題,在數據存儲和有限容量信道傳輸中有重要的應用。圖像作為一種信息載體,數據量巨大,因此研究者們對圖像壓縮的研究從未停止過。在ICLR 2017會議上,來自紐約大學的Johannes Balle 等研究者提出了一種端到端優化的圖像壓縮方法,並發表了論文:《End-to-End Optimized Image Compression》。
  • 12倍端到端加速,陳天奇創業公司OctoML提克服二值網絡瓶頸新方法
    前段時間,該公司推出了第一個軟體即服務產品 Octimizer,可以幫助開發者更方便、快捷地將 ML 模型部署到設備上。近日,該公司官方博客又介紹了一種快速端到端二值神經網絡——Riptide,使用 TVM 進行優化時可以實現最高 12 倍的端到端加速。該公司機器學習系統工程師 Josh Fromm 在博客中介紹了 Riptide 的細節。
  • 紐約大學提出端到端優化圖像壓縮方法,全面超越JPEG2000|ICLR2017
    雷鋒網按:數據壓縮是一種基礎工程問題,在數據存儲和有限容量信道傳輸中有重要的應用。圖像作為一種信息載體,數據量巨大,因此研究者們對圖像壓縮的研究從未停止過。在ICLR 2017會議上,來自紐約大學的Johannes Balle 等研究者提出了一種端到端優化的圖像壓縮方法,並發表了論文:《End-to-End Optimized Image Compression》。
  • 谷歌提出移動端AutoML模型MnasNet:精度無損速度更快
    目前開發者可以使用非常多的移動端 CNN 架構,也可以在機器上訓練新穎的視覺模型並部署到手機端。但各種各樣的移動端任務可能並不能藉助已有的 CNN 架構達到非常好的效果,因此谷歌近日將神經架構搜索方法引入了輕量級的 CNN 網絡,並提出基於強化學習的 MnasNet 以自動設計移動端模型。
  • 構建端到端ML框架的經歷啟示錄
    :unsplash2019年初,筆者幾個人嘗試構建端到端ML框架。為什麼需要端到端ML框架大多數人(Cortex貢獻者)都有devops和web開發的背景,他們習慣於將應用程式的不同層抽象成單一接口的框架。每個剛剛開始學習機器學習的人,都會感慨工具的脫節。
  • 谷歌開源基於 ML 的手部跟蹤算法:手機端實時檢測,多個手勢同時捕捉
    我們現在發布了一種新的手部感知方法,並且在 6 月的 CVPR 2019 大會上,我們已經對該方法開放了預覽。在這個方法展示過程中,我們通過 MediaPipe——一個開放源碼的跨平臺框架,來構建了處理視頻和音頻等類型的不同模式感知數據的框架。該方法通過機器學習(ML)從單個幀中推斷出一隻手的 21 個 3D 關鍵點,從而提供了高保真的手部和手指跟蹤。
  • 從數據集到2D和3D方法,一文概覽目標檢測領域進展
    Yin [17] 提出了一種跟蹤鼻子形狀的方法,以前的研究通常會忽略這個特徵。這一研究使用面積增長方法來確定鼻子所在的區域,而鼻尖和鼻翼的形狀則是通過預定義模板分別提取。最後,再使用提取出的特徵指示人臉跟蹤的效果。一旦檢測到相關特徵,就使用 Kanade–Lucas–Tomasi(KLT)等特徵跟蹤器跟蹤下一幀中的特徵。
  • 會移動的實驗室:NOBOOK虛擬實驗室可在移動端安裝
    移動學習最早的概念很廣泛,拿著書本在固定場合學習也算移動學習的一種,隨著現代信息化技術的發展,如今移動學習的概念進行了重新定義精細化,現在移動學習一般泛指一種可以在行動裝置幫助下能夠在任何時間、任何地點發生的學習方法。
  • 增強現實技術及其實現方法初探
    VR強調使用者完全沉浸在一個由計算機所生成的虛擬世界之中,無法感知到周圍的真實世界;而AR則致力於將計算機生成的二維或三維虛擬物體或信息與真實環境融為一體,使其成為真實環境中的一個組成部分,從而提升用戶對現實世界的理解和感知。 更通俗一點的說,AR是一種全新的人機互動技術,利用攝像頭,傳感器,實時計算和匹配技術,將虛擬的信息或圖像實時地疊加到真實的環境中去。
  • ICML論文|阿爾法狗CTO講座: AI如何用新型強化學習玩轉圍棋撲克遊戲
    這篇論文中,我們引入第一個可擴展的端到端方法,無需預先具備任何知識,就能學會模擬納什均衡。我們的方法將虛擬自我對戰與深度強化學習結合起來。當應用在德州撲克時,神經虛擬自我對戰(NFSP)達到了一種納什均衡,而普通的強化學習方法則出現了偏離。在限制德州拿住撲克中(一種真實世界規模的撲克遊戲),NFSP學會了一種很有競爭力的策略,實現了人類專家的能力和頂尖的方法。
  • 圖鴨科技獲CVPR 2018圖像壓縮挑戰賽單項冠軍,技術解讀端到端圖像...
    地址:http://openaccess.thecvf.com/CVPR2018_workshops/CVPR2018_W50.py#   摘要:我們展示了一種用於低碼率圖像壓縮的端到端可訓練圖像壓縮框架