港中文、上交大、商湯聯合提出兩種軌跡預測新方法

2020-12-10 騰訊網

本次分享兩篇軌跡預測相關 CVPR 2020poster 論文:

基於候選軌跡的軌跡預測方法(TPNet: Trajectory Proposal Network for Motion Prediction)

TPNet 論文地址:https://arxiv.org/pdf/2004.12255.pdf

基於遞歸目標關係圖的軌跡預測方法(Recursive Social Behavior Graph for Trajectory Prediction)

RSBG 論文地址:https://arxiv.org/pdf/2004.10402.pdf

論文作者來自商湯自動駕駛分析與預測組、港中文 MM Lab 實驗室以及上海交通大學盧策吾老師團隊。

任務介紹

隨著自動駕駛的快速發展,如何理解自動駕駛周圍目標的行為成為自動駕駛系統中的重要一環。軌跡預測任務旨在根據目標(如行人、車輛等交通參與者)當前或者歷史軌跡與環境信息,對該目標未來的行駛軌跡進行預測。軌跡預測結果是自動駕駛系統進行提前決策的重要信息之一。

動機

軌跡預測任務有以下幾個難點:

預測結果多模態(multimodal)特性:對於同一條歷史軌跡,不同目標可能有不同的未來軌跡。例如在十字路口,A 車可能左轉, B 車可能直行。如何對不同意圖進行建模,使預測方法能夠生成較為完善的預測結果是軌跡預測任務較為關注的一點。

預測結果可解釋、可靠: 交通參與者一般會受到各種交通規則的約束,如何利用這些規則輸出安全可靠的預測結果對於自動駕駛系統而言至關重要。

目標間交互關係建模: 在自動駕駛場景中,目標間的行為不僅受到其自身的意圖影響,還會受到周圍其他目標行為的影響。

針對前兩個問題, 我們提出TPNet: Trajectory Proposal Network for Motion Prediction。為了輸出多模態的預測結果,之前的方法大多學習一個軌跡的分布,通過採樣、最大化後驗概率的方法得到一個或多個概率較大的軌跡。然而對於軌跡預測任務來說未來軌跡的分布空間可能非常大,如左轉和右轉兩種意圖對應的軌跡相差較大,導致基於數據驅動的方法難以學習到這種多模態預測。因此我們提出一種新型的兩階段軌跡預測方法 TPNet。

在第一階段,TPNet 預測不同意圖的多個終點並基於這些終點生成不同的候選軌跡(proposals)。在第二階段,TPNet 會對這些 proposals 進行分類和回歸,分類模塊對每個候選軌跡進行二分類,回歸模塊對候選軌跡進行修正得到更加精準的預測結果。

值得一提的是,這種兩階段方法保證了兩種軌跡的多模態,首先針對不同意圖,TPNet 會生成不同的軌跡;其次針對同一種意圖,TPNet 也會生成一組候選軌跡。進一步的,這種兩階段框架也可以幫助我們將一些先驗知識融入進深度學習框架,我們提出對不在可行駛區域(如下圖,白色區域為車輛可行駛區域,灰色為行人可行駛區域)的候選軌跡與預測結果進行懲罰,衰減其置信度,從而保證預測結果的可靠性。

針對目標間交互關係建模,我們提出Recursive Social Behavior Graph for Trajectory Prediction。近年來基於 RNN 的算法極大的提升了預測的準確精度,但是在一些地方仍然有較大的提升空間。較為關鍵的一點是引入人群之間的交互關係來輔助預測。

早先的做法,例如 pooling 和 attention,都是基於行人之間的歐式距離來判斷交互關係的強弱。這種基於歐氏距離的判斷方法,不能很好的處理現實生活中複雜的情況。例如下圖中所示,上圖兩人雖然相隔整個場景,但是表現出了很強的相遇的行為傾向。而下圖的三組行人,紅色兩組雖然距離較遠,但是表現出了跟隨的行為,而紅藍兩組雖然距離較近,但是沒有產生很強的相互作用。

我們提出了使用基於行人組層面的標註來解決這一困境。通過將有相似行為,目的地的行人分為小組,並對組內行人進行關係標註,可以對整個場景中的行人關係進行詳盡的抽取。同時,圍繞這一思路,我們提出了基於 LSTM 和 GCN 的神經網絡模型,來遞歸的對行人軌跡和關係進行分析,在 ETH 和 UCY 數據集上取得了超過 10% 的提升。

方法介紹

TPNet

我們提出的兩階段預測方法 TPNet 如上圖所示,主要分為四個模塊:基礎特徵提取模塊、終點預測模塊、軌跡生成模塊以及軌跡分類與修正模塊。

基礎特徵提取模塊結合目標的歷史軌跡、環境信息(道路結構),使用基於 CNN Encoder-Decoder 的結構提取特徵。並基於該特徵對目標未來的終點進行初步預測。

候選軌跡生成模塊基於預測得到的終點,生成一系列候選軌跡。為了生成多模態特性的候選軌跡集,我們提出兩種候選軌跡生成方法:基於單個終點的候選軌跡生成、基於多個意圖的候選軌跡生成。為了減小軌跡的搜多空間,我們將軌跡建模為三次曲線,通過生成曲線簇來生成候選軌跡集合。基於單個終點的候選軌跡生成方法以預測得到的終點為中心生成一個固定大小的網格,通過遍歷網格的中心生成 M 個可能的終點。為了生成不同彎曲程度的候選軌跡,基於每個可能的終點,生成 N 個控制點。最終將 M 個可能終點與 N 個控制點兩兩組合,並結合歷史軌跡點,通過三次曲線擬合的方法,我們可以得到 MxN 個候選軌跡,如下左圖示(橙色實線為候選軌跡)。基於多個意圖的候選軌跡生成則針對目標的不同意圖,生成不同的終點,然後利用基於單個終點的候選軌跡生成生成不同的候選軌跡集合。以車輛預測為例,Argoverse 數據集提供了車輛不同的可能行駛路線(參考線),我們針對每條參考線預測出不同終點並生成對應候選軌跡,如下右圖示(綠色虛線為參考線)。

在訓練階段,分類模塊利用候選軌跡與真值軌跡的平均距離劃分正負樣本,平均距離小於閾值的作為正樣本,其餘作為潛在負樣本。平均距離計算公式如下:

其中, 分別為未來預測時間點對應真值軌跡點坐標與候選軌跡點坐標。通過對潛在負樣本進行均勻採樣,保證正負樣本比例為 1:3 確定負樣本。

對於所有正樣本及部分隨機採樣的負樣本,軌跡修正模塊對候選軌跡的終點及控制點進行修正,修正公式定義為:

其中與為候選軌跡終點坐標與真值終點坐標的偏差,為控制的參數與真值的偏差。

最後對於不在可行駛區域的候選軌跡與預測軌跡,我們提出使用如下高斯衰減對其分類置信度進行衰減:

其中為預測軌跡點不在可行駛區域內的比例,為高斯衰減係數。最終 TPNet 輸出分類置信度最高的軌跡作為預測結果。

RSBG

我們提出的方法 RSBG 如上圖所示,可以被分成三個子模塊: 個體表徵模塊,群體表徵模塊和解碼器。

1. 個體表徵模塊是用來對每個人的歷史行為和周圍環境進行分析編碼。考慮到人類行為具有前後關聯的性質,我們使用雙向 LSTM 來提取行為特徵;使用 CNN 來提取環境特徵。最後將兩個拼接以得到個體表徵向量。

2. 群體表徵模塊用來提取行人之間的關係。主要可以分為構建行為關係圖和遞歸抽取兩部分。首先,我們將整個場景中的所有行人的歷史軌跡信息輸入到一個由 MLP 組成的關係生成器中,來分析每個人兩兩之間的關係,關係強弱使用 0-1 來表示。在訓練過程中,我們使用標註好的行人組來對其進行監督,當兩人處於同一組時,GT 為 1,反之為 0。在得到兩兩行人之間的關係之後,我們將其看做邊,並把行人的歷史軌跡看做節點,構建行為關係圖。隨後,GCN 網絡被用來遞歸地對該圖進行分析整合,為每一個行人得到其群體表徵向量。

3. 最後,我們將個體表徵向量和群體表徵向量進行融合,使用 LSTM 解碼器來生成預測結果。

考慮到使用常見的 L2 Loss 對性能分析指標之一的 FDE 優化有限,我們提出了 Exponential L2 Loss 來作為損失函數,該函數可以表示為:

其中和表示歷史軌跡,i表示人的 id,t表示時間點,γ為超參數,指示了每個預測點隨著時間變化重要性的增強程度。

實驗結果

軌跡預測任務常用評價指標為終點預測誤差(FDE)、平均軌跡預測點預測誤差(ADE)。我們還使用了以下評估指標:

minFDE: 對於 N 個預測軌跡,選擇終點預測誤差最小的作為評估結果

minADE:對於 N 個預測軌跡,選擇平均軌跡預測點預測誤差最小的作為評估結果

DAC: 預測滿足可行駛區域程度

TPNet在多個軌跡預測數據集上進行了實驗: ETH、UCY、ApolloScape 以及 Argoverse,均取得了 SOTA 的效果。

通過下圖可視化分析,我們可以看出 TPNet 可以輸出多模態以及可靠的預測結果。其中紅色點為目標歷史軌跡,綠色點為真值軌跡,藍色點為 TPNet 預測軌跡。

RSBG在流行的 ETH 和 UCY 數據集上進行試驗,並與多個框架進行比較。結果顯示我們的方法在多個子數據集上均超過了之前的 SOTA 成績,並且從平均上來看,ADE 和 FDE 得到了 11.1% 和 10.8% 的提升。

從可視化分析來看,使用我們的方法之後,可以對人群之後相遇,跟隨,避讓等行為都有一個更加合理的預測。

參考資料:

[1] Ming-Fang Chang, John W Lambert, Patsorn Sangkloy, Jagjeet Singh, Slawomir Bak, Andrew Hartnett, De Wang, Peter Carr, Simon Lucey, Deva Ramanan, and James Hays. Argoverse: 3d tracking and forecasting with rich maps. In Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

[2] Stefano Pellegrini, Andreas Ess, Konrad Schindler, and Luc Van Gool. You』ll never walk alone: Modeling social behavior for multi-target tracking. In 2009 IEEE 12th International Conference on Computer Vision, pages 261–268. IEEE, 2009.

[3] Alon Lerner, Yiorgos Chrysanthou, and Dani Lischinski.Crowds by example. In Computer graphics forum, volume 26, pages 655–664. Wiley Online Library, 2007.

[4] Yuexin Ma, Xinge Zhu, Sibo Zhang, Ruigang Yang, Wenping Wang, and Dinesh Manocha. Traf cpredict: Trajectory prediction for heterogeneous traf c-agents. arXiv preprint arXiv:1811.02146, 2018.

公眾號對話框回復「2020科技趨勢」,獲取《2020科技趨勢報告》完整版PDF!

公眾號對話框回復「AI女神」,獲取《人工智慧全球最具影響力女性學者報告》完整版!

公眾號對話框回復「AI10」,獲取《淺談人工智慧下一個十年》主題演講PPT!

公眾號對話框回復「GNN」,獲取《圖神經網絡及認知推理》主題演講PPT!

公眾號對話框回復「學術搜索」,獲取《人工智慧之學術搜索》報告完整版!

公眾號對話框回復「AI指數」,獲取《2019人工智慧指數報告》完整版PDF!

公眾號對話框回復「3D視覺」,獲取《3D視覺技術白皮書》完整版PDF!

相關焦點

  • 商湯科技57篇論文入選ICCV 2019,13項競賽奪冠
    在ICCV 2019 COCO比賽中,來自香港中文大學-商湯科技聯合實驗室和南洋理工大學-商湯科技聯合實驗室的MMDet團隊獲得目標檢測(Object Detection)冠軍(不使用外部數據集),這也是商湯連續兩屆在COCO Detection項目中奪冠。同時,商湯科技新加坡研究團隊也獲得COCO全景分割(Panoptic)冠軍(不使用外部數據集)。
  • 港中大-商湯聯合實驗室等提出:Guided Anchoring: 物體檢測器也能自己學 Anchor
    -商湯聯合實驗室提出,後面有原作者的論文解讀。-商湯聯合實驗室&Amazon Rekognition&南洋理工大學註:2019年01月10日剛出爐的paper下面附上論文第一作者:陳愷博士對論文的解讀連結(已獲權轉載):https://zhuanlan.zhihu.com/p/55854246
  • CVPR 2020 | 商湯提出 Anchor-free 目標檢測新網絡
    -3DAR-身份認證與視頻感知團隊提出了基於向心偏移的anchor-free目標檢測網絡centripetalnet,為基於關鍵點的目標檢測方法研究帶來了新思路。因此本文提出使用關鍵點的向心偏移(centripetal shift)來進行匹配,其背後的思想是同一個物體的不同關鍵點應該對應同一個物體中心點。從下圖可以直觀的看到利用向心偏移匹配相對於關聯嵌入向量在避免錯誤匹配方面的優勢。
  • 基石小夥伴 | 商湯科技62篇論文入選CVPR 2019,多個競賽項目奪冠
    值得一提的是,在CVPR 2019 Workshop NTIRE 2019視頻恢復比賽中(包含兩個視頻去模糊和兩個視頻超解析度),來自商湯科技、香港中文大學、南洋理工大學、中國科學院深圳先進技術研究院組成的聯合研究團隊獲得了全部四個賽道的所有冠軍,且大幅超越每個賽道的其他團隊。視頻恢復不是圖像恢復的簡單應用,因為其含有大量的時空冗餘信息可以利用。
  • 李飛飛等提出端到端系統Next預測未來路徑與活動
    為此,李飛飛等研究者提出了一種端到端的多任務學習系統,聯合預測行人的未來路徑及活動。實驗表明,該方法在兩個公開基準上達到了未來軌跡預測的當前最佳性能,還可以產生有意義的未來活動預測。研究者提出了一個多任務學習模型 Next,它具備一個預測模塊,可同時學習未來路徑和未來活動。由於預測未來活動很難,研究者引入了兩項新技術。一,與大部分現有研究將行人過度簡化為空間中一個點不同,該研究通過豐富的語義特徵來編碼行人,如視覺外觀、身體活動和與周圍環境的交互。
  • AAAI 2020論文解讀:商湯科技提出新弱監督目標檢測框架
    該團隊提出了一種端到端的物體實例挖掘弱監督目標檢測框架,引入了基於空間圖及外觀圖的信息傳播機制,在網絡迭代學習過程中,嘗試挖掘每張圖像中全部的物體實例。除此之外,商湯科技視頻大數據團隊還引入了物體實例權重調整損失函數(reweighted loss),使網絡可以同時學習到更完整的物體實例,從而讓弱監督目標檢測方法得到更加準確的檢測框。
  • 基於機動LSTM的周圍車輛多模態軌跡預測
    這可以在現有的戰術路徑規划算法[30]-[32]中看到,所有這些算法都依賴於對周圍車輛未來軌跡的可靠估計。許多方法使用運動模型來預測車輛軌跡[26]-[29]。然而,對於更長的預測範圍,運動模型可能是不可靠的,因為由於駕駛員所作的決定,車輛的軌跡往往是高度非線性的。這可以通過數據驅動的軌道預測方法[5]、[10]-[12]來解決。
  • 3D人體全身運動捕捉系統,港中文聯合Facebook出品
    作者 | VVingerfly編輯 | 陳大鑫3D人體姿態和形狀估計在最近幾年是一個重要的研究熱點,但大部分工作僅僅關注人體部分,忽略了手部動作,港中文聯合Facebook AI研究院提出了一種從單張圖片同時估計人體姿態和手部動作的新方法,展示效果好似科學怪物。如下圖左下和右下所示,易看出本文提出的方法姿態估計效果更好。
  • NeurIPS 2020 | 伯克利新工作: 基於動態關係推理的多智能體軌跡預測問題
    在許多應用領域,對環境情況的有效理解以及對交互中個體行為與軌跡的準確預測起著至關重要的作用。本文提出了一種通用的用於多智能體軌跡預測的算法,可以顯式地對個體間的動態交互關係進行有效地識別並基於此進行多模態的長期預測。研究人員用多個不同領域的數據集對模型進行了測試,並在與目前最先進的算法的比較中取得了最優的效果。
  • 超越何愷明等組歸一化 Group Normalization,港中文團隊提出自適配...
    BN 是 Google 在 2015 年提出的歸一化方法。至今已有 5000+次引用,在學術界和工業界均被廣泛使用。港中文團隊提出的 SN(Switchable Normalization)解決了 BN 的不足。
  • 論文筆記:第一人稱視角視頻中的行人軌跡預測
    前幾天日本東京大學在arXiv上放出的一篇論文(大概是CVPR投稿文章吧)提出了一個新的人體動作分析問題:第一人稱視頻中的行人軌跡預測問題,並提出了一個新的數據集以及一個新的行人軌跡預測算法。論文的題目為:Future Person Localization in First-Person Videos [1] (arXiv 1711.11217)。
  • 23篇論文入選CVPR2017, 商湯科技精選論文解讀
    作為一家專注於計算機視覺和深度學習的新銳公司,在即將到來的世界頂級計算機視覺會議 CVPR(7 月 21 日-26 日,美國夏威夷)上,商湯科技也將帶來一系列的技術 Demo、Presentation、PartyTime 等活動。在本屆 CVPR 2017 大會上,商湯科技及香港中大-商湯科技聯合實驗室共有 23 篇論文被接收。錄取論文中不乏新奇有趣的題目,詳細內容歡迎會場和作者深度交流。
  • 強強聯合!北大、港中文將錄取首批聯合培養本科生
    01   北大、港中文今年秋季將錄取   首批聯合培養本科生   據北京大學新聞網香港中文大學副校長潘偉賢教授11日率團訪問北京大學,商談本科聯合培養合作相關工作。
  • 專訪商湯科技聯合創始人楊帆,AI+安防這條路應該如何走?
    日前,獵雲網採訪到商湯科技聯合創始人、副總裁楊帆,了解到商湯科技對AI+安防,以及AI賦能智慧城市的一些思考。智慧安防要打通閉環楊帆認為近年來,AI技術,特別是計算機視覺技術對於各行各業都有很大的價值體現,對於安防來說,這個價值尤為突顯。變現只是一個自然的結果,之所以技術能夠得以變現,核心是這個行業的剛性需求夠強、夠大。
  • 業界| 23篇論文入選CVPR2017, 商湯科技精選論文解讀
    作為一家專注於計算機視覺和深度學習的新銳公司,在即將到來的世界頂級計算機視覺會議 CVPR(7 月 21 日-26 日,美國夏威夷)上,商湯科技也將帶來一系列的技術 Demo、Presentation、PartyTime 等活動。在本屆 CVPR 2017 大會上,商湯科技及香港中大-商湯科技聯合實驗室共有 23 篇論文被接收。錄取論文中不乏新奇有趣的題目,詳細內容歡迎會場和作者深度交流。
  • 目標跟蹤最強算法開源:商湯SiamRPN系列解讀
    SiamRPN (CVPR18 Spotlight):在 CVPR18 的論文中(SiamRPN),商湯智能視頻團隊發現孿生網絡無法對跟蹤目標的形狀進行調節。之前的跟蹤算法更多的將跟蹤問題抽象成比對問題,但是跟蹤問題其實和檢測問題也非常類似,對目標的定位與對目標框的回歸預測一樣重要。研究人員分析了以往跟蹤算法的缺陷並對其進行改進:1.
  • 高考640分被上交大錄取,卻提出轉學到井岡山大學,網友炸鍋了
    高考640分被上交大錄取,卻提出轉學到井岡山大學,網友炸鍋了隨著文憑在社會中的地位越來越重要,教育已然成為一個家庭最重要的事情,高考更是成為全民關注的現象級事件。然而,就在不久前,卻有一位大學生甘願放棄「上海交通大學」的學生身份,提出轉學到井岡山大學,頓時引起網絡一片熱議。眾所周知,上海交通大學可是我國頂尖高校,常年位居全國大學綜合排名前5位序列。不僅擁有「985工程」院校的身份,還是首批入選國家「雙一流」建設高校A類名單的大學。
  • 商湯:一家披著AI外衣的教育公司?
    2014 年,湯曉鷗成立商湯科技。在獨立創業之前,他是香港中文大學機器視覺教授,同時還有一個更知名的身份:微軟亞洲研究院(MSRA)視覺計算組負責人,是「四小龍」創始人中學術重量最高的一位。湯教授的名氣給商湯鍍上了一層天生的光環。2014 年 10 月公司成立,緊接著 11 月 7 日,就拿到了 IDG 數千萬美元的天使輪融資。
  • 商湯科技入選 CVPR 2018 的 44 篇論文,都研究什麼?
    全球計算機視覺頂級會議 IEEE CVPR 2018 (Computer Vision and Pattern Recognition,即 IEEE 國際計算機視覺與模式識別會議) 即將於六月在美國鹽湖城召開,本屆大會總共錄取來自全球論文 979 篇。
  • 商湯和伊尹
    伊川縣融媒體中心●伊川新聞●【歷史故事和傳說之一】商湯和伊尹李耀曾公元前21世紀,夏啟建立我國第一個奴隸制國家——夏。夏王朝統治了大約400多年,最後的一個王夏桀是個奢侈荒淫、殺人如麻的暴君。夏民對他痛恨萬分,怨聲載道。