本次分享兩篇軌跡預測相關 CVPR 2020poster 論文:
基於候選軌跡的軌跡預測方法(TPNet: Trajectory Proposal Network for Motion Prediction)
TPNet 論文地址:https://arxiv.org/pdf/2004.12255.pdf
基於遞歸目標關係圖的軌跡預測方法(Recursive Social Behavior Graph for Trajectory Prediction)
RSBG 論文地址:https://arxiv.org/pdf/2004.10402.pdf
論文作者來自商湯自動駕駛分析與預測組、港中文 MM Lab 實驗室以及上海交通大學盧策吾老師團隊。
任務介紹
隨著自動駕駛的快速發展,如何理解自動駕駛周圍目標的行為成為自動駕駛系統中的重要一環。軌跡預測任務旨在根據目標(如行人、車輛等交通參與者)當前或者歷史軌跡與環境信息,對該目標未來的行駛軌跡進行預測。軌跡預測結果是自動駕駛系統進行提前決策的重要信息之一。
動機
軌跡預測任務有以下幾個難點:
預測結果多模態(multimodal)特性:對於同一條歷史軌跡,不同目標可能有不同的未來軌跡。例如在十字路口,A 車可能左轉, B 車可能直行。如何對不同意圖進行建模,使預測方法能夠生成較為完善的預測結果是軌跡預測任務較為關注的一點。
預測結果可解釋、可靠: 交通參與者一般會受到各種交通規則的約束,如何利用這些規則輸出安全可靠的預測結果對於自動駕駛系統而言至關重要。
目標間交互關係建模: 在自動駕駛場景中,目標間的行為不僅受到其自身的意圖影響,還會受到周圍其他目標行為的影響。
針對前兩個問題, 我們提出TPNet: Trajectory Proposal Network for Motion Prediction。為了輸出多模態的預測結果,之前的方法大多學習一個軌跡的分布,通過採樣、最大化後驗概率的方法得到一個或多個概率較大的軌跡。然而對於軌跡預測任務來說未來軌跡的分布空間可能非常大,如左轉和右轉兩種意圖對應的軌跡相差較大,導致基於數據驅動的方法難以學習到這種多模態預測。因此我們提出一種新型的兩階段軌跡預測方法 TPNet。
在第一階段,TPNet 預測不同意圖的多個終點並基於這些終點生成不同的候選軌跡(proposals)。在第二階段,TPNet 會對這些 proposals 進行分類和回歸,分類模塊對每個候選軌跡進行二分類,回歸模塊對候選軌跡進行修正得到更加精準的預測結果。
值得一提的是,這種兩階段方法保證了兩種軌跡的多模態,首先針對不同意圖,TPNet 會生成不同的軌跡;其次針對同一種意圖,TPNet 也會生成一組候選軌跡。進一步的,這種兩階段框架也可以幫助我們將一些先驗知識融入進深度學習框架,我們提出對不在可行駛區域(如下圖,白色區域為車輛可行駛區域,灰色為行人可行駛區域)的候選軌跡與預測結果進行懲罰,衰減其置信度,從而保證預測結果的可靠性。
針對目標間交互關係建模,我們提出Recursive Social Behavior Graph for Trajectory Prediction。近年來基於 RNN 的算法極大的提升了預測的準確精度,但是在一些地方仍然有較大的提升空間。較為關鍵的一點是引入人群之間的交互關係來輔助預測。
早先的做法,例如 pooling 和 attention,都是基於行人之間的歐式距離來判斷交互關係的強弱。這種基於歐氏距離的判斷方法,不能很好的處理現實生活中複雜的情況。例如下圖中所示,上圖兩人雖然相隔整個場景,但是表現出了很強的相遇的行為傾向。而下圖的三組行人,紅色兩組雖然距離較遠,但是表現出了跟隨的行為,而紅藍兩組雖然距離較近,但是沒有產生很強的相互作用。
我們提出了使用基於行人組層面的標註來解決這一困境。通過將有相似行為,目的地的行人分為小組,並對組內行人進行關係標註,可以對整個場景中的行人關係進行詳盡的抽取。同時,圍繞這一思路,我們提出了基於 LSTM 和 GCN 的神經網絡模型,來遞歸的對行人軌跡和關係進行分析,在 ETH 和 UCY 數據集上取得了超過 10% 的提升。
方法介紹
TPNet
我們提出的兩階段預測方法 TPNet 如上圖所示,主要分為四個模塊:基礎特徵提取模塊、終點預測模塊、軌跡生成模塊以及軌跡分類與修正模塊。
基礎特徵提取模塊結合目標的歷史軌跡、環境信息(道路結構),使用基於 CNN Encoder-Decoder 的結構提取特徵。並基於該特徵對目標未來的終點進行初步預測。
候選軌跡生成模塊基於預測得到的終點,生成一系列候選軌跡。為了生成多模態特性的候選軌跡集,我們提出兩種候選軌跡生成方法:基於單個終點的候選軌跡生成、基於多個意圖的候選軌跡生成。為了減小軌跡的搜多空間,我們將軌跡建模為三次曲線,通過生成曲線簇來生成候選軌跡集合。基於單個終點的候選軌跡生成方法以預測得到的終點為中心生成一個固定大小的網格,通過遍歷網格的中心生成 M 個可能的終點。為了生成不同彎曲程度的候選軌跡,基於每個可能的終點,生成 N 個控制點。最終將 M 個可能終點與 N 個控制點兩兩組合,並結合歷史軌跡點,通過三次曲線擬合的方法,我們可以得到 MxN 個候選軌跡,如下左圖示(橙色實線為候選軌跡)。基於多個意圖的候選軌跡生成則針對目標的不同意圖,生成不同的終點,然後利用基於單個終點的候選軌跡生成生成不同的候選軌跡集合。以車輛預測為例,Argoverse 數據集提供了車輛不同的可能行駛路線(參考線),我們針對每條參考線預測出不同終點並生成對應候選軌跡,如下右圖示(綠色虛線為參考線)。
在訓練階段,分類模塊利用候選軌跡與真值軌跡的平均距離劃分正負樣本,平均距離小於閾值的作為正樣本,其餘作為潛在負樣本。平均距離計算公式如下:
其中, 分別為未來預測時間點對應真值軌跡點坐標與候選軌跡點坐標。通過對潛在負樣本進行均勻採樣,保證正負樣本比例為 1:3 確定負樣本。
對於所有正樣本及部分隨機採樣的負樣本,軌跡修正模塊對候選軌跡的終點及控制點進行修正,修正公式定義為:
其中與為候選軌跡終點坐標與真值終點坐標的偏差,為控制的參數與真值的偏差。
最後對於不在可行駛區域的候選軌跡與預測軌跡,我們提出使用如下高斯衰減對其分類置信度進行衰減:
其中為預測軌跡點不在可行駛區域內的比例,為高斯衰減係數。最終 TPNet 輸出分類置信度最高的軌跡作為預測結果。
RSBG
我們提出的方法 RSBG 如上圖所示,可以被分成三個子模塊: 個體表徵模塊,群體表徵模塊和解碼器。
1. 個體表徵模塊是用來對每個人的歷史行為和周圍環境進行分析編碼。考慮到人類行為具有前後關聯的性質,我們使用雙向 LSTM 來提取行為特徵;使用 CNN 來提取環境特徵。最後將兩個拼接以得到個體表徵向量。
2. 群體表徵模塊用來提取行人之間的關係。主要可以分為構建行為關係圖和遞歸抽取兩部分。首先,我們將整個場景中的所有行人的歷史軌跡信息輸入到一個由 MLP 組成的關係生成器中,來分析每個人兩兩之間的關係,關係強弱使用 0-1 來表示。在訓練過程中,我們使用標註好的行人組來對其進行監督,當兩人處於同一組時,GT 為 1,反之為 0。在得到兩兩行人之間的關係之後,我們將其看做邊,並把行人的歷史軌跡看做節點,構建行為關係圖。隨後,GCN 網絡被用來遞歸地對該圖進行分析整合,為每一個行人得到其群體表徵向量。
3. 最後,我們將個體表徵向量和群體表徵向量進行融合,使用 LSTM 解碼器來生成預測結果。
考慮到使用常見的 L2 Loss 對性能分析指標之一的 FDE 優化有限,我們提出了 Exponential L2 Loss 來作為損失函數,該函數可以表示為:
其中和表示歷史軌跡,i表示人的 id,t表示時間點,γ為超參數,指示了每個預測點隨著時間變化重要性的增強程度。
實驗結果
軌跡預測任務常用評價指標為終點預測誤差(FDE)、平均軌跡預測點預測誤差(ADE)。我們還使用了以下評估指標:
minFDE: 對於 N 個預測軌跡,選擇終點預測誤差最小的作為評估結果
minADE:對於 N 個預測軌跡,選擇平均軌跡預測點預測誤差最小的作為評估結果
DAC: 預測滿足可行駛區域程度
TPNet在多個軌跡預測數據集上進行了實驗: ETH、UCY、ApolloScape 以及 Argoverse,均取得了 SOTA 的效果。
通過下圖可視化分析,我們可以看出 TPNet 可以輸出多模態以及可靠的預測結果。其中紅色點為目標歷史軌跡,綠色點為真值軌跡,藍色點為 TPNet 預測軌跡。
RSBG在流行的 ETH 和 UCY 數據集上進行試驗,並與多個框架進行比較。結果顯示我們的方法在多個子數據集上均超過了之前的 SOTA 成績,並且從平均上來看,ADE 和 FDE 得到了 11.1% 和 10.8% 的提升。
從可視化分析來看,使用我們的方法之後,可以對人群之後相遇,跟隨,避讓等行為都有一個更加合理的預測。
參考資料:
[1] Ming-Fang Chang, John W Lambert, Patsorn Sangkloy, Jagjeet Singh, Slawomir Bak, Andrew Hartnett, De Wang, Peter Carr, Simon Lucey, Deva Ramanan, and James Hays. Argoverse: 3d tracking and forecasting with rich maps. In Conference on Computer Vision and Pattern Recognition (CVPR), 2019.
[2] Stefano Pellegrini, Andreas Ess, Konrad Schindler, and Luc Van Gool. You』ll never walk alone: Modeling social behavior for multi-target tracking. In 2009 IEEE 12th International Conference on Computer Vision, pages 261–268. IEEE, 2009.
[3] Alon Lerner, Yiorgos Chrysanthou, and Dani Lischinski.Crowds by example. In Computer graphics forum, volume 26, pages 655–664. Wiley Online Library, 2007.
[4] Yuexin Ma, Xinge Zhu, Sibo Zhang, Ruigang Yang, Wenping Wang, and Dinesh Manocha. Traf cpredict: Trajectory prediction for heterogeneous traf c-agents. arXiv preprint arXiv:1811.02146, 2018.
公眾號對話框回復「2020科技趨勢」,獲取《2020科技趨勢報告》完整版PDF!
公眾號對話框回復「AI女神」,獲取《人工智慧全球最具影響力女性學者報告》完整版!
公眾號對話框回復「AI10」,獲取《淺談人工智慧下一個十年》主題演講PPT!
公眾號對話框回復「GNN」,獲取《圖神經網絡及認知推理》主題演講PPT!
公眾號對話框回復「學術搜索」,獲取《人工智慧之學術搜索》報告完整版!
公眾號對話框回復「AI指數」,獲取《2019人工智慧指數報告》完整版PDF!
公眾號對話框回復「3D視覺」,獲取《3D視覺技術白皮書》完整版PDF!