【泡泡圖靈智庫】平移不變匹配代價學習用於精確光流估計

2021-02-20 泡泡機器人SLAM

泡泡圖靈智庫,帶你精讀機器人頂級會議文章

標題:Displacement-Invariant Matching Cost Learning for Accurate Optical Flow Estimation

作者:Jianyuan Wang, Yiran Zhong, Yuchao Dai, Kaihao Zhang, Pan Ji, Hongdong Li

來源:NeurIPS 2020

編譯:陳聖倫

審核:李鑫

這是泡泡圖靈智庫推送的第570篇文章,歡迎個人轉發朋友圈;其他機構或自媒體如需轉載,後臺留言申請授權

大家好,今天為大家帶來的文章是Displacement-Invariant Matching Cost Learning for Accurate Optical Flow Estimation。已經證明學習匹配代價是最先進的深度立體匹配方法成功的關鍵,該方法在一個4D特徵體用3D卷積學習3D代價體。然而,這一機制從未用於光流任務。這主要是由於在光流計算中搜索維數顯著增加,即直接擴展需要稠密的4D卷積處理5D特徵體,在計算上這是不可行的。本文提出了一種新的解決方案,該方案能夠繞過構建5D特徵體的需求,同時仍然允許網絡從數據中學習合適的匹配代價。我們的關鍵創新是分離二維平移之間的連接,獨立地學習每個二維平移假設下的匹配代價,即平移不變代價學習。具體來說,在每個2D平移假設上獨立地應用相同的基於2D卷積的匹配網絡學習一個4D代價體。此外,我們提出了一個平移感知投影層,它考慮了不同平移之間的相關性,調整學習代價體的尺度,緩解了學習代價體中的多模態問題。然後,通過二維soft argmin層由代價體計算光流估計。實驗表明,我們的方法在各種數據集上達到了最先進的精度,並在Sintel基準上優於所有已發表的光流方法。

https://github.com/jytime/DICL-Flow

貢獻:

1.據我們所知,該方法是第一個通過引入平移不變代價學習模塊,能夠從連接特徵中學習匹配代價的光流估計方法。

2.提出平移感知投影層,考慮了不同運動假設之間的相關性。

3.在多個數據集上達到了最先進的精度,並且在Sintel中優於所有發布的光流估計方法。還提供了廣泛的定量和定性分析,以驗證方法的有效性。

該網絡採用五層金子塔提取特徵,每一層的解析度分為輸入的1/4,1/8,1/16,1/32和1/64。在匹配網絡中,每一個層級的最大搜索平移均為3,平移感知投影層放縮學習代價。然後使用2D的soft-argmin計算光流。此外,還採用了上下文網絡聚合上下文信息,並藉助擴張卷積對光流估計進行後處理。F1和F2為源圖像和目標圖像(H*W)的特徵,其維度是L*λH*λW。VCN算法的計算餘弦相似度作為匹配代價,

其中u為平移。拼接候選窗口U*V內的匹配代價可以構成4D的代價體,其維度為U*V*λH*λW。多通道的代價體,可以由K個特徵計算的K的4D代價體拼接而成,其維度為K*U*V*λH*λW。

平移不變代價學習(DICL)模塊可以不構建5D代價體,同時仍然允許網絡使用2D卷積學習匹配代價。數學上,對於每個平移u,可以將特徵連接起來形成一個覆蓋所有像素點(λH*λW)的特徵圖Fu,

其中||表示拼接操作,Fu的維度為2L*λH*λW。本文提出使用2D卷積G()學習代價。

對於U*V窗口中每一個平移u都使用相同的網絡計算代價,因此無需構建5D代價體,獨立的執行G()U*V次即可。與直接對5D特徵體應用4D卷積相比,本文在一定程度上削弱候選平移之間的相關性。為了解決這一問題,提出用所有平移點上的匹配代價的線性組合來重新加權每個平移點上的匹配代價。

其中U表示平移的集合,提出的平移感知投影(DAP)層利用不同候選平移之間的相關性實現更好的匹配代價估計,從而感知平移。

將視差估計中使用的1D soft-argmin操作擴展為2D soft-argmin操作,

其中u表示平移向量(u,v),p是平移u的概率,由C'u經過softmax計算,u^為光流。

表1 C+T表示在Chair和Things數據集預訓練,+K/S表示在KITTI或Sintel數據集微調。

表2 消融實驗。Reduced DICL與DICL結構一樣,但使用1*1卷積。

如果你對本文感興趣,想要下載完整文章進行閱讀,可以關注【泡泡機器人SLAM】公眾號

點擊閱讀原文, 即可獲取本文下載連結。

歡迎來到泡泡論壇,這裡有大牛為你解答關於SLAM的任何疑惑。

有想問的問題,或者想刷帖回答問題,泡泡論壇歡迎你!

泡泡網站:www.paopaorobot.org

泡泡論壇:http://paopaorobot.org/bbs/

泡泡機器人SLAM的原創內容均由泡泡機器人的成員花費大量心血製作而成,希望大家珍惜我們的勞動成果,轉載請務必註明出自【泡泡機器人SLAM】微信公眾號,否則侵權必究!同時,我們也歡迎各位轉載到自己的朋友圈,讓更多的人能進入到SLAM這個領域中,讓我們共同為推進中國的SLAM事業而努力!

商業合作及轉載請聯繫paopaorobot@163.com

相關焦點

  • 【泡泡圖靈智庫】手眼標定問題的最優最小二乘解
    泡泡圖靈智庫,帶你精讀機器人頂級會議文章 標題:Optimal least-squares solution to the hand-eye calibration problem 作者:Amit Dekel,Linus H renstam-Nielsen
  • 【泡泡圖靈智庫】使用二次曲面和平面的結構感知SLAM(arXiv)
    泡泡圖靈智庫,帶你精讀機器人頂級會議文章標題:Structure Aware SLAM using Quadrics and Planes作者:Mehdi Hosseinzadeh, Yasir Latif, Trung Pham, Niko Suenderhauf andIan Reid來源:arixiv編譯:李鑫
  • 【泡泡圖靈智庫】IN2LAMA: 慣性雷射雷達定位和建圖
    泡泡圖靈智庫,帶你精讀機器人頂級會議文章標題:IN2LAMA: INertial Lidar Localisation And Mapping作者:Cedric Le Gentil, Teresa Vidal-Calleja and Shoudong Huang(Centre for Autonomous Systems at the Faculty
  • 【泡泡圖靈智庫】Residual 反應式導航:部署在未知環境中的結合經典和學到的導航策略
    泡泡圖靈智庫,帶你精讀機器人頂級會議文章標題:Residual Reactive Navigation: Combining Classical and Learned Navigation Strategies For Deployment in Unknown Environments.
  • 光流(Optical Flow)算法原理及示例
    光流的概念最早是由Gibson在1950年提出的。它是空間移動物體在像素觀察平面中移動的瞬時速度。是一種計算物體在相鄰幀間運動信息的方法。一般來說,光流(Optical Flow)是物體在三維空間中的運動在二維像平面上的投影。它是由物體和相機的相對速度產生的,反映了物體在極小時間內對應的圖像像素的運動方向和速度。
  • 【泡泡一分鐘】應用於視覺伺服和毫米級相機位姿估計的孿生卷積網絡
    Servoing作者:Cunjun Yu, Zhongang Cai, Hung Pham, Quang-Cuong Pham來源:IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS),2019編譯:張寧審核:黃思宇,孫欽這是泡泡一分鐘推送的第
  • 升級的精確匹配詳細說明你知道嗎?
    關鍵詞的詳細匹配說明精確匹配詳細說明:定義:廣告主提交的關鍵詞及關鍵詞的同義變體,會與用戶的搜素保持整體精確一致,幫助廣告主精確競爭目標流量。錯別字——示例一、精確匹配關鍵詞:常平暑假班搜索詞 昌平署假班示例2、精確匹配關鍵詞:痔瘡怎麼辦搜索詞 痣瘡怎麼辦書寫變體——精確匹配關鍵詞:香港迪士尼樂園
  • OpenCV-Python 光流|四十八
    目標在本章中,我們將了解光流的概念及其使用Lucas-Kanade方法的估計。我們將使用cv.calcOpticalFlowPyrLK()之類的函數來跟蹤視頻中的特徵點。我們將使用cv.calcOpticalFlowFarneback()方法創建一個密集的光流場。光流光流是由物體或照相機的運動引起的兩個連續幀之間圖像物體的視運動的模式。它是2D向量場,其中每個向量都是位移向量,表示點從第一幀到第二幀的運動。
  • 光流flownet2視頻介紹及代碼 及兩篇中文文章
    因為光流的預測涉及到每個像素點的精確的位置信息,這不僅涉及到圖像的特徵,還涉及到兩個圖片之間對應像素點的聯繫,所以用於光流預測的神經網絡與之前的神經網絡不同。3 神經光流網絡結構介紹首先他們有一個收縮部分,主要由卷積層組成,用於深度的提取兩個圖片的一些特徵。 但是pooling會使圖片的解析度降低,為了提供一個密集的光流預測,他們增加了一個擴大層,能智能的把光流恢復到高像素。 他們用back progation 對這整個網絡進行訓練。3.1 收縮部分網絡結構flownetsimple結構
  • 淺談立體匹配中的新式應用場景
    基於深度學習的立體匹配(stereo matching)是根據左右視角的 RGB 圖像來進行視差(深度)估計,兩張圖像的成像條件是具有相同內參的兩臺彩色相機
  • EXCEL最好用的函數,VLOOKUP查找,精確匹配員工信息
    今天我們要學習的就是VLOOKUP函數,我們將深入學習VLOOKUP函數的功能及語法,並將其應用到實際案例當中去,根據查找值,匹配員工的詳細信息。我們先看案例的最終效果:通過選擇姓名,自動匹配其他信息。
  • 【泡泡一分鐘】通過幾何感知課程學習來學習單目視覺裡程計
    在本文中,作者探討了將課程學習應用到複雜幾何任務上的問題,例如估計單目視覺裡程計的軌跡。不同於現有的課程學習方法,作者提出一種新的課程學習策略來學習單目視覺裡程計中的幾何信息,通過在訓練的過程中逐步增加訓練對象的難度。針對這樣一個目標,作者提出一個幾何感知目標函數,通過聯合優化相對變換誤差,和小窗口中的複合變換誤差(作者稱之為bounded pose  regression loss)。
  • 亞馬遜廣告關鍵詞廣泛匹配、精確匹配和短語匹配的區別
    Broad match(廣泛匹配):這種匹配方式給產品帶來最大限度的曝光。如果客戶搜索詞包含所有的廣告關鍵詞或其同義詞,就會被匹配從而激活廣告。可以匹配拼寫錯誤,單複數,相似關鍵字、不講究順序等等。 劣勢:點擊訪問的針對性不足,轉化率不如精確匹配和短語匹配。有可能會帶來大量點擊,觸發較多的點擊消費。 如果你的產品比較冷門,受眾非常少,可以用廣泛匹配提高展示量和點擊量。 2. Phrase match(短語匹配):在你設置的關鍵詞的前後可添加一些單詞,其中包括識別單複數,ing,介詞等等。
  • 【泡泡機器人原創專欄】SLAM/VIO學習總結
    2.1從機器人定位導航/狀態估計說起SLAM的輸出是運動體狀態+環境地圖,所以研究SLAM會有兩個不同的側重點,側重前者可以用於機器人定位導航,側重後者則用於三維重建,這篇文章假設讀者關注的是前者,將SLAM作為機器人定位導航(狀態估計)的一種方法展開下面的內容。運動體可以抽象為空間中的剛體,它的狀態可以使用六自由度(三軸位置、三軸姿態)進行描述。
  • 直角坐標系簡單應用之坐標平移,明確變化規律,掌握圖形平移 - 微言...
    初中數學七年級的直角坐標系是期末考試必考的內容,而且是以後學習重要的工具,而在直角坐標系中,關於坐標的平移也是常考的內容。關於坐標的平移,明確變化的規律,直接套用即可,進而通過點的坐標的平移變化,掌握圖形的平移。
  • DLO:用於2.5D室外環境的直接法LiDAR裡程計
    SLAM算法通過在駕駛期間觀察環境地標來構建地圖,並且實時地將當前的感知信息與地圖相關聯,最佳的估計自己的位姿。在SLAM系統中,前端裡程計是重要的組成部分,它通過逐幀之間的匹配來估計相對的位姿變換,從而實現航位推算。視覺裡程(VO)主要的方法可以分為間接和直接法。間接方法依賴於從圖像中提取的特徵,例如ORB-SLAM中採用的ORB特徵。
  • 北京高速公路收費新政策:ETC精確到分MTC精確到元
    未來,北京市需要調整收費精度,按照實際行駛裡程、費率標準精確收費,取消「二舍八入,三、七作五」 取整收費以及起步價,ETC精確到分,MTC(人工收費)精確到元。《交通運輸部辦公廳關於統一規範高速公路ETC門架系統分段式收費有關問題的通知》(交辦公路〔2019〕99號)要求「ETC(電子不停車收費)車輛單次交易金額(實際收取金額)精確到分」,「MTC(人工收費)車輛單次交易金額精確到元」。
  • 兩年三刷Pascal VOC最佳紀錄,阿里圖靈實驗室怎樣解決目標檢測
    機器之心原創作者:一鳴Pascal VOC 是計算機視覺領域的重要榜單和數據集,被用於評估目標檢測算法的性能,其數據量小且不平衡,達到高性能難度較大。近日,阿里安全圖靈實驗室宣布,其開發的相關算法已在相關數據集上多次刷新 Pascal VOC 世界紀錄。
  • 基於機器學習LOS/NLOS鑑別器與魯棒估計的GNSS陰影匹配| 許立達
    (Our 3D building models and Image from Google earth)首次將基於機器學習的LOS/NLOS鑑別器與基於魯棒估計的初始位置解應用於陰影匹配算法。指出了基於支持向量機(SVM)的LOS/NLOS鑑別器主要存在的兩大問題,以及改善後對於鑑別成功率的大幅提升。