【泡泡一分鐘】挑戰性光照條件下的視覺裡程計多模態跟蹤框架

2021-02-07 泡泡機器人SLAM

每天一分鐘,帶你讀遍機器人頂級會議文章

標題:Multimodal tracking framework for visual odometry in challenging illumination conditions

作者:Axel Beauvisage, Kenan Ahiska, Nabil Aouf

來源:2020 IEEE International Conference on Robotics and Automation (ICRA)

編譯:餘旭東

審核:柴毅,王靖淇

這是泡泡一分鐘推送的第 631 篇文章,歡迎個人轉發朋友圈;其他機構或自媒體如需轉載,後臺留言申請授權

視覺裡程計和定位的研究大多是在可見光條件下求解的,其中光照是一個關鍵因素。電磁波譜的其他部分正被研究,以在極端光照條件下求解。特別地,多譜段的設置是令人感興趣的,因為它們能同時提供不同譜段的信息。但是,這種相機設置的主要挑戰在於生成的圖像之間缺少相似性,導致傳統的立體匹配技術顯得過時。

這項工作研究一種應用於視覺裡程計的同時處理不同波譜的圖像的新方法。尤其關注的是可見光和長波紅外(LWIR)波譜,它們的像素強度之間的不同之處是最多的。我們提出了一種新的多模態單目視覺裡程計(MMS-VO),同時提取特徵,但是只有提供跟蹤質量最好的相機被用於估計運動。視覺裡程計通過加窗的光束調整框架實現,當場景本質發生變化時選擇不同的相機。而且,根據視差選擇適當的關鍵幀使得運動估計過程是抗差的。

算法在一系列可見光-紅外數據集上測試,數據集來自真實場景中駕駛的汽車。結果表明,特徵提取能夠採用同一組參數在不同模態中實現。此外,多模態單目視覺裡程計能提供較好的視覺裡程計軌跡,因為當某個相機不能工作時另一個可以補償。

表1 每次迭代進行野值剔除之後可見光、紅外光以及被選擇模態的剩餘點的數量

表3 MMS-VO和真值(GNSS)之間的誤差比較

圖3 序列3中的軌跡,a是可見光VO和紅外VO單獨的軌跡估計,b是進行模態選擇之後的軌跡估計

圖4 p-LK失效的例子以及對應的p-LK跟蹤結果,每個藍線表示當前幀和上一幀中特徵點的位置

Abstract

Research on visual odometry and localisation is largely dominated by solutions developed in the visible spectrum, where illumination is a critical factor. Other parts of the electromagnetic spectrum are currently being investigated to generate solutions dealing with extreme illumination conditions. Multispectral setups are particularly interesting as they provide information from different parts of the spectrum at once. However, the main challenge of such camera setups is the lack of similarity between the images produced, which makes conventional stereo matching techniques obsolete. 

This work investigates a new way of concurrently processing images from different spectra for application to visual odometry. It particularly focuses on the visible and Long Wave InfraRed (LWIR) spectral bands where dissimilarity between pixel intensities is maximal. A new Multimodal Monocular Visual Odometry solution (MMS-VO) is presented. With this novel approach, features are tracked simultaneously, but only the camera providing the best tracking quality is used to estimate motion. Visual odometry is performed within a windowed bundle adjustment framework, by alternating between the cameras as the nature of the scene changes. Furthermore, the motion estimation process is robustifified by selecting adequate keyframes based on parallax. 

The algorithm was tested on a series of visible-thermal datasets, acquired from a car with real driving conditions. It is shown that feature tracking could be performed in both modalities with the same set of parameters. Additionally, the MMS-VO provides a superior visual odometry trajectory as one camera can compensate when the other is not working.

如果你對本文感興趣,請點擊點擊閱讀原文下載完整文章,如想查看更多文章請關注【泡泡機器人SLAM】公眾號(paopaorobot_slam)

百度網盤提取碼:0o84

歡迎來到泡泡論壇,這裡有大牛為你解答關於SLAM的任何疑惑。

有想問的問題,或者想刷帖回答問題,泡泡論壇歡迎你!

泡泡網站:www.paopaorobot.org

泡泡論壇:http://paopaorobot.org/bbs/

泡泡機器人SLAM的原創內容均由泡泡機器人的成員花費大量心血製作而成,希望大家珍惜我們的勞動成果,轉載請務必註明出自【泡泡機器人SLAM】微信公眾號,否則侵權必究!同時,我們也歡迎各位轉載到自己的朋友圈,讓更多的人能進入到SLAM這個領域中,讓我們共同為推進中國的SLAM事業而努力!

商業合作及轉載請聯繫liufuqiang_robot@hotmail.com

相關焦點

  • 大牛講堂|SLAM最終話:視覺裡程計
    本講主要關注視覺裡程計。為了講清楚它的來龍去脈,我們會進行一些公式的推導。視覺裡程計算法需要大量的幾何知識,我們將在必要的時候,以Tips的形式介紹一些背景知識。一、裡程計在裡程計問題中,我們希望測量一個運動物體的軌跡。這可以通過許多不同的手段來實現。例如,我們在汽車輪胎上安裝計數碼盤,就可以得到輪胎轉動的距離,從而得到汽車的估計。或者,也可以測量汽車的速度、加速度,通過時間積分來計算它的位移。完成這種運動估計的裝置(包括硬體和算法)叫做裡程計(Odometry)。
  • 多模態研究:認知語言學的新方法
    該方法不僅把語言模態視作人類認知世界的方式之一,而且認為圖像、聲音、手勢、音樂等其他模態也是意義建構的重要手段。泰爾米和斯洛賓通過對口語、書面語、手勢等多模態數據的分析,把人類語言區分為衛星框架語言、動詞框架語言和均等框架語言等三種類型。三是關注同一語言不同年齡的說話者在語言表徵模式上的差異,藉此考察語言類型的發展規律。
  • 多模態柔性傳感器系統是什麼樣的?
    越來越多的生物和非生物脅迫,對植物的生長和產量帶來了潛在的威脅。因此,對植物健康狀況的準確監測和評估顯得越來越重要。但是,傳統用於這類測量的傳感器通常體積大且笨重,並局限於集中的氣候條件,或需要在氣體交換室中進行測量。
  • 多模態數據融合:方法、挑戰和展望
    在這種情況下,每個採集框架被表示為一個模態,並且與一個數據集相關聯。整個設置,其中一個人可以訪問從多個模態獲得的數據,被稱為多模態。多模態的一個關鍵特性是互補性,也就是說,每一種模態都給整體帶來某種類型的附加值,而這種附加值是不能從設置中的任何其他模態中推導或獲得的。
  • 全球計算機視覺頂會 CVPR 連續三年收錄騰訊優圖論文 2019 收錄 25...
    ,然而在非交疊的多相機視圖下,標籤對(pairwise label)的缺失導致學習鑑別性的信息仍然是非常具有挑戰性的工作。由於大多數目標對來自交叉視角,我們提出了交叉視角下的軟性多標籤一致性學習方法,以保證不同視角下標籤的一致性。為實現高效的軟標籤學習,引入了參考代理學習 (reference agent learning)。我們的方法在 Market-1501 和 DukeMTMC-reID 上進行了評估,顯著優於當前最好的無監督 RE-ID 方法。
  • 計算機視覺方向簡介 | 多視角立體視覺MVS
    在初始化階段,除了是一組標定圖像之外,所有多視角立體視覺算法都假定或要求輸入被重建的目標或場景的幾何範圍信息。場景表示可以是體素、多邊形網格、深度圖和水平度集(level sets),如圖是一些場景表示例子,即深度圖,點雲,體積標量場和網格。
  • 城市複雜環境下的多系統GNSS PPP/慣性/雙目視覺半緊耦合精密定位方法| 李星星
    本文提出了一種基於圖優化的多系統GNSS PPP/慣性/雙目視覺半緊耦合精密定位方法,通過GNSS與視覺慣性裡程計之間的雙向位置傳遞與共享,有效提升了GNSS PPP在城市複雜環境下的定位精度和可用性。本文通過GNSS完全中斷仿真實驗,分析了雙目視覺慣性裡程計在GNSS不可用時的定位性能。
  • 騰訊優圖25篇論文入選全球頂級計算機視覺會議CVPR 2019
    ,然而在非交疊的多相機視圖下,標籤對(pairwise label)的缺失導致學習鑑別性的信息仍然是非常具有挑戰性的工作。該想法通過將未標註的人與輔助域裡的一組已知參考者進行比較,為未標註者標記軟標籤(類似實值標籤的似然向量)。基於視覺特徵以及未標註目標對的軟性標籤的相似度一致性,我們提出了軟多標籤引導的hard negative mining方法去學習一種區分性嵌入表示(discriminative embedding)。
  • 從體驗認知視域談多模態教學
    越來越多的實證研究證據表明:感覺與動覺的體驗包含於認知的過程中,我們的身體不僅是認知的感受器和傳導器,也是認知形成過程中的一部分。現實生活中的語言交流很少依靠單一的聽說模態,而是整合了視覺、動覺、觸覺等多重模態,故而語言學習在本質上也應是多模態的。因此多模態教學鼓勵將不同的感官模態整合起來,而不是像傳統的外語教學那樣過度地依賴聽說。
  • 全球計算機視覺頂會CVPR 2019論文出爐:騰訊優圖25篇論文入選
    label)的缺失導致學習鑑別性的信息仍然是非常具有挑戰性的工作。該想法通過將未標註的人與輔助域裡的一組已知參考者進行比較,為未標註者標記軟標籤(類似實值標籤的似然向量)。基於視覺特徵以及未標註目標對的軟性標籤的相似度一致性,我們提出了軟多標籤引導的hard negative mining方法去學習一種區分性嵌入表示(discriminative embedding)。
  • 京東姚霆:推理能力,正是多模態技術未來亟需突破的瓶頸!
    在物流場景,京東也成功地將視頻分析技術應用於物流園區作業人員行為規範管理中,特別是針對監控視頻的站點環境、攝像頭角度和成像條件差異性較大等難點,京東採用了自研的基於局部——全局傳播網絡的通用視頻特徵以及高效視頻事件時序檢測框架,並融入了跨域學習技術,實現了同時在幾百個不同的站點中全天候的作業人員操作行為實時檢測,有效地管理了物流作業人員在各個站點的工作規範。
  • 愛奇藝攜手ACM MM舉辦2019"多模態人物識別競賽"
    作為全球多媒體領域頂級競賽的一部分,此次愛奇藝將於3月18日向全球參賽者開放最接近實際媒體應用場景的視頻人物數據集(iQIYI-VID-2019),更具挑戰性。愛奇藝攜手全球頂尖研究團隊探索視頻應用場景的多模態人物識別技術進一步突破。
  • 多模態:翻譯研究的新視角
    因此,翻譯活動本身包含著多模態信息傳遞的內容,我們借鑑多模態話語分析的理論與成果來考察翻譯產品與過程,作為翻譯研究的新視角,具有其內在的合理性與可行性。從多模態的視角切入翻譯實踐和研究,我們能夠得到更多新的發現與收穫,從而豐富和完善翻譯研究的分支,同時也是對多模態話語分析這一語言學理論的開發與拓展。
  • 愛奇藝攜手ACM MM舉辦2019「多模態人物識別競賽」
    作為全球多媒體領域頂級競賽的一部分,此次愛奇藝將於3月18日向全球參賽者開放最接近實際媒體應用場景的視頻人物數據集(iQIYI-VID-2019),更具挑戰性。愛奇藝攜手全球頂尖研究團隊探索視頻應用場景的多模態人物識別技術進一步突破。
  • 最強戰隊 | 三維視覺、SLAM方向全球頂尖實驗室匯總
    機器人可以在地面,空中和水中運動,同時具備在複雜環境下自主導航的功能,研究出了包括用於感知,抽象,建圖和路徑規劃的方法和工具。他們還在tango項目上與谷歌合作,負責視覺慣導的裡程計,基於視覺的定位和深度重建算法。
  • MIT黑科技:無需視覺,立體聲音頻+攝像機元數據實現移動車輛定位
    此外,我們對聲音的感知使我們能夠定位不在視線範圍內的物體(例如在我們身後或被遮擋的物體),並且在光線不足的條件下,聲音在定位物體方面起著重要作用。重要的是,我們的視覺和聽覺在根本上是一體的,例如,我們可以通過看或者閉眼聽來定位目標並準確指出其所在方向。
  • 基於機動LSTM的周圍車輛多模態軌跡預測
    多個相互作用的智能體、駕駛員行為的多模性以及任務中固有的不確定性使得周圍車輛的運動預測成為一個具有挑戰性的問題。本文提出了一種基於LSTM模型的高速公路周邊車輛交互感知運動預測模型。我們的模型為車輛進行機動分配置信值,並在此基礎上輸出未來運動的多模態分布。我們比較了我們的方法與現有技術的車輛運動預測的公開有用的NGSIM US-101和I-80數據集。
  • 多模態視角下《金星秀》的話語傳播策略分析
    關鍵詞:多模態視角;《金星秀》;話語傳播策略 一、多模態話語分析 多模態話語分析是話語分析的一個重要分支,多模態話語指運用聽覺、視覺、觸覺等多種感覺,通過語言、圖像、聲音、動作等多種手段和符號資源進行交際的現象。
  • 計算機視覺中,究竟有哪些好用的目標跟蹤算法(下)
    ,目前有哪些經典的目標跟蹤算法?】在介紹SRDCF之前,先來分析下相關濾波有什麼缺點。總體來說,相關濾波類方法對快速變形和快速運動情況的跟蹤效果不好。快速變形主要因為CF是模板類方法。前面分析了相關濾波模板類特徵(HOG)對快速變形和快速運動效果不好,但對運動模糊光照變化等情況比較好;而顏色統計特徵(顏色直方圖)對變形不敏感,而且不屬於相關濾波框架沒有邊界效應,快速運動當然也是沒問題的,但對光照變化和背景相似顏色不好。綜上,這兩類方法可以互補,也就是說DSST和DAT可以互補結合:
  • DualVD:借鑑認知雙向編碼理論,提出視覺對話新框架 | AAAI 2020
    論文連結:https://arxiv.org/abs/1911.07251代碼連結:https://github.com/JXZe/DualVD論文動機近年來,跨模態研究引發了廣泛關注並取得顯著進展,綜合分析語言和視覺等不同模態的信息對模擬現實社會中人類對於信息的認知過程具有重要意義。