【泡泡一分鐘】應用於視覺伺服和毫米級相機位姿估計的孿生卷積網絡

2021-02-18 泡泡機器人SLAM

每天一分鐘,帶你讀遍機器人頂級會議文章

標題:Siamese Convolutional Neural Network for Sub-Millimeter-Accurate Camera Pose Estimation and Visual Servoing

作者:Cunjun Yu, Zhongang Cai, Hung Pham, Quang-Cuong Pham

來源:IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS),2019

編譯:張寧

審核:黃思宇,孫欽

這是泡泡一分鐘推送的第 548 篇文章,歡迎個人轉發朋友圈;其他機構或自媒體如需轉載,後臺留言申請授權

視覺伺服(VS)是一種重要技術,可用來處理需要高度準確性的機器人任務,在Visual Servoing(VS)中,通常是從通常安裝在機器人末端執行器上的攝像機拍攝的圖像用於指導機器人運動。我們提出了一種基於孿生架構的新神經網絡,用於高度精確的相機姿態估計。反過來,這可以用作粗略VS之後的最終優化步驟,或者如果以迭代方式應用,則可以單獨用作獨立VS。我們的神經網絡的關鍵特徵是它可以輸出任何一對圖像之間的相對姿勢,並且精度達到亞毫米級。

我們證明了我們的網絡可以將姿勢估計誤差從初始位置減少到平移0.6毫米和旋轉0.4度。如果一次應用,誤差為10毫米/ 5度,或者如果反覆應用,則誤差為幾釐米/十度。該網絡可以推廣到相似的對象,對於變化的光照條件具有魯棒性,並且可以推廣到部分遮擋(當迭代使用時)。所獲得的高精度可以解決下遊的低公差裝配任務:使用我們的網絡,工業機器人在VGA連接器插入任務中無需任何力感測機制即可獲得97.5%的成功率。

圖1:使用工業機器人進行插入實驗。凸型連接器通過相機連接到末端執行器。末端執行器的更好視圖位於右上角。

圖3:母連接器具有不同的形狀(A:藍色;B:白色;C:黑色)和尺寸(1,2和3);使用相應尺寸的公連接器。

Abstract

Visual Servoing (VS), where images taken from a camera typically attached to the robot end-effector are used to guide the robot motions, is an important technique to tackle robotic tasks that require a high level of accuracy. We propose a new neural network, based on a Siamese architecture, for highly accurate camera pose estimation. This, in turn, can be used as a final refinement step following a coarse VS or, if applied in an iterative manner, as a standalone VS on its own. The key feature of our neural network is that it outputs the relative pose between any pair of images, and does so with submillimeter accuracy.We show that our network can reduce pose estimation errors to 0.6 mm in translation and 0.4 degrees in rotation, from initial errors of 10 mm / 5 degrees if applied once, or of several cm / tens of degrees if applied iteratively. The network can generalize to similar objects, is robust against changing lighting conditions, and to partial occlusions (when used iteratively). The high accuracy achieved enables tackling low-tolerance assembly tasks downstream: using our network, an industrial robot can achieve 97.5% success rate on a VGAconnector insertion task without any force sensing mechanism.

如果你對本文感興趣,請點擊點擊閱讀原文下載完整文章,如想查看更多文章請關注【泡泡機器人SLAM】公眾號(paopaorobot_slam)

百度網盤提取碼:cts5

歡迎來到泡泡論壇,這裡有大牛為你解答關於SLAM的任何疑惑。

有想問的問題,或者想刷帖回答問題,泡泡論壇歡迎你!

泡泡網站:www.paopaorobot.org

泡泡論壇:http://paopaorobot.org/bbs/

泡泡機器人SLAM的原創內容均由泡泡機器人的成員花費大量心血製作而成,希望大家珍惜我們的勞動成果,轉載請務必註明出自【泡泡機器人SLAM】微信公眾號,否則侵權必究!同時,我們也歡迎各位轉載到自己的朋友圈,讓更多的人能進入到SLAM這個領域中,讓我們共同為推進中國的SLAM事業而努力!

商業合作及轉載請聯繫liufuqiang_robot@hotmail.com

相關焦點

  • CVPR2020曠視提出PVN3D:針對6D位姿估計的3D關鍵點投票網絡
    我們的方法是基於2D關鍵點方法的擴展,它在RGB圖上估計6D位姿取得了成功。它充分利用具有額外深度信息的剛體的幾何約束,易於網絡學習和優化。該方法達到了sota的性能。由於光線變化、傳感器噪聲、場景遮擋及物體截斷等,6D位姿估計是一個挑戰性的問題。傳統方法使用手工設計的特徵,提取圖像與物體網格模型之間的對應關係,但是這些人工設計的特徵在光線變化及嚴重遮擋的場景下性能較差。近期,隨著機器學習與深度學習技術的發展,深度神經網絡(DNN)被用於解決這一任務,並取得顯著效果。
  • 位姿參數辨識系統
    因此,研究太空飛行器位姿參數辨識的智能算法有實際意義[5]。 本文旨在設計實現視覺測量求解的位姿參數辨識系統:(1)採用視覺測量方案,實現非接觸、低成本的圖像採集系統;(2)利用深度神經網絡提供更加準確的特徵點提取結果;(3)採用PNP位姿解算方法求解,得到位姿參數辨識結果。初步試驗結果表明,該位姿參數辨識系統能夠較好的滿足使用需求,得到精度較高的辨識結果。
  • Robotstudio軟體:ABB機器人機器視覺位姿引導虛擬仿真
    概述近幾年來機器視覺技術在工業生產中得到了廣泛的應用,在工業機器人應用領域中,機器視覺被廣泛應用於工件的特徵檢測,以及機器人的位姿引導。市面上大部分的機器人廠商也都在機器人控制器中開放了視覺集成接口,以便於機器人能夠直接與智能相機進行數據交互。除了現實的機器視覺應用以外,在機器人仿真過程中也需要對機器視覺進行仿真。
  • 卷積神經網絡CNN:卷積的來源和原理
    局部連接、權值共享等特點的深層前饋神經網絡,在圖像和視頻分析領域中,比如圖像分類、目標檢測、圖像分割等各種視覺任務中都有顯著的提升效果,是目前應用最廣泛的模型之一。卷積和池化是卷積神經網絡中的兩個核心操作,很多卷積神經網絡的結構都是將這兩者進行組合而得到的。今天我們來闡述一下卷積的來源和原理。卷積一詞來源於信號處理領域,它是一項廣泛應用於信號處理、圖像處理以及其他工程科學領域的技術。
  • 【泡泡圖靈智庫】平移不變匹配代價學習用於精確光流估計
    已經證明學習匹配代價是最先進的深度立體匹配方法成功的關鍵,該方法在一個4D特徵體用3D卷積學習3D代價體。然而,這一機制從未用於光流任務。這主要是由於在光流計算中搜索維數顯著增加,即直接擴展需要稠密的4D卷積處理5D特徵體,在計算上這是不可行的。本文提出了一種新的解決方案,該方案能夠繞過構建5D特徵體的需求,同時仍然允許網絡從數據中學習合適的匹配代價。
  • ImageNet冠軍帶你入門計算機視覺:卷積神經網絡
    重點介紹經典的卷積神經網絡,全卷積網絡的基本概念和基本單元,以及卷積神經網絡與神經網絡的異同。最後通過實現一個在實際中有廣泛應用的人臉關鍵點檢測算法,介紹如何用 TensorFlow 構建卷積神經網絡。
  • 薦書丨周志華力薦新書《解析深度學習:卷積神經網絡原理與視覺實踐》
    魏秀參博士在LAMDA 求學數年,對卷積神經網絡及其視覺應用頗有所長,博士未畢業即被曠視科技聘為南京研究院負責人,畢業之際將心得材料轉撰成書請愚致序。師生之誼,盛情難卻。在國內計算機領域,寫書乃吃力不討好之事。
  • 【孿生網絡】文本蘊含之孿生網絡(Siamese Network)
    一、背景介紹孿生網絡一開始提出是在圖像識別領域(例如人臉識別),來求解兩張圖片(兩張人臉圖像)相似度,判斷兩張圖片是否相似。圖1 基於孿生網絡的圖像相似度求解圖二、孿生網絡在文本蘊含中的使用在機器學習中,很多算法在圖像和自然語言處理兩個領域是可以互通的(可以相互借鑑的)。
  • 【泡泡機器人原創專欄】SLAM/VIO學習總結
    ,三角化算法會退化導致特徵點跟蹤丟失,同時視覺 SLAM 一般採取第一幀作為世界坐標系,這樣估計出的位姿是相對於第一幀圖像的位姿,而不是相對於地球水平面 (世界坐標系) 的位姿,後者卻是導航中真正需要的位姿,換言之,視覺方法估計的位姿不能和重力方向對齊。
  • 從特徵檢測器到視覺轉換器:卷積神經網絡的時代到此結束了嗎?
    圖源:unsplash近十年來,卷積神經網絡一直在全球計算機視覺研究領域發揮著主導作用。但研究者們正在提出一種新方法,想要利用轉換器的功能賦予圖像更深層的意義。卷積神經網絡(CNN)存在的問題在深入研究視覺轉換器的運行方式之前,釐清卷積神經網絡的缺點和根本缺陷很有必要。首先,卷積神經網絡無法編碼相對空間信息。也就是說,它僅關注於檢測某些特徵,而忽略了相對空間位置。
  • 圖解:卷積神經網絡的數學原理分析
    ,而計算機視覺已經幫助我們實現了這些目標。實際上,我們每天都在使用計算機視覺功能-當我們用臉解鎖手機或在社交媒體上發布照片時,我們會使用自動照片編輯功能。卷積神經網絡可能是取得巨大成功的最關鍵的基礎。這次,我們將加深對神經網絡如何在CNN上工作的理解。出於建議,本文將包含非常複雜的數學方程式。如果您不習慣線性代數和微分,請不要氣our。我的目標不是讓您記住這些公式,而是讓您直觀地了解下面發生的事情。
  • 【泡泡一分鐘】通過幾何感知課程學習來學習單目視覺裡程計
    每天一分鐘,帶你讀遍機器人頂級會議文章標題:Learning Monocular Visual Odometry through Geometry-Aware Curriculum Learning作者:Muhamad Risqi U. Saputra, Pedro P.
  • 孿生網絡入門(上) Siamese Net及其損失函數
    如果需要交流的話歡迎聯繫我,WX:cyx645016617所以這個孿生網絡入門,我想著分成上下兩篇,上篇也就是這一篇講解模型理論、基礎知識和孿生網絡獨特的損失函數;下篇講解一下如何用代碼來複線一個簡單的孿生網絡。
  • 深度學習—應用於機器視覺領域的卷積神經網絡(CNN)簡介
    20世紀60年代,Hubel和Wiesel在研究貓腦皮層中用於局部敏感和方向選擇的神經元時發現其獨特的網絡結構可以有效地降低反饋神經網絡的複雜性,繼而提出了卷積神經網絡(CNN) 。現在,CNN已經成為眾多科學領域的研究熱點之一,特別是在模式分類領域,由於該網絡避免了對圖像的複雜前期預處理,可以直接輸入原始圖像,因而得到了更為廣泛的應用。
  • 重用地圖的單目視覺慣導SLAM系統
    本文作者提出了一個新穎的基於緊耦合的帶有閉環檢測的視覺慣導SLAM系統,他可以在已經建圖的地方重用地圖達到0漂移的定位精度。這個系統可以用在所有的相機上,這裡主要介紹存在尺度不確定性的單目相機。本文也提出了一個新穎的IMU初始化的方法可以在短時間內計算很高精度的尺度,重力方向,速度,加速度計和陀螺儀的偏置。在11個序列的飛行數據集上進行了測試,尺度誤差達到1%(釐米級)精度。
  • 北大圖靈班本科生帶來動畫CG福音,「最懂骨骼的卷積網絡」
    論文一作,分別是北京電影學院研究科學家Kfir Aberman,和北大圖靈班大三本科生李沛卓。對於這一成果,論文通訊作者陳寶權教授詼諧地表示:這是最懂骨骼的卷積網絡。而且據說,論文和代碼發布之後,就有相關工業界公司來跟研究團隊接洽了。所以這究竟是怎樣一個「骨骼驚奇」的神經網絡?最懂骨骼的卷積網絡論文的主要技術貢獻,是提出了全新的骨骼卷積和骨骼池化算子。
  • 典型的深度學習算法(一):卷積神經網絡(CNN)
    在深度學習領域中,已經驗證的典型成熟算法有卷積神經網絡(CNN)、循環神經網絡(RNN)、生成對抗網絡(GAN)、深度強化學習(DRL)等,下面企通查將帶領大家對典型的深度學習算法之一——卷積神經網絡(CNN)一探究竟。
  • 計算機視覺-相機內參數和外參數
    ,如相機焦慮,相機畸變係數等~一般來說如果你僅僅只是利用相機標定來進行一些比較簡單的視覺測量的話,那麼就沒有必要單獨標定出相機的內部參數了~至於相機內部參數如何解算,相關論文講的很多~在圖像測量過程以及機器視覺應用中,為確定空間物體表面某點的三維幾何位置與其在圖像中對應點之間的相互關係,必須建立相機成像的幾何模型,這些幾何模型參數就是相機參數。
  • 從全卷積網絡到大型卷積核:深度學習的語義分割全指南
    如下圖:    左:輸入圖像,右:該圖像的語義分割  除了識別車和騎車的人,我們還需要描繪出每個物體的邊界。因此,與圖像分類不同,語義分割需要根據模型進行密集的像素級分類。  VOC2012和MSCOCO是語義分割領域最重要的數據集。  有哪些不同的解決方案?