Google利用立體視覺快速測量透明物體的3D位置與形狀

2020-11-26 騰訊網

Google與史丹福大學合作,開發了處理透明物體的全新計算機視覺方法,這個稱為KeyPose的機器學習系統,能夠直接預測3D關鍵點(Keypoint)來估測透明物體的深度,比起過去的方法又快又準。在發布研究成果的同時,Google也發布了用來訓練KeyPose模型的透明物體資料集,供研究社群使用。

測量3D物體的位置以及朝向,是計算機視覺在對象感知應用的核心挑戰,這些應用程式需要知道物體在真實世界的3D位置,才能進行下一步的操作,像是將虛擬物體放置在物體周圍等。目前已經有許多針對該主題的研究,除了應用機器學習或是深度網絡技術之外,其他方法還包括使用深度傳感設備,像是Kinect,來直接測量物體的距離。

不過,對於有光澤或是透明的物體,深度傳感設備效果不高,早前Google也曾發布過利用機器學習方法的研究,像是ClearGrasp就是利用深度神經網絡,來修復損壞的深度信息,只要使用一張RGB-D圖像,ClearGrasp就能使用深度卷積網絡,推測物體表面法矢量、透明表面的遮罩以及受屏蔽的邊界,並使得場景中所有透明表面的深度估算更精確。雖然該方法很有效,但是因為其使用大量的合成圖像進行訓練,在部分情況修復深度時,仍容易發生錯誤。

而Google最新與史丹福大學合作的KeyPose機器學習方法,是直接利用單反或是立體圖像,預測透明物體的3D關鍵點,而不需要先明確計算深度,且即便在訓練過程,沒有見過的物體或物體種類,也能在應用期間良好的處理。

為了要快速收集大量真實世界的圖像,研究團隊創建了一個人信息料收集系統,該系統中的機器人手臂依照設置軌跡移動,手臂上同時安裝了立體相機以及Kinect Azure深度相機。桌面配置了用來定位的視覺基準系統AprilTags,以精確關注攝影機的姿勢,研究人員只需要在視頻中的少量圖像,標記出2D關鍵點,便能利用多視角幾何方法,在所有視頻影格中截取3D關鍵點,高效率地進行標記,並利用這個3D關鍵點資料集訓練網絡。

研究團隊捕捉了5種類型15種透明物體的圖像,並且搭配多種背景材質以及物體排列方式,總共拍攝了600多個視頻串行,研究人員也用不透明版本物體,截取了基準真實深度。

實際預測流程,輸入使用立體相機拍攝同一物體的左右圖片,將這兩張照片送進KeyPose網絡中,網絡便能預測出代表物體位置與形狀的稀疏3D關鍵點,之後再利用兩張圖的視差,推算出每個關鍵點的3D坐標。這個方法也能夠使用單眼相機的圖片,但是使用立體相機的圖片,其準確度是前者的兩倍。

結果如下圖,最左側是原始的立體圖像,中間是物體的3D關鍵點,右邊則是顯示由3D關鍵點推算可表示物體姿勢的其他點。研究人員提到,這個方法非常快速準確,使用標準GPU計算馬克杯的深度只要5毫秒,無論是透明瓶子還是馬克杯,其平均絕對誤差都在10 mm以下,瓶子的平均絕對誤差甚至可達5.8 mm。

相關焦點

  • 結構光、立體視覺、ToF 3D傳感原理是啥?ams 3D傳感助力應用落地
    結構光(Structured Light)是通過紅外雷射器,將具有一定結構特徵的光線投射到被拍攝物體上,再由專門的紅外攝像頭進行採集反射的結構光圖案,根據三角測量原理進行深度信息的計算。雙目立體視覺是基於視差,由三角法原理進行三維信息的獲取,即由兩個攝像機的圖像平面和北側物體之間構成一個三角形。一直兩個攝像機之間的位置關係,便可以獲得兩攝像機公共視場內物體的三維尺寸及空間物體特徵點的三維坐標。所以,雙目視覺系統一般由兩個攝像機構成。
  • 3D電影與立體視覺的關係
    3D電影越來越多,很多人都想體驗一下震撼的視覺效果,但並不是所有人都適合看3D電影,雙眼立體視覺功能差的患者戴上3D眼鏡也看不到立體效果,或者立體感很差,而且時間長了還容易出現眼睛疲勞、頭痛等症狀。那什麼是雙眼立體視覺呢?
  • 神奇的3D立體圖片,試試自己的眼力
    3D立體圖是啥3D立體圖是利用人們兩眼視覺差別和光學折射原理在一個平面內使人們可直接看到一幅三維立體圖,畫中事物既可以凸出於畫面之外,也可以深藏其中。人們的兩隻眼睛相距6-7釐米左右兩隻眼睛看物體時是從不同角度看到的兩個稍有差別的圖象,大腦將這兩個具有視差的圖象合成後形成立體的感覺,但我們平常見到的平面圖,由於進入眼睛的是一幅角度完全相同的圖象,所以視覺和大腦無法提取畫面上物體真實意義上的空間立體感,不能體現其三維關係。而立體影像與平面圖像有著本質的區別,平面圖像反映了物體上下、左右二維關係,人們看到的平面圖也有立體感。
  • 立體視覺介紹
    立體視覺雙眼單視包括有:同時視、感知性融像能力、運動性融像能力、立體視覺、深度覺。
  • 無人機雙目立體視覺實現自動避障
    在無人機領域,雙目立體視覺已經成為一種極其有價值的應用,它可以輔助無人機更快更好地識別周圍場景,通過雙目立體視覺識別來實現自動避障。 雙目立體視覺(Binocular Stereo Vision)是基於視差原理的機器視覺的一種重要形式,它利用成像設備從不同的位置獲取被測物體的兩幅圖像
  • 3D雙目立體視覺在機器人視覺的應用
    隨著自動化程度越來越高,機器視覺扮演著越來越重要的角色,傳統的2D定位無法解決產品的空間坐標信息,而3D雙目立體視覺可提供較高精度的定位。在汽車行業,汽車後底板的抓取搬運主要交給工業機器人完成,這面臨一大難題:每一塊後底板的平面坐標XYR和空間坐標ZWP都相差較大,而機器人夾具的兩個尖削必須精確的插入後底板兩孔位,才能進行搬運。
  • 淺談立體視覺
    原創 眼視光專家胡穎 眼視光專家胡穎Hi~新朋友,記得點藍字關注我喲立體視是雙眼對物體遠近、深淺、高低三維空間位置的分辨感知能力,是雙眼視覺中的最高級功能。立體視銳度是分辨雙眼視網膜影像間最小的水平視差的能力,其單位為秒弧角,或稱弧秒,正常值通常為40"~60",立體視銳度越小,其立體視功能就越好。
  • 立體視覺是怎麼產生的?
    我們的大腦利用各種線索來估計立體深度。這包括一個場景的單一靜態圖像中出現的圖像深度線索,例如遮擋、相對大小、透視、紋理和模糊等。雖然這些圖像線索在解釋三維場景結構時很有價值,但是他們通常不能提供關於深度的精確定量信息。
  • HALCON高級篇:立體視覺
    雙目立體視覺用兩個相機,返回差異圖,距離圖,或者3D坐標。下圖展示了一個板子的立體圖像對和板子部件的結果高度圖。雙目立體視覺的基本原理,頂部:立體圖像對;底部:高度圖多視角立體視覺也可以用超過兩個相機,其要麼被用來重構作為3D物體模型被返回的表面,或者去重構單獨的點。
  • 3D視覺為機器人增加「眼睛」
    要引導機器人運用深度傳感視覺,需要考慮三個關鍵方法:立體視覺、結構光和飛行時間(ToF)。0HHednc機器人系統已經存在了幾十年,但直到最近它們大多都是盲目工作。只需為機器人配備接觸傳感器、接近傳感器和位置傳感器,它們就可以優雅地進行精心編排的、無休止的重複動作,可以操縱重型材料,執行精密裝配,或焊接複雜的結構。
  • 3D成像方法--- 雙目視覺、雷射三角、結構光、ToF、光場
    雙目立體視覺由三角法原理進行三維信息的獲取,即由兩個攝像機的圖像平面和被測物體之間構成一個三角形。已知兩個攝像機之間的位置關係和物體在左右圖像中的坐標,便可以獲得兩攝像機公共視場內物體的三維尺寸及空間物體特徵點的三維坐標。
  • 3D視覺成像的下一站 淺析TOF 3D立體攝像頭技術
    根據原理和硬體實現方式的不同,智慧型手機領域最靠譜的3D視覺成像技術逐漸衍生出了三個方向,它們分別是雙目立體成像、3D結構光以及TOF技術。雙目立體成像:無解的光線我們去電影院通過立體眼鏡觀看3D電影,就是雙目成像技術的一種表現形式:由於雙眼會有視覺差距,從而呈現出立體的畫面。在手機領域,配備兩顆攝像頭陣列,就滿足了雙目成像技術的最基本要求。
  • 攝影測量與遙感立體顯示設備發展
    攝影測量與遙感測圖處理是利用攝影測量與遙感測圖軟體在三維立體觀測和量測設備的支撐下,通過對獲取的二維影像進行量測,測定被攝物體在三維空間的位置、形狀、大小乃至物體的運動的處理過程。三維立體觀測設備是攝影測量與遙感生產作業過程中的基礎、關鍵、核心設備,在顯示精度、色彩保真度、顯示信息完整度和人機工程學方面較常見的三維立體顯示設備具有更高的要求,其綜合性能的高低將直接決定最終測繪產品成果的優劣。發展歷程攝影測量與遙感立體顯示裝備隨著攝影測量與遙感技術理論的發展先後經歷了模擬、解析、全數字三個階段。
  • 與結構光及雙目立體視覺相比,ToF技術有何優勢?
    9m1ednc雙目立體視覺(Binocular Stereo Vision)技術始於上世紀的60年代中期,是基於視差原理並利用成像設備從不同的位置獲取被測物體的兩幅圖像,通過計算圖像對應點間的位置偏差,來獲取物體三維幾何信息的方法。經過幾十年來的發展,立體視覺在機器人視覺、航空測繪、反求工程、軍事運用、醫學成像和工業檢測等領域中的運用越來越廣。
  • 不健康立體視覺產生的原因及解決方法
    如果左1與右1在拍攝時是完全同步拍的,播放時不同步,就會出現異常情況攝像機在拍攝動態物體時,往往在不到一秒時間內,被攝物己快速地運動很長一段距離,此時同一眼的前後每一幀圖像中的物體位置都有明顯改變它們之間每一幀圖像中物體大小與位置都有明顯改變時分式(快門式眼鏡)的立體方式原理是利用人眼的視覺殘留特徵,將左右圖順序先後進入左右眼,以達成立體影像。
  • 基於陰影重建形狀的視覺技術:一種重要的圖像形狀提取技術及其應用
    而視覺檢測的應用可分類為測量、有/無檢測、機器人導航、瑕疵檢測、一維或二維碼識別,以及光學文字識別(OCR)閱讀等等。常規的2D算法通常擅長處理某些特徵清晰且定義明確的應用,因此檢測更加可靠。 換句話說,目標特徵必須穩定並且清晰一致地呈現,檢測和識別才會比較可靠。
  • 三維顯示:奇妙的人眼立體視覺
    除了雙目視覺可產生立體感外,單眼看空間景物時,也能辨別物體的前後深度,具有一定的立體感。對於三維顯示技術,更為全面地了解眼睛的立體視覺因素具有重要的意義。現代心理學公認有十種要素來察覺像的深度,其中涉及生理機能的有四種,涉及心理暗示的有六種。(1) 雙目視差(binocularparallax)。
  • 從立體視覺的建立談主視眼
    人眼的最高一級視功能為運動立體視覺,保證立體視覺建立的有三大機能和三級視功能。
  • 無人駕駛:如何使用立體視覺實現距離估計?
    障礙物檢測算法,如YOLO或RetinaNet,提供2D的標註框,該標註框指明了障礙物在圖像中的位置。為了獲取每個障礙物的距離,工程師將相機與雷射雷達(光探測和測距)傳感器融合,使用雷射返回深度信息。利用傳感器融合技術將計算機視覺和雷射雷達的輸出融合在一起。
  • 計算機視覺方向簡介 | 多視角立體視覺MVS
    作者: 黃浴https://zhuanlan.zhihu.com/p/73748124本文已由作者授權,未經允許,不得二次轉載多視角立體視覺(Multiple View Stereo,MVS)是對立體視覺的推廣,能夠在多個視角(從外向裡)觀察和獲取景物的圖像,並以此完成匹配和深度估計。