KeyPose:從立體圖像估計透明物體3D姿態

2020-11-17 雷鋒網

字幕組雙語原文:KeyPose:從立體圖像估計透明物體3D姿態

英語原文:KeyPose: Estimating the 3D Pose of Transparent Objects from Stereo

翻譯:雷鋒字幕組(小哲)


在增強現實,機器人操控等涉及對象級物品感知的計算機視覺的應用中,3D物體的位置與姿勢評估是一個核心的難題。在這些應用中,重要的是要知道物體的在實際世界中的三維位置信息,要麼直接影響他們,要么正確的放置相似的物品在這些物體周圍。雖然使用機器學習的技術特別是深度網絡,在相應的主題上有很多的研究,但是,他們中的大多數都依賴於深度傳感器設備,例如Kinect,這些設備可以直接給出目標的位置測量信息.對於有光澤或透明的物體,直接深度感測效果不佳。例如下邊這張包含了很多物品的圖(左邊),其中有兩個物體是透明的,深度設備不能找到這些物體很好的深度信息,並且實際的三維重構效果非常差。(右邊)

 左邊: 透明物體的RGB圖像. 右邊:四個面板的圖像顯示了左邊場景的重構的深度圖像, 上邊的一行顯示了重構圖像,下邊的一行顯示了三維點雲. 左邊面板圖像採用深度相機,右邊的面板利用ClearGrasp模型輸出結果. 注意,雖然ClearGraph修復了恆星的深度,但它會錯誤地顯示最右邊的一個的實際深度。

對於這個難題的一個解決方案, 例如ClearGrasp提出的方案, 就是使用深度神經網絡去修復受損的透明物體的深度圖。給定透明物體的RGB-D圖像, ClearGrasp使用深度神經網絡推測物體表面法線、透明表面的掩模和遮擋邊界,用於優化場景中所有透明曲面的初始深度估計(上圖中最右側).這種方法非常有前景的, 並且允許利用依賴於深度的姿勢估計的方法處理透明物體的場景.但是修復可能很難辦, 特別是完全使用合成的圖像進行訓練時,可能會導致深度的錯誤。

在於斯坦福AI實驗室聯合發表在CVPR2020上的文章, " 在與KeyPose:從立體圖者估計透明物體的三維姿態" 中, 我們介紹了一個ML系統,直接預測三維關鍵點來評估透明物體的深度。 為了訓練這個系統,我們自用自動的方式採集了一個搭的真實世界透明物體數據集,並且利用手工選定的三維關鍵點高效的標註他們的姿勢.然後我們訓練深度模型(稱為KeyPose)來從單目或立體圖像中端到端地估計3D關鍵點,而不需要顯式地計算深度. 在訓練過程中,模型可以處理可見和不可見的對象,包括單個對象和對象類別。雖然KeyPose可以處理單目圖像,但立體圖像提供的額外信息使其能夠在單目圖像輸入的基礎上將結果提高兩倍, 根據對象的不同,典型誤差從5毫米到10毫米不等。它在這些物體的姿態估計方面比最先進的方法有了實質性的改進,即使競爭性的方法提供了真實深度。我們正在發布keypoint標記的透明對象的數據集,供研究團體使用。

帶有三維關鍵點標註的真實透明物體數據集

為了構建收集高質量的真實圖像, 我們構建了機器人數據收集系統,著這個系統中,機械臂通過一個軌跡移動,同時用兩個設備拍攝視頻,一個是立體攝像頭,一個是Kinect Azure深度攝像頭。

使用帶有立體攝像機與Azure Kinect設備的機械臂自動圖像序列捕捉

目標上的AprilTags可以精確跟蹤攝像機的姿態。通過在每個視頻中用2D關鍵點手工標記少數圖像,我們可以使用多視圖幾何體為視頻的所有幀提取3D關鍵點,從而將標記效率提高了100倍。

我們使用10中不同的背景紋理和四種不同的姿勢,捕捉15個不同的透明物體, 得到一共600個視頻序列壓縮為48k立體與深度圖像. 我們對於不透明版本的物體捕捉相似的圖像,從而提升真實深度圖像的精度. 所有的圖像都標註三維關鍵點, 我們將公開發布這個真實世界圖像的數據集,以補充與之共享相似對象的合成ClearGrap數據集。

基於早期融合立體的KeyPose算法

直接使用立體圖像進行關鍵點估計的想法的發展是獨立於我們這個項目之外的;它近年來出現在手追蹤的場景中, 下圖顯示了基本思想:在對象周圍裁剪立體相機的兩幅圖像,並輸入到KeyPose網絡中,KeyPose網絡預測一組稀疏的3D關鍵點,這些關鍵點代表對象的3D姿勢。網絡通過使用標籤3D關鍵點的監督進行訓練。

立體KeyPose的一個關鍵方面是使用早期融合來混合立體圖像,並允許網絡隱式地計算視差,而後期融合則是分別預測每個圖像的關鍵點,然後進行組合。如下圖所示,KeyPose的輸出是圖像平面中的2D關鍵點熱圖以及每個關鍵點的視差(即逆深度)熱圖。這兩個熱圖的組合生成每個關鍵點的關鍵點的三維坐標。

 Keypose系統的圖解. 立體圖像傳入CNN模型來為每個關鍵點產生一個可能性熱圖. 這個熱圖為每個關鍵點給出了二維圖像的坐標U, V. CNN模型也為每個關鍵點產生視差(逆深度)熱圖, 當混合U, V坐標之後,就可以給出三維位置(X,Y,Z)。

與後期融合或單目輸入相比,早期融合立體像的精度通常是後者的兩倍。

結果

下邊的圖像顯示了KeyPose在單個物體上的定性結果.左邊時原始立體圖像,;中間是投影到物體上的預測的三維關鍵點;右邊,我們將瓶子的三維模型中的點可視化,放置在由預測的3D關鍵點確定的姿勢上. 網絡非常高效準確, 對於這個瓶子的預測關鍵點MAE為5.2mm, 馬克杯為10.1mm,在一個標準的GPU上僅僅需要5毫秒。

接下來的一張表格顯示了KeyPose的類別層面的估計結果. 測試集使用了訓練集中不存在的背景紋理。注意,MAE在5.8 mm到9.9 mm之間變化,顯示了該方法的準確性。

 KeyPose與最先進的DenseFusion系統在類別級數據上的定量比較。我們為DenseFusion提供兩種深度版本,一種來自透明對象,另一種來自不透明對象。<2cm是誤差小於2cm的估計值的百分比。MAE是關鍵點的平均絕對誤差,單位為mm。

關於定量結果的完整統計,以及 ablation studies ,請參閱論文和補充材料以及KeyPose網站。  

總結

這篇文章展示了,不依賴於深度圖像來估計透明物體的三維姿態是可能的。 它驗證了使用例題圖像作為融合深度網絡的輸入, 訓練這個網絡直接從力圖圖像對中提取稀疏的三維關鍵點,。我們希望一個廣泛,有標註的透明物體數據集的可以促進這個領域的發展。最後雖然我們使用了半自動的方法高效的標註數據集,但是在未來的工作中我們希望採用自監督的方式來代替手工的標註。

致謝

我想要感謝我的共同作者, Xingyu Liu of Stanford University, and Rico Jonschkowski and Anelia Angelova; 也有那些在項目實施與論文寫作過程中,幫助我們的人, 包括: Andy Zheng, Shuran Song, Vincent Vanhoucke, Pete Florence, and Jonathan Tompson。


雷鋒字幕組是一個由 AI 愛好者組成的翻譯團隊,匯聚五百多位志願者的力量,分享最新的海外AI資訊,交流關於人工智慧技術領域的行業變革與技術創新的見解。

團隊成員有大數據專家、算法工程師、圖像處理工程師、產品經理、產品運營、IT諮詢人、在校師生;志願者們來自IBM、AVL、Adobe、阿里、百度等知名企業,北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內外高校研究所。

如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學習新知,分享成長。

雷鋒網(公眾號:雷鋒網)雷鋒網

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 不可思議看呆你:全息3D投影技術,這才是真正的黑科技
    全息立體投影設備不是利用數碼技術實現的,而是投影設備將不同角度影像投影至進口的MP全息投影膜上,讓你看不到不屬於你自身角度的其他圖像,因而實現了真正的全息立體影像。    360度幻影成像系統:360度幻影成像是一種將三維畫面懸浮在實景的半空中成像,營造了亦幻亦真的氛圍,效果奇特,具有強烈的縱深感,真假難辯。形成空中幻象中間可結合實物,實現影像與實物的結合。
  • CVPR2019爆款論文作者現場解讀:視覺語言導航、運動視頻深度預測、6D姿態估計
    Freeman研究機構:Google Research文章連結: https://arxiv.org/abs/1904.111113  熱門文章:史丹福大學「6D姿態估計」研究史丹福大學幾何計算研究組關於「6D姿態估計」的論文 「Normalized Object Coordinate
  • 讓光學3D傳感器「看見」透明杯子,這是來自谷歌、哥大的新研究
    ClearGrasp 是一種機器學習算法,它能夠從 RGB-D 圖像中估計透明物體的準確 3D 數據。這種效果的實現主要得益於谷歌同時公開的一個大規模的合成數據集。ClearGrasp 的輸入可以來自任何標準的 RGB-D 攝像機,然後它會使用深度學習來精確地重建透明物體的深度,並將其泛化成一種全新的物體,這種物體在訓練過程中是看不到的。
  • 用Photoshop作透明背景的GIF圖像
    Photoshop提供了將獨立於背景之上的物體輸出為透明背景圖的方法,這個方法在輸出索引顏色圖像到GIF時,可以將圖像中的區域指定為透明背景,所有包含指定顏色的區域都被Web瀏覽器識別為透明。    下面我們通過一個示例來說明如何製作透明背景的GIF圖像。
  • 今日Paper | 物體渲染;圖像和諧化;無偏數據處理方法;面部偽造檢測...
    IGNOR: 基於深度學習的圖像引導的物體渲染基於域驗證的圖像和諧化人體姿態估計中的無偏數據處理方法的研究面部X射線,可進行更一般的面部偽造檢測即插即用(Plug and Play)的受限文本生成方法論文名稱:IGNOR: Image-guided
  • 圖像特徵點、投影變換與圖像拼接
    事實上,還可以利用一些生活中常見的物體,例如一個勺子,來實現圖像扭曲,從而理解畫作中的物體。(將勺子靠近畫作,勺子表面的曲面反射光線,從而可以讓你看清畫裡面的物體)可以看到小孔成像時,物體方向的光線總是會通過共同的相機中心。這意味著拍照時,我們只是在用圖像平面來選擇部分光線。
  • 今日Paper|DeepCap;文本分類;頻域圖注意力網絡;3D人體姿態估計等
    目錄DeepCap:基於弱監督的單目人體動作捕捉使用嵌入正則化和軟相似度度量的方法對文本分類問題進行處理頻域圖注意力網絡CVPR 2020 | 基於多視角自然圖片的弱監督3D人體姿態估計本文提出了一種基於深度學習的單目密集人體動作捕捉方法,在訓練階段基於多視角圖像以弱監督的方式進行訓練,網絡架構基於兩個獨立的網絡,以整個任務解耦成姿態估計和表面非剛性形變兩個任務。作者通過定性和定量的比較驗證了文章方法在質量和魯棒性方面都要優於目前最優方法。
  • 積水潭醫院開展3D腹腔鏡手術 實時呈現立體圖像
    新興的3D腹腔鏡手術,是利用偏振光的原理,實時產生立體圖像,使術者操作器械時有了立體方位感覺。實際上是利用在患者體內的腹腔鏡鏡頭包含兩個距離非常近的小鏡頭,各自拍下腔內圖像,再通過各自的顯示設備把兩個角度的圖像同步放映,使有細微差別的兩幅圖像同時顯示在顯示屏上。這時如果用眼睛直接觀看,看到的畫面是重疊的、模糊不清的。
  • 谷歌重磅推出TensorFlow Graphics:為3D圖像任務打造的深度學習利器
    相比之下,計算機視覺系統是從圖像開始的,並試圖推斷出場景的相關參數。也就是說,計算機視覺系統可以預測場景中有哪些物體,它們由什麼材料構成,以及它們的3D位置和方向。如下圖所示,這個過程可以通過合成分析來實現,其中視覺系統提取場景參數,圖形系統根據這些參數返回圖像。如果渲染結果與原始圖像匹配,則說明視覺系統已經準確地提取出場景參數了。
  • 在微距攝影中,透明物體與不透明物體的布光方式,是截然不同的
    這次將說到一些微距攝影的布光方式,其中的重點是不同情況下的布光設備,難點是透明物體的不透明物體的布光方式又不相同,就像給一個籃球布光,再給一個玻璃水杯布光又是不一樣的。這裡需要用到專屬的閃光燈,但是因為它是三隻閃光燈,在這裡提供的是一些簡單的布光方式,這種布光方法對拍攝不透明的,或者是類似於透明的物體,或者在不同的植物上,該去如何布光,因為昆蟲在運動的時候,有時候會跑到一個非常方便的地方,但有的時候位置非常不好,這種情況下,布光角度不好的話,就會打擾到昆蟲,那麼拍攝還沒開始就以失敗告終了這隻綠色的小跳蛙是拿一個木棍放在上面的
  • 手機秒變全息投影儀,如何自造3D立體,超炫酷!
    點上方「微江門」看更多所謂全息投影技術,是利用幹涉和衍射原理記錄並再現物體真實的三維圖像技術,說白了就是在空中產生立體3D幻像的技術。《鋼鐵俠》裡這種直接出現在空中的虛擬3D圖像就是全息投影技術,不過這種效果目前還只能存在於科幻電影裡。
  • 一個超乾貨的3D視覺學習社區
    ……姿態估計篇目前做物體6D姿態估計的網絡中,有沒有應用深度補全來提升精度以及提升遮擋下的識別效果的呢?如何自己製作6D位姿估計的深度學習的數據集?請問誰有論文A method for 6D pose estimateof free-form rigid objects using point pair features on range data 的復現代碼?
  • 3D電影是如何成像的 3D電影成像原理掃盲
    在真實3D空間中 ,我們的雙眼對焦到哪,都會清晰的看到物體,因此是不講景深的。那麼平面的3D立體效果,給我們的最直接的表現感受是什麼?那就是深度,俗話講的躍然紙上,凸出屏幕。深度知覺(Depth perception),通過對單眼暗示,雙眼暗示,推測暗示和移動暗示等分析,使我們有了深度距離感,從而可以輕易定位物體與我們之間的距離。
  • 神奇的立體視覺
    當然是兩幅對應的圖像,當然這兩幅圖像僅僅停留在視網膜上是沒什麼意義的,視網膜會將這兩幅相互對應的圖像傳送到大腦中的視覺中樞,然後我們的大腦會很自覺的將這兩幅圖像合成一個立體的像。這個過程並不易被我們察覺,所以我們一般情況下不會知道到我們兩個眼睛各自看到平面圖像到底是什麼樣的,卻可以意識到「立體的物體」。
  • 為什麼我們會產生3D立體感受?如何自己挑選3D眼鏡?
    當兩隻眼睛看到的美女同時在視網膜上成像時,左右兩面的印象合起來,就得到對她的立體感覺了。引起這種立體感覺的效應叫做「視覺位移」。正因為如此,我們不僅可以分辨出事物的高度、寬度、表面顏色和明暗程度,而且還可以判斷出物體離我們的遠近程度和物體之間的相隔距離。
  • Facebook的3D照片功能現在可以模擬任何圖像的深度
    新部署的人工智慧模型可以在沒有深度數據的情況下推斷出圖像的三維結構,而不考慮圖像的年齡和來源。它甚至適用於自拍照,繪畫和複雜場景。它甚至可以在自拍、繪畫和複雜場景中工作。Facebook在一篇博客文章中寫道:「這項技術的進步讓數百萬使用單鏡頭照相手機或平板電腦的用戶首次可以輕鬆使用3D照片技術。」「它還允許每個人以一種新的方式體驗幾十年前的家庭照片和其他珍貴的圖像,將它們轉換成3D。」
  • 騰訊優圖刷新人體姿態估計國際權威榜單
    近日,騰訊優圖實驗室在人體2D姿態估計任務中獲得創新性技術突破,其提出的基於語義對抗的數據增強算法Adversarial Semantic Data Augmentation (ASDA),刷新了人體姿態估計國際權威榜單。
  • 2D轉3D,在《流浪地球》中感受太空漂浮,愛奇藝推出「會動的海報」
    如圖 1 左所示,兩個相機拍攝同一場景生成的圖像會存在差異,這種差異叫「視差」。視差不能通過平移消除,一個物體離相機越近,視差偏移就越大,反之則越小。人的左右眼就如同圖中的左右相機。在雙眼分別獲取對應圖像後,通過大腦合成處理這種差異,從而獲取真實世界的 3D 感知,視差與相機焦距和軸間距間的關係如通過圖 1 右所示:以上為公式(1),其中 z 為物體距離相機的深度,x 為三維映射到二維的圖像平面,f 為相機焦距,b 為兩個相機間的距離軸間距,x_l 和 x_r 分別為物體在左右不同相機中成像的坐標,因此可知左右圖對應像素 x_l 和 x_r
  • 移動端實時3D目標檢測,谷歌開源出品,安卓下載就能用
    今日,谷歌宣布推出 MediaPipe Objectron,這是一種適用於日常物體的移動端實時 3D 目標檢測 pipeline,它能夠檢測 2D 圖像中的目標,並通過新創建 3D 數據集上訓練的機器學習模型來估計這些目標的姿態和大小。
  • 黑科技將問世,使用雷射在空氣裡直接產生3D圖像
    而使用雷射,省略半透明屏幕或水幕等屏幕,無須全息雷射攝影支持,在任意空間場合,在任意時間情況,直接在空氣中產生立體動態圖像,還是最近的事情。在這方面,美國有一家公司技術最先進,日本有一家公司緊隨其後。中國新動力文化在最近通過技術攻關,實現了趕超美日技術,也完成了使用雷射,直接在空氣中產生動態立體圖像的技術產品方案研發。