讓光學3D傳感器「看見」透明杯子,這是來自谷歌、哥大的新研究

2020-12-26 機器之心Pro

選自Google AI Blog

作者:Shreeyak Sajjan

機器之心編譯

參與:王子嘉、蛋醬

業界已經廣泛應用的光學 3D 距離傳感器,一直有個解決不了的問題——每次遇見透明物體就會失靈。最近,谷歌與來自 Synthesis AI 和哥倫比亞大學的研究人員合作開發了一種機器學習算法 ClearGrasp,能夠從 RGB-D 圖像中估計透明物體的準確 3D 數據。

從自動駕駛汽車到自動機器人等領域,光學 3D 距離傳感器與 RGB-D 相機的應用一樣廣泛,它可以生成豐富而精確的 3D 環境地圖。

但它也有個「天敵」,透明的物體就可以讓一套常用的昂貴傳感器撓頭,哪怕只是一個普通的玻璃容器。

這是因為光學三維傳感器的算法都是基於一個前提——假設所有表面都是 Lambertian 的,也就是說這個表面反射的光線是均勻的,從而從各個角度看,表面的亮度都是一致的。然而,透明物體顯然不符合這個假設,因為它們的表面除了反射光線,還會折射光線。因此,大多數透明對象的深度數據是無效的,或者是包含不可預測的噪聲。

光學三維傳感器通常無法探測到透明物體。右上:例如,IntelRealSenseD415 RGB-D 攝像機拍到的 3D 深度圖像中沒有顯示玻璃瓶。底部:對深度圖像點雲的三維可視化。

讓機器更好地感知透明的表面,不僅能提高安全性,還能在非結構化應用中開闢新的交互——比如處理廚房用具或對塑料進行回收分類的機器人,或是在室內環境中導航或在玻璃桌面上生成增強現實 (AR) 可視化效果。

為了解決這個問題,谷歌與來自 Synthesis AI 和哥倫比亞大學的研究人員合作開發了 ClearGrasp。ClearGrasp 是一種機器學習算法,它能夠從 RGB-D 圖像中估計透明物體的準確 3D 數據。

這種效果的實現主要得益於谷歌同時公開的一個大規模的合成數據集。ClearGrasp 的輸入可以來自任何標準的 RGB-D 攝像機,然後它會使用深度學習來精確地重建透明物體的深度,並將其泛化成一種全新的物體,這種物體在訓練過程中是看不到的。這與以前的方法不同,以前的方法需要事先了解透明物體(如它們的 3D 模型),然後結合背景照明和攝像機位置圖來進行建模。在這項工作中,谷歌還證明了 ClearGrasp 可以通過將其整合到其 pick and place 機器人的控制系統中,來提高機器人的操作效率,在該系統中透明塑料物體的抓取成功率有了顯著的提高。

ClearGrasp 通過深度學習來重建透明表面的精確三維深度數據。

透明對象的可視化數據集

任何有效的深度學習模型都需要需要大量的數據來訓練(如視覺領域的 ImageNet 和 BERT 使用的 wikipedia),ClearGrasp 也不例外。不幸的是,並沒有這種帶透明物體 3D 數據的數據集。現有的 3D 數據集(如 Matterport3D、ScanNet 等)都沒有透明表面的記錄,因為這種標記過程耗時耗力。

為了克服這個問題,谷歌創建了自己的大型透明對象數據集,其中包含 5 萬多個具有相應表面法線(表示表面曲率)、分割掩模、邊緣和深度的真實感渲染,這對於訓練各種 2D 和 3D 檢測任務非常有用。每個圖像包含的透明物體多達 5 個,有的在一個平面上,有的在一個手提袋裡,而且包含了各種背景和照明的場景。

ClearGrasp 合成數據集的一些透明物體實例。

谷歌還在數據集中收集了 286 張實景圖的測試集,這些圖像都有深度標註。實景圖的拍攝過程是艱苦的,拍攝時需要在場景中的每個透明物體的位置上繪製一個跟其位置大小完全一致的圖像。這些圖像是在許多不同的室內照明條件下拍攝的,使用了各種不同的布和飾面背景,而且包含了散落在場景周圍的隨機不透明物體。它們既包含合成訓練集中已有的對象,也包含新對象。

左:實景圖拍攝設置;中:自定義用戶界面支持精確地用噴漆複製替換每個透明對象;右:捕獲數據的示例。

挑戰

雖然通過透明物體看到的扭曲的背景視圖混淆了典型的深度估計方法,但是也有一些線索暗示了物體的形狀。透明的表面也有鏡面反射,這種反射跟鏡子一樣,在光線充足的環境中就變成亮點了。由於這些視覺線索在 RGB 圖像中比較突出,並且主要受到物體形狀的影響,因此卷積神經網絡可以利用這些反射來推斷出準確的表面法線,然後再用於深度估計。

透明物體上的鏡面反射反映了不同的特徵,這些特徵根據物體的形狀而變化,並為估計表面法線提供了極其有用的視覺線索。

大多數機器學習算法試圖直接從單目 RGB 圖像中估計深度。然而,即便對人類來說,單目深度估計也是一個非適定(ill-posed)的任務。團隊觀察到,在估計平坦背景表面的深度時存在較大的誤差,這就增加了對位於其上的透明物體深度估計的誤差。因此,與直接估計所有幾何圖形的深度不同,糾正 RGB-D 3D 相機的初始深度估計值可能更實用——能夠使用非透明表面的深度來通知透明表面的深度。

ClearGrasp 算法

ClearGrasp 用了 3 種神經網絡:一種網絡用於估計表面法線,一種用於遮擋邊界(深度上不連續),另一種用於遮擋透明對象。遮擋會刪除跟透明對象有關的所有像素,以便填充其正確的深度。然後,使用一個全局優化模塊,從已知的表面開始擴展深度,並使用預測的表面法線來指導重建的形狀,然後使用預測的遮擋邊界來保持不同對象之間的分離。

方法概述:點雲首先根據輸出深度生成,然後根據其表面法線著色。

每個神經網絡都在透明的合成數據集上訓練,它們在實景圖中的透明物體上表現良好。然而,對於其他表面,如牆壁或水果,表面的法線估計是很差的。這個合成數據集還存在局限性,它只包含地面上的透明對象。為了減輕這個問題的影響,團隊在表面法線訓練循環中加入了一些來自 Matterport3D 和 ScanNet 數據集的真實室內場景。通過對域內的合成數據集和域外的實景數據集的訓練,該模型在測試集中表現良好。

在 a) Matterport3D 和 ScanNet (MP+SN),b) 谷歌的合成數據集,c) MP+SN 以及谷歌的合成數據集訓練後的表面法線估計。注意,在 MP+SN 上訓練的模型沒有檢測到透明的物體。只訓練合成數據的模型能很好地識別真實的塑料瓶,但卻無法識別其他物體和物體表面。當模型同時在這兩中數據集上訓練時,就可以同時滿足這兩方面的需求。

結果

總體而言,定量實驗表明 ClearGrasp 能夠重建透明物體的深度,且比其他方法有更高的保真度。儘管模型只在合成透明物體上訓練,但能夠很好地適應真實世界的領域,比如在跨領域的已知物體上實現了幾乎一樣的定量重建性能。這個模型還可以很好地推廣到具有從未見過的複雜形狀的新對象。

為了檢驗 ClearGrasp 的定量性能,團隊基於輸入和輸出深度圖像構建了 3D 點雲,如下圖所示(更多的例子可以在項目頁面上找到:https://sites.google.com/view/cleargrasp/results)。由此估計出的三維表面具有乾淨且連貫的重建形狀——這對三維製圖和三維物體檢測等應用來說很重要,也沒有在單目深度估計方法中看到的鋸齒噪聲。可以證明模型是穩健的,並在複雜的條件下(如識別位於圖案背景中的透明對象或區分部分遮擋的透明對象)表現良好.

對真實圖像的定量結果。前兩行:已知對象的結果。底部兩行:對新對象的結果。點雲是基於其相應的深度圖像生成生成的,用其表面法線著色。

最重要的是,ClearGrasp 的輸出深度可以直接用作使用 RGB-D 圖像的最先進的操作算法的輸入。用 ClearGrasp 的輸出深度估計替換原始的傳感器數據後,UR5 機器人手臂抓取算法在抓取透明物體的成功率上有了顯著的提高。當使用平行頜夾持器時,成功率從基線的 12% 提高到 74%,吸物時從 64% 提高到 86%。

使用 ClearGrasp 操作新的透明對象。值得注意的是,這些條件是有挑戰性的:沒有紋理的背景,複雜的物體形狀和定向光,同樣有令人困惑的陰影和焦散(當光線從表面反射或折射時產生的光的模式)。

局限性及未來的工作

這一合成數據集的限制之一是它不能準確地表示焦散,這個問題同樣來自於傳統的路徑跟蹤算法渲染的限制。因此,模型忽略了明亮焦散和陰影是獨立的透明物體這一點。儘管有這些缺點,谷歌與 ClearGrasp 的合作表明,合成數據仍然是一種可行的方法,可以得到基於學習的深度重建方法的有效結果。未來工作中一個比較好的方向是通過生成物理上正確的焦散和表面缺陷(如指紋)來改進到真實世界圖像的域遷移。

ClearGrasp 證明了高質量的渲染可以成功地訓練出在現實世界中表現良好的模型。團隊還希望該數據集可以推動對數據驅動的透明對象感知算法的進一步研究。下載連結和更多的示例圖像可以在谷歌的項目網站(前文提過)和谷歌的 GitHub 頁面(https://github.com/Shreeyak/cleargrasp)中找到。

相關焦點

  • 照片隨便拍,「光影」任意調,MIT谷歌新研究:NLT
    △來自俄羅斯攝影師George Mayer而最近,MIT 和谷歌等機構聯手提出了一種用神經網絡「打光」的新方法,大大降低了對「光影」拿捏的門檻——神經光線傳輸雖說「打光」效果是出來了,但這畫風…有點像陰間的東西了。
  • 手上戴個「圈」就能玩 VR,這是什麼新玩意?
    來自康奈爾大學和威斯康星大學麥迪遜分校的華人科學家,近日聯合打造了一副「3D 手環」—— FingerTrak。戴上這個「圈」,你十指的動作就都能被精準捕捉,而且它在未來的玩法,可能比你想到的還要多。研究成果已經發表在了《 ACM 互動,移動,可穿戴和普及技術期刊》上。
  • 谷歌AR搜索來了!Chrome能「雲吸貓」,更有50種動物可「餵養」
    要查看這些3D動物,只需要在谷歌應用程式或大多數手機上的 Chrome 瀏覽器上搜索它們的名字,然後在搜索結果中找到 AR 卡,上面寫著「Meet a life-sized [animal name] up close.」即可。
  • 谷歌新模型突破BERT局限:NLP版「芝麻街」新成員Big Bird長這樣
    蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI最新消息,谷歌推出了NLP系列「芝麻街」的新成員Big Bird。△ 「芝麻街」中的Big Bird眾所周知,谷歌開發的BERT,曾經被稱為「地表最強」NLP模型。而BERT,則與美國知名動畫片「芝麻街」(Sesame Street)裡的虛擬人物同名。
  • 谷歌最新3D人體捕獲裝置:LED蛋,背景、陰影、光照隨意調
    來自谷歌的研究者發明了一種 Bling Bling 的「LED 蛋」3D 人體捕獲裝置:先把表演者請進「蛋」裡一陣猛拍,然後進行重建和渲染,就能任意切換人物所處的環境,連光照、陰影都可以根據環境進行調整,簡直完美。「燈光」在影視作品、遊戲和虛擬環境中的作用至關重要——有時候它是決定一個場景表演質量的關鍵,這個很容易理解。
  • 日本女生的「透明肌」,如何養成?
    日系美容公司從未放棄過「透明感」的概念,這一概念幾乎貫穿所有品類,歐美美容新品進駐日本市場也要打著「透明感」的概念以迎合消費者。「透明感」究竟指的是什麼?如何使皮膚更具「透明感」?01日系「透明感」研究史想知道什麼是「透明感」,就得先了解「暗啞感」。暗啞的反面是透明,各個年齡段對「透明感」均有較深的訴求,因此釐清皮膚暗啞的原因有助於「透明感」護膚品的開發。阿歪先大致介紹一下日系美容市場對「暗啞感」的探索歷程。
  • 谷歌「打工人」叫板管理層,這是科技公司的第一場「工人運動」
    其中一部分員工最終決定成立工會,將這種「對抗」組織化。在公開之前,AWU 已經秘密組織了一年多時間,並在一個月前選出了領導層。Alphabet 旗下共有約 26 萬全職員工和承包商,400 人在其中只是很小的一部分,這意味著 AWU 與傳統工業領域的工會有很大區別。但這仍是一個全新開始,公開成立後僅一天,又有幾百名谷歌員工加入了 AWU。
  • 【科技前沿】李開復都在玩的裸眼AR:雲擼貓從未如此真實,谷歌3D動物走紅
    現在,只需在智慧型手機或平板電腦上使用 Google 搜索「老虎」,然後「見識實體大小的老虎」選項就會出現在搜索結果中,單擊「3D 視圖」,你的攝像頭裡就會跑出一隻「老虎」了。當然你也可以像神奇寶貝訓練師一樣,把老虎放在草地上,將自己的後花園變成動物園。這時候你只能透過手機近距離觀察實體大小的老虎,不過當你移開手機之後是看不到老虎的,你也不會擔心會被咬到。
  • 李飛飛團隊最新研究:「四步」AI方案助老人抵抗新冠肺炎
    她介紹了如何利用人工智慧技術幫助弱勢群體——老年人抗擊新冠肺炎和慢性病管理的落地解決方案,該方案運用了 RGB 相機、深度傳感器、溫度傳感器、可穿戴傳感器,以邊緣計算為核心,同時著重強調保護個人隱私問題。李飛飛在接受採訪時表示,「我們將使用聯合學習,以無監督的方式對每個邊緣設備上的模型進行更新,以適應新環境並提高魯棒性。
  • 「透明電視」已經有了,那「透明手機」離我們還有多遠?
    雖然全程心潮澎湃,但是讓魚兒印象最為深刻還是那款「小米透明電視」。雖說這不是第一款透明電視(LG早先就有了),但這是第一款「可量產」的透明電視。雷布斯也在發布會上說明了,這款透明電視並不適合普通消費者使用,更多是因為它是「科技」與「藝術」的結合品,代表著小米十年以來的技術水平。
  • 「菜鳥」索尼挑戰大疆,無人機行業來了新玩家
    圖片來自:索尼官網不出所料,最近索尼真的打算做飛機了,啟動了 Airpeak 項目,高調進軍無人機市場。如果說 Vision-S 暫時還停留在概念階段,那 Airpeak 項目的產品更接近「量產」,新品預計會在 2021 年春季推出。
  • 微軟和谷歌在SuperGLUE榜單上暴錘人類!用「字生圖」只是前菜
    就在這幾天網際網路人哭聲中,自己加班加點製造出來的AI,已經逐步有了取代人類的態勢……就連推崇人機共生的馬斯克也曾膽怯地說,「AI是人類的最大威脅」。如果說畫畫寫字都是小兒科,那看看NLP新基準SuperGLUE的刷新榜單,人類已經一再退步到無地自容了。
  • 谷歌隱形眼鏡拉動傳感器應用價值
    檢測淚液來分析血糖含量。目前已經研製的原型鏡片,可以每秒讀取一次血糖含量。  據悉,谷歌公司的這款智能隱形眼鏡內置了微型無線晶片和小型葡萄糖傳感器,並且均被嵌入到了兩層軟性隱形眼鏡材料之間。同時,在這款早期原型產品中,谷歌公司還嘗試整合進了超微小的LED指示燈,當佩戴者的血糖水平高出或低於一定的臨界值後,就會開始不斷閃爍發出提示。  不難發現,在谷歌隱形眼鏡中,傳感器的作用非常重要。
  • 谷歌公布2020年度搜索熱榜,「新冠病毒」高居榜首
    【新智元導讀】谷歌更新2020年的搜索熱榜啦!快來看看今年大家都在關心什麼?2020年無疑對全世界人民來講都是最特殊的一年。「新冠病毒」席捲全球,帶走了無數人的生命和無數的工作,無疑是全球搜索量最高的關鍵詞。而今年的其他熱點也都在熱榜中一一反映了出來,如「科比去世」、「美國大選」等。
  • 3D 可視化模型能研究新陳代謝!論文登《科學-信號傳導》封面
    簡單來講,新陳代謝就是以新物質替換舊物質。實際上,新陳代謝是細胞的一種功能,更是一個人生命力的象徵。如果代謝異常,可能會引起許多健康問題,如肥胖、糖尿病、高血壓、心臟病和癌症等。當前,醫生主要是通過篩選患者血液尿液中的代謝標記物來診斷病症,研究人員也開始進行用於疾病治療的靶向代謝過程的相關研究。
  • 谷歌CEO道歉被批「沒有人性」,Gebru:他們就想趕我走
    【新智元導讀】據外媒消息,在本周三谷歌CEO皮採就解僱AI倫理團隊聯席領導Timnit Gebru道歉之後,當事人Gebru在接受媒體採訪時,稱皮採的內部郵件將她刻畫成了一個「憤怒的黑人女性」,其郵件內容「沒有人性」。12月月初,Gebru發推表示自己突然被谷歌辭退,而自己對此毫無準備。
  • 光學預處理與計算機視覺結合,UCR學者用漩渦實現混合計算機視覺系統
    機器之心報導作者:杜偉、小舟在本文中,來自加州大學河濱分校機械工程系的研究者通過應用光學漩渦證明了混合計算機視覺系統的可行性。該研究為光子學在構建通用的小腦混合神經網絡和開發用於大數據分析的實時硬體方面的作用提供了新見解。
  • Vishay 威世 – 掃地機器人身體上的光學傳感器
    掃地機器人使用光學傳感器或攝像頭在房間中導航。攝像頭導航的掃地機器人不會撞到我,但我得掏一大筆錢。 光學傳感器導航的掃地機器人取決於防撞條與桌腿或我這樣的物體之間的接觸。 防撞條與掃地機器人機身之間存在間隙。想像間隙形成的光環。當防撞條碰到桌腿時光環斷開,因為防撞條凹陷足以擋住光線。「無光」表示撞到物體。掃地機器人停止工作,轉一個角度,然後再次直線清掃。
  • 【評測】不完美的中國」太子「,谷歌Nexus 6P上手試玩
    得益於虛擬按鍵設計,Nexus 6P 的「下巴」設計比較簡潔。 稍感意外的是,即使是在定位更為高端的 Nexus 6P 上,谷歌也並沒有用上目前大受歡迎的 2.5D 弧面玻璃,也讓它看起來更為硬朗。 ▲ Android 6.0 支持應用程式權限管理。
  • 美國科學家成功研發新型光學傳感器 可模仿人眼感知
    美國俄勒岡州立大學在新型光學傳感器研發上取得重大進展。他們開發出一種新型光學傳感器,可更逼真地模仿人眼感知物體變化的能力。這一成果有望帶來圖像識別、機器人技術和人工智慧等領域的重大突破。