突破AI和機器理解的界限,牛津博士論文學習重建和分割3D物體

2020-11-25 機器之心Pro

選自arXiv

作者:Bo Yang

機器之心編譯

讓機器擁有像人類一樣感知 3D 物體和環境的能力,是人工智慧領域的一項重要課題。牛津大學計算機科學系博士生 Bo Yang 在其畢業論文中詳細解讀了如何重建和分割 3D 物體,進而賦予機器感知 3D 環境的能力,突破了人工智慧和機器理解的界限。

賦予機器像人類一樣感知三維真實世界的能力,這是人工智慧領域的一個根本且長期存在的主題。考慮到視覺輸入具有不同類型,如二維或三維傳感器獲取的圖像或點雲,該領域研究中一個重要的目標是理解三維環境的幾何結構和語義。

傳統方法通常利用手工構建的特徵來估計物體或場景的形狀和語義。但是,這些方法難以泛化至新物體和新場景,也很難克服視覺遮擋的關鍵問題。

今年九月畢業於牛津大學計算機科學系的博士生 Bo Yang 在其畢業論文《Learning to Reconstruct and Segment 3D Objects》中對這一主題展開了研究。與傳統方法不同,作者通過在大規模真實世界的三維數據上訓練的深度神經網絡來學習通用和魯棒表示,進而理解場景以及場景中的物體。

總體而言,本文開發了一系列新型數據驅動算法,以實現機器感知到真實世界三維環境的目的。作者表示:「本文可以說是突破了人工智慧和機器理解的界限。」

這篇博士論文有 143 頁,共六章。機器之心對該論文的核心內容進行了簡要介紹,感興趣的讀者可以閱讀論文原文。

論文地址:https://arxiv.org/pdf/2010.09582.pdf

論文概述

作者在第 2 章首先回顧了以往 3D 物體重建和分割方面的研究工作,包括單視圖和多視圖 3D 物體重建、3D 點雲分割、對抗生成網絡(GAN)、注意力機制以及集合上的深度學習。此外,本章最後還介紹了在單視圖 / 多視圖 3D 重建和 3D 點雲分割方面,該研究相較於 SOTA 方法的新穎之處。

基於單視圖的 3D 物體重建

在第 3 章,作者提出以一種基於 GAN 的深度神經架構來從單一的深度視圖學習物體的密集 3D 形狀。作者將這種簡單但有效的模型稱為 3D-RecGAN++,它將殘差連接(skip-connected)的 3D 編碼器 - 解碼器和對抗學習結合,以生成單一 2.5D 視圖條件下的完整細粒度 3D 結構。該模型網絡架構的訓練和測試流程如下圖所示:

接著,作者利用條件對抗訓練來細化編碼器 - 解碼器估計的 3D 形狀,其中用於 3D 形狀細化的判別器結構示意圖如下:

最後,作者將提出的 3D-RecGAN++ 與 SOTA 方法做了對比,並進行了控制變量研究。在合成和真實數據集上的大量實驗結果表明,該模型性能良好。

基於多視圖的 3D 物體重建

在第 4 章,作者提出以一種新的基於注意力機制的神經模塊來從多視圖中推理出更好的 3D 物體形狀。這種簡單但高效的注意力聚合模塊被稱為 AttSets,其結構如下圖所示。與現有方法相比,這種方法可以學習從不同圖像中聚合有用信息。

此外,研究者還引入了兩階段訓練算法,以確保在給出一定數量輸入圖像的情況下,預估的 3D 形狀具有魯棒性。研究者在多個數據集上進行了實驗,證明該方法能夠精確地恢復物體的 3D 形狀。

從點雲中學習分割 3D 物體

在第五章中,研究者提出了一個新的框架來識別大規模 3D 場景中的所有單個 3D 物體。與現有的研究相比,該研究的框架能夠直接並且同時進行檢測、分割和識別所有的目標實例,而無需任何繁瑣的前 / 後處理步驟。研究者在多個大型實際數據集上展現了該方法相對於基線的性能提升。

作者介紹

本文作者 Bo Yang 現為香港理工大學計算機系助理教授。他本科和碩士分別畢業於北京郵電大學和香港大學,然後進入牛津大學計算機科學系攻讀博士學位,其導師為 Niki Trigoni 和 Andrew Markham 教授。

Bo Yang 作為一作以及合著的論文曾被《計算機視覺國際期刊》(IJCV)以及 NeurIPS 和 CVPR 等學術會議接收,谷歌學術主頁上顯示他共著有 22 篇論文,被引用數超過 400。

論文目錄如下:

相關焦點

  • 突破AI和機器理解的界限,牛津博士論文學習重建和分割3D物體
    讓機器擁有像人類一樣感知 3D 物體和環境的能力,是人工智慧領域的一項重要課題。牛津大學計算機科學系博士生 Bo Yang 在其畢業論文中詳細解讀了如何重建和分割 3D 物體,進而賦予機器感知 3D 環境的能力,突破了人工智慧和機器理解的界限。
  • 新出爐的最佳論文:CVPR 2020線上分享,一作帶你玩轉無監督3D圖像重構
    > 從 4 月份開始,機器之心 CVPR 2020 線上論文系列分享已經進行到了第九期,為大家介紹了多篇優質論文,提供了與論文作者們溝通交流的機會。
  • CVPR2020華人一作包攬最佳論文、最佳學生論文,中國作者佔39%
    原創 Synced 機器之心機器之心報導機器之心編輯部在剛剛開幕的 CVPR 2020 上,最佳論文、最佳學生論文等獎項悉數公布,來自牛津大學的吳尚哲等人獲得了最佳論文獎,本科畢業於上海交通大學、現為西蒙弗雷澤大學博士一年級學生
  • CVPR 2020華人一作包攬最佳論文、最佳學生論文,中國作者佔39%
    機器之心報導機器之心編輯部在剛剛開幕的 CVPR 2020 上,最佳論文、最佳學生論文等獎項悉數公布,來自牛津大學的吳尚哲等人獲得了最佳論文獎,本科畢業於上海交通大學、現為西蒙弗雷澤大學博士一年級學生 Zhiqin Chen 等人獲得最佳學生論文。今天,計算機視覺與模式識別頂級會議 CVPR 2020 在全球線上開幕了。
  • Facebook公布最新AI成果:如何理解真實世界3D對象
    為了捕獲幾何形狀和拓撲的多樣性,它首先預測粗略體素,將其精化並進行精確的網格預測。為了應對挑戰,Faceboook團隊通過網格預測分支增強了Mask R-CNN的2D對象分割系統,並構建了Torch3d(Pytorch庫,其中包含高度優化的3D運算符)以實現所述系統。Mesh R-CNN利用Mask R-CNN來檢測和分類圖像中的各種對象。
  • Talk預告 | 字節跳動AI Lab研究員孔濤:物體實例分割的新進展SOLO, 按位置分割物體
    由於其廣泛的應用場景和研究價值,該技術在學術界和工業界均引起了越來越多的關注。目前主流的物體實例分割方法可以分成兩大類別:基於ROI的自上而下的方法(如Mask R-CNN)和基於逐像素聚類、自下而上的方法,這些方法雖然成功但面臨著多階段、多超參數、分割結果不夠精細等問題。
  • 乘風破浪的AI技術青年——首屆WAIC雲帆獎名單公布
    主要研究領域為機器學習和計算機視覺,提出了國際主流深度學習模型 DenseNet。發表學術論文 40 餘篇,Google Scholar 引用 1.4 萬餘次。曾獲國際計算機視覺頂級會議 CVPR 最佳論文獎、全國百篇最具影響國際學術論文、世界人工智慧大會 SAIL 先鋒獎、吳文俊人工智慧自然科學一等獎和中國自動化學會優秀博士學位論文。
  • 機器有了綜合感官?結合視覺和聽覺進行情感預測|一周AI最火論文
    第二篇論文《醫療決策過程中,以人為中心處理不完美算法的工具》探索了基於圖像搜索的不同細化模式,並評估了它們對醫生與SMILY交互的影響。SMILY實現了一個深度學習模型,使用50億個自然的、非病理圖像進行訓練。該模型學會了通過計算和比較圖像的嵌入來區分相似的圖像和不同的圖像,然後使用癌症基因組圖譜中未識別圖像的語料庫創建圖像補丁及其相關嵌入的資料庫。
  • 谷歌AI發布「會動的」3D物體數據集,附帶標記邊界框、相機位姿...
    蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI見過3D物體數據集,見過會動的3D物體數據集嗎?每段動態視頻都以目標為中心拍攝,不僅自帶標註整體的邊界框,每個視頻還附帶相機位姿和稀疏點雲。
  • CVPR2020最佳學生論文分享回顧:通過二叉空間分割生成緊湊3D網格
    機器之心發布機器之心編輯部在近日舉行的 CVPR 2020 大會上,最佳論文、最佳學生論文等獎項悉數公布。在最新一期的機器之心 CVPR 2020 線上論文分享中,西蒙弗雷澤大學 (SFU) 博士一年級學生陳之欽以第一作者的身份向我們分享了這篇最佳學生論文。在這項研究中,西蒙弗雷澤大學和谷歌研究院的三位研究者提出了一種無監督方法,能夠通過 convex decomposition 生成緊湊的結構化多邊形網格。
  • Facebook 最新論文:Mask R-CNN實例分割通用框架,檢測,分割和特徵...
    近日, FAIR部門的研究人員在這一領域又有了新的突破——他們提出一種目標實例分割(object instance segmentation)框架Mask R-CNN,該框架較傳統方法操作更簡單、更靈活。研究人員把實驗成果《Mask R-CNN》發布在了arXiv上,並表示之後會開源相關代碼。以下為AI科技評論據論文內容進行的部分編譯。
  • Jeff Dean親筆盤點谷歌AI 2019:日均2篇論文,縱橫16大方向
    :TensorFlow迎來全面升級開放11個數據集:從強化學習到自然語言處理,再到圖像分割頂會研究和Google研究的全球擴張:發表大量論文,投入大量資源資助教師、學生和各方面研究人員進行研究人工智慧倫理:推進人工智慧在公平、隱私保護、可解釋性方面研究進展展望2020年及以後:深度學習革命將繼續重塑我們對計算和計算機的看法。
  • 牛津中國小哥提出「3D-BoNet」,比3D點雲實例分割算法快10倍!
    Introduction 實現有效的三維場景理解(3D scene understanding)是計算機視覺和人工智慧領域的關鍵問題之一
  • 最佳論文最佳學生論文一作均為華人,清華最高產機構
    最佳論文今年的最佳論文來自牛津大學,論文名為Unsupervised Learning of Probably Symmetric Deformable 3D Objects from Images in the Wild。在論文中,研究人員提出了一種無需外部監督即可從原始單視圖圖像中學習3D變形對象類別的方法。
  • Facebook AI發力,2D照片變3D
    「我們研究的最新進展是建立在利用深度學習來預測和定位圖像中的物體,以及用新的工具和架構來理解三維形狀,如體素、點雲和網格,」Facebook的研究人員Georgia Gkioxari、Shubham Tulsiani和David Novotny在一篇博客中寫道。「三維理解將在提高人工智慧系統,更貼近地理解、解釋和操作現實世界的能力方面發揮核心作用。」
  • ...論文解讀:綜合使用多形態核磁共振數據的3D生物醫學圖像分割...
    論文的故事還在繼續相對於 CVPR 2017收錄的共783篇論文,即便雷鋒網(公眾號:雷鋒網) AI 科技評論近期挑選報導的獲獎論文、業界大公司論文等等是具有一定特色和代表性的,也仍然只是滄海一粟,其餘的收錄論文中仍有很大的價值等待我們去挖掘,生物醫學圖像、3D視覺、運動追蹤、場景理解、視頻分析等方面都有許多新穎的研究成果。
  • 浙大博士生劉漢唐:帶你回顧圖像分割的經典算法 | 分享總結
    雷鋒網AI科技評論按:圖像語義分割是 AI 領域中一個重要的分支,是機器視覺技術中關於圖像理解的重要一環。近年的自動駕駛技術中,也需要用到這種技術。車載攝像頭探查到圖像,後臺計算機可以自動將圖像分割歸類,以避讓行人和車輛等障礙。隨著近些年深度學習的火熱,使得圖像分割有了巨大的發展,本文為大家介紹深度學習中圖像分割的經典算法。
  • 3D深度學習火了!NVIDIA NeurIPS論文:訓練AI迅速將2D圖像轉換成3D...
    論文連結:https://nv-tlabs.github.io/DIB-R/files/diff_shader.pdf  Nvidia的人工智慧總監和論文合著者  Fidler還說:「關於三維深度學習目前很多公司已經做了一些工作,如Facebook AI Research與DeepMind也能將二維轉化成三維AI,但DIB-R是第一個可以通過二維圖像預測幾個關鍵的三維特徵(如對象的形狀、三維幾何、顏色和紋理)的神經或者深度學習架構之一。
  • 聚焦快速機器學習訓練算法,UC伯克利尤洋189頁博士論文公布
    機器學習訓練算法領域的研究心血。因此,如何有效縮短機器學習訓練時間,同時完成高質量的訓練,對於解決當前的瓶頸問題具有重大意義。本文將介紹一篇長達 189 頁的博士學位論文,作者為加州大學伯克利分校計算機系的尤洋博士。
  • ...精彩論文解讀:結合序列學習和交叉形態卷積的3D生物醫學圖像分割
    下文是宜遠智能的首席科學家劉凱對此次大會收錄的《結合序列學習和交叉形態卷積的3D生物醫學圖像分割》(Joint Sequence Learning and Cross-Modality Convolution for 3D Biomedical Segmentation)一文進行的解讀。