選自arXiv
作者:Bo Yang
機器之心編譯
讓機器擁有像人類一樣感知 3D 物體和環境的能力,是人工智慧領域的一項重要課題。牛津大學計算機科學系博士生 Bo Yang 在其畢業論文中詳細解讀了如何重建和分割 3D 物體,進而賦予機器感知 3D 環境的能力,突破了人工智慧和機器理解的界限。
賦予機器像人類一樣感知三維真實世界的能力,這是人工智慧領域的一個根本且長期存在的主題。考慮到視覺輸入具有不同類型,如二維或三維傳感器獲取的圖像或點雲,該領域研究中一個重要的目標是理解三維環境的幾何結構和語義。
傳統方法通常利用手工構建的特徵來估計物體或場景的形狀和語義。但是,這些方法難以泛化至新物體和新場景,也很難克服視覺遮擋的關鍵問題。
今年九月畢業於牛津大學計算機科學系的博士生 Bo Yang 在其畢業論文《Learning to Reconstruct and Segment 3D Objects》中對這一主題展開了研究。與傳統方法不同,作者通過在大規模真實世界的三維數據上訓練的深度神經網絡來學習通用和魯棒表示,進而理解場景以及場景中的物體。
總體而言,本文開發了一系列新型數據驅動算法,以實現機器感知到真實世界三維環境的目的。作者表示:「本文可以說是突破了人工智慧和機器理解的界限。」
這篇博士論文有 143 頁,共六章。機器之心對該論文的核心內容進行了簡要介紹,感興趣的讀者可以閱讀論文原文。
論文地址:https://arxiv.org/pdf/2010.09582.pdf
論文概述
作者在第 2 章首先回顧了以往 3D 物體重建和分割方面的研究工作,包括單視圖和多視圖 3D 物體重建、3D 點雲分割、對抗生成網絡(GAN)、注意力機制以及集合上的深度學習。此外,本章最後還介紹了在單視圖 / 多視圖 3D 重建和 3D 點雲分割方面,該研究相較於 SOTA 方法的新穎之處。
基於單視圖的 3D 物體重建
在第 3 章,作者提出以一種基於 GAN 的深度神經架構來從單一的深度視圖學習物體的密集 3D 形狀。作者將這種簡單但有效的模型稱為 3D-RecGAN++,它將殘差連接(skip-connected)的 3D 編碼器 - 解碼器和對抗學習結合,以生成單一 2.5D 視圖條件下的完整細粒度 3D 結構。該模型網絡架構的訓練和測試流程如下圖所示:
接著,作者利用條件對抗訓練來細化編碼器 - 解碼器估計的 3D 形狀,其中用於 3D 形狀細化的判別器結構示意圖如下:
最後,作者將提出的 3D-RecGAN++ 與 SOTA 方法做了對比,並進行了控制變量研究。在合成和真實數據集上的大量實驗結果表明,該模型性能良好。
基於多視圖的 3D 物體重建
在第 4 章,作者提出以一種新的基於注意力機制的神經模塊來從多視圖中推理出更好的 3D 物體形狀。這種簡單但高效的注意力聚合模塊被稱為 AttSets,其結構如下圖所示。與現有方法相比,這種方法可以學習從不同圖像中聚合有用信息。
此外,研究者還引入了兩階段訓練算法,以確保在給出一定數量輸入圖像的情況下,預估的 3D 形狀具有魯棒性。研究者在多個數據集上進行了實驗,證明該方法能夠精確地恢復物體的 3D 形狀。
從點雲中學習分割 3D 物體
在第五章中,研究者提出了一個新的框架來識別大規模 3D 場景中的所有單個 3D 物體。與現有的研究相比,該研究的框架能夠直接並且同時進行檢測、分割和識別所有的目標實例,而無需任何繁瑣的前 / 後處理步驟。研究者在多個大型實際數據集上展現了該方法相對於基線的性能提升。
作者介紹
本文作者 Bo Yang 現為香港理工大學計算機系助理教授。他本科和碩士分別畢業於北京郵電大學和香港大學,然後進入牛津大學計算機科學系攻讀博士學位,其導師為 Niki Trigoni 和 Andrew Markham 教授。
Bo Yang 作為一作以及合著的論文曾被《計算機視覺國際期刊》(IJCV)以及 NeurIPS 和 CVPR 等學術會議接收,谷歌學術主頁上顯示他共著有 22 篇論文,被引用數超過 400。
論文目錄如下:
NeurIPS 2020線上分享:超越CNN的加法神經網絡
論文:《Kernel Based Progressive Distillation for Adder Neural Networks》。
本篇論文中,研究者通過一種基於核的漸進式蒸餾方法構建了性能更好的加法神經網絡。研究者表示,這項研究使得 ANN 性能超越了同結構的 CNN,從而在功耗更少的情況下實現更佳性能。這項研究還將有益於智慧型手機和物聯網等的應用。
11月25日,論文一作、諾亞方舟實驗室研究員許奕星將為大家詳細解讀此前沿研究。
識別二維碼,入群一起看直播。
© THE END
轉載請聯繫本公眾號獲得授權
投稿或尋求報導:content@jiqizhixin.com
喜歡此內容的人還喜歡
原標題:《突破AI和機器理解的界限,牛津CS博士143頁畢業論文學習重建和分割3D物體》
閱讀原文