Facebook AI 正在升維突破:教AI像人類一樣理解三維世界

2021-02-14 DeepTech深科技


為了更好地理解現實世界,AI 系統不僅需要準確識別物體,還必須學會以三維視角理解視覺場景,比如將二維圖片中的沙發、餐桌和茶几以三維建模的方式重現出來。


這對 AI 的圖像理解能力提出了極高的要求,因為它必須知道如何判斷景深,搞清楚對象位於照片的前景還是背景中,甚至要在一定程度上推斷出缺失部分的樣子。

Facebook AI 近日在首爾國際計算機視覺大會(ICCV)上演示了他們在這個領域的最新研究成果,同時也在博客和 arxiv 上發布了技術簡介和論文,表現驚豔,研究成果之一還獲得了 ICCV 最佳論文提名。

 

圖 | 將視頻中的沙發和椅子三維化(來源:Facebook)

為了實現這一目標,研究人員不僅開發了新的算法,還整合了多個最新研究成果,包括用來預測 3D 形狀的 Mesh R-CNN 神經網絡框架,用來提取和重建 3D 不規則模型的 C3DPO 方法,用來檢測物體和生成 3D 點雲的 VoteNet 技術以及配套的新型優化算法等等。

研究團隊相信,通過加強對三維物體的了解,AI 可以更緊密地連接二維和三維世界,在計算機視覺領域扮演更重要的角色,推動 3D 列印、AR 和 VR 等技術在現實生活中的進步,將這些技術拓展到更廣泛的任務上,最終像人類一樣理解三維世界。

預測受阻擋的 3D 不規則形狀

現有的基於 Mask R-CNN 的圖像理解和感知系統的確很強大,適用廣泛,但它們做出的預測主要以二維數據為依據,忽略了真實世界複雜的三維結構。想要在真實世界中識別和判斷不規則物體的三維數據,例如在雜亂多變的環境中識別和排除遮擋物,需要克服一系列光學挑戰。由於技術原因,僅憑現有的工程框架(Mask R-CNN)難以勝任。

為了應對這些挑戰,研究人員首先通過網格預測分支(mesh prediction branch)強化了 Mask R-CNN 的 2D 對象分割系統,隨後專門創建了一個 Pytorch 庫 Torch3d,裡面儲存了高度優化後的 3D 運算符,可以幫助實現 3D 物體結構採樣和預測。

 

圖 | 通過網格構建物體 3D 形狀(來源:Facebook)

簡單來說,新開發的 Mesh R-CNN 框架可以藉助現有的 Mask R-CNN 來檢測和分類圖像中的各種物體,之後使用網格預測器推斷和描繪出一個物體 3D 形狀,最終獲得細粒度的 3D 結構數據。

在這一過程中,Facebook 還使用了 Detectron2 庫。這是一個模塊化物體檢測庫,最早由 Facebook 團隊在 2018 年推出,獲得過多次更新。它將 RGB 圖像視為輸入值,可以檢測物體和預測 3D 形狀,同時還支持捕捉視頻中的物體和動作變化。

與訓練 Mask R-CNN 類似,研究團隊使用了監督學習的方式來訓練 Mesh R-CNN 學習 3D 形狀預測。他們在 Pix3D 和 ShapeNet 兩個數據集上評估了新框架,它成為了第一個可以在所有場景類別中檢測到物體完整 3D 形狀的系統,而且綜合表現也高出之前框架 7%。

通過二維關鍵點重建三維對象


對於無法使用網格的場景,Facebook 研究人員開發了另一種方法:捕捉 2D 關鍵點,再將數據輸入 C3DPO 系統(Canonical 3D Pose Network),用來重建 3D 關鍵點模型。

2D 關鍵點可以通過跟蹤物體特定部分的運動得到,比如人的關節和鳥的翅膀,可以提供物體幾何形狀或視角變化的完整軌跡。這並不難實現,難的是如何生成 3D 關鍵點,這對於 3D 建模來說至關重要,也是在現實中應用潛力最大的地方——更好的建模質量意味著在 VR 中生成更逼真的虛擬頭像。

 

圖 | 通過二維圖片關鍵點(上)生成三維模型(下)(來源:Facebook)

研究團隊開發的 C3DPO 模型可以重建數十萬張圖像的數據集,每張圖片都包含數千個 2D 關鍵點。在給定一組 2D 關鍵點的前提下,該模型可以預測現有的攝像頭視角參數,並且得出標準視角下 3D 關鍵點的定位信息,對確定物體的相對位置至關重要。

為了克服分解 3D 視角和形狀時的不確定性——AI 需要腦補看不到的地方,存在茫茫多的可能性——研究人員開發了一套正則化技術,包含第二個輔助深度神經網絡,可以隨著 3D 重建網絡一起學習,規範模型重建過程。

Facebook 強調,由於之前基於矩陣分解的方法存在內存限制,這種重建是無法實現的。而新開發的深度網絡 C3DPO 能夠以小批量(minibatch)的狀態運行,效率很高,對硬體的要求大大降低,使得對飛機等大型物體的三維數據捕捉和重建成為可能。

學習如何從像素映射到物體表面

為了減少針對一般物體開發三維形狀數據捕捉的監督程度,Facebook 團隊開發了一種類似於自動物體分割的方法,適用於未標註圖像。無需明確預測圖像底層的 3D 結構,就可以直接將圖像中的像素映射到 3D 形狀模板的表面上。

這種映射不僅可以幫助系統更好地理解圖像,還能夠幫助歸納相同類別物體之間的關係。以人類為例,當我們看到左側圖像中高亮顯示的鳥喙,就可以輕鬆找到右側圖像中對應的點。

 

(來源:Facebook)

對於 AI 來說,實現像素到物體表面的映射意味著它也可以具備這種能力,因為同類別的物體之間共享了相似的 3D 結構。如果我們訓練 AI 學習如何正確坐在椅子上或者握住杯子,那麼在它學會之後,再換一張椅子或者一個杯子,它對物體 3D 結構的理解也可以幫助其快速掌握新技巧。

這些成果不僅可以幫助 AI 加深對傳統 2D 圖像和視頻內容的理解,還可以用來增強 AR 和 VR 體驗。

研究團隊表示,在評估不同個例之間對應關係的準確性時,新系統的表現優於舊方法兩倍。更重要的是,這種學習方式可以實現從像素到物體表面的映射,並將其與表面到像素的逆向操作配對,從而形成一個從訓練到檢驗的循環,所用的圖片數據集也無需標註,因此大大降低了訓練所需的監督程度。

改善 3D 系統物體檢測任務


最後一個在 3D 建模任務中扮演重要角色的成果是 VoteNet。這是一套為 3D 點雲系統定製的高精度端到端 3D 對象檢測網絡,獲得了 ICCV 2019 的最佳論文提名。

與傳統依賴 2D 圖像信號的點雲系統不同,VoteNet 支持的系統完全基於 3D 點雲,效率和精度都更勝一籌,可以從深度相機獲取 3D 點雲,並返回帶有物體或形狀標註的 3D 邊界框。

它以經典霍夫變換算法為基礎(利用投票的方法檢測物體形狀),引入了一種新的投票機制,可以在物體中心附近生成新點,然後將它們分組和匯總,生成多個 3D 盒狀提案。深度神經網絡在學習如何投票之後,每組 3D 種子點(seed point)會投票決定物體中心,找到它們的位置,綜合起來代表特定物體的位置,還能判斷物體類別,標註它是椅子還是桌子。

 

圖 | VoteNet 實現方式(來源:Facebook)

研究人員表示,開源的 VoteNet 具有簡單的設計、緊湊的模型和很高的效率,是最先進的 3D 物體檢測方式之一。它僅憑几何信息,無需彩色圖像,就在 SUN GRB-D 和 ScanNet 的測試中超越了現有方法,是捕捉場景中 3D 對象的核心工具。

從自動駕駛到生物醫療,3D 掃描技術的應用場景正在快速拓展,因此使用計算機直接理解和分類 3D 場景物體的能力變得愈發重要。這對計算機視覺研究提出了更高的要求,但也是增強 AI 對現實場景理解能力的必要過程,有助於進一步縮小物理空間和虛擬空間的差距,推動 VR 和 AR 等技術的發展,甚至是掀起新一輪技術革命。

最終如果綜合觸覺感官和自然語言理解等技術,我們有朝一日或許能夠見到像人類一樣理解並與現實世界互動的 AI 系統。

-End-

參考:

https://ai.facebook.com/blog/pushing-state-of-the-art-in-3d-content-understanding/

https://ai.facebook.com/blog/-detectron2-a-pytorch-based-modular-object-detection-library-/

https://research.fb.com/publications/c3dpo-canonical-3d-pose-networks-for-non-rigid-structure-from-motion/

相關焦點

  • 深度 | 致研究者:2018 AI研究趨勢
    更好地理解視頻現在計算機視覺系統已在視覺方面超越人類。這要歸功於不同深度、廣度和連接密集度的網絡:這很不錯,但是我們習慣於用眼睛觀察圖像的序列、視頻、或是真實世界的改變——所以,我們需要將這些計算機視覺的成果轉化到視頻領域,並使其能工作得和在靜止圖片中一樣快。老實說,在靜止的圖像中檢測 1000 個物體簡直是太無聊了。
  • 犯錯與說謊,讓遊戲AI更像人類
    犯錯拉升AI存在感 然而樊麾的感言卻從人類的理解出發,闡釋了什麼樣的AI才能以假亂真——它絕不是無懈可擊,它必須會出差錯。 這也是遊戲開發者一直以來在遊戲角色AI上挑戰的難題。 AI的突破與挑戰,成為遊戲開發者們面臨的大課題。
  • AI是什麼意思,人類進入AI時代.
    近期AI不斷進入公眾視野,那麼什麼是ai?ai對人們生活會產生什麼影響?今天小編給大家聊聊。
  • 擊敗谷歌AI拿下「最強」稱號?Facebook AI開源聊天機器人Blender
    在人-人和 Blender-人的對話比較測試中,有 49% 的測試者把 Blender 的對話記錄誤認為是人和人的對話,67% 的測試者認為 Blender 和人的對話更像是人和人的對話。視頻|Blender 對話演示(來源:Facebook)「對話有點像 AI 完備問題(AI-Complete),你必須要解決所有 AI 問題才能解決對話。
  • AI是如何檢測色情片的?
    「人們經常從Pornhub、XVideos等網站下載,」Lemay.ai的聯合創始人兼首席技術官Dan Shapiro說到。Lemay.ai是一家為其客戶創建 AI 過濾技術的初創公司。「這是一個合法的灰色地帶,但如果你正在使用其他人的內容進行訓練,(訓練)結果是否屬於你?」
  • Facebook對話AI發展出了人類無法理解的語言,他們到底聊了啥?
    兩個機器人的聊天內容仿佛自帶加密,莫非機器人入侵人類的時代到來了嗎?兩個機器人正在用自創的語言密謀什麼大事?對此,Rokid研究團隊給出了專業的看法。就像windows會藍屏死機,手機會無故重啟一樣,再正常不過。今天所謂的機器人,不管是聊天也好,智能駕駛也好,下圍棋也好,都只是無數數據堆積出來的事件對應關係,它們並不能真正理解事件背後的含義和邏輯。比如你說「我要吃飯」,機器人可能會回答「你想吃什麼」,實際上它只是從所有數據中抽取一種概率最大的答案。
  • Facebook開源多款AI工具,支持遊戲、翻譯
    林椿眄編輯 | 阿司匹林出品 | AI科技大本營近日,Facebook 在年度開發者大會 F8 上宣布開源多款 AI 工具,除了 PyTorch、Caffe 等深度學習框架之外,此次開源的還包括 DensePose(可用於人體姿態估計)、Translate(可翻譯 48 種語言)、ELF(可通過遊戲來教機器推理
  • 一文看盡2018全年AI技術大突破
    2018年裡,NLP領域的突破接連不斷:ULMFiT、ELMo、最近大熱的BERT……遷移學習成了NLP進展的重要推動力。從一個預訓練模型開始,不斷去適應新的數據,帶來了無盡的潛力,甚至有「NLP領域的ImageNet時代已經到來」一說。
  • AI在這一周學會了很多事,都是什麼? | 一周 AI 頭條
    http://research.baidu.com/gram-ctc-speech-recognition-word-piece-targets/人工智慧新發現它們可以像人類作曲家一樣編寫音樂 | 潛力 |
  • 谷歌發布萬億參數語言模型, AI的語言功能真的可以超越人類嗎?
    近年來,更為複雜的人類語言模型迅速發展。2020年初,谷歌訓練的語言模型終於能夠在廣泛的語言理解任務中擊敗人類,他們通過在更多數據上訓練更大的網絡,將BERT架構推向了極限。現在,這種T5模型在標註句子和找到問題的正確答案方面可以比人類表現得更好。
  • AI+製造時代來了,吳恩達成立LANDING.AI推進位造業轉型
    許多 AI 技術仍然很複雜,很少有團隊能夠完全理解並且有效地運用這些技術。 在 IT 行業以外,人工智慧人才更是稀缺。」他分析稱,使用 AI 推動公司變革所需要的遠不止是搭建幾個機器學習模型,人工智慧綜合戰略,從數據採集到企業組織結構設計,以及如何確定人工智慧項目的優先順序 ,與技術本身一樣複雜。而優秀的人工智慧戰略家甚至比優秀的人工智慧技術人員更為罕見。
  • ai軟體排版設計教程下載,ai軟體平面設計教程
    也是很ai名片文成武平面設計排版教程多剛入行的設計小夥三維教程伴印刷紙杯很容易忽電商視覺設計教程略的細節,設計產重慶廣告設計海報教程品的實草繪教程際使用平面設計大師c4d教ai人像分割海報程環境。  三維教程比如,我們此次網logo網頁背景色教程設計改版的產品水彩教程詳情界ps設計ic排版教程面就是線上下字體設計教程百度雲連結單,線bim三維下提噴繪教程貨的運營模式,不僅常用字體設ps6logo計教程需設計要考慮室內使教程廣告用環境,ps網頁設計臨摹教程還嫩芽設計師品牌教程本命年需要考慮到特殊ui設計自學教程第一集的教程排版室外強光環境蘇州平面設計培訓教波普海報程。
  • Facebook AI Research開源視頻理解前沿算法代碼庫
    https://github.com/facebookresearch/SlowFast視頻理解是如今相當流行的研究方向,但不同於圖像相關的研究,視頻理解中龐大的數據集和巨大的模型,讓很多視頻研究難以開展。想要復現一個STOA的模型,更是可能耗時數周甚至數月。
  • Facebook的AI用「自創秘密語言」對話?程式設計師:參數沒調好……
    更要命的是,文章引用了專業人士的評價——「智能體會脫離人類可以理解的語言,發明自己的代碼語言。」那篇文章引用 FAIR 訪問研究員 Dhruv Batra 的話說,「就好比我說 5 遍 『the』 這個單詞,你會理解為我想要 5 個這個東西。這與人類發明簡略表達的方式並沒有太大不同。」於是事情一發不可收拾。
  • AI正在吞噬軟體世界
    更多優質內容請關注微信公眾號「AI 前線」(ID:ai-front)八年前,Marc Andreessen(網景公司創始人)說的一句「軟體正在吞噬世界」讓每個人都爭先恐後地衝進這個領域。對於很多傳統企業來說,這是一個不祥之兆,但對於軟體行業來說,這是一個天大的好消息。
  • 這是一份 AI 界最強年終總結
    對於我們這些在 AI 領域工作的人來說,我們非常在意 AI 是否成為了這個世界變得更好的推動力 —— 也就是說,它的使用是符合人類道德的,它用來解決的問題也是對這個社會有益的。2018 年我們發布了谷歌 AI 準則(https://ai.google/principles/),它也帶有一系列負責任的 AI 應用的示範樣本,描繪出了 AI 應用實踐的技術指導。
  • Facebook AI提出基於神經的反編譯框架N-Bref,優於基於啟發式的反編譯器
    當原始碼不可用時,反編譯是分析和理解軟體的強大技術。它是計算機安全領域的一個關鍵問題。隨著神經機器翻譯(NMT)的成功,與傳統的反編譯方法相比,基於神經網絡的反編譯器的研究取得了很好的效果。反編譯器可以將低級可執行代碼(如彙編語言)轉換為高級程式語言(如 C++),使得代碼可讀性更強。這種反編譯程序對於檢測計算機安全中的漏洞、異常以及取證都很有用。
  • AI巨頭Facebook悄悄參賽卻被完虐,《星際爭霸》是簡單的推理遊戲還是AI試金石?
    僅僅從 Facebook 參加這個著名的比賽這一舉動來看,科技巨頭爭奪「XX 智力遊戲首勝人類冠軍」這一頭銜已經越來越激烈化了。先有 IBM 的「深藍」計算機於 1997 年戰勝西洋棋世界冠軍,後有谷歌的 AlphaGo 於去年戰勝圍棋世界冠軍。而現在,人工智慧界的下一個目標則是即時戰略遊戲了。
  • caxa三維設計入門教程,caxa三維設計視頻教程
    窗體ui  今個兒教排版與設計教程視頻格瑞德地產網頁程書籍,咱繪畫教程繼設計續修煉婚禮三維《玉平面設計作品視頻教程女心經ai教程字體》,來嘮嗑嘮嗑【圖版率建模教庭ps草莓海報院設計師手繪教程程】!  ui設計的教程視頻教程這還書籍教程用說嘛,用ps設計標誌設計說明字體教程創意海報教程當然是「教程字體楚髮型設計手繪視頻教程楚動人」了!
  • AI閃耀著的女性光芒| 21位AI領域的傑出女性
    人工智慧正在這個世界蔓延,改變了每個它所觸及的行業和領域