多任務實現SOTA,UBC、谷歌等提出3D點雲的無監督膠囊網絡

2021-01-12 手機鳳凰網

機器之心報導

作者:杜偉、小舟

這是一種為 3D 點雲提出的無監督膠囊架構,並且在 3D 點雲重構、配準和無監督分類方面優於 SOTA 方法。

理解對象是計算機視覺的核心問題之一。傳統方法而言,理解對象任務可以依賴於大型帶注釋的數據集,而無監督方法已經消除了對標籤的需求。近來,研究人員試圖將這些方法擴展到 3D 點雲問題上,但無監督 3D 學習領域卻進展寥寥。

近日,包括 Weiwei Sun、Andrea Tagliasacchi、Geoffrey Hinton 等來自英屬哥倫比亞大學、谷歌研究院、多倫多大學的研究者提出了用於 3D 點雲的無監督膠囊網絡。Hinton 對此表示:在不受監督的情況下找到一個對象的自然組件以及這些組件的內在參照系是學習將解析圖像轉換為局部整體層級結構的重要一步。如果以點雲開始,則可以做到。

具體而言,研究者通過排列等變(permutation-equivariant)的注意力計算對象的膠囊分解,並通過訓練成對的隨機旋轉對象來自監督該過程。本研究的核心思想是將注意力掩模聚合為語義關鍵點,並使用它們來監督滿足膠囊不變性或等方差的分解。這不僅可以訓練語義上一致的分解,還能夠學習以對象為中心的推理的規範化操作。在這種情況下,既不需要分類標籤,也不需要手動對齊的訓練數據集進行訓練。

最後,通過以無監督的方式學習以對象為中心的表徵,該方法在 3D 點雲重構、配準和無監督分類方面優於 SOTA 方法。研究者表示將很快公布原始碼和數據集。

論文連結:https://arxiv.org/abs/2012.04718

項目主頁:https://canonical-capsules.github.io/

方法

該網絡在未對齊的點雲上進行訓練,如下圖 2 所示:研究者訓練了一個將點雲分解為多個組件的網絡,並通過 Siamese 訓練設置實現不變性 / 等方差。

然後研究者將點雲規範化為學習的參照系,並在該坐標空間中執行自動編碼。

損失

正如無監督方法中常見的那樣,該研究的框架依賴於大量的損失,這些損失控制著力圖在表徵中獲得的不同特徵。請注意所有這些損失是如何不受監督且不需要標籤的。研究者根據他們監督的網絡部分組織損失,包括分解、規範化和重建。

網絡架構

研究者簡要介紹了實現細節,包括網絡架構。

編碼器 E。我們的架構是基於 [42] 提出一種類似於點網的架構,具有殘差連接和注意力上下文歸一化;

解碼器 D。公式 (4) 中的解碼器基於每個膠囊運行。本研究採用的解碼器架構類似於 AtlasNetV2 [13](帶有可訓練的網格)。不同之處在於本研究通過相應的膠囊姿態轉換每個膠囊的解碼點雲;

回歸器 K。研究者只需連接描述符,並通過 ReLU 激活函數調用一系列全連接層,以回歸 P 膠囊定位。在輸出層,研究者使用線性激活函數,並進一步減去輸出平均值,以使回歸位置在規範化框架中以零為中心(zero-centered);

規範化描述符。由於本研究的描述符只是近似旋轉不變(通過擴展),研究者發現在規範化之後重新提取膠囊描述符β_k 很有用。

實驗及結果

自動編碼

研究者針對兩個訓練基線(在單類別和多類別變體中經過了訓練)評估了用於訓練網絡任務(重建 / 自動編碼)的方法的性能:

AtlasNetV2 [13],一種使用基於補丁(patch-based)多頭解碼器的 SOTA 自動編碼器;

3D-PointCapsNet [58],一種利用膠囊架構的 3D 點雲自動編碼器。

下表 1 是定量分析的結果,本文方法在對齊和未對齊的設置下均取得了 SOTA 的性能結果。

下圖 3 是定性分析的結果。研究者給出了基於分解的 3D 點雲重建方法以及 3D-PointCapsNet [58]、AtlasNetV2 [13]的重建結果。

配準

研究者在配準 3D 點雲的能力方面評估了該方法的性能,並與以下 3 個基準進行了比較:

Deep Closest Points (DCP) [52]:一種基於深度學習的點雲配準方法;

DeepGMR–RRI [56],一種 SOTA 方法,該方法可以將雲分解為具有旋轉不變特徵的高斯混合;

DeepGMR–XYZ [56],其中將原始 XYZ 坐標用作輸入,而不使用旋轉不變特徵;

本研究採用的變體方法 RRI,其中使用 RRI 特徵 [6] 作為該架構的唯一輸入。本文使用 RRI 特徵的方法遵循 DeepGMR 訓練協議,並訓練 100 個周期,而對於 DCP 和 DeepGMR,本研究使用了原作者的官方實現。定量分析的結果如下表 2 所示:

無監督分類

除了重建和配準(這兩者是與訓練損失直接相關的任務)之外,本研究還通過分類任務評估了方法的有效性,該分類任務與訓練損失沒有任何關係。結果如下表 3 所示,本文方法均實現了 SOTA 的 Top-1 準確率。

控制變量實驗

此外,為了進一步分析規範化膠囊(Canonical Capsules)的不同組件對性能的影響,本研究進行了一系列控制變量實驗,結果如下表 4、表 6、表 7 所示:

表 4:損失的影響。

表 6:規範描述符的有效性。

表 7:點的數量對性能的影響。

相關焦點

  • 多任務實現SOTA,UBC谷歌等提出3D點雲的無監督膠囊網絡
    這是一種為 3D 點雲提出的無監督膠囊架構,並且在 3D 點雲重構、配準和無監督分類方面優於 SOTA 方法。理解對象是計算機視覺的核心問題之一。傳統方法而言,理解對象任務可以依賴於大型帶注釋的數據集,而無監督方法已經消除了對標籤的需求。
  • 當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多任務學習
    儘管在相當長的一段時間內,對句子的無監督表示學習已經成為了一種行業規範。但在最近的幾個月裡,人們開始逐漸轉向監督學習和多任務學習,並且在 2017 年底/2018 年初提出了一些非常有趣的方案。近期的通用詞/句嵌入的趨勢:在本文中,作者將介紹上圖中用黑體表示的模型。
  • 73歲Hinton老爺子構思下一代神經網絡:屬於無監督對比學習
    受人腦的啟發,他和其他研究者提出了「人工神經網絡」(artificial neural network),為機器學習研究奠定了基石。那麼,30 多年過去,神經網絡的未來發展方向在哪裡呢?Hinton 在此次報告中回顧了神經網絡的發展歷程,並表示下一代神經網絡將屬於無監督對比學習。
  • 膠囊網絡:一種全新的富有吸引力的AI架構
    卷積神經網絡(CNN)因其在目標識別和分類任務中的成功應用而被計算機視覺應用界所青睞。CNN是由堆疊在一起的多個神經元組成的。在神經元之間計算卷積需要大量的計算,因此通常使用池化來減小網絡層的大小。卷積方法可以通過簡單的計算來學習數據的許多複雜特徵。通過對輸入進行矩陣乘法和求和,我們可以得出問題的答案。基本的卷積神經網絡我總是聽到CNN到底有多優秀。
  • 3D點雲算子並無實質進步?微軟亞研重新評估,提出極簡算子PosPool
    那麼 3D 點雲算子領域的進展是真實的嗎?中科大和微軟亞研的研究人員進行了系統性評估,並提出了無需可學參數的新型 3D 點雲算子 PosPool。近些年湧現了很多不同的 3D 點雲網絡和算子,它們在常見基準評測集上的性能逐步提升,但是由於各種網絡採用不同的局部算子、整體網絡結構和實現細節,人們對該領域的實質進步一直缺乏準確地評估。
  • Hinton老爺子CapsNet再升級,結合無監督,接近當前最佳效果
    今日,CapsNet 的作者 Sara Sabour、Hinton 老爺子聯合牛津大學的研究者提出了膠囊網絡的改進版本——堆棧式膠囊自編碼器。這種膠囊自編碼器可以無監督地學習圖像中的特徵,並在無監督分類任務取得最佳或接近最佳的表現。這也是膠囊網絡第一次在無監督領域取得新的突破。一個目標可以被看做是一組相互關聯的部件按照幾何學形式組合的結果。
  • 今日Paper|點雲分類框架;多模式Transformer;神經網絡;有序神經元等
    目錄用於行人重識別的三元組在線實例匹配丟失用於DSTC8 AVSD挑戰的帶指針網絡的多模式TransformerPointAugment:一種自動增強的點雲分類框架尋找稀疏、可訓練的神經網絡這是一項具有挑戰的任務,因為其包含多模態視頻功能,例如包括文本、視覺和音頻特徵。對話代理還需要學習用戶話語和系統響應之間的語義依賴,以便與人類進行連貫對話。
  • 學界 | 膠囊網絡是如何克服卷積神經網絡的這些缺點的?
    我們不是已經看到了多種卷積神經網絡(CNN)的神奇案例?它們不是已經在計算機視覺任務(例如分類、定位、物體檢測、語義分割或實例分割,見圖1)上實現超越人類的水平了嗎?但是這裡的關鍵點是膠囊網絡是非常有希望的,看起來只要做一些修改就能讓膠囊網絡充分釋放它們的潛能。畢竟現代CNN在1998年就被發明了,但也要經過幾次改進,直到2012年的ImageNet大賽上才達到業界領先水平。簡而言之,一個膠囊網絡是由膠囊而不是由神經元構成。
  • 北大、斯坦福提出基於動態圖網絡學習的三維部件拼裝
    為解決這一新設定下的部件拼裝問題,我們提出了一個基於迭代式圖神經網絡(iterative graph neural network)的動態圖神經網絡學習(dynamic graph learning)的框架。
  • 谷歌對無監督解耦方法進行了大規模評估,還開源了用來實驗的開發庫!
    在「挑戰無監督解耦表示中的常見假設」(Challenging Common Assumptions in the Unsupervised Learning of Disentangled Representations,ICML 2019 ) 這篇文章中,谷歌的研究人員對最近的無監督解耦方法進行了大規模評估,對一些常見假設進行了實驗驗證
  • 看一遍人類動作就能模仿,能理解語義的谷歌機器人登上無監督學習的...
    相比之下,人類可以通過觀察別人的做法來理解任務的目標,或者只是被告知目標是什麼,就可以完成任務。目前,谷歌期望通過教會機器人理解語義概念,以使得機器人能夠從人類的示範中學習動作,以及理解物體的語義概念,完成抓取動作。以下為雷鋒網 AI 科技評論編譯的這篇谷歌博客的部分內容。
  • 學習Hinton老爺子的膠囊網絡,這有一篇歷史回顧與深度解讀
    深度學習和人工神經網絡已經被證明在計算機視覺和自然語言處理等領域有很優異的表現,不過隨著越來越多相關任務的提出,例如圖像識別,物體檢測,物體分割和語言翻譯等,研究者們仍然需要更多有效的方法來解決其計算量和精度的問題。在已有的深度學習方法中,卷積神經網絡 (Convolutional Neural Networks) 是應用最為廣泛的一種模型。
  • 三維變二維,港中文提出用於點雲卷積的局域展平網絡模塊FPConv
    為了克服三維卷積帶來的計算資源消耗和解析度限制,來自香港中文大學深圳分校等機構的研究人員們提出了一種基於局域展平的二維平面卷積方法FPConv,將點雲非線性投影到特殊平面上,而後在利用2D卷積進行有效地特徵抽取。這種方法將點雲轉換到二維平面上的投影過程和插值過程簡化為一個權重矩陣的學習。
  • 實習期完成,無圖像對和域標籤,博士小哥實現完全無監督的圖像轉換
    因而,越來越多的研究人員開始探索無監督設置下的圖像到圖像轉換方法。2019 年 5 月,英偉達的一項研究探索 few-shot 無監督的圖像到圖像轉換算法,並實現了逼真的轉換效果。近日,韓國延世大學等機構的研究者實現了完全無監督設置下的圖像到圖像轉換。
  • 賈佳亞等提出Fast Point R-CNN,利用點雲快速高效檢測3D目標
    選自arXiv作者:Yilun Chen、Shu Liu、Xiaoyong Shen、Jiaya Jia機器之心編譯參與:韓放、一鳴本文提出了一個統一、高效且有效的,基於點雲的三維目標檢測框架。其兩階段方法採用體素表示和原始點雲數據並充分利用了它們的優勢。
  • 基於生成對抗網絡的三維點雲自動修復
    本文方法利用獲取的缺失數據和完整模型的樣本的大規模合成數據集, 訓練神經網絡直接從缺失點雲模型預測完整點雲模型, 通過監督學習策略有效解決三維點雲形狀的修復補全問題. 該方法以三維離散點雲數據作為輸入, 採用自編碼器並結合生成對抗網絡框架, 同時利用Wasserstein距離優化使得該網絡訓練穩定且能生成豐富的補全樣例.
  • 學界| Facebook提出DensePose數據集和網絡架構:可實現實時的人體...
    我們可以認為這個任務涉及到一些其它問題,比如物體檢測、姿態估計、作為特例或前提的部位和實例分割。在圖形處理、增強現實或人機互動等不只需要平面關鍵特徵位置標記的問題中,這一任務的解決將能實現很多應用,並且還能助力實現通用型的基於 3D 的物體理解。
  • SIGIR2020|圖靈獎得主Hinton:無監督對比學習將是神經網絡的未來
    【新智元導讀】7月27日上午,第43屆國際信息檢索大會(SIGIR 2020)線上開啟,圖靈獎得主Geoffrey Hinton作了主題演講,今天我們就跟隨Hinton一起走進「神經網絡的新時代」。人工神經網絡一直懸而未決的問題是如何像大腦一樣有效地進行無監督學習。
  • |可解釋膠囊網絡深度學習框架從單細胞RNA測序...
    文中提出了一個使用膠囊網絡(稱為scCapsNet)的可解釋的深度學習體系結構。膠囊結構(代表一組特定對象屬性的神經元向量)捕捉層次關係。通過利用競爭性單細胞類型識別,scCapsNet模型能夠進行特徵選擇以識別編碼不同亞細胞類型的基因組。將RNA表達特徵有效地整合到scCapsNet的參數矩陣中,實現了亞細胞類型識別。
  • 港城大提出任意比例的上採樣方法, 實現自由三維點雲稠密重建
    但這種方法無法保留多尺度的細節,無法有效重建較為細微的形貌信息。 而利用神經網絡的方法從數據中學習出幾何形狀點雲表達會比基於優化的方法表現更好,但現有的深度學習方法對於點雲的幾何特性考慮較少,限制了深度學習對於這一問題的處理能力。  此外,很多深度學習方法的上採樣率保持固定,這意味著每當需要改變上採樣率的時候就需要重新對網絡進行訓練,消耗大量的調參和訓練時間。