機器之心報導
作者:杜偉、小舟
這是一種為 3D 點雲提出的無監督膠囊架構,並且在 3D 點雲重構、配準和無監督分類方面優於 SOTA 方法。
理解對象是計算機視覺的核心問題之一。傳統方法而言,理解對象任務可以依賴於大型帶注釋的數據集,而無監督方法已經消除了對標籤的需求。近來,研究人員試圖將這些方法擴展到 3D 點雲問題上,但無監督 3D 學習領域卻進展寥寥。
近日,包括 Weiwei Sun、Andrea Tagliasacchi、Geoffrey Hinton 等來自英屬哥倫比亞大學、谷歌研究院、多倫多大學的研究者提出了用於 3D 點雲的無監督膠囊網絡。Hinton 對此表示:在不受監督的情況下找到一個對象的自然組件以及這些組件的內在參照系是學習將解析圖像轉換為局部整體層級結構的重要一步。如果以點雲開始,則可以做到。
具體而言,研究者通過排列等變(permutation-equivariant)的注意力計算對象的膠囊分解,並通過訓練成對的隨機旋轉對象來自監督該過程。本研究的核心思想是將注意力掩模聚合為語義關鍵點,並使用它們來監督滿足膠囊不變性或等方差的分解。這不僅可以訓練語義上一致的分解,還能夠學習以對象為中心的推理的規範化操作。在這種情況下,既不需要分類標籤,也不需要手動對齊的訓練數據集進行訓練。
最後,通過以無監督的方式學習以對象為中心的表徵,該方法在 3D 點雲重構、配準和無監督分類方面優於 SOTA 方法。研究者表示將很快公布原始碼和數據集。
論文連結:https://arxiv.org/abs/2012.04718
項目主頁:https://canonical-capsules.github.io/
方法
該網絡在未對齊的點雲上進行訓練,如下圖 2 所示:研究者訓練了一個將點雲分解為多個組件的網絡,並通過 Siamese 訓練設置實現不變性 / 等方差。
然後研究者將點雲規範化為學習的參照系,並在該坐標空間中執行自動編碼。
損失
正如無監督方法中常見的那樣,該研究的框架依賴於大量的損失,這些損失控制著力圖在表徵中獲得的不同特徵。請注意所有這些損失是如何不受監督且不需要標籤的。研究者根據他們監督的網絡部分組織損失,包括分解、規範化和重建。
網絡架構
研究者簡要介紹了實現細節,包括網絡架構。
編碼器 E。我們的架構是基於 [42] 提出一種類似於點網的架構,具有殘差連接和注意力上下文歸一化;
解碼器 D。公式 (4) 中的解碼器基於每個膠囊運行。本研究採用的解碼器架構類似於 AtlasNetV2 [13](帶有可訓練的網格)。不同之處在於本研究通過相應的膠囊姿態轉換每個膠囊的解碼點雲;
回歸器 K。研究者只需連接描述符,並通過 ReLU 激活函數調用一系列全連接層,以回歸 P 膠囊定位。在輸出層,研究者使用線性激活函數,並進一步減去輸出平均值,以使回歸位置在規範化框架中以零為中心(zero-centered);
規範化描述符。由於本研究的描述符只是近似旋轉不變(通過擴展),研究者發現在規範化之後重新提取膠囊描述符β_k 很有用。
實驗及結果
自動編碼
研究者針對兩個訓練基線(在單類別和多類別變體中經過了訓練)評估了用於訓練網絡任務(重建 / 自動編碼)的方法的性能:
AtlasNetV2 [13],一種使用基於補丁(patch-based)多頭解碼器的 SOTA 自動編碼器;
3D-PointCapsNet [58],一種利用膠囊架構的 3D 點雲自動編碼器。
下表 1 是定量分析的結果,本文方法在對齊和未對齊的設置下均取得了 SOTA 的性能結果。
下圖 3 是定性分析的結果。研究者給出了基於分解的 3D 點雲重建方法以及 3D-PointCapsNet [58]、AtlasNetV2 [13]的重建結果。
配準
研究者在配準 3D 點雲的能力方面評估了該方法的性能,並與以下 3 個基準進行了比較:
Deep Closest Points (DCP) [52]:一種基於深度學習的點雲配準方法;
DeepGMR–RRI [56],一種 SOTA 方法,該方法可以將雲分解為具有旋轉不變特徵的高斯混合;
DeepGMR–XYZ [56],其中將原始 XYZ 坐標用作輸入,而不使用旋轉不變特徵;
本研究採用的變體方法 RRI,其中使用 RRI 特徵 [6] 作為該架構的唯一輸入。本文使用 RRI 特徵的方法遵循 DeepGMR 訓練協議,並訓練 100 個周期,而對於 DCP 和 DeepGMR,本研究使用了原作者的官方實現。定量分析的結果如下表 2 所示:
無監督分類
除了重建和配準(這兩者是與訓練損失直接相關的任務)之外,本研究還通過分類任務評估了方法的有效性,該分類任務與訓練損失沒有任何關係。結果如下表 3 所示,本文方法均實現了 SOTA 的 Top-1 準確率。
控制變量實驗
此外,為了進一步分析規範化膠囊(Canonical Capsules)的不同組件對性能的影響,本研究進行了一系列控制變量實驗,結果如下表 4、表 6、表 7 所示:
表 4:損失的影響。
表 6:規範描述符的有效性。
表 7:點的數量對性能的影響。