多任務實現SOTA,UBC、谷歌等提出3D點雲的無監督膠囊網絡

2020-12-23 機器之心Pro

機器之心報導

作者:杜偉、小舟

這是一種為 3D 點雲提出的無監督膠囊架構,並且在 3D 點雲重構、配準和無監督分類方面優於 SOTA 方法。

理解對象是計算機視覺的核心問題之一。傳統方法而言,理解對象任務可以依賴於大型帶注釋的數據集,而無監督方法已經消除了對標籤的需求。近來,研究人員試圖將這些方法擴展到 3D 點雲問題上,但無監督 3D 學習領域卻進展寥寥。

近日,包括 Weiwei Sun、Andrea Tagliasacchi、Geoffrey Hinton 等來自英屬哥倫比亞大學、谷歌研究院、多倫多大學的研究者提出了用於 3D 點雲的無監督膠囊網絡。Hinton 對此表示:在不受監督的情況下找到一個對象的自然組件以及這些組件的內在參照系是學習將解析圖像轉換為局部整體層級結構的重要一步。如果以點雲開始,則可以做到。

具體而言,研究者通過排列等變(permutation-equivariant)的注意力計算對象的膠囊分解,並通過訓練成對的隨機旋轉對象來自監督該過程。本研究的核心思想是將注意力掩模聚合為語義關鍵點,並使用它們來監督滿足膠囊不變性或等方差的分解。這不僅可以訓練語義上一致的分解,還能夠學習以對象為中心的推理的規範化操作。在這種情況下,既不需要分類標籤,也不需要手動對齊的訓練數據集進行訓練。

最後,通過以無監督的方式學習以對象為中心的表徵,該方法在 3D 點雲重構、配準和無監督分類方面優於 SOTA 方法。研究者表示將很快公布原始碼和數據集。

論文連結:https://arxiv.org/abs/2012.04718

項目主頁:https://canonical-capsules.github.io/

方法

該網絡在未對齊的點雲上進行訓練,如下圖 2 所示:研究者訓練了一個將點雲分解為多個組件的網絡,並通過 Siamese 訓練設置實現不變性 / 等方差。

然後研究者將點雲規範化為學習的參照系,並在該坐標空間中執行自動編碼。

損失

正如無監督方法中常見的那樣,該研究的框架依賴於大量的損失,這些損失控制著力圖在表徵中獲得的不同特徵。請注意所有這些損失是如何不受監督且不需要標籤的。研究者根據他們監督的網絡部分組織損失,包括分解、規範化和重建。

網絡架構

研究者簡要介紹了實現細節,包括網絡架構。

編碼器 E。我們的架構是基於 [42] 提出一種類似於點網的架構,具有殘差連接和注意力上下文歸一化;解碼器 D。公式 (4) 中的解碼器基於每個膠囊運行。本研究採用的解碼器架構類似於 AtlasNetV2 [13](帶有可訓練的網格)。不同之處在於本研究通過相應的膠囊姿態轉換每個膠囊的解碼點雲;

回歸器 K。研究者只需連接描述符,並通過 ReLU 激活函數調用一系列全連接層,以回歸 P 膠囊定位。在輸出層,研究者使用線性激活函數,並進一步減去輸出平均值,以使回歸位置在規範化框架中以零為中心(zero-centered);規範化描述符。由於本研究的描述符只是近似旋轉不變(通過擴展),研究者發現在規範化之後重新提取膠囊描述符β_k 很有用。實驗及結果

自動編碼

研究者針對兩個訓練基線(在單類別和多類別變體中經過了訓練)評估了用於訓練網絡任務(重建 / 自動編碼)的方法的性能:

AtlasNetV2 [13],一種使用基於補丁(patch-based)多頭解碼器的 SOTA 自動編碼器;

3D-PointCapsNet [58],一種利用膠囊架構的 3D 點雲自動編碼器。

下表 1 是定量分析的結果,本文方法在對齊和未對齊的設置下均取得了 SOTA 的性能結果。

下圖 3 是定性分析的結果。研究者給出了基於分解的 3D 點雲重建方法以及 3D-PointCapsNet [58]、AtlasNetV2 [13]的重建結果。

配準

研究者在配準 3D 點雲的能力方面評估了該方法的性能,並與以下 3 個基準進行了比較:

Deep Closest Points (DCP) [52]:一種基於深度學習的點雲配準方法;DeepGMR–RRI [56],一種 SOTA 方法,該方法可以將雲分解為具有旋轉不變特徵的高斯混合;DeepGMR–XYZ [56],其中將原始 XYZ 坐標用作輸入,而不使用旋轉不變特徵;本研究採用的變體方法 RRI,其中使用 RRI 特徵 [6] 作為該架構的唯一輸入。本文使用 RRI 特徵的方法遵循 DeepGMR 訓練協議,並訓練 100 個周期,而對於 DCP 和 DeepGMR,本研究使用了原作者的官方實現。定量分析的結果如下表 2 所示:

無監督分類

除了重建和配準(這兩者是與訓練損失直接相關的任務)之外,本研究還通過分類任務評估了方法的有效性,該分類任務與訓練損失沒有任何關係。結果如下表 3 所示,本文方法均實現了 SOTA 的 Top-1 準確率。

控制變量實驗

此外,為了進一步分析規範化膠囊(Canonical Capsules)的不同組件對性能的影響,本研究進行了一系列控制變量實驗,結果如下表 4、表 6、表 7 所示:

表 4:損失的影響。

表 6:規範描述符的有效性。

表 7:點的數量對性能的影響。

相關焦點

  • 多任務上實現SOTA,UBC、谷歌聯合Hinton等提出3D點雲的無監督膠囊...
    機器之心報導作者:杜偉、小舟這是一種為 3D 點雲提出的無監督膠囊架構,並且在 3D 點雲重構、配準和無監督分類方面優於 SOTA 方法。理解對象是計算機視覺的核心問題之一。
  • CVPR2020曠視提出PVN3D:針對6D位姿估計的3D關鍵點投票網絡
    我們的方法是基於2D關鍵點方法的擴展,它在RGB圖上估計6D位姿取得了成功。它充分利用具有額外深度信息的剛體的幾何約束,易於網絡學習和優化。該方法達到了sota的性能。本文發現,聯合訓練這些任務可以讓網絡學出更好的表徵從而提升網絡在每一個任務上的性能。具體來說,語義分割通過確認一個點屬於物品的哪一部分從而幫助判斷該點到關鍵點的平移偏移;另一方面,平移偏移量包含的物品的尺度信息有助於模型區分外表相似但大小不同的物體。我們在YCB和LineMOD數據集上驗證方法的可行性,達到了sota效果。
  • PointConv:基於3D點雲的深度卷積網絡
    原生的PointConv實現中輸出特徵的通道非常大,內存消耗多,效率低,因此模型訓練困難。所以為了降低PointConv的內存開銷,我們引入了一種改變總和順序(summation order)的方法,可以極大的提升內存效率。新的結構可以用於在3D點雲上搭建多層深度卷積網絡,能達到在圖像2D卷積類似的效果。
  • 當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多任務學習
    儘管在相當長的一段時間內,對句子的無監督表示學習已經成為了一種行業規範。但在最近的幾個月裡,人們開始逐漸轉向監督學習和多任務學習,並且在 2017 年底/2018 年初提出了一些非常有趣的方案。近期的通用詞/句嵌入的趨勢:在本文中,作者將介紹上圖中用黑體表示的模型。
  • 深度 | 當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多任務學習
    儘管在相當長的一段時間內,對句子的無監督表示學習已經成為了一種行業規範。但在最近的幾個月裡,人們開始逐漸轉向監督學習和多任務學習,並且在 2017 年底/2018 年初提出了一些非常有趣的方案。近期的通用詞/句嵌入的趨勢:在本文中,作者將介紹上圖中用黑體表示的模型。
  • Hinton構思下一代神經網絡:屬於無監督對比學習
    受人腦的啟發,他和其他研究者提出了「人工神經網絡」(artificial neural network),為機器學習研究奠定了基石。那麼,30 多年過去,神經網絡的未來發展方向在哪裡呢?Hinton 在此次報告中回顧了神經網絡的發展歷程,並表示下一代神經網絡將屬於無監督對比學習。
  • 谷歌用MediaPipe實現手機高效實時3D對象檢測
    為了克服這個問題,谷歌團隊利用移動增強現實會話數據開發了一種全新的數據管道。隨著ARCore和ARKit的到來,數億智慧型手機現在已經具有AR功能,並且能夠在AR會話中捕獲更多信息,包括camera姿態,稀疏3D點雲,估計照明和平面。
  • CVPR2020|更高質量的點雲補全:上海交通大學團隊提出點雲分形網絡
    點雲有助於用較小的數據量描述三維物體,在三維物體的檢測識別領域應用廣泛。在 PointNet[1] 和 PointNet++[2] 使用深度學習網絡實現了點雲分割和點雲分類之後,點雲深度學習逐漸成為熱門研究領域。但是,從雷射雷達等設備中獲取的點雲往往有所缺失,這給點雲的後續處理帶來了一定的困難,也凸顯出點雲補全作為點雲預處理方法的重要性。
  • 基於深度學習的三維點雲綜述part2-3D物體檢測與跟蹤
    該文章提出了一種用於端到端訓練的多任務,多傳感器的三維物體檢測網絡。其中包含的任務有,2D物體檢測,地面估計,深度完善。這些多種任務使得網絡可以更好地學習特徵表示,交叉模態的特徵表示可以被進一步使用去生成更精確的物體檢測結果。結果在2D,3D,BEV檢測中的性能上。比之前的方法性能都要好。
  • 谷歌已經開始玩轉 3D 了
    為了解決這一問題,谷歌使用移動增強現實會話數據開發了一個新的數據管道。隨著ARCore 、ARKit等工具的出現,數億部智慧型手機現在具備了AR 功能,能夠在 AR會話期間捕捉到額外的信息,包括攝像機姿勢、稀疏的3D點雲、估計的照明和平面。為了標註真實數據,谷歌還開發了能夠與AR會話數據一同使用的新標註工具,讓標註者可以快速地給物體標註 3D 邊框。
  • 谷歌提出「T5」 新NLP模型,多基準測試達SOTA
    而遷移學習之所以如此有效,得益於其利用自監督任務(如語言建模或填充缺失詞)在大量可用的無標註的文本數據上對模型進行預訓練;接著,又在更小的標註數據集上對模型進行微調,從而讓模型實現比單單在標註數據上訓練更好得多的性能。
  • ICML 2019最佳論文:谷歌質疑現有無監督分離式表徵學習
    谷歌大腦、MaxPlanck和蘇黎世聯邦理工學院合作的《挑戰無監督分離式表徵的常見假設》,以及劍橋大學的一篇《稀疏變分高斯過程回歸的收斂速率》作為最佳論文摘得桂冠。另外,還有七篇論文獲得提名獎。今年的論文錄取競爭異常激烈,ICML 2019共提交了3424篇論文,其中錄取774篇,論文錄取率為22.6%。
  • Open3D中文教程-彩色點雲的配準
    它實現了 [[Park2017]] (http://www.open3d.org/docs/release/tutorial/reference.html#park2017) 裡的算法。顏色信息的對齊是沿切線平面的。與已有的點雲配準算法相比,該算法具有更高的精度和魯棒性,同時運行速度與ICP配準算法相當。本教程使用 Open3D中文教程-點雲ICP配準中的符號。
  • 73歲Hinton老爺子構思下一代神經網絡:屬於無監督對比學習
    受人腦的啟發,他和其他研究者提出了「人工神經網絡」(artificial neural network),為機器學習研究奠定了基石。那麼,30 多年過去,神經網絡的未來發展方向在哪裡呢?Hinton 在此次報告中回顧了神經網絡的發展歷程,並表示下一代神經網絡將屬於無監督對比學習。
  • 2016深度學習重大進展:從無監督學習到生成對抗網絡 | 網際網路數據...
    此外,與機器自然交流的能力也是夢想中的目標之一,谷歌、Facebook 這樣的巨頭也為此提出了多種實現方法。在這一背景中,我們可以看到許多在自然語言處理(NLP)上的創新,這些問題對我們實現與機器自然交流的目標來說是至關重要的。
  • 膠囊網絡:一種全新的富有吸引力的AI架構
    卷積神經網絡(CNN)因其在目標識別和分類任務中的成功應用而被計算機視覺應用界所青睞。CNN是由堆疊在一起的多個神經元組成的。在神經元之間計算卷積需要大量的計算,因此通常使用池化來減小網絡層的大小。卷積方法可以通過簡單的計算來學習數據的許多複雜特徵。通過對輸入進行矩陣乘法和求和,我們可以得出問題的答案。
  • 新出爐的最佳論文:CVPR 2020線上分享,一作帶你玩轉無監督3D圖像重構
    新出爐的最佳論文:CVPR 2020線上分享,一作帶你玩轉無監督3D圖像重構 2020-06-29 17:08 來源:澎湃新聞·澎湃號·湃客
  • 官方解讀,谷歌「T5」模型,如何突破遷移學習局限,實現多基準測試SOTA
    而遷移學習之所以如此有效,得益於其利用自監督任務(如語言建模或填充缺失詞)在大量可用的無標註的文本數據上對模型進行預訓練;接著,又在更小的標註數據集上對模型進行微調,從而讓模型實現比單單在標註數據上訓練更好得多的性能。
  • 谷歌提出新域適應方法 填補雷射雷達點雲語義分割域差距
    (圖片來源:syncedreview.com) 標註3D點雲的缺乏阻礙了語義分割任務中深度神經網絡性能的進一步提高。據外媒報導,為了彌補雷射雷達傳感器中3D點雲採樣差異造成的域差距,谷歌研究團隊提出了一種新的「補全和標註」域適應方法,即雷射雷達點雲語義分割域適應方法(A Domain Adaptation Approach to Semantic Segmentation of LiDAR Point Clouds)。
  • 谷歌NLP新方法:無需翻譯,質量優於無監督翻譯模型
    新智元報導 來源:techxplore編輯:元子【新智元導讀】無需翻譯的無監督複述的新方法理論上來看,翻譯技術可能是自動複述的有效解決方案,因為翻譯技術是從語言實現中抽象出語義內容。例如,將相同的句子分配給不同的翻譯者,最終翻譯出來的內容通常是有差別的,這樣就得到一個豐富的解釋集,在複述任務中可能會非常有用。儘管許多研究人員已經開發出基於翻譯的自動複述方法,但顯然人類並不需要翻譯才能解釋句子。