多任務上實現SOTA,UBC、谷歌聯合Hinton等提出3D點雲的無監督膠囊...

2020-12-27 澎湃新聞

機器之心報導

作者:杜偉、小舟

這是一種為 3D 點雲提出的無監督膠囊架構,並且在 3D 點雲重構、配準和無監督分類方面優於 SOTA 方法。

理解對象是計算機視覺的核心問題之一。傳統方法而言,理解對象任務可以依賴於大型帶注釋的數據集,而無監督方法已經消除了對標籤的需求。近來,研究人員試圖將這些方法擴展到 3D 點雲問題上,但無監督 3D 學習領域卻進展寥寥。

近日,包括 Weiwei Sun、Andrea Tagliasacchi、Geoffrey Hinton 等來自英屬哥倫比亞大學、谷歌研究院、多倫多大學的研究者提出了用於 3D 點雲的無監督膠囊網絡。Hinton 對此表示:在不受監督的情況下找到一個對象的自然組件以及這些組件的內在參照系是學習將解析圖像轉換為局部整體層級結構的重要一步。如果以點雲開始,則可以做到。

具體而言,研究者通過排列等變(permutation-equivariant)的注意力計算對象的膠囊分解,並通過訓練成對的隨機旋轉對象來自監督該過程。本研究的核心思想是將注意力掩模聚合為語義關鍵點,並使用它們來監督滿足膠囊不變性或等方差的分解。這不僅可以訓練語義上一致的分解,還能夠學習以對象為中心的推理的規範化操作。在這種情況下,既不需要分類標籤,也不需要手動對齊的訓練數據集進行訓練。

最後,通過以無監督的方式學習以對象為中心的表徵,該方法在 3D 點雲重構、配準和無監督分類方面優於 SOTA 方法。研究者表示將很快公布原始碼和數據集。

論文連結:https://arxiv.org/abs/2012.04718

項目主頁:https://canonical-capsules.github.io/

方法

該網絡在未對齊的點雲上進行訓練,如下圖 2 所示:研究者訓練了一個將點雲分解為多個組件的網絡,並通過 Siamese 訓練設置實現不變性 / 等方差。

然後研究者將點雲規範化為學習的參照系,並在該坐標空間中執行自動編碼。

損失

正如無監督方法中常見的那樣,該研究的框架依賴於大量的損失,這些損失控制著力圖在表徵中獲得的不同特徵。請注意所有這些損失是如何不受監督且不需要標籤的。研究者根據他們監督的網絡部分組織損失,包括分解、規範化和重建。

網絡架構

研究者簡要介紹了實現細節,包括網絡架構。

編碼器 E。我們的架構是基於 [42] 提出一種類似於點網的架構,具有殘差連接和注意力上下文歸一化;

解碼器 D。公式 (4) 中的解碼器基於每個膠囊運行。本研究採用的解碼器架構類似於 AtlasNetV2 [13](帶有可訓練的網格)。不同之處在於本研究通過相應的膠囊姿態轉換每個膠囊的解碼點雲;

回歸器 K。研究者只需連接描述符,並通過 ReLU 激活函數調用一系列全連接層,以回歸 P 膠囊定位。在輸出層,研究者使用線性激活函數,並進一步減去輸出平均值,以使回歸位置在規範化框架中以零為中心(zero-centered);

規範化描述符。由於本研究的描述符只是近似旋轉不變(通過擴展),研究者發現在規範化之後重新提取膠囊描述符β_k 很有用。

實驗及結果

自動編碼

研究者針對兩個訓練基線(在單類別和多類別變體中經過了訓練)評估了用於訓練網絡任務(重建 / 自動編碼)的方法的性能:

AtlasNetV2 [13],一種使用基於補丁(patch-based)多頭解碼器的 SOTA 自動編碼器;

3D-PointCapsNet [58],一種利用膠囊架構的 3D 點雲自動編碼器。

下表 1 是定量分析的結果,本文方法在對齊和未對齊的設置下均取得了 SOTA 的性能結果。

下圖 3 是定性分析的結果。研究者給出了基於分解的 3D 點雲重建方法以及 3D-PointCapsNet [58]、AtlasNetV2 [13]的重建結果。

配準

研究者在配準 3D 點雲的能力方面評估了該方法的性能,並與以下 3 個基準進行了比較:

Deep Closest Points (DCP) [52]:一種基於深度學習的點雲配準方法;

DeepGMR–RRI [56],一種 SOTA 方法,該方法可以將雲分解為具有旋轉不變特徵的高斯混合;

DeepGMR–XYZ [56],其中將原始 XYZ 坐標用作輸入,而不使用旋轉不變特徵;

本研究採用的變體方法 RRI,其中使用 RRI 特徵 [6] 作為該架構的唯一輸入。本文使用 RRI 特徵的方法遵循 DeepGMR 訓練協議,並訓練 100 個周期,而對於 DCP 和 DeepGMR,本研究使用了原作者的官方實現。定量分析的結果如下表 2 所示:

無監督分類

除了重建和配準(這兩者是與訓練損失直接相關的任務)之外,本研究還通過分類任務評估了方法的有效性,該分類任務與訓練損失沒有任何關係。結果如下表 3 所示,本文方法均實現了 SOTA 的 Top-1 準確率。

控制變量實驗

此外,為了進一步分析規範化膠囊(Canonical Capsules)的不同組件對性能的影響,本研究進行了一系列控制變量實驗,結果如下表 4、表 6、表 7 所示:

表 4:損失的影響。

表 6:規範描述符的有效性。

表 7:點的數量對性能的影響。

視覺模型核心難點攻破:小目標檢測技術詳解

「三小時AI開發進階」公開課上線!本周四(12月17日)20:00,百度高級研發工程師可樂老師將在第一課《小目標檢測技術詳解》中介紹:

發展原理:目標檢測任務綜述

技術講解:小目標檢測場景定義、難點分析與相應算法講解

案例分析:貨架擋板與電網巡檢效果優化案例解析

現場實戰:基於EasyDL完成物體檢測模型開發與部署

掃碼進群聽課,還有機會贏取100元京東卡、《智能經濟》實體書、限量百度滑鼠墊多重好獎!

© THE END

轉載請聯繫本公眾號獲得授權

投稿或尋求報導:content@jiqizhixin.com喜歡此內容的人還喜歡

原標題:《多任務上實現SOTA,UBC、谷歌聯合Hinton等提出3D點雲的無監督膠囊網絡》

閱讀原文

相關焦點

  • 多任務實現SOTA,UBC、谷歌等提出3D點雲的無監督膠囊網絡
    機器之心報導作者:杜偉、小舟這是一種為 3D 點雲提出的無監督膠囊架構,並且在 3D 點雲重構、配準和無監督分類方面優於 SOTA 方法。理解對象是計算機視覺的核心問題之一。傳統方法而言,理解對象任務可以依賴於大型帶注釋的數據集,而無監督方法已經消除了對標籤的需求。近來,研究人員試圖將這些方法擴展到 3D 點雲問題上,但無監督 3D 學習領域卻進展寥寥。
  • CVPR2020曠視提出PVN3D:針對6D位姿估計的3D關鍵點投票網絡
    本文發現,聯合訓練這些任務可以讓網絡學出更好的表徵從而提升網絡在每一個任務上的性能。具體來說,語義分割通過確認一個點屬於物品的哪一部分從而幫助判斷該點到關鍵點的平移偏移;另一方面,平移偏移量包含的物品的尺度信息有助於模型區分外表相似但大小不同的物體。我們在YCB和LineMOD數據集上驗證方法的可行性,達到了sota效果。
  • 當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多任務學習
    儘管在相當長的一段時間內,對句子的無監督表示學習已經成為了一種行業規範。但在最近的幾個月裡,人們開始逐漸轉向監督學習和多任務學習,並且在 2017 年底/2018 年初提出了一些非常有趣的方案。近期的通用詞/句嵌入的趨勢:在本文中,作者將介紹上圖中用黑體表示的模型。
  • Hinton構思下一代神經網絡:屬於無監督對比學習
    此外,他還介紹了實現大腦皮層感知學習的簡單途徑。接下來,我們來看 Hinton 演講的具體內容。為什麼我們需要無監督學習?在預測神經網絡的未來發展之前,Hinton 首先回顧了神經網絡的發展進程。演講一開始,Hinton 先介紹了三種學習任務:監督學習、強化學習和無監督學習,並重點介紹了無監督學習的必要性。為什麼我們需要無監督學習呢?Hinton 從生物學的角度做出了詮釋。
  • PointConv:基於3D點雲的深度卷積網絡
    原生的PointConv實現中輸出特徵的通道非常大,內存消耗多,效率低,因此模型訓練困難。所以為了降低PointConv的內存開銷,我們引入了一種改變總和順序(summation order)的方法,可以極大的提升內存效率。新的結構可以用於在3D點雲上搭建多層深度卷積網絡,能達到在圖像2D卷積類似的效果。
  • 深度 | 當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多任務學習
    但在最近的幾個月裡,人們開始逐漸轉向監督學習和多任務學習,並且在 2017 年底/2018 年初提出了一些非常有趣的方案。近期的通用詞/句嵌入的趨勢:在本文中,作者將介紹上圖中用黑體表示的模型。因此,本文是一篇對於當今最先進的通用詞/句嵌入技術的簡介,詳細討論了以下模型:讓我們從詞嵌入開始娓娓道來。
  • 73歲Hinton老爺子構思下一代神經網絡:屬於無監督對比學習
    演講一開始,Hinton 先介紹了三種學習任務:監督學習、強化學習和無監督學習,並重點介紹了無監督學習的必要性。為什麼我們需要無監督學習呢?Hinton 從生物學的角度做出了詮釋。Hinton 為我們介紹了無監督學習中的常見目標函數。緊接著,Hinton 詳細介紹了自編碼器。Hinton 表示,自編碼器是一種利用監督學習實現無監督學習的方式,其目標是使最後的重建結果與數據相匹配。編碼器將數據向量轉換為代碼,解碼器基於代碼生成數據。
  • 新出爐的最佳論文:CVPR 2020線上分享,一作帶你玩轉無監督3D圖像重構
    新出爐的最佳論文:CVPR 2020線上分享,一作帶你玩轉無監督3D圖像重構 2020-06-29 17:08 來源:澎湃新聞·澎湃號·湃客
  • Open3D中文教程-彩色點雲的配準
    它實現了 [[Park2017]] (http://www.open3d.org/docs/release/tutorial/reference.html#park2017) 裡的算法。顏色信息的對齊是沿切線平面的。與已有的點雲配準算法相比,該算法具有更高的精度和魯棒性,同時運行速度與ICP配準算法相當。本教程使用 Open3D中文教程-點雲ICP配準中的符號。
  • 谷歌大腦聯手Hinton提出SimCLR新框架,瘋狂提升自監督學習性能 | 北郵畢業生一作
    SimCLR首先學習未標記數據集上圖像的一般表示,然後可以使用少量標記圖像對其進行微調,以實現給定分類任務的良好性能。通過採用一種稱為對比學習的方法,可以通過同時最大化同一圖像的不同變換視圖之間的一致性以及最小化不同圖像的變換視圖之間的一致性來學習通用表示。
  • 谷歌提出「T5」 新NLP模型,多基準測試達SOTA
    而遷移學習之所以如此有效,得益於其利用自監督任務(如語言建模或填充缺失詞)在大量可用的無標註的文本數據上對模型進行預訓練;接著,又在更小的標註數據集上對模型進行微調,從而讓模型實現比單單在標註數據上訓練更好得多的性能。
  • 谷歌已經開始玩轉 3D 了
    為了解決這一問題,谷歌使用移動增強現實會話數據開發了一個新的數據管道。隨著ARCore 、ARKit等工具的出現,數億部智慧型手機現在具備了AR 功能,能夠在 AR會話期間捕捉到額外的信息,包括攝像機姿勢、稀疏的3D點雲、估計的照明和平面。為了標註真實數據,谷歌還開發了能夠與AR會話數據一同使用的新標註工具,讓標註者可以快速地給物體標註 3D 邊框。
  • 官方解讀,谷歌「T5」模型,如何突破遷移學習局限,實現多基準測試SOTA
    而遷移學習之所以如此有效,得益於其利用自監督任務(如語言建模或填充缺失詞)在大量可用的無標註的文本數據上對模型進行預訓練;接著,又在更小的標註數據集上對模型進行微調,從而讓模型實現比單單在標註數據上訓練更好得多的性能。
  • ICML 2019最佳論文:谷歌質疑現有無監督分離式表徵學習
    谷歌大腦、MaxPlanck和蘇黎世聯邦理工學院合作的《挑戰無監督分離式表徵的常見假設》,以及劍橋大學的一篇《稀疏變分高斯過程回歸的收斂速率》作為最佳論文摘得桂冠。另外,還有七篇論文獲得提名獎。今年的論文錄取競爭異常激烈,ICML 2019共提交了3424篇論文,其中錄取774篇,論文錄取率為22.6%。
  • Hinton向AAAI提交論文竟收到最差評價!深度學習三教父再押寶
    在這項研究中,Hinton等人提出一個無監督版本的膠囊網絡,通過可查看所有部件的神經編碼器,進而推斷物體膠囊的位置與姿勢。該編碼器通過解碼器進行反向傳播訓練,通過混合式姿勢預測方案來預測已發現部件的姿勢。同樣是使用神經編碼器,通過推斷部件及其仿射變換,可以直接從圖像中發現具體的部件。
  • 谷歌用MediaPipe實現手機高效實時3D對象檢測
    為了克服這個問題,谷歌團隊利用移動增強現實會話數據開發了一種全新的數據管道。隨著ARCore和ARKit的到來,數億智慧型手機現在已經具有AR功能,並且能夠在AR會話中捕獲更多信息,包括camera姿態,稀疏3D點雲,估計照明和平面。
  • 谷歌NLP新方法:無需翻譯,質量優於無監督翻譯模型
    :允許從輸入句子生成多樣化、但語義上接近的句子。理論上來看,翻譯技術可能是自動複述的有效解決方案,因為翻譯技術是從語言實現中抽象出語義內容。例如,將相同的句子分配給不同的翻譯者,最終翻譯出來的內容通常是有差別的,這樣就得到一個豐富的解釋集,在複述任務中可能會非常有用。儘管許多研究人員已經開發出基於翻譯的自動複述方法,但顯然人類並不需要翻譯才能解釋句子。
  • 基於深度學習的三維點雲綜述part2-3D物體檢測與跟蹤
    該文章提出了一種用於端到端訓練的多任務,多傳感器的三維物體檢測網絡。其中包含的任務有,2D物體檢測,地面估計,深度完善。這些多種任務使得網絡可以更好地學習特徵表示,交叉模態的特徵表示可以被進一步使用去生成更精確的物體檢測結果。結果在2D,3D,BEV檢測中的性能上。比之前的方法性能都要好。
  • Hinton組新型無監督方法引熱議;迄今最大規模新冠臨床研究
    機器之心&ArXiv Weekly Radiostation參與:杜偉,楚航,羅若天本周的重要論文包括 AAAI 2020 最佳論文、最佳學生論文以及Hinton組提出的新型無監督方法SimCLR。
  • 深度學習教父Geoffrey Hinton的「膠囊」論文公開,帶你讀懂它
    為了避免網絡結構的雜亂無章,Hinton提出把關注同一個類別或者同一個屬性的神經元打包集合在一起,好像膠囊一樣。在神經網絡工作時,這些膠囊間的通路形成稀疏激活的樹狀結構(整個樹中只有部分路徑上的膠囊被激活),從而形成了他的Capsule理論。