Hinton老爺子CapsNet再升級,結合無監督,接近當前最佳效果

2021-01-10 機器之心Pro

選自arXiv

作者:Adam R. Kosiorek、Sara Sabour、Yee Whye Teh、Geoffrey E. Hinton

機器之心編譯

參與:一鳴、shooting

2017 年,Geoffrey Hinton 在論文《Dynamic Routing Between Capsules》中提出CapsNet引起了極大的關注,同時也提供了一個全新的研究的方向。今日,CapsNet 的作者 Sara Sabour、Hinton 老爺子聯合牛津大學的研究者提出了膠囊網絡的改進版本——堆棧式膠囊自編碼器。這種膠囊自編碼器可以無監督地學習圖像中的特徵,並在無監督分類任務取得最佳或接近最佳的表現。這也是膠囊網絡第一次在無監督領域取得新的突破。

一個目標可以被看做是一組相互關聯的部件按照幾何學形式組合的結果。利用這種幾何關係去重建目標的系統應當對視點的變化具有魯棒性,因為其本質的幾何關係不應隨著觀察視角的變化而發生改變。

本文中,研究人員描述了一種無監督的膠囊網絡。其中,觀察組成目標所有部件的神經編碼器被用來推斷目標膠囊的存在和姿態。編碼器通過解碼器的反向傳播方法訓練。

訓練中,解碼器使用姿態預測來預測每個已發現部件的姿態。這些部件是直接從圖像中被發現的,同樣也是使用神經編碼器,該編碼器推斷這些部件及它們的仿射變換。

而對應的解碼器將每個圖像像素建模為由仿射變換部件做出的預測混合。研究人員從目標和目標部件的膠囊中學習無標籤數據,然後將這些目標膠囊的存在向量進行聚類。

得知這些聚類的名稱時,研究人員在 SVHN 和 MNIST 數據集上獲得了當前最佳的無監督分類結果,準確率分別為 55% 和 98.5%。

論文:Stacked Capsule Autoencoders

論文地址:https://arxiv.org/abs/1906.06818

本文提出了堆棧式膠囊自編碼器(SCAE),該編碼器包含兩個階段。在第一階段,部件膠囊自編碼器(PCAE)將圖像分割為組成部分,推斷其姿態,並將每個圖像像素重建為變換組件模板的像素混合。

在第二階段,目標膠囊自編碼器(OCAE)嘗試將發現的部件及其姿態安排在一個更小的目標集合中。這個目標集合對每個部件進行預測,從而解釋每個部件的姿態。通過將它們的姿態——目標-觀察者關係(OV)和相關的目標-部件關係(OP)相乘,每個目標膠囊都會貢獻這些混合的一部分。

堆棧式膠囊自編碼器的工作原理

堆棧式膠囊自編碼器在使用未標註數據訓練時捕捉所有目標和它們部件之間的空間關係。目標膠囊存在概率的向量傾向於組成緊密的聚類。

當給每個聚類一個分類時,其可以在無監督分類任務上達到當前最佳效果,如 SVHN 數據集上的 55% 和 MNIST 數據集上的 98.5%。以上結果還可以分別提升到 67% 和 99%,而且只需學習不到 300 個參數。

模型架構

堆棧式膠囊自編碼器的結構

堆棧式膠囊自編碼器的兩個組成部分為:部件膠囊自編碼器(PCAE)和目標膠囊自編碼器(OCAE)。在下文中,論文首先介紹了集群自編碼器(CCAE),通過一系列數學公式說明自編碼器如何分解圖像中的部件的過程,然後由此引出堆棧式膠囊自編碼器的兩個組成部分。

集群自編碼器

圖 2:使用集群自編碼器對不同形狀的點進行聚類的示意圖。

論文首先介紹了集群自編碼器,通過這種結構的數學原理,引出堆棧式膠囊自編碼器的結構。令 {x_m | m = 1, . . . , M } 為一組二維的輸入點,每個點屬於一個集群(見圖2)。首先使用Set Transformer將所有的輸入點(相當於部件膠囊)編碼進k個目標膠囊中,Set Transformer是一種基於注意力機制的、有置換不變性的編碼器h^cap (Lee et al., 2019) 。

一個目標膠囊 k 包括一個膠囊特徵向量 c_k(其存在概率 a_k ∈ [0, 1])和一個 3 × 3 的目標-觀察者(OV)關係矩陣。關係矩陣代表著目標(集群)和觀察者之間關係的仿射變換。

需要注意的是,每個目標膠囊每次只能代表一個目標。每個目標膠囊都使用一個獨立的多層感知機 h_k^part 從膠囊特徵向量 c_k 中預測 N ≤ M 個候選部件。

每個候選由條件概率 a_k,n ∈ [0, 1] (當其存在),一個關聯標量的標準差λ_k,n,以及一個 3 × 3 的目標-部件(OP)關係矩陣組成。這些代表著目標膠囊和候選部件的仿射變換。

候選預測 μ_k,n 根據目標膠囊 OV 和候選 OP 矩陣相乘得來。然後,研究人員將每個輸入部件建模為高斯混合模型,其中μ_k,n 和 λ_k,n 是各向同性組件的中心和標準差。其標準公式如下:

集群膠囊編碼器的公式。論文通過舉出集群膠囊編碼器的例子,用於說明目標膠囊編碼器和它的區別。

部件膠囊自編碼器

如果要將圖像分解為組成部件的集合關係,就需要首先推斷圖像是由哪些部件組成的,同時也需要了解觀察者和這些部件之間的關係(稱之為他們的姿態)。

在本研究中,每個部件膠囊都有六個維度的自由姿態,一個存在變量,和一個獨特的特徵。研究人員把部件發現問題視為自編碼:編碼器學習去推斷不同部件膠囊的姿態和存在,而解碼器學習每個部件的圖像模板。

模板對應的部件是使用其姿態的仿射變換,而這些變換過的模板的像素點被用來為每個圖像像素創建單獨的混合模型。在部件膠囊自編碼器後是目標膠囊自編碼器。

令 y ∈ [0, 1]^h×w×c 為圖像。研究人員將部件膠囊的數量限定在 M 之內。對於每個部件膠囊,他們使用一個編碼器去推斷姿態 x_m ∈ R^6,存在概率 d_m ∈ [0, 1],以及特殊特徵 z_m ∈ R^c_z。

雖然後者不會直接參與圖像重建,但是會將對應部件的特殊信息提供給目標膠囊自編碼器。他們會通過目標膠囊自編碼器使用反向傳播微分的方式訓練。

當前條件下,不允許圖像中同一種類型的部件多次出現,從而導致部件膠囊不會在空間中被複製(儘管它們可能會)。然而,確實需要分辨出所有出現在圖像中的部件,因此編碼器會採用帶有從下到上(bottom-up)注意力機制的卷積神經網絡。

對於每個膠囊 k,其預測一個特徵矩陣 e^k,特徵矩陣是 6(姿態)+1(存在)+c_z(特殊特徵)的膠囊參數,其空間維度是 h_e × w_e,以及一個單通道注意力層 a_k。

最終,該膠囊的參數計算公式是

。softmax 是對空間維度上的計算。這種計算有點類似於全局平均池化,但是允許一些空間點比其他點對最終結果的權重影響更大。研究人員將其稱為注意力池化(attention-based pooling)。

圖像的像素點被建模為獨立的高斯混合模型。對於每個像素點,研究人員採用其對應的變換模板,並將其視為有著恆定方差的各向同性高斯組件的中心點。其混合概率對部件膠囊的存在概率和在該位置的色值函數

(c 指的是圖像的通道數)都是成比例的。

部件膠囊自編碼器的公式推導過程

目標膠囊自編碼器(OCAE)

下一步是從已經發現的部件中尋找目標。因此,需要使用相連的姿態 x_m,特殊特徵 z_m,以及平滑化的模板 T_m(通過將部件膠囊的特徵進行轉化)。這些將會成為目標膠囊自編碼器的輸入,這裡和集群自編碼器有一些不同。

首先,研究人員將部件膠囊的存在概率 d_m 輸入目標膠囊自編碼器——由於平衡注意力機制,避免將缺失點考慮在內。

其次,d_m 同時用于衡量部件膠囊的對數似然 cf。另外,除了特殊特徵外,不對其他目標膠囊自編碼器的輸入計算梯度,以便提升訓練的穩定性,並避免隱變量崩潰。

最後,通過部件膠囊自編碼器發現的部件有著獨立的特徵(模板和特殊特徵)。因此,每個部件姿態都可以被解釋為是目標膠囊預測的獨立混合——即每個目標膠囊都做出 M 個候選預測 V_k,1:M,或者對每個部件做出一個候選預測。

最終,部件膠囊的似然公式是:

圖 3:從MNIST(左)和SVHN(中)和CIFAR 10(右)學習到的模板。

圖 4:展示了膠囊自編碼器對MNIST數據集的重建過程。a)MNIST圖像;b)紅色的部件膠囊和綠色的目標膠囊在重建中的組合;c)實際參與重建的被激活膠囊;d)根據圖像捕捉到的信息;e)部件的仿射變換,用於展示其重建圖像的過程。

模型性能評估

堆棧式膠囊自編碼器使用仿射變換,這樣可以使編碼器的輸入由一組較小的變換目標或部件解釋。

無監督分類評價

研究人員在 MNIST、SVHN 和 CIFAR 10 數據集上進行了測試,並將目標膠囊的存在打上類別標籤。他們使用了多種評價方法。

在部件膠囊編碼器上,研究人員在 MNIST 數據集上使用了 24 個單通道,11 × 11 的模板,在 SVHN 和 CIFAR 10 上則分別使用了 32 個 3 通道,14 × 14 的模板。

對於後兩個數據集的圖像,研究人員進行了 Sobel 過濾,作為重建的目標。對於目標膠囊編碼器,研究則分別使用了 24、32 和 64 個目標膠囊。

表 1:運行五次後取平均的無監督分類結果和標準差。

相關焦點

  • 萬眾期待:Hinton團隊開源CapsNet源碼
    此前,Hinton一再強調,當前的反向傳播和CNN網絡存在很大的局限性,表明AI的下一代研究方向是「無監督學習」。因此,CapsNet應運而生,雖然傳統神經網絡很大程度上是在Hinton的理論基礎上創建的,但Hinton卻絲毫沒有手下留情,聲稱要把反向傳播等深度學習方法推倒重來。
  • 73歲Hinton老爺子構思下一代神經網絡:屬於無監督對比學習
    Hinton 在此次報告中回顧了神經網絡的發展歷程,並表示下一代神經網絡將屬於無監督對比學習。Hinton 的報告主要內容如下:人工神經網絡最重要的待解難題是:如何像大腦一樣高效執行無監督學習。目前,無監督學習主要有兩類方法。第一類的典型代表是 BERT 和變分自編碼器(VAE),它們使用深度神經網絡重建輸入。
  • 當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多任務學習
    當前主要的研究趨勢是追求一種通用的嵌入技術:在大型語料庫中預訓練的嵌入,它能夠被添加到各種各樣下遊的任務模型中(情感分析、分類、翻譯等),從而通過引入一些從大型數據集中學習到的通用單詞或句子的表徵來自動地提升它們的性能。它是遷移學習的一種體現形式。儘管在相當長的一段時間內,對句子的無監督表示學習已經成為了一種行業規範。
  • GAN用於無監督表徵學習,效果依然驚人……
    該論文提出的方法建立在 SOTA 模型 BigGAN 之上,通過對其表徵學習和生成能力進行廣泛評估,證明這些基於生成的模型在 ImageNet 數據集的無監督表徵學習和無條件圖像生成方面均實現了 SOTA 效果。
  • SIGIR2020|圖靈獎得主Hinton:無監督對比學習將是神經網絡的未來
    人工神經網絡一直懸而未決的問題是如何像大腦一樣有效地進行無監督學習。 當前有兩種主要的無監督學習方法。 第一種方法,以BERT和變分自編碼為代表,使用深度神經網絡來重建其輸入。人類大腦有10^14個神經元連接,而人的一生只有10^9秒,因此人類僅靠監督學習是無法完成所有神經元訓練的,我們的深度學習模型也是如此,只用監督學習無法取得更新的進展,要將無監督學習融入進來。
  • 「反向傳播非你原創」,Jürgen發文直指Hinton不應獲2019本田獎
    理由 2:Hinton 的無監督預訓練並沒有促成當前的深度學習革命本田獎在公告中表示:Hinton 在 2002 年發明了一種用於有限玻爾茲曼機的快速學習算法,使得它們無需任何標註數據即可學習到單層分布式表徵。這些方法使深度學習有了更好的性能表現,並促成了當前的深度學習革命。
  • MaskFlownet:基於可學習遮擋掩模的非對稱特徵匹配丨CVPR 2020
    原始圖像與目標圖像首先通過同一個特徵提取器得到不同層級的特徵圖,為了找到原始特徵圖與目標特徵圖之間的對應關係,特徵形變將目標特徵圖通過當前預測的流場形變到與原始特徵圖相似的位置,再通過互相關層得到局部區域內兩兩像素之間的相關程度。然而,形變後的特徵圖同樣在遮擋區域留下了歧義與無效信息,會干擾特徵匹配的結果,這也是光流問題中尚未解決的主要問題之一。
  • 魔道Q:藍家竟無一個雅正弟子,藍老爺子氣吐血,廣場舞效果不錯
    這天,藍老爺子看著正在練劍的思追,很是自豪,真不愧是他姑蘇藍氏的子弟,就算是練劍,也能如此端方雅正,然而這這句話剛一落地,魏嬰的聲音就響了起來,聽他話裡的意思,是想讓思追幫著一起抓逃走的山雞,聽到這喊聲,藍老爺子是嗤之以鼻的,他可不認為思追會做出這種舉動,但令他沒想到的是,思追不僅做了,而且在抓山雞這一方面,還極為有天賦。
  • 自監督、半監督和有監督全涵蓋,四篇論文遍歷對比學習的研究進展
    自監督學習意思是使用非人工標記數據進行學習。在機器學習中,比較著名的自監督方法就是自然語言處理中的 。由此可見,與無監督學習不同,自監督中仍然存在標記,只不過,這些標記不是人類參與生成的,而是從輸入數據中生成的,通常可以使用啟發式算法生成標記。
  • Can we stop the polar ice caps from melting?
    Whether or not humankind can keep the polar ice caps from melting is a subject of great debate in which both side
  • LSTM之父炮轟Hinton:「本田獎」不該授予他,頒獎詞有六大謬誤
    細數本田獎「六宗罪」Schmidhuber在這篇長文中指出,AI中的一些重要技術,比如反向傳播、無監督算法、Dropout等等都並非Hinton的首創。本田獎的頒獎詞言過其實,把其他人的研究成果算在了Hinton頭上,存在著六處嚴重錯誤。
  • 圖靈獎得主辛頓談無監督學習問題根源:忽略數據間關聯捕捉
    他在報告中回顧了無監督神經網絡的發展歷史,結合表達學習模型的進化歷程,指出當前無監督學習方法所面臨問題的根源在於:過度關注數據的重構損失(Reconstructive Loss),忽略了對數據間關聯關係的捕捉。基於此,他提出了下一代神經網絡模型的構想,提出利用對比損失函數(Contrastive Loss)建模樣本間的局部關係、增強數據間表達的一致性的解決思路。
  • CVPR 2020 Oral |神奇的自監督場景去遮擋
    在本文中,來自香港中文大學、商湯、南洋理工大學的研究者提出了一種自監督的場景去遮擋方法,旨在恢復潛在的遮擋順序並補全被遮擋對象的不可見部分,其效果可媲美全監督的方法。目前,該論文已被 CVPR 2020 接收為 Oral 論文。
  • 《輻射3(Fallout 3)》美版1.1.035升級補丁
    友好或中立的NPC血條在受到傷害時不會再重複的閃爍Fixed issue where certain NPCs would occasionally disappear from the game.如果玩家全部技能(S.K.I.L.L)滿級,將不會再在升級界面卡住(一般來說適用於控制臺黨,可能翻譯有誤)Fixed issue where multiple followers would occasionally not load into an interior.
  • Double DIP——一種無監督層圖像分割 AI 技術
    今年三月份,他們選擇了由 Yossi Gandelsman,Assaf Shocher 和 Michal Irani 三位學者(下文中所提到的作者,均指以上三位學者)共同完成的關於 Double-DIP 模型的論文,其中詳細介紹了基於耦合的深度圖像先驗網絡對單個圖像進行無監督層分割這一技術。概況許多看似無關的計算機視覺任務可以被視為圖像分割為不同的層的特殊情況。
  • Double DIP ——一種無監督層圖像分割 AI 技術
    今年三月份,他們選擇了由 Yossi Gandelsman,Assaf Shocher 和 Michal Irani 三位學者(下文中所提到的作者,均指以上三位學者)共同完成的關於 Double-DIP 模型的論文,其中詳細介紹了基於耦合的深度圖像先驗網絡對單個圖像進行無監督層分割這一技術。
  • 入門| 從線性回歸到無監督學習,數據科學家需要掌握的十大統計技術
    最佳子集的選擇:我們可以為 p 個預測因子的每個組合擬合單獨的 OLS 回歸,然後再考察各模型擬合的情況。該算法分為兩個階段:(1)擬合包含 k 個預測因子的所有模型,其中 k 為模型的最大長度;(2)使用交叉驗證預測損失選擇單個模型。
  • 記憶力最好的三個時間段,家長監督孩子好好學習,效果事半功倍
    上個星期開始,老公縱著孩子放學推遲一個小時再寫作業,20:00再開始寫,結果孩子還是21:00寫完。昨天,我問女兒原因,女兒說自己也不知道怎麼回事,她好像20:00寫作業狀態最好,如有神助。根據我多年混跡育兒領域的經驗,覺得孩子只有在某一個時間段學習效率才提高,應該和記憶力的黃金時間段有關。
  • 港中文MMLab自步對比學習:充分挖掘無監督學習樣本
    實驗結果充分證明其廣泛的應用場景及有效性:可被應用於解決無監督學習任務,也可被應用於利用額外無監督數據提升有監督學習的任務。這裡著重區分一下目前很受關注的無監督預訓練 (Unsupervised Pre-training) 任務,存在兩點主要區別:1) 無監督預訓練任務從網絡隨機初始化開始,無監督重識別任務從預訓練好的網絡開始;2) 無監督預訓練的網絡需要經過fine-tune才可以應用在下遊任務上,而無監督重識別任務本身可以看作一個無監督的下遊任務,經過訓練的網絡可直接部署。
  • Geoffrey Hinton SIGIR 2020開幕演講:神經網絡新時代
    報告中,Hinton教授指出:人類大腦有10^14個神經元連接,而生命的長度只有10^9秒,因此人類是無法完全依賴有監督學習的方法完成所有神經元訓練,而需要更多來自於無監督學習的幫助,受此啟發,構建智能的機器模型也應綜合考慮監督與無監督方法進行協同訓練。