73歲Hinton老爺子構思下一代神經網絡:屬於無監督對比學習

2021-01-10 機器之心Pro

機器之心報導

編輯:魔王、杜偉

在近期舉行的第 43 屆國際信息檢索年會 (ACM SIGIR2020) 上,Geoffrey Hinton 做了主題為《The Next Generation of Neural Networks》的報告。

Geoffrey Hinton 是谷歌副總裁、工程研究員,也是 Vector Institute 的首席科學顧問、多倫多大學 Emeritus 榮譽教授。2018 年,他與 Yoshua Bengio、Yann LeCun 因對深度學習領域做出的巨大貢獻而共同獲得圖靈獎。

自 20 世紀 80 年代開始,Geoffrey Hinton 就開始提倡使用機器學習方法進行人工智慧研究,他希望通過人腦運作方式探索機器學習系統。受人腦的啟發,他和其他研究者提出了「人工神經網絡」(artificial neural network),為機器學習研究奠定了基石。

那麼,30 多年過去,神經網絡的未來發展方向在哪裡呢?

Hinton 在此次報告中回顧了神經網絡的發展歷程,並表示下一代神經網絡將屬於無監督對比學習。

Hinton 的報告主要內容如下:

人工神經網絡最重要的待解難題是:如何像大腦一樣高效執行無監督學習。

目前,無監督學習主要有兩類方法。

第一類的典型代表是 BERT 和變分自編碼器(VAE),它們使用深度神經網絡重建輸入。但這類方法無法很好地處理圖像問題,因為網絡最深層需要編碼圖像的細節。

另一類方法由 Becker 和 Hinton 於 1992 年提出,即對一個深度神經網絡訓練兩個副本,這樣在二者的輸入是同一圖像的兩個不同剪裁版本時,它們可以生成具備高度互信息的輸出向量。這類方法的設計初衷是,使表徵脫離輸入的不相關細節。

Becker 和 Hinton 使用的優化互信息方法存在一定缺陷,因此後來 Pacannaro 和 Hinton 用一個判別式目標替換了它,在該目標中一個向量表徵必須在多個向量表徵中選擇對應的一個。

隨著硬體的加速,近期表徵對比學習變得流行,並被證明非常高效,但它仍然存在一個主要缺陷:要想學習具備 N bits 互信息的表徵向量對,我們需要對比正確的對應向量和 2 N 個不正確的向量。

在演講中,Hinton 介紹了一種處理該問題的新型高效方式。此外,他還介紹了實現大腦皮層感知學習的簡單途徑。

接下來,我們來看 Hinton 演講的具體內容。

為什麼我們需要無監督學習?

在預測神經網絡的未來發展之前,Hinton 首先回顧了神經網絡的發展進程。

演講一開始,Hinton 先介紹了三種學習任務:監督學習、強化學習和無監督學習,並重點介紹了無監督學習的必要性。

為什麼我們需要無監督學習呢?

Hinton 從生物學的角度做出了詮釋。他指出,人類大腦有 10^14 個神經元突觸,而生命的長度僅有 10^9 秒,因此人類無法完全依賴監督學習方式完成所有神經元訓練,因而需要無監督學習的輔助。

受此啟發,構建智能模型也需要無監督學習。

無監督學習的發展歷程

無監督學習經過怎樣的發展呢?Hinton 為我們介紹了無監督學習中的常見目標函數。

緊接著,Hinton 詳細介紹了自編碼器。

Hinton 表示,自編碼器是一種利用監督學習實現無監督學習的方式,其目標是使最後的重建結果與數據相匹配。編碼器將數據向量轉換為代碼,解碼器基於代碼生成數據。

在高屋建瓴地介紹了自編碼器的定義、訓練深度自編碼器之前的難點和現狀之後,Hinton 著重介紹了兩種自編碼器類型:變分自編碼器和 BERT 自編碼器。

使用深度神經網絡重建輸入:VAE 和 BERT

BERT 和變分自編碼器(VAE)是無監督學習的一類典型代表,它們使用深度神經網絡重建輸入。

變分自編碼器由韋靈思和 Kingma 於 2013 年提出,它使用多層編碼器選擇實數代碼,然後用多層解碼器重建數據。VAE 的基本構造如下圖所示:

BERT

是 2018 年穀歌提出的語言表徵模型,基於所有層的左、右語境來預訓練深度雙向表徵。

語境信息對 BERT 非常重要,它利用遮蔽語言模型(masked language model,MLM)允許表徵融合左右兩側的語境,從而預訓練深度雙向 Transformer。

Hinton 舉了一個例子:「She scromed him with the frying pan」。在這個句子中,即使你不知道 scromed 的意思,也可以根據上下文語境進行推斷。

視覺領域也是如此。然而,BERT 這類方法無法很好地應用到視覺領域,因為網絡最深層需要編碼圖像的細節。

在探討了以 VAE 和 BERT 為代表的一類無監督學習方法後,Hinton 為我們介紹了另一類無監督學習方法。

Becker 和 Hinton 提出最大化互信息方法

那麼自編碼器和生成模型有沒有什麼替代方案呢?Hinton 表示,我們可以嘗試不再解釋感官輸入(sensory input)的每個細節,而專注於提取空間或時序一致性的特徵。與自編碼器不同,這種方法的好處在於可以忽略噪聲。

然後,Hinton 詳細介紹了他與 Suzanna Becker 在 1992 年提出的一種提取空間一致性特徵的方法。該方法的核心理念是對輸入的兩個非重疊塊(non-overlapping patch)表示之間的顯式互信息進行最大化處理。Hinton 給出了提取空間一致性變量的簡單示例,如下圖所示:

經過訓練,Hinton 指出唯一的空間一致性特徵是「不一致性」(The Only Spatially Coherent Property is Disparity),所以這也是必須要提取出來的。

他表示這種最大化互信息的方法存在一個棘手的問題,並做出以下假設,即如果只學習線性映射,並且對線性函數進行優化,則變量將成為分布式的。不過,這種假設並不會導致太多問題。

以往研究方法回顧

在這部分中,Hinton 先後介紹了 LLE、LRE、SNE、t-SNE 等方法。

局部線性嵌入方法(Locally Linear Embedding, LLE)

Hinton 介紹了 Sam T. Roweis 和 Lawrence K. Saul 在 2000 年 Science 論文《Nonlinear Dimensionality Reduction by Locally Linear Embedding》中提到的局部線性嵌入方法,該方法可以在二維圖中顯示高維數據點,並且使得非常相似的數據點彼此挨得很近。

但需要注意的是,LLE 方法會導致數據點重疊交融(curdling)和維度崩潰(dimension collapse)問題。

下圖為 MNIST 數據集中數字的局部線性嵌入圖,其中每種顏色代表不同的數字:

此外,這種長字符串大多是一維的,並且彼此之間呈現正交。

從線性關係嵌入(LRE)到隨機鄰域嵌入(SNE)

在這部分中,Hinton 介紹了從線性關係嵌入(Linear Relational Embedding, LRE)到隨機鄰域嵌入(Stochastic Neighbor Embedding, SNE)方法的轉變。他表示,只有「similar-to」關係存在時,LRE 才轉變成 SNE。

同時,Hinton 指出,可以將 LRE 目標函數用於降維(dimensionality reduction)。

下圖為 SNE 的示意圖,其中高維空間的每個點都有選擇其他點作為其鄰域的條件概率,並且鄰域分布基於高維成對距離(pairwise distance)。

從隨機鄰域嵌入(SNE)到 t 分布隨機鄰域嵌入(t-SNE)

t 分布隨機鄰域嵌入(t-distributed stochastic neighbor embedding, t-SNE)是 SNE 的一種變體,原理是利用一個 student-distribution 來表示低維空間的概率分布。

Hinton 在下圖中展示了 MNIST 數據集中數字的 t-SNE 嵌入圖,每種顏色代表不同的數字:

在介紹完這些方法之後,Hinton 提出了兩個問題:1)方差約束在優化非線性或非參數映射時為何表現糟糕?2)典型相關分析或線性判別分析的非線性版本為何不奏效?並做出了解答。

最後,Hinton 提出使用對比損失(contrastive loss)來提取空間或時間一致性的向量表示,並介紹了他與 Ruslan Salakhutdinov 在 2004 年嘗試使用對比損失的探索,以及 Oord、Li 和 Vinyals 在 2018 年使用對比損失復現這種想法,並用它發現時間一致性的表示。

Hinton 表示,當前無監督學習中使用對比損失一種非常流行的方法。

無監督對比學習的最新實現 SimCLR

在演講最後,Hinton 重點介紹了其團隊使用對比損失提取一致性表示的最新實現 SimCLR,這是一種用於視覺表示的對比學習簡單框架,它不僅優於此前的所有工作,也優於最新的對比自監督學習算法。

下圖為 SimCLR 的工作原理圖:

那麼 SimCLR 在 ImageNet 上的 Top-1 準確率表現如何呢?下圖展示了 SimCLR 與此前各類自監督方法在 ImageNet 上的 Top-1 準確率對比(以 ImageNet 進行預訓練),以及 ResNet-50 的有監督學習效果。

Hinton 表示,經過 ImageNet 上 1% 圖片標籤的微調,SimCLR 可以達到 85.8%的 Top-5 準確率——在只用 AlexNet 1% 標籤的情況下性能超越後者。

相關焦點

  • SIGIR2020|圖靈獎得主Hinton:無監督對比學習將是神經網絡的未來
    【新智元導讀】7月27日上午,第43屆國際信息檢索大會(SIGIR 2020)線上開啟,圖靈獎得主Geoffrey Hinton作了主題演講,今天我們就跟隨Hinton一起走進「神經網絡的新時代」。人工神經網絡一直懸而未決的問題是如何像大腦一樣有效地進行無監督學習。
  • Hinton老爺子CapsNet再升級,結合無監督,接近當前最佳效果
    今日,CapsNet 的作者 Sara Sabour、Hinton 老爺子聯合牛津大學的研究者提出了膠囊網絡的改進版本——堆棧式膠囊自編碼器。這種膠囊自編碼器可以無監督地學習圖像中的特徵,並在無監督分類任務取得最佳或接近最佳的表現。這也是膠囊網絡第一次在無監督領域取得新的突破。一個目標可以被看做是一組相互關聯的部件按照幾何學形式組合的結果。
  • 自監督、半監督和有監督全涵蓋,四篇論文遍歷對比學習的研究進展
    自監督學習意思是使用非人工標記數據進行學習。在機器學習中,比較著名的自監督方法就是自然語言處理中的 。由此可見,與無監督學習不同,自監督中仍然存在標記,只不過,這些標記不是人類參與生成的,而是從輸入數據中生成的,通常可以使用啟發式算法生成標記。
  • 用於半監督學習的圖隨機神經網絡
    原標題:用於半監督學習的圖隨機神經網絡   導讀:在 NeurIPS 2020 上,清華大學聯合微眾銀行
  • 港中文MMLab自步對比學習:充分挖掘無監督學習樣本
    該工作提出自步對比學習框架及混合記憶模型,旨在解決無監督及領域自適應表徵學習中數據無法被充分挖掘的問題。這項工作在無監督的目標重識別任務上顯著地超越最先進技術高達16.7%;領域自適應的目標重識別任務中,在無監督的目標域上超越最先進技術高達5.0%,同時可以提升有監督的源域性能高達6.6%。
  • 當前最好的詞句嵌入技術概覽:從無監督學習轉向監督、多任務學習
    詞語和句子的嵌入已經成為了任何基於深度學習的自然語言處理系統必備的組成部分。它們將詞語和句子編碼成稠密的定長向量,從而大大地提升通過神經網絡處理文本數據的能力。目前最常用的模型是 word2vec 和 GloVe,它們都是基於分布假設(在相同的上下文中出現的單詞往往具有相似的含義)的無監督學習方法。
  • Geoffrey Hinton SIGIR 2020開幕演講:神經網絡新時代
    7月27日上午,在智源社區全程直播的第43屆國際信息檢索大會(SIGIR 2020)開幕式上,圖靈獎獲得者Geoffrey Hinton教授作為首位主題演講者進行了題為「神經網絡的新時代(The Next Generation of Neural Networks)」的主題報告。
  • NeurIPS 2020|用於半監督學習的圖隨機神經網絡
    導讀:在 NeurIPS 2020 上,清華大學聯合微眾銀行、微軟研究院以及博世人工智慧中心提出了 Graph Random Neural Network (GRAND),一種用於圖半監督學習的新型圖神經網絡框架。
  • 「反向傳播非你原創」,Jürgen發文直指Hinton不應獲2019本田獎
    理由 2:Hinton 的無監督預訓練並沒有促成當前的深度學習革命本田獎在公告中表示:Hinton 在 2002 年發明了一種用於有限玻爾茲曼機的快速學習算法,使得它們無需任何標註數據即可學習到單層分布式表徵。這些方法使深度學習有了更好的性能表現,並促成了當前的深度學習革命。
  • 學習Hinton老爺子的膠囊網絡,這有一篇歷史回顧與深度解讀
    深度學習和人工神經網絡已經被證明在計算機視覺和自然語言處理等領域有很優異的表現,不過隨著越來越多相關任務的提出,例如圖像識別,物體檢測,物體分割和語言翻譯等,研究者們仍然需要更多有效的方法來解決其計算量和精度的問題。在已有的深度學習方法中,卷積神經網絡 (Convolutional Neural Networks) 是應用最為廣泛的一種模型。
  • 神經網絡和深度學習簡史(全)
    一旦抽取到了一些真實值,我們就可以採取類似反向傳播的辦法——針對每個權重值求偏導數,然後估算出如何調整權重來增加整個網絡做出正確預測的概率。和神經網絡一樣,算法既可以在監督(知道隱藏單元值)也可以在無監督方式下完成。儘管這一算法被證明有效(尤其是在面對自編碼神經網絡解決的「編碼」問題時),但很快就看出不是特別有效。Redford M.
  • 人工智慧神經網絡和生物大腦有什麼區別 神經網絡將如何發展
    在AI歷史的前幾十年中,由程式設計師明確定義系統規則的符號系統佔據了主導地位,而如今,神經網絡已成為人工智慧大多數發展的主要亮點。人工神經網絡受到其生物學對應物的啟發,並試圖模仿有機大腦的學習行為。但是正如Zador解釋的那樣,人工神經網絡中的學習與大腦中發生的事情有很大不同。
  • 為什麼要進行圖學習?談一談逆勢而上的圖神經網絡
    NeurIPS2020 | 解決不確定性問題—用於半監督學習的圖隨機神經網絡(代碼已經公開)ICLR 2020 | 兼顧效率與質量—基於譜方法的高效多級圖嵌入框架NeurIPS2020 | 用於半監督學習的圖隨機神經網絡NeurIPS2020 | 顯著超越STGCN: 方法簡單-效果顯著自適應構圖的時空圖網絡硬核 | TKDE2020
  • 頂會見聞系列:ICML 2018(下),能量、GAN、監督學習、神經網絡
    當前的模型(如深度神經網絡)需要大量的能量。從物理能量(建模)思想出發推導出深度學習的一個貝葉斯形式,能帶來(現實中)更能源高效的模型。最終這些事情都能一一連接起來。這裡有一個他關於該主題的另一個報告,與 ICML 的這個報告相比有較大不同。
  • 圖靈獎得主辛頓談無監督學習問題根源:忽略數據間關聯捕捉
    澎湃新聞記者 張唯7月27日上午,近來鮮少露面的圖靈獎獲得者、多倫多大學計算機科學系名譽教授傑弗裡·辛頓(Geoffrey Hinton)在第43屆國際信息檢索大會(SIGIR 2020)上作為首位主題演講者,進行了題為「神經網絡的新時代(The Next Generation of Neural Networks)」的主題報告。
  • 為什麼說「無監督學習」才是深度學習的未來?
    而深度學習尤其依賴於大量良好的、結構化的、有標籤的數據。在我們「神經網絡非數理化指南」的第二部分中,我們將研究為什麼高質量的、標記過的數據如此重要,它來自哪裡,如何使用,以及近期會有什麼樣的解決方案可以提供給我們製造的那些渴望學習的機器。
  • 地震去噪新探索——無監督卷積神經網絡實戰
    無監督學習極大的發揮了神經網絡的學習能力01 使用全連接神經網絡來處理降噪上一篇文章介紹了一個用全連接神經網絡去噪的案例。實現了把這樣的含有噪聲的圖像,如下圖。但最重要的原因是還是全連接神經網絡本來的局限性——對於細節較多的特徵學習能力有限。現在神經網絡發展日新月異,現在對細節學習能力較強的一類的結構就是卷積神經網絡。
  • GAN用於無監督表徵學習,效果依然驚人……
    該論文提出的方法建立在 SOTA 模型 BigGAN 之上,通過對其表徵學習和生成能力進行廣泛評估,證明這些基於生成的模型在 ImageNet 數據集的無監督表徵學習和無條件圖像生成方面均實現了 SOTA 效果。
  • 卡內基梅隆大學機器人學院博士後王晨:無監督在線學習在機器人場景...
    我們希望機器人在未知的環境中不斷探索新的事物,並對相似物體進行忽略,同時也希望機器人能夠在短時間內從不平衡的數據中進行學習。針對場景預測問題的研究,目前多為基於有監督的學習方法,其數據也需要有對應的標籤信息。但移動機器人的實際操作環境往往是未知的,數據的標籤信息很難獲取,因此基於有監督的學習方法並不適用於移動機器人的場景預測問題。
  • LSTM之父炮轟Hinton:「本田獎」不該授予他,頒獎詞有六大謬誤
    細數本田獎「六宗罪」Schmidhuber在這篇長文中指出,AI中的一些重要技術,比如反向傳播、無監督算法、Dropout等等都並非Hinton的首創。本田獎的頒獎詞言過其實,把其他人的研究成果算在了Hinton頭上,存在著六處嚴重錯誤。