Hinton一作新論文:如何在神經網絡中表示「部分-整體層次結構」?

2021-02-28 人工智慧學家

編譯 | 陳彩嫻

AI科技評論在 Twitter 上發現了一篇Hinton的新論文,作者只有Hinton本人,這篇論文沒有介紹具體的算法,而是描繪了一個關於表示的宏觀構想:如何在神經網絡中表示部分-整體層次結構。 值得一提的是,分享論文的Kosta Derpanis也在推特裡介紹了Hinton的第一篇論文:「Using Relaxation To Find A Puppy」。Kosta Derpanis在論文裡標記了一句話:「局部的模糊性必須必須通過尋找最佳的全局解釋來解決。」並表示,Hinton現在又回到了最初的起點。https://www.cs.toronto.edu/~hinton/absps/puppet.pdf局部和整體的一致性表示似乎一直是Hinton的研究重點。比如,膠囊網絡通過局部到整體的動態路徑選擇一致性來學習識別,近期Hinton還將其擴展到了無監督學習,並應用了Transformer架構;對比學習則學習一種表示,使得同一幅圖像的的各個局部具有相似的表示;認知神經科學出身的Hinton還一直堅持探索著大腦的學習機制,比如back relaxation試圖在自頂向下表示和自底向上表示之間產生一致性,而這又和對比學習有聯繫。在這篇新論文中,Hinton又將為我們描繪出怎樣一幅圖景呢?論文連結:https://arxiv.org/pdf/2102.12627.pdf這篇論文沒有描述工作系統,而是單單提出了一個關於表示的想法。這個想法能夠把Transformer、神經場(neural fields)、對比表示學習、蒸餾和膠囊等先進觀點整合到一個名為「GLOM 1」的設想系統中。一個具有固定架構的神經網絡如何將一張圖像解析成一個整體的分級體系(其中,每張圖像都有不同的結構)?針對這個問題,GLOM 給出了一個簡單的答案,即使用相同向量的孤島來表示解析樹中的節點。如果 GLOM 真的能夠正常運轉,那麼,當它在視覺或語言上應用時,它能夠極大地提高類似Transformer的系統所生成的表示的可解釋性。「GLOM」一詞源自一句俗語「 glom together」(「抓」到一起),可能是來源於「凝聚」(agglomerate)一詞。心理學提供了一個有力證據,表明:人們會將視覺場景解析為整個分層體系,並將部分與整體之間視角不變的空間關係,建模為他們分配給該部分和整體的內在坐標系之間的坐標轉換。 如果我們想要建立像人類一樣理解圖像的神經網絡,那麼我們需要想明白:神經網絡是如何表示部分-整體的分層體系?這很困難,因為一個真實的神經網絡無法將一組神經元進行動態分配,以表示解析樹中的一個節點。 神經網絡無法動態分配神經元,也是一系列用到「膠囊」觀點的模型所出現的原因。這些模型會作出如下假設:被稱為「膠囊」的一組神經元會永遠成為圖像特定區域中的某一特定類型的一部分。通過激活這些預先存在的、類型特定的膠囊子集,以及膠囊之間的適合連接,可以構建一個解析樹。這篇論文介紹了一種非常不同的方式,可以使用膠囊來表示神經網絡中的部分-整體分層體系。雖然這篇論文主要討論了單個靜態圖像的感知,但我們可以簡單地將 GLOM 理解為用於處理一系列幀的管道,因此靜態圖像可以被視為一系列相同的幀。GLOM 架構由許多列(column)組成,所有列均使用完全相同的權重。每一列都是一堆空間局部自動編碼器,這些編碼器會學習小圖像塊(image patch)中的多個不同級別的表示。每個自動編碼器都會使用多層自下而上的編碼器和多層自上而下的解碼器,將同一個級別的嵌入轉換為相鄰級別的嵌入。這些級別與部分-整體分層體系中的級別一一對應。比如,顯示一張人臉圖像時,一個單列可能會收斂到表示一個鼻孔、一個鼻子、一張臉和一個人的嵌入向量上。圖 1 顯示了不同級別的嵌入如何在單列中進行交互。 圖1:單列中,GLOM架構的三個相鄰級別的自下而上、自上而下、同列的交互。代表自下而上和自上而下交互的藍色和紅色箭頭是由兩個具有多個隱藏層的不同神經網絡來實現。這些網絡在成對的級別中有所差異,但它們可以跨列、跨時間步分享。自上而下的網絡也許應該使用正弦單位。對於靜態圖,綠色箭頭可以簡單看作按比例縮放的殘差連接,以實現每個級別的嵌入的時間平滑。對於視頻,綠色連接可以是基於多個先前狀態的膠囊來學習時間動態的神經網絡。不同列中,相同級別的的嵌入向量之間的交互可以通過非自適應的、注意力加權的局部平滑器(圖中沒有顯示)來實現。圖 1 沒有顯示不同列中同一級別的嵌入之間的交互。這比同一列內的交互要簡單得多,因為它們不需要執行部分-整體坐標轉換。它們就像代表一個多頭 transformer 中不同單詞片段的列之間的注意力加權交互,但更簡單,因為查詢、鍵和值向量都與嵌入向量相同。列與列之間的交互作用是,通過使一個級別的每個嵌入向量向附近位置的其他類似向量回歸,從而在該級別上產生具有相同嵌入的島。這將創建多個局部「回音室」,其中一個級別的嵌入主要聽從其他想法相似的嵌入。在每一段離散時間和每一列中,一個級別的嵌入將被更新為擁有四個貢獻(如下)的加權平均值:自下而上的神經網絡在前一個時間作用於下層級別的嵌入而產生的預測;自上而下的神經網絡在前一個時間作用於上層級別的嵌入而產生的預測;前一個時間在附近列相同級別的嵌入的注意力加權平均值。對於靜態圖,一個級別的嵌入應隨著時間的流逝而沉澱,以生成擁有幾乎相同向量的不同島。如圖 2 所示, 這些島在更高的級別上應該更大。使用相似的島來表示圖像的解析,避免了需要分配神經元組來動態表示正在運行的解析樹的節點,或預先為所有可能的節點設置神經元的情況。GLOM 系統不是分配神經硬體來表示解析樹中的節點,或為節點提供指向其祖先和後代的指針,而是分配了一個合適的活動向量來表示該節點,並在屬於該節點的所有位置上使用了相同的活動向量。訪問節點的祖先和後代的能力是通過自下而上和自上而下的神經網絡實現的,而不是通過使用 RAM 檢查表格來實現的。圖 2 所顯示的所有位置都屬於同一對象,且場景級別尚未在共享矢量上定居。通過將向量劃分為部分-整體分層體系中每個級別的單獨部分,然後將一個級別的的高維嵌入向量顯示為二維向量,那麼每個位置的完整嵌入向量就可以顯示出來。這可以很好地解釋不同位置的嵌入向量的對齊。圖 2 所示的不同級別上向量相同的島,實則表示一棵解析樹。但是,相同的島比短語結構語法要強大得多。比如,在「這是否會減慢短語結構語法的速度」的問題上,它們可以毫不費力地表示斷開連接的對象。就像BERT一樣,整個 GLOM 系統可以進行端到端的訓練,以在最後的時間步從缺少某一區域的輸入圖像中重建圖像。但是,目標函數還包含兩個倡導在每個級別上向量幾乎相同的島的正則化器(regularizer)。正則化器只是一個級別的新嵌入與自下而上、自上而下的預測之間的一致性。提高這個一致性能夠促進局部島的形成。圖 4:這是將圖 1 所示架構進行可視化的另一種方式,可以使該架構與 transformer 之間的關係更加明顯。圖 1 中表示時間的水平尺寸變成了圖 4 中表示層的垂直尺寸。此時,在每一個位置,每一層都有部分-整體分層體系中所有級別的嵌入。這與垂直壓縮圖 1 中單個時間片內的級別描述一致。靜態圖的解釋僅需要使用該架構進行一次前向傳遞。這裡將所有級別特定的自下而上和自上而下的神經網絡都顯示為單個神經網絡。圖 5 顯示了另一種查看 GLOM 架構的自下而上和自上而下的神經網絡。圖 5:GLOM 在同一個位置(即單列的一部分)的兩個相鄰層。在前向傳遞的過程中,L 級的嵌入向量通過多層自下而上的神經網絡從上一層 L-1 級的嵌入向量中接收輸入。L 級還通過多層自上而下的神經網絡從上一層 L+1 級的嵌入中接收輸入。在前向傳遞的過程中,對上一層 L+1 級的依賴取得了自上而下的效果。嵌入在 t+1 層中的 L 級還取決於嵌入在 t 層中的 L 級嵌入和 t 層中其他附近位置的 L 級嵌入的注意力加權總和。圖中沒有顯示級內的交互。

論文目錄

論文的目錄如下,感興趣的朋友可以點擊上面的連結去拜讀Hinton的新大作:

2、引言

2.1 生物學類比

2.2 數學類比

2.3 神經場

2.4 部分-整體分層體系的顯式表示和緊急表示

3、一些設計決策

3.1 有多少個級別?

3.2 位置的細粒度如何?

3.3 自下而上的網絡是否會查看附近的位置?

3.4 注意力如何工作?

3.5 視覺輸入 

4、顏色和紋理

5、集群發現與集群形成

6、在位置上複製嵌入向量 

7、學習島

8、表示坐標變換 

9、表示不確定性

9.1 在更新嵌入時組合不同的信息源 

10、與其他神經網絡模型進行比較

10.1 與膠囊模型對比

10.2 與 transformer 模型對比

10.3 與卷積神經網絡對比

10.4 表示 ISA 分層體系

10.5 與 2D Ising 模型的關係

10.6 與其他消除冗餘的方法對比

11、視頻

12、GLOM 在生物學上是否合理?

12.1 新皮質是一個大型「蒸餾」廠嗎?

12.2 睡眠在對比學習中的作用?

12.3 傳播大腦中的誤差導數

13、討論

未來智能實驗室的主要工作包括:建立AI智能系統智商評測體系,開展世界人工智慧智商評測;開展網際網路(城市)雲腦研究計劃,構建網際網路(城市)雲腦技術和企業圖譜,為提升企業,行業與城市的智能水平服務。

  如果您對實驗室的研究感興趣,歡迎加入未來智能實驗室線上平臺。掃描以下二維碼或點擊本文左下角「閱讀原文」

相關焦點

  • Hinton等人新研究:如何更好地測量神經網絡表示相似性
    在機器學習的很多任務中,深度神經網絡可以自動從數據中學習強大的特徵表示。儘管深度神經網絡在多種任務中取得了令人印象深刻的進展,但如何理解和描述神經網絡從數據中學習到的表示仍未得到充分研究。谷歌大腦的這篇論文研究了測量深度神經網絡表示相似性的問題。測量表示相似性的有效方法可幫助回答許多有趣的問題,包括:(1)基於不同隨機初始化訓練得到的相同架構深度神經網絡是否學習相似的表示?(2)不同神經網絡架構的各個層之間是否可以建立對應關係?(3)相同的神經網絡架構從不同的數據集中學習的表示有多相似?
  • 今日Paper|從純圖像重建世界;層次遞歸網絡序列;注意力神經網絡...
    目錄層次遞歸網絡序列標註的轉移學習注意力神經網絡序列標記模型中的特徵基於雙向LSTM-CNNs的命名實體識別通過雙向LSTM-CNNs-CRF進行端到端序列標記from=leiphonecolumn_paperreview0214核心問題:在序列標註問題中,為了解決傳統的機器學習存在的需要手動構建特徵的問題,這裡常常使用神經網絡的方式,但是神經網絡常常需要大量的數據才可以,那麼現在就面臨一種情況,當數據量不足的時候,如何才可以解決這個問題呢?
  • 神經網絡之父Geoffrey Hinton傑弗裡·欣頓 跨過人工智慧寒冬談深度學習
    神經網絡的想法並不受待見,Hinton表示「傳統的思路無疑更受關注和信任」。1970年代導師都不看好的艱難時期,Hinton一直對神經網絡保持信心。1980年代,Hinton參與使用計算機模擬大腦的研究,這也便是如今所說「深度學習」概念。然而學術期刊因為不認可神經網絡這一理念而頻頻拒收論文,30多年漫長黑夜後,等到人工智慧黎明。
  • 萬字解讀商湯科技ICLR2019論文:隨機神經網絡結構搜索
    本文作者對NAS任務中強化學習的效率進行了深入思考,從理論上給出了NAS中強化學習收斂慢的原因。該論文提出了一種全新的經濟、高效且自動化程度高的神經網絡結構搜索(NAS)方法。他們通過深入分析NAS任務的MDP,提出了一個更高效的方法——隨機神經網絡結構搜索,重新建模了NAS問題。與基於強化學習的方法(ENAS)相比,SNAS的搜索優化可微分,搜索效率更高。
  • AI領域的蝙蝠俠大戰超人:LeCun與Manning如何看待神經網絡中的結構...
    儘管兩位教授對此話題有著不同的觀點,但是大牛之間思想的碰撞總能帶給大家很多啟發。沙龍中所討論的主題是目前 AI 研究中很重要的一個問題:神經網絡中的結構設計,以及這些結構是如何與某些假設和歸納性先驗知識相對應的。事實上,去年就有研究者將「語言結構的回歸」作為 2017 年四大 NLP 深度學習研究趨勢之一。Manning 教授提倡將更多的語言結構融入到深度學習系統中。
  • 「神經網絡之父」GeoffreyHinton:寒冬之下的孤勇
    然而,Hinton 的求知之路也並不總是一帆風順,學術期刊曾經因為不認可神經網絡這一理念而頻頻拒收論文。在過去五年間,隨著他學生還有無數研究者所做出的一系列貢獻,Hinton 在深度學習所做的研究開始為人所知並接受,也被人們推舉為計算新時代的領頭人。神經網絡現在幾乎涵蓋了所有的人工智慧算法,並藉助科技企業的各類應用傳播開來。
  • 探討科技論文寫作結構層次的安排
    文章的結構,通常是指文章內部的結合與構造。它體現了整體與部分、部分與部分之間的關係,是一種組合局部為整體的藝術。精心構思的文章結構,可以將主題的統帥作用通過對材料的巧妙組織、層次的巧妙布局、內容的巧妙搭配很好地體現出來,使文章的內容進一步條理化,各部分緊密關聯、遞進有序,形成一個有機的整體。如果不重視結構構思或結構安排不合理,文章就會整體感不強,各部分之間比例不當,缺少必要的聯繫,中心不突出,缺乏邏輯性,就會影響文章的質量。
  • Geoffrey Hinton專訪:如何解釋神經網絡的變遷
    在津南谷歌的I/O開發者大會上,美國科技媒體Wired的Nicholas Thompson和Hinton討論了他早期對大腦的痴迷,以及計算機可以模仿其神經結構的可能性。他們還討論了意識這個概念以及Hinton未來的計劃。以下是對話過程,請欣賞!Nicholas Thompson:讓我們從你早期的一些極具影響力的論文開始談起。
  • 三篇論文,解讀神經網絡壓縮
    機器之心原創 作者:立早 編輯:H4O 本文是一篇關於神經網絡壓縮領域的論文解讀,通過對ICCV 2019中的三篇論文進行分析,讀者可以了解目前的發展趨勢
  • 漫談論文的三個層次結構
    論文由大到小有三個層次的結構:功能結構、大綱結構、段落與句子結構。本文按順序先後討論我們熟悉的大綱結構、常被忽視的段落與句子結構和我們不熟悉的功能結構。掌握三個層次結構的要領,可以不再糾結於如何安排寫作邏輯,從而專注於填寫內容,提高寫作效率和論文質量,有助於寫出一篇讓讀者進得來、留得下並記得住的論文。摘要、引言和結論是論文中常見的標題明晰的大綱結構。
  • 論文的整體結構
    IMRaD結構也存在一些變體,如IRaD結構(方法放在結果中)和IMRDaC結構(結果和討論組合成一節,稱為Results and Discussion,另外加一節結論即Conclusion。這種規範型結構在實驗類和現象類論文以及綜合期刊中常見,但也可能會出現在一些其它類的論文中。
  • Geoffrey Hinton:從神經網絡的黑暗時代堅守至今日黎明
    出生於英國,現今 69 歲的他是人工智慧領域眾所周知的「神經網絡教父」,神經網絡是一種模仿人腦構建的計算機系統,並可自我學習。正如一些專家說的,如同 20 世紀的電力一樣,神經網絡將——事實上已經——徹底變革人類生活方式。數年來,Hinton 教授的工作不僅相對來說令人費解,而且在一場長達 10 年的計算機科學學術之爭中處於失利的一方。
  • 論文寫作的三個層次結構
    論文由大到小有三個層次的結構:功能結構、大綱結構、微觀結構。本文按順序先後討論我們熟悉的大綱結構、常被忽視的微觀結構和我們不熟悉的功能結構。掌握三個層次結構的要領,可以不再糾結於如何安排寫作邏輯,從而專注於填寫內容,提高寫作效率和論文質量,有助於寫出一篇讓讀者進得來、留得下並記得住的論文。
  • 論文撰寫中,如何修改論文結構,要注意這些方面
    論文結構是作者研究思路的具體表現形式,也是論點的邏輯展開的具體形式。從這個意義上說,論文結構的好壞,直接關係到論文內容的表達效果,直接關係論文質量的高低,關係論文的成敗。「調整結構的原則和要求,是有利於突出中心論點,服務於表現中心論點。」
  • Hinton向AAAI提交論文竟收到最差評價!深度學習三教父再押寶
    論文地址:https://arxiv.org/abs/1906.06818Hinton首先介紹了識別物體的兩種方法的優劣勢:傳統模型使用模塊化表示形式(例如計算機圖形學中使用的表示形式),但是它們通常涉及很多手動操作,這讓深層次結構很難實現。
  • HIN2Vec:異質信息網絡中的表示學習 | PaperDaily #18
    這篇論文和我最近的工作有一些相似之處,一些想法甚至有些相同,同樣有很多地方值得借鑑。論文提出了一種針對異質信息網絡的表示學習框架 HIN2Vec,不同於之前很多基於 Skip-gram 語言模型的工作,HIN2Vec 的核心是一個神經網絡模型,不僅能夠學習網絡中節點的表示,同時還學到了關係(元路徑)的表示。
  • 從圖網絡表示到圖神經網絡
    而事實上, 關於圖的研究, 遠早於圖神經網絡已有之, 這個系列, 通過被稱為graph embding, 也就是把網絡的拓撲結構和節點本質, 通過一定方法壓縮到一個向量表示裡(正如通過CNN和RNN我們可以得到圖像或時間序列的向量表示)。我們在這裡展望下都有這個歷史門派:首先, 為什麼要研究圖網絡, 是因為這和machine learning的核心使命, 預測與決策,息息相關。
  • 用Hinton的膠囊神經網絡來識別空間關係 Part1: CNNs及其缺點
    作為第一篇文章,將介紹常規(卷積)神經網絡以及它的一些問題。神經網絡可能是當下機器學習領域最熱的部分。 近幾年,神經網絡得到眾多開發者不斷的改善,也更方便使用。但是,這些改進通常都是一些簡單的修改, 例如增加一些層,或者簡單的改進激活函數,但是並沒有引進全新的架構或思路。
  • Hinton AAAI2020現場演講:這次終於把膠囊網絡做對了
    其實僅僅在幾年以前,我們都很少在計算機科學界的學術會議上看到他們的身影,Hinton 甚至表示自己都很久不參與 AAAI 會議了 —— 畢竟十年前的時候神經網絡還被主流的計算機科學研究人員們集體抗拒,即便有進展,論文也不會被各個學術會議接收。
  • 神經網絡的叛離:32年前從心理學與生理學分離的瞬間
    16000 次的引用,可以說是神經網絡研究金字塔頂端的論文。本來神經計算學就不僅僅只考慮像神經網絡這樣大腦的神經模型,它還研究諸如神經元放電模式代表什麼信息這樣的「神經活動解釋」類的課題,有必要特別指出計算神經科學其實是個很大的領域。簡單來說,這是支撐神經網絡的生理學部分。