一種基於能量模型的神經網絡架構受限玻爾茲曼機

2020-11-22 電子發燒友

一種基於能量模型的神經網絡架構受限玻爾茲曼機

李倩 發表於 2018-07-26 10:09:24

受限玻爾茲曼機是一種基於能量模型的神經網絡架構,雖然不像通常的卷積神經網絡一樣被人熟知,但近年來在推薦系統中受到了越來越多的關注,在協同過濾推薦等領域表現出越來越重要的作用。在這篇文章中,我們將從基礎理論和基本結構方面梳理受限玻爾茲曼機的原理,以便對受限玻爾茲曼機(RBM: Restricted Boltzmann Machine)有更深的了解。

最典型的受限玻爾茲曼機如下圖所示,在兩層簡單的結構中分布式的輸入的可見層(visible layer)和隱含層結構。

和通常的前饋神經網絡不同的是,受限玻爾茲曼機可以通過可見層的狀態預測對應隱含層的狀態,相反亦可以由隱含層預測可見層對應單元的狀態。同時,它與玻爾茲曼機不同在於同一層內的單元之間沒有相互連接。

能量模型

為了更好地理解RBM是如何工作的,我們需要引入基於能量的模型來進行解釋。在重力場中,不同高度的物體具有不同的重力勢能,我們可以利用能量來描述物體所具有潛在做功的能力。基於這樣的啟發,科學家們將這一觀點應用到深度學習中,來度量模型質量。

深度學習模型的目的之一便是對變量之間的依賴關係進行編碼,將變量組合與一個標量能量聯繫起來,而這一能量就作為模型能力的度量。通常情況下,較小的能量意味著更加合理的變量組合。所以基於能量的模型在訓練過程中會不斷最小化事先定義好的能量函數從而實現變量間的最優組合,RBM的能量函數定義為如下的形式:

可以看到能量函數與可見層、隱含層的狀態以及對應的權重和偏置都有關係。RBM的訓練過程就是最小化這一能量函數的過程。

概率模型

RBM同時也是一種典型的概率模型,模型中的狀態通過概率來表示。在每一個時間點上受限玻爾茲曼機的狀態由可見層和隱含層單元決定,其可被觀測到的狀態可由以下聯合概率分布來表示:

其中p為可見層和隱藏層的聯合概率分布函數,Z為配分函數,用於表示系統所有可能的狀態。這一聯合概率分布在物理上就是著名的玻爾茲曼分布——在給定能量E上粒子在某個狀態上被觀測到的概率。但由於Z中h和v的組合情況十分龐大,使得這一聯合概率分布難以計算,但幸運的是對於對於給定隱含層或者可見層狀態下的概率卻是更加容易計算的:

需要注意的是在RBM中每一個單元都是0/1的二值狀態,實際使用中通常會計算出每個單元處於1,也就是被激活的概率。在給定可見層v的條件下,隱含層單元j被激活的概率可以寫成下圖的表示,同樣給定隱含層的狀態下,可見層單元i的概率也可以被寫成下面的表示形式。

上式通過前述的條件概率推導得到,求得的值為對應單元取1激活的概率。其中σ是Sigmoid函數。

訓練

RBM的訓練與通常神經網絡的訓練有很大的區別,研究人員們使用了吉布斯採樣(Gibbs Sampling)和對比散度(Contrastive Divergence,CD)兩個數學手段來對訓練過程進行處理。簡單來說吉布斯採樣利用了上述的條件概率公式,通過輸入v可以計算得到隱含層的條件概率h,隨後根據這一h反過來預測輸入層的值v,經過k次迭代後的輸出vk分布將會收斂於v0的分布,從而得到了可見層的聯合概率。

為了更新權重,還需要計算出每次訓練過後誤差,這時候就需要使用對比散度來進行計算:

基於RBM的協同過濾系統

在推薦系統中RBM常常被用於識別數據的隱含因素。例如在電影推薦系統中,人們常常將不同的電影按照不同的潛在變量進行分析,例如速度與激情會被歸併到動作片裡,而玩具總動員和瓦力則會更多的包含皮克斯的因素。模型通過對用戶打分數據進行學習,在多個循環後將得出用戶的個性化偏好以及用戶群體的整體偏好。

在電影推薦的例子中,受限玻爾茲曼機面對的數據是二進位的0/1而不是連續的打分數據。這意味著用於對於電影的評價要麼是喜歡(1)要麼是不喜歡(0)。這些評價值作為輸入層/可見層被送入模型。在給定的數據下,RBM會發掘數據中能解釋用戶偏好的隱含因素,並在隱含層中用不同的單元表示出來。

圖中是一個用戶對於幾部電影評分的簡單例子,其中霍比特人由於用戶沒有評分,數據中使用-1來標註,由於電影的數量龐大,某個用戶只對小部分電影進行了評價,需要告訴模型哪些是沒有用戶評價的輸入從而可以忽略這些因素的影響。

上圖就對應了給定可見層狀態,求出隱含層單元激活概率的情況。圖中可以看出只有Fantasy類型是被激活的,在給定用戶評分的情況下,RBM正確地識別出這一用戶喜歡的類型更多的偏向於科幻電影。

在另一種情況下,在知道了用戶的偏好後(hidden),如果要為用戶推薦電影(visible)就可以利用已知隱含層求得可見層單元被激活的條件概率,從而為用戶推薦偏好類型的電影。

上圖中可以看到,RBM計算出被激活的電影除了輸入數據中指環王和哈利波特,還為用戶推薦了原來沒有看過的霍比特人。模型認為喜歡科幻的用戶很有可能也喜歡霍比特人。

總結來看,在推薦系統中使用RBM主要分為以下幾個步驟:

1.在所有用戶數據上訓練模型;

2.使用特定用戶的數據來進行預測;

3.得到隱含層的激活情況;

4.基於隱含層的激活來計算輸出層的激活情況;

5.可見層的新激活單元表示了用戶對未看過的電影/節目/音樂的評價,並選取其中大概率的激活單元向用戶推薦。

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 人工智慧之受限玻爾茲曼機(RBM)
    今天我們重點探討一下受限玻爾茲曼機(RBM)算法。受限玻爾茲曼機RBM在深度學習領域一直有重要應用,它是一種可用隨機神經網絡來解釋的概率圖模型,由Smolensky在1986年在玻爾茲曼機BM的基礎上提出, 是玻爾茲曼機BM的一種特殊拓撲結構。
  • 一起讀懂傳說中的經典:受限玻爾茲曼機
    儘管性能沒有流行的生成模型好,但受限玻爾茲曼機還是很多讀者都希望了解的內容。這不僅是因為深度學習的復興很大程度上是以它為前鋒,同時它那種逐層訓練與重構的思想也非常有意思。本文介紹了什麼是受限玻爾茲曼機,以及它的基本原理,並以非常簡單的語言描述了它的訓練過程。雖然本文不能給出具體的實現,但這些基本概念還是很有意思的。
  • 神經網絡模型預測值 論文_bp神經網絡預測模型建模步驟 - CSDN
    在深度學習十分火熱的今天,不時會湧現出各種新型的人工神經網絡,想要實時了解這些新型神經網絡的架構還真是不容易。光是知道各式各樣的神經網絡模型縮寫(如:DCIGN、BiLSTM、DCGAN……還有哪些?),就已經讓人招架不住了。因此,這裡整理出一份清單來梳理所有這些架構。
  • [獨家]25張圖讓你讀懂神經網絡架構
    下表包含了大部分常用的模型(大部分是神經網絡還有一些其他的模型)。雖然這些架構都是新奇獨特的,但當我開始把它們的結果畫下來的時候,每種架構的底層關係就會清晰。 顯然這些節點圖並不能顯示各個模型的內部工作過程。例如變分自動編碼器(VAE)和自動編碼器(AE)節點圖看起來一樣,但是二者的訓練過程實際上是完全不同的,訓練後模型的使用場景更加不同。
  • CVPR 2019 神經網絡架構搜索進展綜述
    這種智能體通常是用循環神經網絡實現的,它的目標是尋找能夠獲得更高收益的神經架構。其他的搜索算法還包括基於梯度的優化(所有可能的架構組成一個巨大的圖,每條邊有一個可學習的實值,代表每個block被使用的概率)、貝葉斯優化(搜索空間由某種啟發函數貫穿,這種啟發函數可以是用於預測採樣模型準度的代理損失函數)等等。
  • 主流的深度學習模型有哪些?
    有監督的神經網絡(Supervised Neural Networks)1.1. 神經網絡(Artificial Neural Networks)和深度神經網絡(Deep Neural Networks)追根溯源的話,神經網絡的基礎模型是感知機(Perceptron),因此神經網絡也可以叫做多層感知機(Multi-layer Perceptron),簡稱MLP。
  • 基於深度神經網絡的脫硫系統預測模型及應用
    蘇向鵬等採用了基於徑向基函數(Radical Basis Function,RBF)的改進模型,改善了 BP 網絡易陷入局部最小值的缺陷;李軍紅等利用的廣義回歸神經網絡(Generalized Regression Neural Network,GRNN)是基於 RBF 網絡改進的神經網絡模型,針對樣本較少的情況,預測效果有所改善。
  • 基於憶阻器的神經網絡應用研究
    基於憶阻突觸器件的硬體神經網絡是神經形態計算的重要發展方向,是後摩爾時代突破傳統馮·諾依曼計算架構的有力技術候選。綜述了國內外憶阻硬體神經網絡的近期發展現狀,從器件發展和神經網絡兩個方面,詳細闡述了憶阻器這一新興信息器件在神經形態計算中所發揮的角色作用,討論了依然存在的關鍵問題和技術挑戰。憶阻器為實現存算一體化架構和超越摩爾定律提供了技術障礙突破的可行方案。
  • 基於憶阻器的神經網絡應用研究
    神經網絡的發展一方面是基於對生物大腦的理解更貼切地去模擬其工作機制,如第三代人工神經網絡——脈衝神經網絡的提出與發展;另一方面是以片上網絡配合軟硬體以數學建模的方式來模擬腦內神經傳導系統,目標側重於理解腦部信號傳導的方式,以從計算仿真角度反向助於了解大腦的運作方式。在新型神經形態硬體方面,器件、電路以及整體架構設計都是極其重要的研究方向。
  • 神經網絡的基礎是MP模型?南大周志華組提出新型神經元模型FT
    據論文介紹,這項研究為神經網絡提供了一種新的基本構造單元,展示了開發具有神經元可塑性的人工神經網絡的可行性。當前的神經網絡大多基於 MP 模型,即按照生物神經元的結構和工作原理構造出來的抽象和簡化模型。此類模型通常將神經元形式化為一個「激活函數複合上輸入信號加權和」的形式。
  • NAS-DIP: 基於神經架構搜索的自監督圖像補全算法
    From: Arxiv;編譯: T.R  與先前使用大規模監督數據進行訓練的算法不同,Deep Image Prior(DIP)利用隨機初始化的神經網絡模型和退化後的圖像進行自監督迭代,在無需大規模數據進行訓練的情況下,就能有效實現圖像去噪、超分辨和補全等任務。
  • 顛覆傳統計算架構:光神經網絡硬體登上Nature
    眾所周知,深度神經網絡在計算精度低時也能表現良好。因此,這些網絡為非傳統計算技術提供了一個很好的機遇。例如,研究人員正在探索基於非易失性存儲設備的深度神經網絡加速器。這類設備在切斷電源時也能保存信息,同時通過模擬電子計算能夠提升深度神經網絡的速度和能源效率。那麼,為什麼不考慮利用光學呢?
  • 神經網絡的性能竟然優於神經符號模型
    不僅如此,實驗結果證實,神經網絡的在關鍵任務上的效果還要更好。不需要預先訓練,完全無監督,居然這麼神奇?按照之前的常識,結合了算法和符號推理技術的神經符號模型(Neurosymbolic Models),會比神經網絡更適合於預測和解釋任務,此外,神經符號模型在反事實方面表現更好。
  • 卷積神經網絡在圖像領域中的發展及存在問題
    深度學習(Deep Learning, DL),從狹義上理解,就是一種具有一定的結構和訓練方法且含有多個隱含層的神經網絡;從廣義上理解,可以把具有任何層次結構的機器學習方法稱為深度學習。在深度學習過程中,從輸入圖像,經過無監督的逐層訓練和學習圖像特徵,通過有監督的訓練更新整個網絡參數,最小化損失函數,在輸出層實現正確的分類。
  • Ian Goodfellow:GAN相比其他生成模型的優缺點及應用
    (GAN)的發明人 Ian Goodfellow 在 Quora上回答有關 GAN 的兩個問題,即:生成對抗網絡相比其他生成模型的優缺點是什麼?  圖2 Image to image圖像翻譯  仔細想來,這些任務,其實都是傳統的深度神經網絡可以做的,例如自編碼器(AutoEncodor)和卷積反卷積架構可以做到的,我們不禁要想,GAN相比傳統的深度神經網絡
  • 深度神經網絡中的數學,對你來說會不會太難?
    例如輸入圖像到神經網絡,而輸出(softmax(z)1,softmax(z)2,softmax(z)1)則可以解釋為不同類別(如貓、狗、狼)的概率。卷積網絡卷積網絡是一種帶有線性算符的神經網絡,即採用一些隱藏的幾何矩陣作為局部卷積算符。
  • 如何在統一架構的同時高效處理各種稀疏度人工神經網絡矩陣?
    由於剪枝和 RELU 等操作,神經網絡的權重和激活矩陣中存在廣泛的稀疏性分布,且不同網絡和同一網絡不同層的稀疏度各不相同,其稀疏度分布範圍高達 4-90%。由於不同稀疏度矩陣運算對於計算和存儲電路要求各不相同,提出一種統一架構同時高效處理各種稀疏度的人工神經網絡矩陣,是人工智慧晶片設計領域的一大難題。