本文聯合編譯:Blake、高斐
雷鋒網註:Geoffrey Everest Hinton(傑弗裡·埃弗裡斯特·辛頓 )是一位英國出生的計算機學家和心理學家,以其在神經網絡方面的貢獻聞名。辛頓是反向傳播算法和對比散度算法的發明人之一,也是深度學習的積極推動者,目前任職於多倫多大學與Google。作為人工智慧領域的三位奠基人之一,早在30年前,辛頓就已經在深度學習領域留下了自己的烙印。然而,直到計算機的性能達到深度學習的要求,辛頓才開始在學術界以外得到自己應得的廣泛認可,本文是他對於深度學習介紹的演講PPT。
深度學習
Geoffrey Hinton
多倫多大學&Google
機器學習任務的頻譜
典型的統計學方法
人工智慧(AI)
深度學習簡要發展史
用於學習多層非線性特徵的反向傳播算法於20世紀70年代和80年代被提出來並得到多次發展演變(Werbos, Amari, Parker, Lecun, Rumelhart et al)。
當時,反向傳播算法具有廣闊的應用前景,然而,到20世紀90年代,機器學習領域的眾多研究者開始停止運用該算法,原因如下:
—該算法不能有效利用多數隱藏層(除了其在「時延」和卷積網的應用)。
—該算法不能在遞歸網絡中發揮有效作用。
如何學習多層特徵(~1985)
運用反向傳播錯誤信號以獲得用於學習的衍生工具:
首先輸入輸入信息向量,通過隱藏層,最終得到輸出結果,對比輸出結果與正確答案得到錯誤信號。
隨機梯度下降
—這將對所有訓練數據的梯度矢量進行隨機評估。
—若權重值完全出現錯誤,即便獲得一個耗費多,精確地估計值也是無意義的。
—與其他更好地方法相比,這種原始的優化方法能夠在大數據集中發揮更好的作用。
反向傳播算法到底是哪裡出錯了?——20世紀90年代的觀點
— 幾乎所有的數據都是未經標記的。
— 在存在眾多隱藏層的網絡中,該算法學習速度非常慢。
— 該算法通常能夠得到極好的運用,但是從來沒有極好的理論。
運用無監督學習方式,克服反向傳播算法的局限性
— 調整權重,保證一個生成模型生成感官輸入信息的最大可能性。
— 學習圖像,而非標記過的圖像。
如果你想要從事計算機視覺領域的研究,首選學習計算機製圖法。
隨機二進位單位(一種奇數選擇方法)
受限玻爾茲曼機
—只有一層隨機二進位隱藏單元。
—隱藏層之間無連接。
— 當存在一個既定的數據矢量,我們能夠快速從後驗分布中獲取一個無偏差樣本。
受限玻爾茲曼機最大可能性學習算法圖
由可視單元的一個訓練矢量V開頭。
在更新所有平行隱藏單元與更新所有平行的可視單元之間轉換。
快速學習受限玻爾茲曼機的方法
由可視單元的一個訓練矢量開頭
更新所有平行的隱藏單元
更新所有平行的可視單元,以實現重構
再次更新隱藏單元
旁白
這是受限玻爾茲曼機的首次重大應用。
訓練深度網絡(受限玻爾茲曼機飽受歡迎的主要原因在於的到蓋茨比基金的支持)
如此便生成一個多層生成模型。
這一證明過程是非常複雜的(但是對於學術界同仁之間相互尊重極為重要)。
精細調整,以實現區分這一目的
預訓練:首先,一次只學習一個特徵層,不使用標記過的信息。
精細調增:增添最後一個標記單元層,反向計算標記單元的誤差,以便精細調整那些在無監督前期訓練階段學會的特徵。
這種精細調整方法能夠克服標準反向傳播算法的兩個主要局限性。
因為未經標記數據而發現好的特徵,我們要求使用更少的標記。
由於在預訓練過程中,一次僅訓練一層,並且是從可感知的特徵進行精細調整的,學習速度變得越來越快。
為預訓練深層神經網構建聲學模型
通過較短時間的前期處理,現在我們在這一塊兒能夠做的更好。
接下來會發生什麼
當預訓練深層神經網絡的性能優於在MSR演講組一致推崇的高斯混合模型,IBM與Google對這類深層神經網絡實行進一步發展。
直至2012年,安卓系統的聲音搜索功能便是運用一個基於深層神經網絡的聲學模型。
現在所有起到領導作用的團隊均使用神經網絡,這一技術正在向性能越來越好的遞歸神經網絡發展。
圖像網的ILSVRC-2012競爭
早期階段主要通過優化一些參數得到調整。
ILSVRC-2012競爭的錯誤率
2015年深層卷積神經網 5%
多倫多大學(Krizhevsky等,2012) 16%
東京大學 26%
牛津大學(Zisserman 等) 27%
INRIA(法國國家科學院)與XRCE(歐洲施樂研究中心) 27%
阿姆斯特丹大學 29%
針對Imagenet的神經網絡
l 7個隱藏層(不包括最大池化層)
l 早期的層級是卷積的
l 最後兩層是全局相連的
激活函數是每個隱層的修正線性單元
這些訓練速度快得多,且比邏輯單元要更具表現力
全局連接層擁有最多的參數
Dropout用來防止這些層級過擬合
在測試集上的樣本(以及神經網絡猜測結果)
獵豹(豹 雪豹 埃及貓)
高速列車(小轎車 地鐵 電車)
放大鏡(剪刀、放大鏡、煎鍋、聽診器)
修正線性單元
y = max(0,x)
這種非線性使得深度網絡更易訓練,在處理真實值的時候也表現的更好。
Dropout:平均多個大型神經網絡的有效方式
所有的架構權重相同
Dropout作為一種模型平均形式
這比試著將權重保持在較少狀態更能實現好的正則化
在測試的時候我們做些什麼?
我們能對許多不同的架構進行取樣,然後在它們的輸出分布中取幾何平均數。
能用上所有的隱藏單元更好,但是要將它們的輸入權重減半
這恰好計算了所有2^H模型預測的幾何平均數
在有更多的隱層的情況下,測試時期將權重減半是唯一一種模型平均的近似值,但是它得到結果不錯
1986年提出的方向傳播算法哪裡錯了?
關於它為什麼失敗,我們得出的結論都錯了。真正的原因是:
1. 我們的標記數據集太小了。(幾千倍的差異)
2. 我們的運算能力太慢了。(百萬倍的差異)
3. 我們進行權重初始化的方式錯了。
4. 我們使用了錯誤的非線性類別。
幾年前,Jeff Dean認為如果計算能力足夠的話,神經網絡也許能夠做到一些非常了不起的事情。
他建立許多架構讓一些大型神經網絡在Google的數據中心核心區塊上進行訓練。
卷積神經網絡(部分複雜細節已略去)
有關卷積網絡最好的類型可以去查看Hochreiter和Schmidhuber於1997年發布文章的細節。
卷積神經網絡
卷積神經網絡十分強大,因為它們結合了兩種特性。
l 分布式隱層允許它們有效存儲之前的信息
l 非線性動態允許它們以複雜的方式更新隱層
l 深度越深,性能更好
機器翻譯的一種全新方式(Suskever, Vinyals和Le,2014)
它最終的隱層表示的就是語句所要表達的含義。
針對翻譯分布的一個解碼器RNN
在訓練期間,我們只需要輸入「正確」的單詞。
編碼器和解碼器網絡是如何訓練的
該系統已實現在該數據上的最佳水準
該系統大約需要一年來開發
如果我們使用更多的數據,並且同時對多種語言共同進行訓練編碼器和解碼器的話,它的表現會好的多
歐洲的議會給出了25種方式,我們可以通過所有的25中解碼器進行反向傳播。
結合視覺和語言(Vinyals等近期工作的簡單介紹)
使用一個擁有20萬張圖片(每張圖片有幾個注釋)的數據集
不再重複訓練卷積神經網絡
一群人在一個戶外市場購物
(人們蜷縮圍繞著一家開放市場)
一個抱著填充動物玩具的孩子特寫
(一個小女孩睡在沙發上,抱著一個玩具熊)
文本處理的意義
這將捕獲自然推理過程
它應該能讓我們理解文本要表達的含義
經典AI的意義
他們認為沒有其他的可能性
他們認為沒有其他的可能性
唯一的符號是輸入和輸出
處理像素陣列絕對不是通過操作內部像素來實現的
深度學習是從哪裡來的?
公司擅長於開發新的想法理念
長遠來看,好的想法理念卻是真正的瓶頸
因此給予大學基礎結構來發展真正的想法理念
PS : 本文由雷鋒網(公眾號:雷鋒網)編譯,未經許可拒絕轉載!
via Geoffrey Hinton
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。