重磅 Yoshua Bengio深度學習暑期班學習總結,35個授課視頻全部開放(附觀看地址)

2021-02-13 機器之心

選自 Linkedin、VedioLectures

作者： Hamid Palangi

機器之心編譯

參與：Quantum、黃清緯、吳攀

本文是加拿大英屬哥倫比亞大學候選博士 Hamid Palangi 對 Aaron Courville 和 Yoshua Bengio 組織的本年度的深度學習暑期學校（Deep Learning Summer School 2016）的學習內容的總結，機器之心在本月初的時候已經對該課程所學的內容進行了一番梳理（可參閱：《Yoshua Bengio 組織深度學習暑期班，你想見的一流學者和熱門課程都來了（附17個課程PPT）》）。此外，此次暑期學校的教學視頻網上已經公開，分為 Invited Talks 和 Contributed Talks 兩部分，點擊「閱讀原文」可查看學習視頻網址。

Invited Talks

Contributed Talks

課程學習總結

兩周前我參加了 Yoshua Bengio 和 Aaron Courville 在蒙特婁組織的深度學習夏季學校（deep learning summer school）。下面是對我所學內容的總結。本文從基本的概念開始，繼而會深入到更高級的主題。

1.正則化的本質

機器學習／深度學習中用到的兩個有名的正則化（regularization）是 L2 （維持 L2 在束縛權重上的標準，產生非稀疏的權重集，即不相關特性的權重很小但不為零）和 L1 （產生稀疏權重集，計算成本比 L2 高）。它們有助於調整假設的複雜性，舉例來說，如果假設的方差很高（過擬合），它們就能幫助緩解這個問題。從貝葉斯（Bayesian）的視角來看，L2 正則化等同於一個權重的圓形高斯先驗（circular Gaussian prior）。 L1 正則化同等於一個雙倍指數型先驗（double exponential prior）。注意正則化只能用於權重，而不能用於偏置。其它有助於更高質量生成的正則化技術有 dropout [Hinton et al, JMLR 2014] ，或為監督訓練的初始化使用非監督訓練，比如說，用受限玻爾茲曼機（RBM）初始化自動編碼器的權重，這在論文［Hinton & Salakhutdinov, Science 2006］中有相關解釋。通常在實際中，使用一個帶有正則化（如：注入噪聲）的大模型比使用沒有正則化的小型全參數模型（fully parametric model）效果更好。

2. 我們為什麼需要多個神經元？

單個神經元只能解決一個可以線性分割的問題，比如與（ AND）運算。它無法解決不可以線性地分割的問題，比如異或（XOR）運算。不過如果我們能更好的表示輸入數據，它也能進行異或運算。舉個例子，可以對輸入數據進行非線性轉換，如果輸入是 x1 和 x2，用單一神經元也可以解出 XOR( y1, y2)，只要我們讓 y1 = AND(NOT(x1),x2) 並且 y2 = AND(x1,NOT(x2))。

3.應該為神經元選擇什麼樣的非線性？

選擇非線性的經驗規則總是以 ReLU （整流線性單元）開頭的。它能減少反向傳播的計算複雜程度，通常還會引起神經元的稀疏激活（sparse activations）。ReLU 中 0 上的不可微分點並不是一個問題（次梯度（sub-gradient）能解決這個問題）。問題是：在不同層中用不同的非線性是不是個好主意呢？到現在還沒有成功過。除非如果我們想把一些結構放在輸出中，比如注意機制（attention mechanism）。

4.訓練一個神經元網絡的實用小建議

初始化：為了打破對稱性（symmetry），我們可以使用隨機初始化，例如 [Glorot & Bengio, 2010]

超參數選擇：（a）：用網格搜索：即試驗超參數的所有可能配置。這種方法計算成本很高。（b）用隨機搜索 [Bergstra & Bengio, 2012]，即在每個超參數值上列舉一種分布，然後從中取樣。（c）:貝葉斯優化 [Snoek, et al, NIPS 2012]，得到超參數所需要的猜測數量更少。

提前終止（Early stopping）：因為零成本，所以儘量經常用。

驗證集選擇：這個非常重要。驗證集應該要足夠大，這樣模型才不會在驗證集上過擬合。這種類型的過擬合也取決於我們在一個驗證集上運行了多少次驗證測試。

歸一化（Normalization）：對於真正有價值的數據，歸一化能加速訓練。

學習率：從一個高學習率開始，然後使其衰減或者使用有自適應學習率的方法，比如 Adagrad, RMSprop 或 Adam。

梯度檢查：非常有助於反向傳播算法實現的調試。我們只需簡單地把梯度和一個與之接近的優先差異相比即可。問題是：那個接近梯度的有限差異能取代反向傳播嗎？不能，因為它在數字上更不穩定。

永遠要確保模型在一個小數據集上過擬合。

如果訓練困難該怎麼辦呢？首先，確保反向傳播的運行沒有漏洞，並且學習率也不會太高。然後，如果它是欠擬合（ underfitting），就使用更好的優化方法、更大的模型等等。而如果它過擬合，就使用更好的正則化，比如，非監督初始化、dropout 等方法。

批歸一化（Batch Normalization）[Loffe & Szegedy, JMLR 2015］：非常有用的技術，更高層的歸一化能進一步提升性能。可以分四步進行：（a）：在應用非線性之前在每個隱藏層上進行歸一化。（b）：在訓練中，為每個 minibatch 計算出均值和標準差。（c）：在反向傳播中，我們應該考慮前向通過過程中的歸一化。也就是說，反向傳播過程中應該進行一個換算和移位運算（shift operation）。換算和移位參數也應該被學習，因為考慮到隱藏層的衍生物也將取決於它們。（d）：在測試時間，全局均值和標準差也被使用了，這裡說的不是為每個 minibatch 計算出的那些。

5. 深度有多重要？

Rob Fergus 很好地解釋了這一點。我們可以通過檢查有 8 個層的 Krizhevsky 卷積神經網絡（CNN）的不同部分來研究深度的重要性，該網絡是在 ImageNet 上訓練的。Krizhevsky 的 CNN [Krizhevsky et al, NIPS 2012] 的架構和在不同層上使用 SVM 的結果在下面的圖片裡［Rob Fergus 的演示中的圖片］：

另一個重要的觀察是，如果我們移除了3，4層（卷積層）和6，7 層（全連接層），表現就會下降到33.5%。

很值得注意的是僅通過加入更多層並不總能提升表現。比如說，僅使用 CIFAR-10 的20層和 56 層的結果在下面的圖片裡［圖片來自 He et al, CVPR 2016］：

同樣的現象也在 ImageNet 上觀察到了，這意味著學習更好的模型並不總是等同於增加更多層。注意上面的問題並不會引起上面的訓練錯誤曲線裡很明顯的過擬合。一個原因也許是網絡更深，當反向傳播中的錯誤信號到達更低層時並沒有那麼重要。為了解決這個問題，殘差網絡（ residual network）被提出［He et al, CVPR 2016］，這種網絡只是簡單的在 CNN 架構上添加了 skip connection。一個例子在下圖中［圖片來自 He et al, CVPR 2016］：

注意，skip connection 是在非線性激活函數之前使用的。

6.哪一個更重要？在底層設計一個更好的特徵提取器，還是在頂層設計一個更好的分類器？

使用一個強大的特徵提取器（如一個 CNN 或針對視覺任務的深度殘差網絡）比在頂部設計分類器重要的多。

7.從圖像資料庫到大數據的演化

下面的圖片總結了從1970年至今的圖像資料庫［圖片來自 Antonio Torralba 的演示］：

8. 卷積生成式對抗網絡

假設我們想找到一個能生成與數據集中樣本相似數據的生成模型（generative model）。比如說，我們想要構建一個能生成類似於 MNIST 或 CIFAR 數據集中的圖片的生成模型。一般來說，這是一個非常困難的任務，因為最大化可能性或其他任務相關方法中涉及到太多棘手的概率計算了。完成這個任務有一個簡練的理念就是生成對抗網絡（GAN），這是由 [Goodfellow et al, NIPS 2014] 提出。在 GAN 中，兩個模型被同時訓練——一個生成模型 (G)和一個鑑別模型（D）。G 生成了一個圖像，而 D 則是一個二元分類器，它把給定圖像分類為數據集（真實數據）的樣本或 G（認為生成的數據）生成的樣本。G 的訓練是為了能最大化 D 犯錯誤的可能性（最小－最大二玩家遊戲）。結果是，訓練結束後，G 能估測出數據的分布。G 為 MNIST 和 CIFAR-10 生成的某些樣本圖片在下圖中（圖片來自於 [Goodfellow et al, NIPS 2014]）：

在 [Radford et al, ICLR 2016] 中提出了一種卷積神經網絡的形式，它在對抗訓練上比其它方法更穩定。GAN 的其他相關參考有《Adversarial examples in the physical world(http://arxiv.org/abs/1607.02533)》、《Improved techniques for training GANs(http://arxiv.org/abs/1606.03498)》，《Virtual adversarial training for semi-supervised text classification (http://arxiv.org/abs/1605.07725)》。它們甚至還被用來生成新的 Pokemon GO 物種呢！

9. 用哪個深度學習工具包呢？

並沒有什麼是萬能的！這取決於目標任務和應用。下圖是一個來自 Alex Wiltschko 展示中的對比圖：

這裡還有一個很好的 Caffe、CNTK、TensorFlow、Theano 和 Torch 的對比圖，更多信息詳見 Kenneth Tran 的這篇文章：https://github.com/zer0n/deepframeworks

10.循環神經網絡搜索的新進展有哪些？

循環神經網絡（主要是 LSTM 和 GRU ）最近取得了很大的成功，主要用於序列到向量（如：句子嵌入 [Palangi et al, 2015]）、序列到序列（seq2seq）（如：機器翻譯）[Sutskever et al, 2014], [Bahdanau et al, 2014]）、以及向量到序列（如：圖片加字幕[Vinyals et al, 2014]）的轉換。由於消失/爆炸梯度問題，vanilla RNN 還不能很成功實現長期依賴性（long term dependency）。不過，在無限時間訓練（這是不切實際的）的限度內，vanilla RNN 最終能學到長期依賴性。下圖列出了最近有關 RNN 的成果，它在 Yoshua Bengio 關於 RNN 的演講中吸引了我的注意：

假設我們想用 LSTM 訓練一個神經語言模型（neural language model ）。我們的基本任務是根據之前的詞語預測下一個詞語，為此我們要用成本函數（cost function）把複雜度最小化。在訓練過程中，我們給模型送入所有「真實的」前面的詞，然後用它們預測後面的詞。但在推理過程中，我們把所有「預測出的」前詞送入模型並用它們預測出下一個詞。為了解決這種訓練和推理的不協調性， [Bengio et al, 2015]提出了一種方法：在訓練時使用來自模型之前生成的詞語一種弱監督。這帶來了性能的大幅提升。

[Wu et al, 2016]提出了用 RNN 進行的乘法集成（Multiplicative integration）。這種方法的主要思想是用 RNN 的 Hadamard 積（product）代替和（summation）。這種簡單的修正會在很大程度上改進性能，這在前面提到的文獻中有所證明。

如何理解和測量一個給定 RNN 模型的架構複雜性？在 [Zhang et al, 2016]中，提出了三種測量：(c.1)：循環深度(recurrent depth )（被序列長度分開的最長路徑的長度），(c.2): 前饋深度（feedforward depth）（從輸入到最近輸出路最長路徑的長度）和 (c.3): 跳躍係數（skip coefficient ）（被序列長度分開的最短路徑的長度）。

像素 RNN（Pixel RNN）（ICML 2016 最佳論文獎）［ Oord et al, 2016］：這項工作提出了一種對自然圖像的概率分布建模的方法。主要思想是把輸入圖片的概率分布分解到條件概率的乘積中。為了做到這點，他們提出了一個 Diagonal BiLSTM 單元，它能有效地抓住圖像（見此論文的 Fig. 2）中整個可用的環境（現有像素點之上的所有像素點）。這個架構也使用了殘差跳躍連接（residual skip connection）。它在對數概率方面的性能表現達到了目前的最高水準。下圖是這個在 ImageNet 上訓練的模型所生成的自然圖像數量：［圖片來自 Oord et al, 2016］

11. 所有問題都能映射成 y=f(x)嗎?

不能！單一 y=f(x) 不能做到的任務例子有：（a）：完形填空式的問答，任務是閱讀並理解一段文本文件（比如書之類的）然後回答相關問題。（b）：給出一段文本，任務是添補空白的地方。（c）：聊天機器人。

Sumit Chopra 在演說中很好地解釋了這個問題，這種模型需要：(a)：記住外部環境上下文。（b）：給定一個輸入，模型需要知道在上下文的什麼地方尋找。（c）：在上下文中尋找什麼。（d）：如何用外部上下文推理。（e）：這個模型應該也能應付一個變化的下上文環境。

因此，引入一個抓住外部上下文的記憶概念是很重要的。一項提議是使用 RNN 的隱藏態作為記憶。比如，在上下文中（書、文本文件等）運行一個 RNN 並得到它的表徵，然後將這個表徵映射到需要回答的問題。這種方法有兩個問題： (a): 它不能進行擴展。(b) 一個 RNN 的隱藏態既是記憶也是記憶控制器的思路並不合適。我們應該把二者分開。

一個記憶網絡（memory network） [Weston et al, 2015] 的主要思想就是分離記憶控制器和記憶本身。也就是說，它把一個大的記憶和一個能讀寫這個記憶的學習成分結合到了一起。

記憶網絡在問答（QA）任務中比 LSTM 的表現更好，但二者在語言建模任務中的表現差別不大。一個原因可能是對於語言建模任務我們不需要太長期的相關性，相比於問答和對話相關任務。現有記憶網絡的一個缺點是沒有記憶壓縮。如果記憶空間滿了，它們就只能再循環。

12. Jeff Dean 展示的用 TensorFlow 進行大規模深度學習

一般地，在一個機器學習系統中令人滿意的重要特徵有（來自 Jeff Dean 的展示）：（a）：對很多機器學習算法的表達緩解。（b）：可伸縮性：能快速運行實驗。（c）：可移植性：這樣我們就能在多個平臺上運行試驗了。（d）：可重複生成性：有助於分享和再次生成搜索。（e）：產物可讀性：從搜索到真實產物。

TensorFlow (TF) 是在仔細考慮到以上特徵的情況下設計的。TF 其他值得注意的地方有： (a): TF 的核心是 C++，因此日常維護花費很低。（b）：TF 系統自動決定 CPU 或 GPU 上應該運行哪個運算。這通常會有助於大幅提升實驗時間。（c）：谷歌第一代規模化的深度學習系統，即 DistBelief [Dean et al, NIPS 2012] ，在搜索上沒有 TF 那麼靈活。DistBelief 有分開的參數伺服器，即參數伺服器的分離代碼 v.s. 系統的其餘部分，導致了不一致性，和其他複雜的系統。（d）：TF 會話接口是允許「擴展」的，這可以被用來在計算圖上加標註，在運行完全計算圖（computation graph）之外的「運行」也可以被用來運行計算圖的任意一個子圖（subgraph）。（e）：問題：TF 如何讓分布式訓練變的容易呢？它用了模型並行化（在不同機器間分隔模型）和數據並行化。在 TF 中，對單一的設備模型代碼進行最小的改變就表達出兩種類型的並行化是很容易的事情。（f）： TF 能照顧到設備/圖的配置。也就是說，給定一個計算圖和一組設備， TF 允許用戶決定哪個設備執行哪個節點。

13 .統計型語言建模的歷史？

統計型語言建模（Statistical language modelling）的核心思想就是找到一個句子出現的可能性有多大。我們一般把語料庫中句子的對數概率（ log probabilities）最大化。然而在 90 年並不是每個人都知道這點（Brown et al, 1990 論文中的觀點）：

他寫道「對 MT（機器翻譯）的統計方法的有效性確實已被認識到了…….最早是在1949年。然後在1950年被普遍認為是錯誤的. 計算機原始的驅動力並不是科學。」

14. 非參化語言建模（如 n-gram）的問題是什麼？

n-gram 語言建模，基本上就是從一個大語料庫（即記數的）中收集 n-gram 的統計資料。這種方法的問題有：(a): 錯誤條件獨立假定：因為在一個 n-gram 語言模型中，我們假設每個單詞只在之前的 n-1 個詞上是有條件的。（b）：數據稀疏：意味著如果某些詞語的同現從未在訓練集上被觀察到，它的概率就會被置零，從而導致整個句子（的概率）都為零。這個問題一般的解決辦法就是平滑化和回退。（c）：缺乏域之間的泛化。

舉例來說，一個 n-gram 語言模型也許會在句子「The dogs chasing the cat bark」上失敗。tri-gram 可能性 P (bark | the, cat)非常低（模型沒有在一個自然語言語料庫中觀察到這種句式，因為貓不會發出狗叫聲（bark）而且複數動詞「bark」出現在了單數名次「cat」之後），但整個句子是有意義的。

15.有參的和自然語言建模

自然語言模型的基本思想是創造出一個連續的空間詞語表達，並用於語言建模。比如說，在[Bengio et al 2003]中，一個頂部帶有 softmax 層的前饋神經元網絡（ feedforward neural network ）被用於語言建模，如下圖所示（圖片來自Kyunghyun Cho 的展示）：

自然語言建模有一個更好的選擇，RNN (LSTM, GRU, …) 或者記憶網絡，這在複雜度方面能把性能提升到現有最高水準。具體例子可參見 Jozefowicz et al 在2016年的論文「Exploring the Limits of Language Modelling" by Jozefowicz et al, 2016」。下圖表示了一個非摺疊 vanilla RNN 語言模型的簡單示例，模型能讀取輸入數據、更新隱藏狀態的表徵並預測出下一個詞是什麼（圖片來自 Kyunghyun Cho 的展示）

16.字符級別的神經機器翻譯

機器翻譯的任務是在給定源語言句子的基礎上，生成目標語言的句子。在神經元機器翻譯（NMT）中，一個 RNN (LSTM, GRU, 等) 被用來把源句子編譯到一個向量中，再用另一個 RNN 把這個來自編譯器的向量解碼成一個目標語言的詞語序列（序列到序列學習）。見下圖（圖片來自 Kyunghyun Cho 的展示）：

以上的模型可以改進，如果我們用一個基於注意力的解碼器［Bahdanau et al, ICLR 2015］。計算出一個注意力權重集，然後使用解碼器中解碼器的注釋向量的加權和。這種方法允許解碼器自動關注源句子中與每個目標詞的預測相關的部分。這在下面的圖片中有所顯示（圖片來自 Kyunghyun Cho的展示）：

以上模型的主要問題是它們用詞語作為語言的基本單元。比如，「run」、「runs」、「ran」和「running」都來自同一個詞位「run」。但上面的模型卻給它們分配了四個獨立的向量。把一個句子分割成詞語並不總是那麼容易。問題在於，我們能用字符級別的 NMT 解決這個問題嗎？在 [Chung et al, 2016]中證明了，字符級別的 NMT 工作起來效果出乎意料的好。同樣值得注意的是，一個RNN 會自動把一個字幕序列進行隱式分割。例子可參見下面的示範（圖片來自 Kyunghyun Cho 的展示）：

17.為何選擇生成模型？

Shakir Mohamed 在演說中很好的解釋了這點，我們需要生成（Generative models ）模型，這樣就能從關聯輸入移動到輸出之外，進行半監督分類（ semi-supervised classification）、數據操作（ semi-supervised classification）、填空（filling in the blank）、圖像修復（ inpainting）、去噪（ denoising）、one-shot 生成 [Rezende et al, ICML 2016]、和其它更多的應用。下圖展示了生成式模型的進展（注意到縱軸應該是負對數概率）［圖片來自 Shakir Mohamed 的展示］：

18.生成式模型有哪些不同類型？

（a）：全觀察模型（Fully Observed Models）：模型在不引入任何新的非觀察局部變量的情況下直接觀察數據。這類模型能夠直接編譯觀察點之間的關係。對於定向型圖模型，很容易就能擴展成大模型，而且因為對數概率能被直接計算（不需要近似計算），參數學習也很容易。對於非定向型模型，參數學習就困難，因為我們需要計算歸一化常數。全觀察模型中的生成會很慢。下圖展示了不同的全觀察生成模型［圖片來自Shakir Mohamed的展示］：

（b）：變換模型（ Transformation Models）：模型使用一個參數化的函數對一個非觀察噪音源進行變換。很容易做到(1):從這些模型中取樣 (2):在不知道最終分布的情況下僅算期望值。它們可用於大型分類器和卷積神經元網絡。然而，用這些模型維持可逆性並擴展到一般數據類型就很難了。下圖顯示了不同的變換生成模型［圖片來自Shakir Mohamed的展示］：

（c）：隱變量模型（ Latent Variable Models）：這些模型中引入了一個代表隱藏因素的非觀察局部隨機變量。從這些模型中取樣並加入層級和深度是很容易的。也可以使用邊緣化概率進行打分和模型選擇。然而，決定與一個輸入相聯繫的隱變量卻很難。下圖顯示了不同的隱變量生成模型［圖片來自Shakir Mohamed的展示］：

✄---

加入機器之心（全職記者/實習生）：hr@almosthuman.cn

投稿或尋求報導：editor@almosthuman.cn

廣告&商務合作：bd@almosthuman.cn

點擊閱讀原文，觀看授課視頻↓↓↓

重磅 Yoshua Bengio深度學習暑期班學習總結,35個授課視頻全部開放(附觀看地址)

相關焦點

重磅|Yoshua Bengio 組織深度學習暑期班,你想見的一流學者和熱門課程都來了(附17個課程PPT)

Yoshua Bengio等大神傳授:26條深度學習經驗

Yoshua Bengio最新《深度學習》MLSS2020教程,附104頁PPT及視頻

Bengio主辦 ‖ 2017蒙特婁大學DL+ML暑期班課程(視頻)

【Yoshua Bengio】走向因果表示學習,附論文、視頻與72頁ppt

Bengio親自授課,還有伯克利、劍橋、牛津大牛

Bengio、Sutton的深度學習&強化學習暑期班又來了,2019視頻已放出

深度學習大神Yoshua Bengio經典前瞻演講,幫你打通深度學習的任督...

人工智慧領跑者Yoshua Bengio推出了深度學習的孵化器Element AI

2020 AAAI Fellow 出爐,Yann Lecun、Yoshua Bengio 入選

Yoshua Bengio教授獲得加拿大總督功勳獎,Yann LeCun發來賀電

大咖 | 專訪Yoshua Bengio:如何高效建立和運營一家機器學習實驗室?

Yoshua Bengio, Yann LeCun, Geoffrey Hinton 獲 2018 年圖靈獎

硬核暑假要學習:Imperial College London開放ML暑期課程視頻

李開復對話Yoshua Bengio:構建AI與人類社會的良性循環

深度學習三巨頭之一的Yoshua Bengio清華大學講座視頻,絕對值得一看!

李宏毅機器學習 2019 重磅上線,完整視頻和作業已放出!

Yoshua Bengio 經驗分享:如何做好學術研究?如何管好實驗室?

Yoshua Bengio:注意力是「有意識」AI的核心要素

圖靈獎得主Yoshua Bengio談5G、中美爭端以及錯誤的ICML最佳論文