獨家 Yoshua Bengio研究生科研指導演講:解讀人工智慧全貌和下一個前沿

2021-02-13 機器之心

近期，Yoshua Bengio 在加拿大多倫多大學 Distinguished Lecture Series 面向計算機及工程方向的碩博研究生進行了一次題為「從深度學習到人工智慧（From Deep Learning to AI）」的學術研究方向指導講座，機器之心技術分析師 Joshua Chou 親歷了這個講座，並對其中的關鍵內容進行了梳理和總結。

1. 引言

幾經波折之後，人工智慧終於要來了；它將給我們的社會帶來巨大的變革，甚至可能會引發一場新的產業革命。毫無疑問，機器正變得越來越智能，而在這一次智能革命的中心，由大腦所啟發的深度學習正在扮演著極其重要的角色。

我很高興能夠參加 Bengio 教授的演講，並且希望能夠將他傳遞給學生的觀點再分享給更多的人。這篇文章中的一些材料來自其演講所引用的論文，儘管我沒有足夠的時間仔細閱讀所有這些論文，但我將盡我所能給出這些論文的概述以及它們與這個演講的關聯。

2. 深度學習領域的突破

首先值得一提的是，多虧了加拿大高等研究院（CIFAR）的不懈努力，深度學習領域內的很多突破都誕生在了加拿大這片土地上。過去十年來，CIFAR 一直在給許多教授的團隊提供資助，其中包括多倫多大學的 Geoffrey Hinton 教授、紐約大學 Yann LeCun 教授和這一次的演講者、蒙特婁大學的 Yoshua Bengio 教授。今天，深度學習科學家已經找到了訓練更深度的神經網絡的方法。但在此之前，科學家們還嘗試過很多不成功的訓練方法，而不成功的原因則是那時候人們對訓練更深度的神經網絡還缺乏了解。事實證明，深度（depth）問題是很重要的，深度學習也由此得名——而它本質上是之前十年在神經網絡之上的研究的延續。

深度學習的每一個典型案例都涉及到分段非線性單元（piecewise non-linear unit），這一成果是在多倫多大學和蒙特婁大學的研究成果之上不斷積累得到的。這些成果表明，我們可以使用這種分段非線性變換（piecewise non-linear transformation）來訓練比之前遠遠更深的神經網絡。

過去幾年裡，這一重要的研究結果為我們帶來了語音識別等應用（第一款產業界的語音識別應用出現在 2010-2012 年之間）。到 2012 年的時候，只要你有一臺安卓手機，你就有了一個可以為你進行語音識別的神經網絡（「okay Google」）！

另一個遠遠更大的領域是計算機視覺，它也在一兩年之後實現了應用。同樣，來自多倫多大學的研究突破也發揮了重要的作用，這些研究將之前的很多思想都集中了起來，並且還帶來了更大的改進。這些改進不僅僅是在算法上，而且也涉及到藉助硬體的進步來實現更快的計算處理。比如說，研究者發現最初為圖形和視頻遊戲處理所設計的 GPU 碰巧非常適合用來訓練神經網絡；幾年之後，史丹福大學教授李飛飛啟動了 ImageNet 數據集項目，該數據集帶有大量有標註的數據，已經幫助許多研究者和開發者實現了很多深度學習應用。

目前來說，深度學習主要還是基於監督學習（supervised learning），並且還需要數百萬有標註的圖像來進行訓練。實際上，我們可以看到在過去的四五年裡，這些深度神經網絡的準確度一直在不斷提升（了解更多可參閱論文《ImageNet Classification with Deep Convolutional Neural Networks (Sutskever, Hinton, Krizhevsky)》）。

3. 用機器學習實現人工智慧的關鍵要素

要讓機器學習系統接近人類水平的表現，我們通常需要一些關鍵的要素。

首先，你需要大量乃至巨量的數據。為什麼呢？因為智能意味著正確地決策；而為了做出正確的決策，你需要知識。研究者所面臨的一個核心問題就是如何好好使用知識。這個世界很複雜，如果要讓機器理解世界的水平達到人類同樣的程度，那麼我們就將需要給機器描述大量的知識。為此，我們需要通過大量的數據來訓練機器，從而使其能夠以一種類似於人類能力那樣微妙的方式來進行理解。

其次，為了利用數據，模型還必須要足夠靈活。（許多傳統的統計模型僅僅是將數據編譯成不同的參數集合，這樣的模型是很死板僵硬的。）

第三，為了訓練機器，我們還需要大量的算力，這方面我們早就實現了。

第四，關於神經網絡還有一個更加微妙的細節：一旦你訓練好了一個神經網絡，你就可以非常高效地使用它，而且僅需要非常少的計算。

最後，另一個重要的要素是這個世界中已有的假設，它們可以被看作是我們訓練的先驗知識，它們非常強大，足以應對「維度災難（curse of dimensionality）」。維度災難是這樣一種情況：當存在大量的變量時，配置（configuration）的數量也將隨之指數級增多；因此我們只能針對大多數配置尋找正確答案，而不是針對所有的配置。

在後面的章節中，我們將重點關注最後一個要素。

4. 學習中的維度

主要的假設本質上都是關於組合的世界的假設，它們內建於深度網絡之中——這解釋了深度網絡的表現如此良好的原因。我們認為知識生成來自於我們將碎片組合起來的過程，而我們推導給定的答案也是通過將碎片化的信息構建到一起。比如說，語言就有這樣的性質——我們定義語言中的每一個概念都是通過組合已有的概念進行定義的。而在之前的機器學習領域，這還是無法實現的。

更確切來說，在深度網絡上，我們有兩種實現組合性（compositionality）的方式。其中一種可被看作是一種並行的方法，而另一種則是序列式的方法。人類可以並行地選擇不同的概念來進行組合，然後以非並行的方式來描述世界。這就是分布式表徵（distributed representation）的理念，這意味著每一個對象都會被許多屬性（這在神經網絡中被稱為特徵（feature））描述，而這些屬性配置的數量將會隨屬性數量的增長而指數式地暴增。序列式的方法則必須涉及到這一事實：當我們將在並行步驟中所獲得的結果組合起來時，我們每一次都要執行一個運算序列（sequence of operations）（可以將這看作是神經網絡中的多層面特徵學習）。

5. 非分布式表徵（Non-distributed Representations）

這只是 Bengio 教授在深入到分布式表徵之前所給出的一個例子。

許多機器學習算法工作的方式都是獲取一個輸入空間（input space），然後將其分解成一個決策樹（decision tree）（想一想在一些 n 維空間中分隔點的超平面）。對於該決策樹中的每一個區域，我們都有一個來自構成那片區域的樣本的答案（值得注意的一個重點是：可區分的區域的數量與參數的數量成正比）。很多人在很多時候會認為這是一個解決問題的好辦法，但我們還能做到更好嗎？

6. 對分布式表徵的需求

從統計學的角度來看，需要了解的一個重要問題是參數的數量（或樣本的數量）與可區分的區域（這能給我們提供關於其函數複雜度的見解）之間的關係。在這裡，我們需要思考一個重要的問題：我們可以泛化到我們從未見過其中任何數據的區域嗎？在這種情況下，答案是否定的。我們需要看到每一個區域的數據，因為每一個區域的參數都是特定的（對於每一個區域而言，都存在一個單獨的參數集，其中至少有一個參數能告訴你答案對應於哪一個區域）。

當我們使用分布式表徵時，我們的做法是給每一個輸入都匹配一個屬性集合。然後我們定義以組合式的方式獲得的輸入空間的區域。比如說，讓該屬性參數屬於一個二元集。對於每一個屬性，我們都可以將其看作是能夠將一個空間分隔為兩個區域的超平面。其中一個區域對應的屬性值為 1，另一個區域對應 0。由此，可以很容易理解當屬性（超平面）的數量增長時，可區分的區域數量將隨之指數式的增長。

現在的問題是我們希望學習的功能能否通過這種方式進行分解？

這裡的竅門在於我們會對這個世界進行假設。幸運的是，這個世界是組合式的，因此也遵循這一假設。比如以圖像作為輸入為例，你可以思考一下與這張圖像相關的屬性向量——是關於男性/女性、杯子/不是杯子、孩子/成年人……你可以使用這些屬性向量描述很大圖像集，而我們無法獲得這個數量的用於學習的樣本。但是，如果我們將這個空間分隔成可區分的區域，我們就可以分別從這些屬性中學習。總的來說，在無需涉及其它特徵而導致的指數級配置增長的情況下，每一種特徵都可以被學習到。

7. 深度的先驗知識（Depth Prior）可以發揮巨大的作用

如果你使用了一個足夠深的神經網絡，那麼你確實可以有效地表徵一些類型的功能；但是大多數功能使用深度網絡也沒有優勢。如果你希望學習的功能落在這個非常嚴格的組合式類型範圍內，那麼你就能通過深度網絡獲得巨大的好處。有很多論文都說明了，除了分布式表徵之外，你也可以有很多的層（layer），當我們計算區域的數量時，我們也可以看到區域的數量會隨層的數量指數級地增長。

8. 並不需要凸性

在過去，研究者真的會害怕局部極小值（local minima）的麻煩。

關於這一主題的一篇論文《The Loss Surfacesof Multilayer Networks (by Choromanska et al. 2015)》通過實驗表明：隨著問題的維度的增長，你的解決方案的損失（loss）的變化會減少。所以基本上來說，在最佳方案和最差方案之間的差距會縮小，而你所有的局部極小值都將最終變得差不多一樣。所以非最優解決方案（non-optimal solution）的思想已經差不多一去不復返了，因為人們並沒有真正解決這個問題，而只是將其變成了一個非問題（non-issue）。

這個觀點本質上是來自於這樣一種直覺上經驗：局部極小在低維度條件下是最佳的，但鞍點（saddle point）主導了高維。你可以這樣思考：任意一個所有方向都是上升的局部最優（鞍）點隨維數指數級變小。

9. 超越模式識別、走向人工智慧的深度學習

神經網絡正在從其傳統的保留地（目標識別、模式識別等）走向傳統上與標準人工智慧相關的領域（推理、邏輯等）。在這一運動中，Bengio 領導的研究組曾經發現了一種被稱軟注意（soft attention）的機制。

10. 深度學習的注意機制

這個最好通過一個例子來解釋。當我們在從左向右一次翻譯一個詞地將法語翻譯成英語的時候，如果能夠注意到每個詞在原法語句子中的位置，那麼就會給我們的翻譯結果提供很大的幫助；因為在一個句子中，一個詞可能會給其後面的詞帶來很大的影響。事實已經證明，這種注意（attention）的概念是很重要的。會出現這種情況的原因是我們使用了反向傳播。我這麼說是因為我們使用了涉及參數的一些損失函數的梯度，我們需要所有的計算都是可微分的（你可以將其看作是可微分的注意）。因此，除了注意特定的位置，我們還在每一個可能的位置上有一個概率（其對應於權重）。所以當我們根據梯度改變權重時，我們本質上只是將注意轉移到了另一個地方（參見論文《Neural Machine Translation by Jointly Learning to Align and Translate（Bahdanau, Cho, Bengio）》了解更多。）

11. 深度網絡的低精度訓練

為了讓我們的算法對更多的硬體友好，有很多的研究者做了很多的工作。其中首要的努力方向是在訓練深度網絡時使用更低的精度。這個方向的研究涉及到通過低精度的訓練來實現更高準確度的神經網絡，這能讓我們可以在更大型的數據集上訓練更大型的網絡。Bengio 引述的一篇論文討論了訓練的那個部分應該被削減以維持高準確度。我發現（一個通用的經驗法則）：除了任何我們希望保持高精度累積計算（accumulation computations），其它所有部分（權重、梯度等）差不多都可以被削減掉（參見 Guptaet al, arXiv, Fec. 2015 了解更多細節）。

對於閱讀這篇來自 Courbariaux, David, and Bengio 的 NIPS 2015 論文（探索了我們可以如何 quantize 激活（activation）的方法），這裡給出一個簡單的備註。一旦你運行完了加權和（weighted sum），然後你執行非線性，你就會得到一個實數。我們需要將其 quantize 到幾個比特。如果我們可以做到這一點，我們就能獲得巨大的增益，因為我們避免了乘法和加法！這篇論文提到這項研究仍然還在進行中，但結果仍然差強人意。

12. 下一個艱巨挑戰：無監督學習

目前，深度學習領域內的大部分成功都是在監督學習領域，而這個領域的學習需要多得驚人的有標籤樣本。但是，只要機器還是僅依賴表面的統計規律進行學習，它們就無法應對樣本分布之外的數據。要實現人類水平的學習，機器就必須要能歸納出關於基本因果關係的更加精準的內在模型。這能讓該機器預測未在任何數據中見過的未來情形，而這正是推理、智能和科學的關鍵組成部分。無監督學習應該會成為深度學習領域內的下一個焦點。

13. 結語

這個演講的關鍵點也是機器學習基礎的關鍵要素。尤其是通過分布式表徵對組合函數（compositional functions）的有效表徵，分布式表徵已經極大地提升了學習過程。

另一點是硬體友好的機器學習算法的開發。低精度訓練這樣的機制讓我們可以在更大型的數據集上學習更大型的神經網絡。

最後，深度學習的下一步是無監督學習。這個領域的潛在價值是能讓我們真正用上海量的無標籤數據、回答關於被觀察到的變量的新問題、遷移學習（領域適應，其中機器可以在無需給定模型和領域的情況下學習）和更加結構化的輸出（比如翻譯）。

Bengio 的這次演講談到了很多有趣的主題，我希望這篇概述分享能夠引起你的關注，也希望你能從中有所收穫。

✄---

加入機器之心（全職記者/實習生）：hr@almosthuman.cn

投稿或尋求報導：editor@almosthuman.cn

廣告&商務合作：bd@almosthuman.cn

獨家 Yoshua Bengio研究生科研指導演講:解讀人工智慧全貌和下一個前沿

相關焦點

Yoshua Bengio教授獲得加拿大總督功勳獎,Yann LeCun發來賀電

人工智慧領跑者Yoshua Bengio推出了深度學習的孵化器Element AI

深度學習大神Yoshua Bengio經典前瞻演講,幫你打通深度學習的任督...

2020 AAAI Fellow 出爐,Yann Lecun、Yoshua Bengio 入選

【Yoshua Bengio】走向因果表示學習,附論文、視頻與72頁ppt

大咖 | 專訪Yoshua Bengio:如何高效建立和運營一家機器學習實驗室?

圖靈獎得主Yoshua Bengio談5G、中美爭端以及錯誤的ICML最佳論文

李開復對話Yoshua Bengio:構建AI與人類社會的良性循環

Yoshua Bengio清華最新演講:深度學習AI邁向人類水平還面臨這些挑戰(內含PPT及講座錄音)

圖靈獎之後,Yoshua Bengio再獲全球級榮譽:入選英國皇家學會會士

Yoshua Bengio, Yann LeCun, Geoffrey Hinton 獲 2018 年圖靈獎

Yoshua Bengio最新《深度學習》MLSS2020教程,附104頁PPT及視頻

Yoshua Bengio:注意力是「有意識」AI的核心要素

Yoshua Bengio 經驗分享:如何做好學術研究?如何管好實驗室?

深度學習三巨頭之一的Yoshua Bengio清華大學講座視頻,絕對值得一看!

Yoshua Bengio等大神傳授:26條深度學習經驗

重磅 Yoshua Bengio深度學習暑期班學習總結,35個授課視頻全部開放(附觀看地址)

探討如何構建AI學術研究和產業落地的橋梁

約書亞·本吉奧Yoshua Bengio名著DeepLearning中文版介紹、目錄、前言

Bengio親自授課,還有伯克利、劍橋、牛津大牛