獨家 Yoshua Bengio研究生科研指導演講:解讀人工智慧全貌和下一個前沿

2021-02-13 機器之心

近期,Yoshua Bengio 在加拿大多倫多大學 Distinguished Lecture Series 面向計算機及工程方向的碩博研究生進行了一次題為「從深度學習到人工智慧(From Deep Learning to AI)」的學術研究方向指導講座,機器之心技術分析師 Joshua Chou 親歷了這個講座,並對其中的關鍵內容進行了梳理和總結。

1. 引言

幾經波折之後,人工智慧終於要來了;它將給我們的社會帶來巨大的變革,甚至可能會引發一場新的產業革命。毫無疑問,機器正變得越來越智能,而在這一次智能革命的中心,由大腦所啟發的深度學習正在扮演著極其重要的角色。


我很高興能夠參加 Bengio 教授的演講,並且希望能夠將他傳遞給學生的觀點再分享給更多的人。這篇文章中的一些材料來自其演講所引用的論文,儘管我沒有足夠的時間仔細閱讀所有這些論文,但我將盡我所能給出這些論文的概述以及它們與這個演講的關聯。

 

2. 深度學習領域的突破


首先值得一提的是,多虧了加拿大高等研究院(CIFAR)的不懈努力,深度學習領域內的很多突破都誕生在了加拿大這片土地上。過去十年來,CIFAR 一直在給許多教授的團隊提供資助,其中包括多倫多大學的 Geoffrey Hinton 教授、紐約大學 Yann LeCun 教授和這一次的演講者、蒙特婁大學的 Yoshua Bengio 教授。今天,深度學習科學家已經找到了訓練更深度的神經網絡的方法。但在此之前,科學家們還嘗試過很多不成功的訓練方法,而不成功的原因則是那時候人們對訓練更深度的神經網絡還缺乏了解。事實證明,深度(depth)問題是很重要的,深度學習也由此得名——而它本質上是之前十年在神經網絡之上的研究的延續。

深度學習的每一個典型案例都涉及到分段非線性單元(piecewise non-linear unit),這一成果是在多倫多大學和蒙特婁大學的研究成果之上不斷積累得到的。這些成果表明,我們可以使用這種分段非線性變換(piecewise non-linear transformation)來訓練比之前遠遠更深的神經網絡。

過去幾年裡,這一重要的研究結果為我們帶來了語音識別等應用(第一款產業界的語音識別應用出現在 2010-2012 年之間)。到 2012 年的時候,只要你有一臺安卓手機,你就有了一個可以為你進行語音識別的神經網絡(「okay Google」)!

另一個遠遠更大的領域是計算機視覺,它也在一兩年之後實現了應用。同樣,來自多倫多大學的研究突破也發揮了重要的作用,這些研究將之前的很多思想都集中了起來,並且還帶來了更大的改進。這些改進不僅僅是在算法上,而且也涉及到藉助硬體的進步來實現更快的計算處理。比如說,研究者發現最初為圖形和視頻遊戲處理所設計的 GPU 碰巧非常適合用來訓練神經網絡;幾年之後,史丹福大學教授李飛飛啟動了 ImageNet 數據集項目,該數據集帶有大量有標註的數據,已經幫助許多研究者和開發者實現了很多深度學習應用。

目前來說,深度學習主要還是基於監督學習(supervised learning),並且還需要數百萬有標註的圖像來進行訓練。實際上,我們可以看到在過去的四五年裡,這些深度神經網絡的準確度一直在不斷提升(了解更多可參閱論文《ImageNet Classification with Deep Convolutional Neural Networks (Sutskever, Hinton, Krizhevsky)》)。

 

3. 用機器學習實現人工智慧的關鍵要素

要讓機器學習系統接近人類水平的表現,我們通常需要一些關鍵的要素。

首先,你需要大量乃至巨量的數據。為什麼呢?因為智能意味著正確地決策;而為了做出正確的決策,你需要知識。研究者所面臨的一個核心問題就是如何好好使用知識。這個世界很複雜,如果要讓機器理解世界的水平達到人類同樣的程度,那麼我們就將需要給機器描述大量的知識。為此,我們需要通過大量的數據來訓練機器,從而使其能夠以一種類似於人類能力那樣微妙的方式來進行理解。

其次,為了利用數據,模型還必須要足夠靈活。(許多傳統的統計模型僅僅是將數據編譯成不同的參數集合,這樣的模型是很死板僵硬的。)

第三,為了訓練機器,我們還需要大量的算力,這方面我們早就實現了。


第四,關於神經網絡還有一個更加微妙的細節:一旦你訓練好了一個神經網絡,你就可以非常高效地使用它,而且僅需要非常少的計算。

最後,另一個重要的要素是這個世界中已有的假設,它們可以被看作是我們訓練的先驗知識,它們非常強大,足以應對「維度災難(curse of dimensionality)」。維度災難是這樣一種情況:當存在大量的變量時,配置(configuration)的數量也將隨之指數級增多;因此我們只能針對大多數配置尋找正確答案,而不是針對所有的配置。

 

在後面的章節中,我們將重點關注最後一個要素。

4. 學習中的維度

主要的假設本質上都是關於組合的世界的假設,它們內建於深度網絡之中——這解釋了深度網絡的表現如此良好的原因。我們認為知識生成來自於我們將碎片組合起來的過程,而我們推導給定的答案也是通過將碎片化的信息構建到一起。比如說,語言就有這樣的性質——我們定義語言中的每一個概念都是通過組合已有的概念進行定義的。而在之前的機器學習領域,這還是無法實現的。

更確切來說,在深度網絡上,我們有兩種實現組合性(compositionality)的方式。其中一種可被看作是一種並行的方法,而另一種則是序列式的方法。人類可以並行地選擇不同的概念來進行組合,然後以非並行的方式來描述世界。這就是分布式表徵(distributed representation)的理念,這意味著每一個對象都會被許多屬性(這在神經網絡中被稱為特徵(feature))描述,而這些屬性配置的數量將會隨屬性數量的增長而指數式地暴增。序列式的方法則必須涉及到這一事實:當我們將在並行步驟中所獲得的結果組合起來時,我們每一次都要執行一個運算序列(sequence of operations)(可以將這看作是神經網絡中的多層面特徵學習)。

5. 非分布式表徵(Non-distributed Representations)

這只是 Bengio 教授在深入到分布式表徵之前所給出的一個例子。

許多機器學習算法工作的方式都是獲取一個輸入空間(input space),然後將其分解成一個決策樹(decision tree)(想一想在一些 n 維空間中分隔點的超平面)。對於該決策樹中的每一個區域,我們都有一個來自構成那片區域的樣本的答案(值得注意的一個重點是:可區分的區域的數量與參數的數量成正比)。很多人在很多時候會認為這是一個解決問題的好辦法,但我們還能做到更好嗎?

6. 對分布式表徵的需求


從統計學的角度來看,需要了解的一個重要問題是參數的數量(或樣本的數量)與可區分的區域(這能給我們提供關於其函數複雜度的見解)之間的關係。在這裡,我們需要思考一個重要的問題:我們可以泛化到我們從未見過其中任何數據的區域嗎?在這種情況下,答案是否定的。我們需要看到每一個區域的數據,因為每一個區域的參數都是特定的(對於每一個區域而言,都存在一個單獨的參數集,其中至少有一個參數能告訴你答案對應於哪一個區域)。


當我們使用分布式表徵時,我們的做法是給每一個輸入都匹配一個屬性集合。然後我們定義以組合式的方式獲得的輸入空間的區域。比如說,讓該屬性參數屬於一個二元集。對於每一個屬性,我們都可以將其看作是能夠將一個空間分隔為兩個區域的超平面。其中一個區域對應的屬性值為 1,另一個區域對應 0。由此,可以很容易理解當屬性(超平面)的數量增長時,可區分的區域數量將隨之指數式的增長。

現在的問題是我們希望學習的功能能否通過這種方式進行分解?


這裡的竅門在於我們會對這個世界進行假設。幸運的是,這個世界是組合式的,因此也遵循這一假設。比如以圖像作為輸入為例,你可以思考一下與這張圖像相關的屬性向量——是關於男性/女性、杯子/不是杯子、孩子/成年人……你可以使用這些屬性向量描述很大圖像集,而我們無法獲得這個數量的用於學習的樣本。但是,如果我們將這個空間分隔成可區分的區域,我們就可以分別從這些屬性中學習。總的來說,在無需涉及其它特徵而導致的指數級配置增長的情況下,每一種特徵都可以被學習到。

7. 深度的先驗知識(Depth Prior)可以發揮巨大的作用


如果你使用了一個足夠深的神經網絡,那麼你確實可以有效地表徵一些類型的功能;但是大多數功能使用深度網絡也沒有優勢。如果你希望學習的功能落在這個非常嚴格的組合式類型範圍內,那麼你就能通過深度網絡獲得巨大的好處。有很多論文都說明了,除了分布式表徵之外,你也可以有很多的層(layer),當我們計算區域的數量時,我們也可以看到區域的數量會隨層的數量指數級地增長。


8. 並不需要凸性

在過去,研究者真的會害怕局部極小值(local minima)的麻煩。


關於這一主題的一篇論文《The Loss Surfacesof Multilayer Networks (by Choromanska et al. 2015)》通過實驗表明:隨著問題的維度的增長,你的解決方案的損失(loss)的變化會減少。所以基本上來說,在最佳方案和最差方案之間的差距會縮小,而你所有的局部極小值都將最終變得差不多一樣。所以非最優解決方案(non-optimal solution)的思想已經差不多一去不復返了,因為人們並沒有真正解決這個問題,而只是將其變成了一個非問題(non-issue)。


這個觀點本質上是來自於這樣一種直覺上經驗:局部極小在低維度條件下是最佳的,但鞍點(saddle point)主導了高維。你可以這樣思考:任意一個所有方向都是上升的局部最優(鞍)點隨維數指數級變小。

 9. 超越模式識別、走向人工智慧的深度學習


神經網絡正在從其傳統的保留地(目標識別、模式識別等)走向傳統上與標準人工智慧相關的領域(推理、邏輯等)。在這一運動中,Bengio 領導的研究組曾經發現了一種被稱軟注意(soft attention)的機制。

10. 深度學習的注意機制



這個最好通過一個例子來解釋。當我們在從左向右一次翻譯一個詞地將法語翻譯成英語的時候,如果能夠注意到每個詞在原法語句子中的位置,那麼就會給我們的翻譯結果提供很大的幫助;因為在一個句子中,一個詞可能會給其後面的詞帶來很大的影響。事實已經證明,這種注意(attention)的概念是很重要的。會出現這種情況的原因是我們使用了反向傳播。我這麼說是因為我們使用了涉及參數的一些損失函數的梯度,我們需要所有的計算都是可微分的(你可以將其看作是可微分的注意)。因此,除了注意特定的位置,我們還在每一個可能的位置上有一個概率(其對應於權重)。所以當我們根據梯度改變權重時,我們本質上只是將注意轉移到了另一個地方(參見論文《Neural Machine Translation by Jointly Learning to Align and Translate(Bahdanau, Cho, Bengio)》了解更多。)

11. 深度網絡的低精度訓練

為了讓我們的算法對更多的硬體友好,有很多的研究者做了很多的工作。其中首要的努力方向是在訓練深度網絡時使用更低的精度。這個方向的研究涉及到通過低精度的訓練來實現更高準確度的神經網絡,這能讓我們可以在更大型的數據集上訓練更大型的網絡。Bengio 引述的一篇論文討論了訓練的那個部分應該被削減以維持高準確度。我發現(一個通用的經驗法則):除了任何我們希望保持高精度累積計算(accumulation computations),其它所有部分(權重、梯度等)差不多都可以被削減掉(參見 Guptaet al, arXiv, Fec. 2015 了解更多細節)。


對於閱讀這篇來自 Courbariaux, David, and Bengio 的 NIPS 2015 論文(探索了我們可以如何 quantize 激活(activation)的方法),這裡給出一個簡單的備註。一旦你運行完了加權和(weighted sum),然後你執行非線性,你就會得到一個實數。我們需要將其 quantize 到幾個比特。如果我們可以做到這一點,我們就能獲得巨大的增益,因為我們避免了乘法和加法!這篇論文提到這項研究仍然還在進行中,但結果仍然差強人意。

12. 下一個艱巨挑戰:無監督學習



目前,深度學習領域內的大部分成功都是在監督學習領域,而這個領域的學習需要多得驚人的有標籤樣本。但是,只要機器還是僅依賴表面的統計規律進行學習,它們就無法應對樣本分布之外的數據。要實現人類水平的學習,機器就必須要能歸納出關於基本因果關係的更加精準的內在模型。這能讓該機器預測未在任何數據中見過的未來情形,而這正是推理、智能和科學的關鍵組成部分。無監督學習應該會成為深度學習領域內的下一個焦點。

13. 結語

這個演講的關鍵點也是機器學習基礎的關鍵要素。尤其是通過分布式表徵對組合函數(compositional functions)的有效表徵,分布式表徵已經極大地提升了學習過程。

另一點是硬體友好的機器學習算法的開發。低精度訓練這樣的機制讓我們可以在更大型的數據集上學習更大型的神經網絡。

最後,深度學習的下一步是無監督學習。這個領域的潛在價值是能讓我們真正用上海量的無標籤數據、回答關於被觀察到的變量的新問題、遷移學習(領域適應,其中機器可以在無需給定模型和領域的情況下學習)和更加結構化的輸出(比如翻譯)。


Bengio 的這次演講談到了很多有趣的主題,我希望這篇概述分享能夠引起你的關注,也希望你能從中有所收穫。

©本文由機器之心原創,轉載請聯繫本公眾號獲得授權

✄---

加入機器之心(全職記者/實習生):hr@almosthuman.cn

投稿或尋求報導:editor@almosthuman.cn

廣告&商務合作:bd@almosthuman.cn

相關焦點

  • Yoshua Bengio教授獲得加拿大總督功勳獎,Yann LeCun發來賀電
    12歲從法國來到加拿大的Yoshua Bengio教授現居加拿大蒙特婁,在蒙特婁大學任教授。他們三人不僅在人工智慧的低谷時期堅持研究、持續地帶來新的研究成果,更培養了許多人工智慧人才。 還有一點難能可貴的是,許多的人工智慧人才都已經加入了谷歌、Facebook這樣的大公司,而Bengio教授一再表示自己要保持中立、留在學術界,這是為了培養更多的人工智慧人才、讓更多的學校學生可以進行人工智慧的基礎研究。
  • 人工智慧領跑者Yoshua Bengio推出了深度學習的孵化器Element AI
    有了Element AI,他就創造了一個通道,讓人工智慧的研究可以方便地流向商業世界。這是重要的,因為深度學習的人才仍然比較少見。矽谷最大的企業已經參與到了激烈的人才儲備競賽中,這些研究人員的能力遠遠超出了普通工程師。人才儲備競賽是去年的Open AI激起的,這個項目是由Elon Musk等人資助,它吸引了幾個關鍵的人工智慧研究人員離開谷歌和Facebook。
  • 深度學習大神Yoshua Bengio經典前瞻演講,幫你打通深度學習的任督...
    Bengio教授是機器學習大神之一,尤其是在深度學習這個領域,他也是人工智慧領域中經典之作《Learning Deep Architectures for AI》的作者。人工智慧學習深度架構Yoshua Bengio 蒙特婁大學主要內容:「人工智慧學習深度架構」
  • 2020 AAAI Fellow 出爐,Yann Lecun、Yoshua Bengio 入選
    由於評判極嚴格,歷屆 AAAI Fellow 入選者均為人工智慧領域公認的著名學者,每年嚴格限制不超過 10 位(通常是 5 位)入選,因此被譽為國際人工智慧領域的名人堂。入選人員簡介 1、Yoshua Bengio:蒙特婁大學
  • 【Yoshua Bengio】走向因果表示學習,附論文、視頻與72頁ppt
    Yoshua Bengio將介紹因果表示學習。
  • 大咖 | 專訪Yoshua Bengio:如何高效建立和運營一家機器學習實驗室?
    大數據文摘出品編譯:瓜瓜、艾瑪、蔣寶尚人工智慧和機器學習風靡全球
  • 圖靈獎得主Yoshua Bengio談5G、中美爭端以及錯誤的ICML最佳論文
    在本次頒獎之前,機器之心在 MILA 與滴滴出行的合作發布會上對其中一位獲獎者,蒙特婁大學教授、人工智慧研究機構MILA主管 Yoshua Bengio,和滴滴出行科技合作總監吳國斌博士進行了專訪,我們與他們聊到了一些近期熱點話題:5G 和自動駕駛、中美貿易爭端,以及剛剛出爐的 ICML 2019 最佳論文。
  • 李開復對話Yoshua Bengio:構建AI與人類社會的良性循環
    7月23日,創新工場董事長兼CEO李開復博士,受邀參加SGInnovate主辦的「深度科技(Deep Tech)造福人類」活動,與Element AI聯合創始人Yoshua Bengio教授對話,討論人工智慧的未來發展。 Yoshua Bengio教授是深度學習三大發明人之一、2019年ACM圖靈獎得主。
  • Yoshua Bengio清華最新演講:深度學習AI邁向人類水平還面臨這些挑戰(內含PPT及講座錄音)
    大數據文摘出品作者:DV昨日,清華大學主樓報告廳迎來了人工智慧的一次小高潮。被稱為「人工智慧三巨頭」之一的蒙特婁大學計算機科學與運算研究系教授Yoshua Bengio為清華的師生帶來了一場長達一個半小時的充實演講。
  • 圖靈獎之後,Yoshua Bengio再獲全球級榮譽:入選英國皇家學會會士
    和 Bengio 共同入選皇家學會的包括 51 名會士,10 名外籍會士以及 1 名榮譽會士,他們將成為英國皇家學會終身會士。同時,皇家學會也通過公告表示,此次入選者是從大約 800 名極為優秀的候選人中脫穎而出,以表彰他們對科學研究以及整個社會的傑出貢獻。
  • Yoshua Bengio, Yann LeCun, Geoffrey Hinton 獲 2018 年圖靈獎
    雷鋒網 AI 科技評論按,今天,ACM 宣布,2018 年圖靈獎獲得者是號稱深度學習三巨頭的 Yoshua Bengio, Yann LeCun 和 Geoffrey Hinton,得獎理由是:他們在概念和工程上取得的巨大突破,使得深度神經網絡成為計算的關鍵元素(For conceptual and engineering breakthroughs that have made
  • Yoshua Bengio最新《深度學習》MLSS2020教程,附104頁PPT及視頻
    本文推薦來自深度學習大佬Yoshua Bengio教授講述《深度學習教程》,104頁ppt系統性講述了深度學習基礎知識和最新進展,非常乾貨。Yoshua BengioYoshua Bengio,蒙特婁大學教授。
  • Yoshua Bengio:注意力是「有意識」AI的核心要素
    在本周舉辦的ICLR 2020 上,圖靈獎獲得者Yoshua Bengio 在其特邀報告中著重強調了這一點。目前注意力機制已是深度學習裡的大殺器,無論是圖像處理、語音識別還是自然語言處理的各種不同類型的任務中,都很容易遇到注意力模型的身影。
  • Yoshua Bengio 經驗分享:如何做好學術研究?如何管好實驗室?
    CIFAR 機器與大腦學習項目的聯合主席 Yoshua Bengio雷鋒網 AI 科技評論按:深度學習三駕馬車、四大金剛中,相比於 Yann LeCun 經常以(曾任) Facebook 人工智慧研究院 FAIR
  • 深度學習三巨頭之一的Yoshua Bengio清華大學講座視頻,絕對值得一看!
    導讀:今天,一直走在深度學習研究最前沿的DeepMind,公開了18節24小時高級深度強化學習課程,一天看完Deep
  • Yoshua Bengio等大神傳授:26條深度學習經驗
    所有的資料和插圖都是來自原作者。暑期學校的講座已經錄製成了視頻,它們也可能會被上傳到網站上。好了,我們開始吧。1、分布式表示(distributed representations)的需要在Yoshua Bengio開始的講座上,他說「這是我重點講述的幻燈片」。
  • 重磅 Yoshua Bengio深度學習暑期班學習總結,35個授課視頻全部開放(附觀看地址)
    Yoshua Bengio 組織的本年度的深度學習暑期學校(Deep Learning Summer School 2016)的學習內容的總結,機器之心在本月初的時候已經對該課程所學的內容進行了一番梳理(可參閱:《Yoshua Bengio 組織深度學習暑期班,你想見的一流學者和熱門課程都來了(附17個課程PPT)》)。
  • 探討如何構建AI學術研究和產業落地的橋梁
    當今人工智慧大環境下存在泡沫,這是大家的共識。若是說有改善的辦法,那其中之一就是要看AI學術研究和產業落地的緊密程度。對於這個話題,作為圖靈獎得主、蒙特婁算法學習人工智慧實驗室(Mila)創始人的Yoshua Bengio是有話語權的。
  • 約書亞·本吉奧Yoshua Bengio名著DeepLearning中文版介紹、目錄、前言
    他教在機器學習研究生課程(IFT6266)並指導大批研究生和博士後。他是兩本書和超過200篇出版物的作者,被引用在深度學習、復現神經網絡、概率學習算法、自然語言處理和多元學習領域。自2000年起,統計學習算法(Statistical Learning Algorithms)加拿大研究主席。
  • Bengio親自授課,還有伯克利、劍橋、牛津大牛
    而就在這幾天,這間重視基礎科研的研究所開啟了免費暑期機器學習基礎線上課,從機器學習入門到實踐一課通。△ 聽眾來自各地,也能看到中國的朋友不僅有圖靈獎獲得者Yoshua Bengio親自授課,還有來自英國皇家學院的院士Peter Dayan參與。