毫無疑問,「Yann LeCun」是人工智慧領域最為顯赫的幾個名字之一,作為人工智慧領域的世界級專家,他在機器學習等技術上都有卓越的貢獻,「卷積神經網絡(convolutional neural networks)」更是他的代表作。
在 2013 年年底,Facebook 公司 CEO 扎克伯格確信 AI 技術——這個被他稱為「我們這個時代最困難的一項工程挑戰」——將會是公司未來的重心,因此,他在這時成立了專注於這個項目的實驗室。為此,他找來了當時還在紐約大學的 Yann LeCun 合作,任命其為 Facebook AI 研究院的院長。
當時,LeCun 拒絕離開紐約。為了解決這個問題,Facebook 為 LeCun 在曼哈頓設立了 Facebook AI 實驗室的總部。由此也可看出 LeCun 在業界的地位和影響力。
3月22日,作為本次系列課程中唯一的一次公開課,由清華大學經濟管理學院發起,清華x-lab與Facebook公司聯合設計並推出的《創新與創業:矽谷洞察》第三次課程在清華大學大禮堂開講。極客公園來到了現場,為大家整理了如下的課堂筆記:
監督學習(Supervised Learning)
首先,LeCun 以監督學習開場,他用非常簡潔的例子為大家介紹了監督學習的原理,「就像你給小孩子打開一本書,然後指著一張圖片,告訴他這就是大象,然後他就記住這是大象了。只不過區別是你要給機器看成千上萬張圖片」
深度學習(Deep Learning)
之後,他又簡單介紹了一下深度學習(deep learning)技術的發展,並對傳統模式識別、主流現代模式識別以及深度學習特徵提取方式進行了比對。「它被稱為 deep learning 的原因就是因為那些系統可以被劃分成許多層(layer),而每一層都是可訓練的。」同時,正是因為大量數據的出現以及 GPU 這樣的硬體被開發出來,這項技術才在這幾年有了突飛猛進的變化。
卷積神經網絡(Convolutional Neural Network)
這是 LeCun 自己的代表作,他從 1980 年代就開始了這方面的研究。他在演講中詳細講述了這部分的原理,大家可以看看下面這張幻燈片。他同時提到自己是受了諾貝爾獎得主大衛·休伯爾(David Hubel)以及託斯坦·威澤爾(Torsten Wiesel)的啟發才有了相應的靈感,這兩位的工作給人們呈現了視覺系統是如何將來自外界的視覺信號傳遞到視皮層,並通過一系列處理過程(包括邊界檢測、運動檢測、立體深度檢測和顏色檢測),最後在大腦中構建出一幅視覺圖像的。
而卷積神經網絡在圖像處理的原理上和人類大腦處理相應的問題有異曲同工之妙。
此外,他還給大家展示了一段錄製於 1993 年的珍貴視頻——年輕的 LeCun 在一臺 486 PC 上編寫的光學字符識別系統。
同時,LeCun 給大家展示了他在 1995 年所見證的兩位機器學習前輩 Jackel 和 Vapnik(當時他們都在貝爾實驗室,Jackel 是 Vapnik 的上司)的兩個有趣賭局:第一個賭局中,Jackel 聲稱在 2000 年 3 月 14 日之前,我們就會有一個關於大的神經網絡為什麼有效的理論解釋,當然隨後的歷史證明他輸了;第二個賭局中,Vapnik 聲稱最遲到 2005 年 3 月 14 日之後,沒有人將會繼續使用 1995 年的這些神經網絡結構,結果 Vapnik 也輸了。
他同時表示:「深度學習的要點在於,不僅僅是去分類(classify),而是要代表(represent)這個世界,包括了我們的感知世界和個體世界。」
深度卷積神經網絡(Deep ConvNet)
之後,他又介紹了更進一步的深度卷積神經網絡(Deep ConvNet),在面部識別、無人駕駛等領域都發揮了很大的作用。
AI 領域進步的最大障礙——怎樣使機器獲得「常識」?
隨後,LeCun 開始討論 AI 的進步最大障礙:怎樣讓機器有常識。他列舉了以下幾點:
機器需要學習/理解世界運行的方式機器需要學習非常大量的背景知識機器需要理解世界的狀態機器學習更新和記憶對世界狀態的估計機器需要推理和規劃所以,在他看來,智能&常識=感知+預測模型+記憶+推理和規劃。
他同時認為,常識就是有填補空白的能力,由此,機器必須有「預測」的能力,這也就是他所提出的預測學習(predictive learning)的概念,也就是從提供的任何信息預測過去、現在以及未來的任何一部分。或者,你也可以稱其為「無監督學習(unsupervised learning)」。
他同時用了一個例子為我們對比了「強化學習」、「監督學習」以及「無監督學習」之間的區別,我們可以看到他們在需要收集的信息量上有著很大的差距,但同時導致的學習結果也就不太相同。
經典基於模型的最優化控制過程(Classical model-based optimal control)
之後,Yann LeCun 介紹了經典基於模型的最優化控制過程(Classical model-based optimal control)。即利用初始控制序列對世界進行仿真,調整控制序列利用梯度下降法對目標進行最優化,再進行反向傳播。
隨後,他又為我們介紹了人工智慧系統的架構。他給出了一個公式:預測+規劃=推理。他表示,「智能」的本質就是要有預測的能力,我們需要提前計劃,去模擬這個世界,然後採取行動以最小化預測的損失。
最終得出結論:我們需要的是基於模型的強化學習(Model-based Reinforcement Learning)。
機器去學習能夠預測世界的模型
下面這一部分是關於機器如何學習能夠預測世界的模型。
實體神經網絡(RNN)
然後,他也介紹了「根據文本推斷世界的狀態:實體 RNN」
下面這部分談到了對具有記憶模塊的增強神經網絡(Augmenting Neural Nets)的使用
這部分談到了實體循環神經網絡(Entity Recurrent Neural Net)的作用:
維持一個對於當前世界狀態的估計每一個網絡都是一個帶有一個記憶的循環網絡每一個輸入事件都會導致記憶單元獲得一些更新這裡提到了塑造能量函數(Energy Function)的 7 種策略
對抗訓練(Adversarial Training)
接下來的部分是關於對抗訓練((Adversarial Training)的,Yann LeCun 本人對對抗訓練給予高度肯定,他認為對抗訓練是改進機器預測能力的一種方式。
它的難點在於在不確定條件下進行預測
實踐中,通用型對抗網絡(Generative Adversarial Networks)是一個訓練機器預測能力新方法,它的特性可以轉化為一些更好、更敏銳、質量更高的預測模型。
為了展現這一點,LeCun 和他的團隊用各種圖片數據組訓練了 DCGAN,這些圖片採集了 ImageNet 數據組中一組特定圖像,比如所展示的臥室或者動漫人臉識別。
DCGAN 也能夠識別模式並將某些相似表徵放在一起。比如,在臉部圖像數據集中,生成器不理解什麼是微笑的意義,但是,它能發現人類微笑圖片的相似性,並將它們分為一組。
最後,LeCun 提到了基於語義分割的視頻預測技術及時間預測技術。
總結總結一下,LeCun 首先為我們介紹了一下人工智慧領域這些年的發展,然後重點提及了無監督學習,他認為無監督學習會成為未來的主流。同時,他也認為機器必須要有預測未來的能力,而擋在這一過程中的最大障礙就是「常識」。後面,他也強調了對抗訓練((Adversarial Training)的價值,認為這項技術之後會發揮越來越大的作用。
而毫無疑問,對於所有對人工智慧感興趣的朋友來說,如果你沒能到場親自聆聽 LeCun 的演講,那我們在這裡也為你獨家準備了他的演講視頻,不要錯過喲。