打響新年第一炮,Gary Marcus提出對深度學習的系統性批判

2021-01-11 道士叨事

機器之心編譯

在人們對於 AI 技術的應用逐步走向正軌的同時，人工智慧的先驅者們卻早已將目光投向遠方。2018 年伊始，紐約大學教授、前 Uber AI Lab 主管 Gary Marcus 就發表了一篇長文對深度學習的現狀及局限性進行了批判性探討。在文中，Marcus 表示：我們必須走出深度學習，這樣才能迎來真正的通用人工智慧。

文章地址：https://arxiv.org/ftp/arxiv/papers/1801/1801.00631.pdf

Gary Marcus 在機器之心 GMIS 2017 大會上

儘管深度學習歷史可追溯到幾十年前，但這種方法，甚至深度學習一詞都只是在 5 年前才剛剛流行，也就是該領域被類似於 Krizhevsky、Sutskever 和 Hinton 等人合作的論文這樣的研究成果重新點燃的時候。他們的論文如今是 ImageNet 上經典的深度網絡模型。

在隨後 5 年中，該領域都發現了什麼？在語音識別、圖像識別、遊戲等領域有可觀進步，主流媒體熱情高漲的背景下，我提出了對深度學習的十點擔憂，且如果我們想要達到通用人工智慧，我建議要有其他技術補充深度學習。

在深度學習衍生出更好解決方案的眾多問題上（視覺、語音），在 2016 -2017 期間而變得收效衰減。——Franois Chollet, Google, Keras 作者，2017.12.18

「科學是踩著葬禮前行的」，未來由極其質疑我所說的一切的那批學生所決定。——Geoffrey Hinton，深度學習教父，谷歌大腦負責人，2017.9.15

1. 深度學習撞牆了？

儘管，深度學習的根源可追溯到幾十年前（Schmidhuber,2015)，但直到 5 年之前，人們對於它的關注還極其有限。2012 年，Krizhevsky、Sutskever 和 Hinton 發布論文《ImageNet Classification with Deep Convolutional Neural Networks》(Krizhevsky, Sutskever, & Hinton, 2012)，在 ImageNet 目標識別挑戰賽上取得了頂尖結果（Deng et al.）。隨著這樣的一批高影響力論文的發表，一切都發生了本質上的變化。當時，其他實驗室已經在做類似的工作（Cirean, Meier, Masci, & Schmidhuber, 2012）。在 2012 年將盡之時，深度學習上了紐約時報的頭版。然後，迅速躥紅成為人工智慧中最知名的技術。訓練多層神經網絡的思路並不新穎（確實如此），但因為計算力與數據的增加，深度學習第一次變得實際可用。

自此之後，深度學習在語音識別、圖像識別、語言翻譯這樣的領域產生了眾多頂尖成果，且在目前眾多的 AI 應用中扮演著重要的角色。大公司也開始投資數億美元挖深度學習人才。深度學習的一位重要擁護者，吳恩達，想的更遠並說到，「如果一個人完成一項腦力任務需要少於一秒的考慮時間，我們就有可能在現在或者不久的未來使用 AI 使其自動化。」（A,2016)。最近紐約時報星期天雜誌的一篇關於深度學習的文章，暗示深度學習技術「做好準備重新發明計算本身」。

如今，深度學習可能臨近牆角，大部分如同前面我在深度學習崛起之時（Marcus 2012）預期到的，也如同 Hinton(Sabour, Frosst, & Hinton, 2017)、Chollet（2017）這樣的重要人物近幾月來暗示的那樣。

深度學習到底是什麼？它展示了智能的什麼特性？我們能期待它做什麼？預計什麼時候它會不行？我們離「通用人工智慧」還有多遠？多近？在解決不熟悉的問題上，什麼時候機器能夠像人類一樣靈活？該文章的目的既是為了緩和非理性的膨脹，也是為了考慮需要前進的方向。

該論文同時也是寫給該領域的研究人員，寫給缺乏技術背景又可能想要理解該領域的 AI 消費者。如此一來，在第二部分我將簡要地、非技術性地介紹深度學習系統能做什麼，為什麼做得好。然後在第三部分介紹深度學習的弱點，第四部分介紹對深度學習能力的誤解，最後介紹我們可以前進的方向。

深度學習不太可能會消亡，也不該消亡。但在深度學習崛起的 5 年後，看起來是時候對深度學習的能力與不足做出批判性反思了。

2. 深度學習是什麼？深度學習能做好什麼？

深度學習本質上是一種基於樣本數據、使用多層神經網絡對模式進行分類的統計學技術。深度學習文獻中的神經網絡包括一系列代表像素或單詞的輸入單元、包含隱藏單元（又叫節點或神經元）的多個隱藏層（層越多，網絡就越深），以及一系列輸出單元，節點之間存在連接。在典型應用中，這樣的網絡可以在大型手寫數字（輸入，表示為圖像）和標籤（輸出，表示為圖像）集上進行訓練，標籤代表輸入所屬的類別。

隨著時間的進展，一種叫作反向傳播的算法出現了，它允許通過梯度下降過程調整單元之間的連接，以使任意給定輸入可以有對應的輸出。

大體上，我們可以把神經網絡所學習的輸入與輸出之間的關係理解為映射。神經網絡，尤其是具備多個隱藏層的神經網絡尤其擅長學習輸入-輸出映射。

此類系統通常被描述為神經網絡，因為輸入節點、隱藏節點和輸出節點類似生物神經元，不過已經大大簡化。節點之間的連接類似神經元之間的連接。

大部分深度學習網絡大量使用卷積技術（LeCun, 1989），該技術約束網絡中的神經連接，使它們本能地捕捉平移不變性（translational invariance）。這本質上就是物體可以圍繞圖像滑動，同時又保持自己的特徵；正如上圖中，假設它是左上角的圓，即使缺少直接經驗，也可以最終過渡到右下角。

深度學習還有一個著名的能力——自生成中間表示，如可以響應橫線或圖結構中更複雜元素的內部單元。

原則上，對於給定的無限多數據，深度學習系統能夠展示給定輸入集和對應輸出集之間的有限確定性「映射」，但實踐中系統是否能夠學習此類映射需要依賴於很多因素。一個常見的擔憂是局部極小值陷阱，即系統陷入次最優解，附近求解空間內沒有更好的解。（專家使用多種技術避免此類問題，達到了比較好的效果。）在實踐中，大型數據集的結果通常比較好，因其具備大量可能的映射。

例如，語音識別中，神經網絡學習語音集和標籤（如單詞或音素）集之間的映射。目標識別中，神經網絡學習圖像集和標籤集之間的映射。在 DeepMind 的 Atari 遊戲系統（Mnih et al., 2015）中，神經網絡學習像素和遊戲杆位置之間的映射。

深度學習系統最常用作分類系統，因其使命是決定給定輸入所屬的類別（由神經網絡的輸出單元定義）。只要有足夠的想像力，那麼分類的能力是巨大的；輸出可以表示單詞、圍棋棋盤上的位置等幾乎所有事物。

在擁有無限數據和計算資源的世界，可能就不需要其他技術了。

3. 深度學習的局限性

深度學習的局限性首先是這個逆否命題：我們居住的世界具備的數據並不是無窮多的。依賴於深度學習的系統經常要泛化至未見過的數據，這些數據並不是無窮大的，確保高質量性能的能力更是有限。

我們可以把泛化當作已知樣本之間的內插和超出已知訓練樣本空間的數據所需的外插（Marcus, 1998a）。

對於泛化性能良好的神經網絡，通常必須有大量數據，測試數據必須與訓練數據類似，使新答案內插在舊的數據之中。在 Krizhevsky 等人的論文（Krizhevsky, Sutskever, & Hinton, 2012）中，一個具備 6000 萬參數和 65 萬節點的 9 層卷積神經網絡在來自大概 1000 個類別的約 100 萬不同樣本上進行訓練。

這種暴力方法在 ImageNet 這種有限數據集上效果不錯，所有外部刺激都可以被分類為較小的類別。它在穩定的領域效果也不錯，如在語音識別中，數據可以一種常規方式映射到有限的語音類別集中，但是出於很多原因，深度學習不是人工智慧的通用解決方案。

以下是當前深度學習系統所面臨的十個挑戰：

3.1 目前深度學習需要大量數據

人類只需要少量的嘗試就可以學習抽象的關係。如果我告訴你 schmister 是年齡在 10 歲到 21 歲之間的姐妹。可能只需要一個例子，你就可以立刻推出你有沒有 schmister，你的好朋友有沒有 schmister，你的孩子或父母有沒有 schmister 等等。

你不需要成百上千甚至上百萬的訓練樣本，只需要用少量類代數的變量之間的抽象關係，就可以給 schmister 下一個準確的定義。

人類可以學習這樣的抽象概念，無論是通過準確的定義還是更隱式的手段（Marcus，2001）。實際上即使是 7 月大的嬰兒也可以僅在兩分鐘內從少量的無標籤樣本中學習抽象的類語言規則（Marcus, Vijayan, Bandi Rao, & Vishton, 1999）。隨後由 Gervain 與其同事做出的研究（2012）表明新生兒也能進行類似的學習。

深度學習目前缺少通過準確的、語詞的定義學習抽象概念的機制。當有數百萬甚至數十億的訓練樣本的時候，深度學習能達到最好的性能，例如 DeepMind 在棋牌遊戲和 Atari 上的研究。正如 Brenden Lake 和他的同事最近在一系列論文中所強調的，人類在學習複雜規則的效率遠高於深度學習系統（Lake, Salakhutdinov, & Tenenbaum, 2015; Lake, Ullman, Tenenbaum, & Gershman, 2016）（也可以參見 George 等人的相關研究工作，2017）。我和 Steven Pinker 在兒童與神經網絡的過度規則化誤差的對比研究也證明了這一點。

Geoff Hinton 也對深度學習依賴大量的標註樣本表示擔憂，在他最新的 Capsule 網絡研究中表達了這個觀點，其中指出卷積神經網絡可能會遭遇「指數低效」，從而導致網絡的失效。還有一個問題是卷積網絡在泛化到新的視角上有困難。處理轉換（不變性）的能力是網絡的內在性質，而對於其他常見類型的轉換不變性，我們不得不在網格上的重複特徵檢測器之間進行選擇，該過程的計算量是指數式增長的，或者增加標記訓練集的規模，其計算量也是指數式增長的。

對於沒有大量數據的問題，深度學習通常不是理想的解決方案。

3.2 深度學習目前還是太表淺，沒有足夠的能力進行遷移

這裡很重要的一點是，需要認識到「深」在深度學習中是一個技術的、架構的性質（即在現代神經網絡中使用大量的隱藏層），而不是概念上的意義（即這樣的網絡獲取的表徵可以自然地應用到諸如「公正、「民主」或「幹預」等概念）。

即使是像「球」或「對手」這樣的具體概念也是很難被深度學習學到的。考慮 DeepMind 利用深度強化學習對 Atari 遊戲的研究，他們將深度學習和強化學習結合了起來。其成果表面上看起來很棒：該系統使用單個「超參數」集合（控制網絡的性質，如學習率）在大量的遊戲樣本中達到或打敗了人類專家，其中系統並沒有關於具體遊戲的知識，甚至連規則都不知道。但人們很容易對這個結果進行過度解讀。例如，根據一個廣泛流傳的關於該系統學習玩打磚塊 Atari 遊戲 Breakout 的視頻，「經過 240 分鐘的訓練，系統意識到把磚牆打通一個通道是獲得高分的最高效的技術。」

但實際上系統並沒有學到這樣的思維：它並不理解通道是什麼，或者磚牆是什麼；它僅僅是學到了特定場景下的特定策略。遷移測試（其中深度強化學習系統需要面對和訓練過程中稍有不同的場景）表明深度強化學習方法通常學到很表明的東西。例如，Vicarious 的研究團隊表明 DeepMind 的更高效的進階技術——Atari 系統「Asynchronous Advantage Actor-Critic」（也叫 A3C）在玩多種 Breakout 的微改動版本（例如改變球拍的 Y 坐標，或在屏幕中央加上一堵牆）時遭遇了失敗。這些反例證明了深度強化學習並不能學習歸納類似磚牆或球拍這樣的概念；更準確地說，這樣的評論就是生物心理學中的過度歸因所造成的。Atari 系統並沒有真正地學習到關於磚牆的魯棒的概念，而只是在高度訓練的情景的狹隘集合中表面地打破了磚牆。

我在初創公司 Geometric Intelligence 的研究團隊（後來被 Uber 收購）的滑雪遊戲情景中發現了類似的結果。2017 年，伯克利和 OpenAI 的一個研究團隊發現可以輕易地在多種遊戲中構造對抗樣本，使得 DQN（原始的 DeepMind 算法）、A3C 和其它的相關技術（Huang, Papernot, Goodfellow, Duan, & Abbeel, 2017）都失效。

最近由 Robin Jia 和 Percy Liang（2017）做的實驗在不同的領域（語言）表明了類似的觀點。他們訓練了多種用於問答系統任務（被稱為 SQuAD，Stanford Question Answering Database）的神經網絡，其中任務的目標是在特定的段落中標出和給定問題相關的單詞。例如，有一個已訓練系統可以基於一段短文準確地識別出超級碗 XXXIII 的勝利者是 John Elway。但 jia 和 Liang 表明僅僅插入幹擾句（例如宣稱谷歌的 Jeff Dean 在另一個杯賽中獲得了勝利）就可以讓準確率大幅下降。在 16 個模型中，平均準確率從 75% 下降了到了 36%。

通常情況下，深度學習提取的模式，相比給人的第一印象，其實更加的表面化。

3.3 迄今深度學習沒有自然方式來處理層級架構

對喬姆斯基這樣的語言學家來說，對 Robin Jia 和 Percy Liang 記錄的難題並不驚訝。基本上，目前大部分深度學習方法基於語言模型來將句子表達為純粹的詞序列。然而，喬姆斯基一直以來都認為語言具有層級架構，也就是小的部件循環構建成更大的結構。（例如，在句子「the teenager who previously crossed the Atlantic set a record for flying around the world」中，主句是「the teenager set a record for flying around the world」，「who previously crossed the Atlantic」是指明青年身份的一個字句。

在上世紀 80 年代，Fodor 和 Pylyshyn（1988）也表達了同樣的擔憂，這是關於神經網絡的一個早期分支。我在 2001 年的文章中也同樣揣測到，單個循環神經網絡（SRN；是今天基於循環神經網絡（也就是 RNN）的更複雜的深度學習方法的前身；Elman,1990) 難以系統表達、擴展各種不熟悉語句的遞歸結構（從引用論文查看具體是哪種類型）。

2017 早些時候，Brenden Lake 和 Marco Baroni 測試了這樣的悲觀揣測是否依然正確。就像他們文章標題中寫的，當代神經網絡「這麼多年來依然不體系」。RNN 可能「在訓練與測試差別... 很小的時候泛化很好，但當需要系統地組合技能做泛化時，RNN 極其失敗。」

類似的問題在其他領域也可能會暴露出來，例如規劃與電機控制，這些領域都需要複雜的層級結構，特別是遇到全新的環境時。從上面提到的 Atari 遊戲 AI 難以遷移問題上，我們可以間接看到這一點。更普遍的是在機器人領域，系統一般不能在全新環境中概括抽象規劃。

至少，目前深度學習顯現的核心問題是它學習特徵集相對平滑或者說非層級的關聯關係，猶如簡單的、非結構化列表，每個特徵都平等。層級結構（例如，句子中區分主句和從句的語法樹）在這樣的系統中並不是固有的，或者直接表達的，結果導致深度學習系統被迫使用各種根本不合適的代理，例如句子中單詞的序列位置。

像 Word2Vec（Mikolov, Chen, Corrado, & Dean, 2013) 這樣的系統將單個單詞表達為向量，有適當的成功。也有一批系統使用小技巧試圖在深度學習可兼容的向量空間中表達完整語句 (Socher, Huval, Manning, & Ng, 2012）。但是，就像 Lake 和 Baroni 的實驗表明的，循環網絡能力依然有限，不足以準確可靠地表達和概括豐富的結構信息。

3.4 迄今為止的深度學習無法進行開放推理

如果你無法搞清「John promised Mary to leave」和「John promised to leave Mary」之間的區別，你就不能分清是誰離開了誰，以及接下來會發生什麼。目前的機器閱讀系統已經在一些任務，如 SQuAD 上取得了某種程度的成功，其中對於給定問題的答案被明確地包含在文本中，或者整合在多個句子中（被稱為多級推理）或整合在背景知識的幾個明確的句子中，但並沒有標註特定的文本。對於人類來說，我們在閱讀文本時經常可以進行廣泛的推理，形成全新的、隱含的思考，例如僅僅通過對話就能確定角色的意圖。

儘管 Bowman 等人（Bowman，Angeli，Potts & Manning，2015；Williams，Nangia & Bowman，2017）在這一方向上已經採取了一些重要步驟，但目前來看，沒有深度學習系統可以基於真實世界的知識進行開放式推理，並達到人類級別的準確性。

3.5 迄今為止的深度學習不夠透明

神經網絡「黑箱」的特性一直是過去幾年人們討論的重點（Samek、Wiegand & Müller，2017；Ribeiro、Singh & Guestrin，2016）。在目前的典型狀態裡，深度學習系統有數百萬甚至數十億參數，其開發者可識別形式並不是常規程式設計師使用的（「last_character_typed」）人類可識別標籤，而是僅在一個複雜網絡中適用的地理形式（如網絡模塊 k 中第 j 層第 i 個節點的活動值）。儘管通過可視化工具，我們可以在複雜網絡中看到節點個體的貢獻（Nguyen、Clune、Bengio、Dosovitskiy & Yosinski，2016），但大多數觀察者都認為，神經網絡整體看來仍然是一個黑箱。

從長遠看來，目前這種情況的重要性仍不明確（Lipton，2016）。如果系統足夠健壯且自成體系，則沒有問題；如果神經網絡在更大的系統中佔據重要的位置，則其可調試性至關重要。

為解決透明度問題，對於深度學習在一些領域如金融或醫療診斷上的潛力是致命的，其中人類必須了解系統是如何做出決策的。正如 Catherine O』Neill（2016）指出的，這種不透明也會導致嚴重的偏見問題。

3.6 迄今為止，深度學習並沒有很好地與先驗知識相結合

深度學習的一個重要方向是解釋學，就是將自身與其他潛在的、有用的知識隔離開來。深度學習的工作方式通常包含尋找一個訓練數據集，與輸入相關聯的各個輸出，通過任何精巧的架構或變體，以及數據清理和/或增強技術，隨後通過學習輸入和輸出的關係來學會解決問題的方法。這其中只有少數幾個例外，如 LeCun 對神經網絡連接卷積約束的研究（LeCun，1989）中，先驗知識被有意最小化了。

因此，例如 Lerer 等人（2016）提出的系統學習從塔上掉落物體的物理性質，在此之上並沒有物理學的先驗知識（除卷積中所隱含的內容之外）。在這裡，牛頓定律並沒有被編碼，系統通過（在一些有限的層面上）通過原始像素級數據學習了這一定律，並近似它們。正如在我即將發表的論文中所指出的那樣，深度學習研究者似乎對於先驗知識有著很強的偏見，即使（如在物理上）這些先驗知識是眾所周知的。

一般來說，將先驗知識整合到深度學習系統中並不簡單：一部分是因為深度學習系統中的知識表徵主要是特徵之間的關係（大部分還是不透明的），而非抽象的量化陳述（如凡人終有一死），參見普遍量化一對一映射的討論（Marcus，2001），或 generics（可違反的聲明，如狗有四條腿或蚊子攜帶尼羅河病毒（Gelman、Leslie、Was & Koch，2015））。

這個問題根植於機器學習文化中，強調系統需要自成一體並具有競爭力——不需要哪怕是一點先驗的通用知識。Kaggle 機器學習競賽平臺正是這一現象的註解，參賽者爭取在給定數據集上獲取特定任務的最佳結果。任意給定問題所需的信息都被整齊地封裝好，其中包含相關的輸入和輸出文件。在這種範式下我們已經有了很大的進步（主要在圖像識別和語音識別領域中）。

問題在於，當然，生活並不是一場 Kaggle 競賽；孩子們並不會把所有數據整齊地打包進一個目錄裡。真實世界中我們需要學習更為零散的數據，問題並沒有如此整齊地封裝起來。深度學習在諸如語音識別這種有很多標記的問題上非常有效，但卻幾乎沒有人知道如何將其應用於更開放的問題。如何把卡在自行車鏈條上的繩子挑出來？我專業該選數學還是神經科學？訓練集不會告訴我們。

與分類離得越遠，與常識離得越近的問題就越不能被深度學習來解決。在近期對於常識的研究中，我和 Ernie Davis（2015）開始，從一系列易於得出的推論開始進行研究，如威廉王子和他的孩子喬治王子誰更高？你可以用聚酯襯衫來做沙拉嗎？如果你在胡蘿蔔上插一根針，是胡蘿蔔上有洞還是針上有洞？

據我所知，目前還沒有人常識讓深度學習回答這樣的問題。

這些對於人類而言非常簡單的問題需要整合大量不同來源的知識，因此距離深度學習受用風格的分類還有很長一段距離。相反，這或許意味著若想要達到人類級別的靈活認知能力，我們需要與深度學習完全不同的工具。

3.7 到目前為止，深度學習還不能從根本上區分因果關係和相關關係

如果因果關係確實不等同於相關關係，那麼這兩者之間的區別對深度學習而言也是一個嚴重的問題。粗略而言，深度學習學習的是輸入特徵與輸出特徵之間的複雜相關關係，而不是固有的因果關係表徵。深度學習系統可以將人群看作是一個整體而輕鬆學習到身高與詞彙量是相關的，但卻更難表徵成長與發育之間相互關聯的方式（孩子在學會更多詞的同時也越長越大，但這並不意味著長高會導致他們學會更多詞，學會更多詞也不會導致他們長高）。因果關係在其它一些用於人工智慧的方法中一直是核心因素（Pearl, 2000），但也許是因為深度學習的目標並非這些難題，所以深度學習領域傳統上在解決這一難題上的研究工作相對較少。[9]

3.8 深度學習假設世界是大體穩定的，採用的方式可能是概率的

深度學習的邏輯是：在高度穩定的世界（比如規則不變的圍棋）中效果很可能最佳，而在政治和經濟等不斷變化的領域的效果則沒有那麼好。就算把深度學習應用於股票預測等任務，它很有可能也會遭遇谷歌流感趨勢（Google Flu Trends）那樣的命運；谷歌流感趨勢一開始根據搜索趨勢能很好地預測流行病學數據，但卻完全錯過了 2013 年流感季等事件（Lazer, Kennedy, King, & Vespignani, 2014）。

3.9 到目前為止，深度學習只是一種良好的近似，其答案並不完全可信

這個問題部分是本節中提及的其它問題所造成的結果，深度學習在一個給定領域中相當大一部分都效果良好，但仍然很容易被欺騙愚弄。

越來越多的論文都表明了這一缺陷，從前文提及的 Jia 和 Liang 給出的語言學案例到視覺領域的大量示例，比如有深度學習的圖像描述系統將黃黑相間的條紋圖案誤認為校車（Nguyen, Yosinski, & Clune, 2014），將貼了貼紙的停車標誌誤認為裝滿東西的冰箱（Vinyals, Toshev, Bengio, & Erhan, 2014），而其它情況則看起來表現良好。

最近還有真實世界的停止標誌在稍微修飾之後被誤認為限速標誌的案例（Evtimov et al., 2017），還有 3D 列印的烏龜被誤認為步槍的情況（Athalye, Engstrom, Ilyas, & Kwok, 2017）。最近還有一條新聞說英國警方的一個系統難以分辨裸體和沙丘。[10]

最早提出深度學習系統的「可欺騙性（spoofability）」的論文可能是 Szegedy et al(2013)。四年過去了，儘管研究活動很活躍，但目前仍未找到穩健的解決方法。

3.10 到目前為止，深度學習還難以在工程中使用

有了上面提到的那些問題，另一個事實是現在還難以使用深度學習進行工程開發。正如谷歌一個研究團隊在 2014 年一篇重要但仍未得到解答的論文（Sculley, Phillips, Ebner, Chaudhary, & Young, 2014）的標題中說的那樣：機器學習是「高利息的技術債務信用卡」，意思是說機器學習在打造可在某些有限環境中工作的系統方面相對容易（短期效益），但要確保它們也能在具有可能不同於之前訓練數據的全新數據的其它環境中工作卻相當困難（長期債務，尤其是當一個系統被用作另一個更大型的系統組成部分時）。

Leon Bottou (2015) 在 ICML 的一個重要演講中將機器學習與飛機引擎開發進行了比較。他指出儘管飛機設計依靠的是使用更簡單的系統構建複雜系統，但仍有可能確保得到可靠的結果，機器學習則缺乏得到這種保證的能力。正如谷歌的 Peter Norvig 在 2016 年指出的那樣，目前機器學習還缺乏傳統編程的漸進性、透明性和可調試性，要實現深度學習的穩健，需要在簡潔性方面做一些權衡。

Henderson 及其同事最近圍繞深度強化學習對這些觀點進行了延展，他們指出這一領域面臨著一些與穩健性和可復現性相關的嚴重問題（Henderson et al., 2017）。

儘管在機器學習系統的開發過程的自動化方面存在一些進展（Zoph, Vasudevan, Shlens, & Le, 2017），但還仍有很長的路要走。

3.11 討論

當然，深度學習本身只是數學；上面給出的所有問題中沒有任何一個是因為深度學習的底層數學存在某種漏洞。一般而言，在有足夠的大數據集時，深度學習是一種用於優化表徵輸入與輸出之間的映射的複雜系統的完美方法。

真正的問題在於誤解深度學習擅長做什麼以及不擅長做什麼。這項技術擅長解決封閉式的分類問題，即在具備足夠多的可用數據以及測試集與訓練集接近相似時，將大量潛在的信號映射到有限數量的分類上。

偏離這些假設可能會導致問題出現；深度學習只是一種統計技術，而所有的統計技術在偏離假設時都會出問題。

當可用訓練數據的量有限或測試集與訓練集有重大差異或樣本空間很廣且有很多全新數據時，深度學習系統的效果就沒那麼好了。而且在真實世界的限制下，有些問題根本不能被看作是分類問題。比如說，開放式的自然語言理解不應該被視為不同的大型有限句子集合之間的映射，而應該被視為可能無限範圍的輸入句子與同等規模的含義陣列之間的映射，其中很多內容在之前都沒遇到過。在這樣的問題中使用深度學習就像是方枘圓鑿，只能算是粗略的近似，其它地方肯定有解決方案。

通過考慮我在多年前（1997）做過的一系列實驗，可以獲得對當前存在錯誤的直觀理解，當時我在一類神經網絡（之後在認知科學中變得很流行）上測試了語言開發的一些簡單層面。這種網絡比現今的模型要更簡單，他們使用的層不大於三個（1 個輸入層、1 個隱藏層、1 個輸出層），並且沒有使用卷積技術。他們也使用了反向傳播技術。

在語言中，這個問題被稱為泛化（generalization）。當我聽到了一個句子「John pilked a football to Mary」，我可以從語法上推斷「John pilked Mary the football」，如果我知道了 pilk 是什麼意思，我就可以推斷一個新句子「Eliza pilked the ball to Alec」的含義，即使是第一次聽到。

我相信將語言的大量問題提取為簡單的例子在目前仍然受到關注，我在恆等函數 f(x) = x 上運行了一系列訓練三層感知機（全連接、無卷積）的實驗。

訓練樣本被表徵二進位數字的輸入節點（以及相關的輸出節點）進行表徵。例如數字 7，在輸入節點上被表示為 4、2 和 1。為了測試泛化能力，我用多種偶數集訓練了網絡，並用奇數和偶數輸入進行了測試。

我使用了多種參數進行了實驗，結果輸出都是一樣的：網絡可以準確地應用恆等函數到訓練過的偶數上（除非只達到局部最優），以及一些其它的偶數，但應用到所有的奇數上都遭遇了失敗，例如 f(15)=14。

大體上，我測試過的神經網絡都可以從訓練樣本中學習，並可以在 n 維空間（即訓練空間）中泛化到這些樣本近鄰的點集，但它們不能推斷出超越該訓練空間的結果。

奇數位於該訓練空間之外，網絡無法將恆等函數泛化到該空間之外。即使添加更多的隱藏單元或者更多的隱藏層也沒用。簡單的多層感知機不能泛化到訓練空間之外（Marcus, 1998a; Marcus, 1998b; Marcus, 2001）。

上述就是當前深度學習網絡中的泛化挑戰，可能會存在二十年。本文提到的很多問題——數據飢餓（data hungriness）、應對愚弄的脆弱性、處理開放式推斷和遷移的問題，都可以看作是這個基本問題的擴展。當代神經網絡在與核心訓練數據接近的數據上泛化效果較好，但是在與訓練樣本差別較大的數據上的泛化效果就開始崩塌。

廣泛應用的卷積確保特定類別的問題（與我的身份問題類似）的解決：所謂的平移不變性，物體在位置轉換後仍然保持自己的身份。但是該解決方案並不適用於所有問題，比如 Lake 近期的展示。（數據增強通過擴展訓練樣本的空間，提供另一種解決深度學習外插挑戰的方式，但是此類技術在 2d 版本中比在語言中更加有效。）

目前深度學習中沒有針對泛化問題的通用解決方案。出於該原因，如果我們想實現通用人工智慧，就需要依賴不同的解決方案。

4. 過度炒作的潛在風險

當前 AI 過度炒作的一個最大風險是再一次經歷 AI 寒冬，就像 1970 年代那樣。儘管現在的 AI 應用比 1970 年代多得多，但炒作仍然是主要擔憂。當吳恩達這樣的高知名度人物在《哈佛商業評論》上撰文稱自動化即將到來（與現實情況有很大出入），過度預期就帶來了風險。機器實際上無法做很多普通人一秒內就可以完成的事情，從理解世界到理解句子。健康的人類不會把烏龜錯認成步槍或把停車牌認成冰箱。

大量投資 AI 的人最後可能會失望，尤其是自然語言處理領域。一些大型項目已經被放棄，如 Facebook 的 M 計劃，該項目於 2015 年 8 月啟動，宣稱要打造通用個人虛擬助手，後來其定位下降為幫助用戶執行少數定義明確的人物，如日曆記錄。

可以公平地說，聊天機器人還沒有達到數年前炒作中的預期。舉例來說，如果無人駕駛汽車在大規模推廣後被證明不安全，或者僅僅是沒有達到很多承諾中所說的全自動化，讓大家失望（與早期炒作相比），那麼整個 AI 領域可能會迎來大滑坡，不管是熱度還是資金方面。我們或許已經看到苗頭，正如 Wired 最近發布的文章《After peak hype, self-driving cars 14 enter the trough of disillusionment》中所說的那樣（https://www.wired.com/story/self-driving-cars-challenges/）。

還有很多其他嚴重的擔憂，不只是末日般的場景（現在看來這似乎還是科幻小說中的場景）。我自己最大的擔憂是 AI 領域可能會陷入局部極小值陷阱，過分沉迷於智能空間的錯誤部分，過於專注於探索可用但存在局限的模型，熱衷於摘取易於獲取的果實，而忽略更有風險的「小路」，它們或許最終可以帶來更穩健的發展路徑。

我想起了 Peter Thiel 的著名言論：「我們想要一輛會飛的汽車，得到的卻是 140 個字符。」我仍然夢想著 Rosie the Robost 這種提供全方位服務的家用機器人，但是現在，AI 六十年歷史中，我們的機器人還是只能玩音樂、掃地和廣告競價。

沒有進步就是恥辱。AI 有風險，也有巨大的潛力。我認為 AI 對社會的最大貢獻最終應該出現在自動科學發現等領域。但是要想獲得成功，首先必須確保該領域不會陷於局部極小值。

5. 什麼會更好？

儘管我勾畫了這麼多的問題，但我不認為我們需要放棄深度學習。相反，我們需要對其進行重新概念化：它不是一個普遍的解決辦法，而僅僅只是眾多工具中的一個。我們有電動螺絲刀，但我們還需要錘子、扳手和鉗子，因此我們不能只提到鑽頭、電壓表、邏輯探頭和示波器。

在感知分類方面，如果有大量的數據，那麼深度學習就是一個有價值的工具。但在其它更官方的認知領域，深度學習通常並不是那麼符合要求。那麼問題是，我們的方向應該是哪？下面有四個可能的方向。

5.1 無監督學習

最近深度學習先驅 Geoffrey Hinton 和 Yann LeCun 都表明無監督學習是超越有監督、少數據深度學習的關鍵方法。但是我們要清楚，深度學習和無監督學習並不是邏輯對立的。深度學習主要用於帶標註數據的有監督學習，但是也有一些方法可以在無監督環境下使用深度學習。但是，許多領域都有理由擺脫監督式深度學習所要求大量標註數據。

無監督學習是一個常用術語，往往指的是幾種不需要標註數據的系統。一種常見的類型是將共享屬性的輸入「聚類」在一起，即使沒有明確標記它們為一類也能聚為一類。Google 的貓檢測模型（Le et al., 2012）也許是這種方法最突出的案例。

Yann LeCun 等人提倡的另一種方法（Luc, Neverova, Couprie, Verbeek, & LeCun, 2017）起初並不會相互排斥，它使用像電影那樣隨時間變化的數據而替代標註數據集。直觀上來說，使用視頻訓練的系統可以利用每一對連續幀替代訓練信號，並用來預測下一幀。因此這種用第 t 幀預測第 t+1 幀的方法就不需要任何人類標註信息。

我的觀點是，這兩種方法都是有用的（其它一些方法本文並不討論），但是它們本身並不能解決第 3 節中提到的問題。這些系統還有一些問題，例如缺少了顯式的變量。而且我也沒看到那些系統有開放式推理、解釋或可調式性。

也就是說，有一種不同的無監督學習概念，它雖然很少有人討論，但是仍然非常有意思：即兒童所進行的無監督學習。孩子們通常會為自己設置一個新的任務，比如搭建一個樂高積木塔，或者攀爬通過椅子的窗口。通常情況下，這種探索性的問題涉及（或至少似乎涉及）解決大量自主設定的目標（我該怎麼辦？）和高層次的問題求解（我怎麼把我的胳膊穿過椅子，現在我身體的其他部分是不是已經通過了？），以及抽象知識的整合（身體是如何工作的，各種物體有哪些窗口和是否可以鑽過去等等）。如果我們建立了能設定自身目標的系統，並在更抽象的層面上進行推理和解決問題，那麼人工智慧領域將會有重大的進展。

5.2 符號處理和混合模型的必要性

另一個我們需要關注的地方是經典的符號 AI，有時候也稱為 GOFAI（Good Old-Fashioned AI）。符號 AI 的名字來源於抽象對象可直接用符號表示這一個觀點，是數學、邏輯學和計算機科學的核心思想。像 f = ma 這樣的方程允許我們計算廣泛輸入的輸出，而不管我們以前是否觀察過任何特定的值。電腦程式也做著同樣的事情（如果變量 x 的值大於變量 y 的值，則執行操作 a）。

符號表徵系統本身經常被證明是脆弱的，但是它們在很大程度上是在數據和計算能力比現在少得多的時代發展起來的。如今的正確之舉可能是將善於感知分類的深度學習與優秀的推理和抽象符號系統結合起來。人們可能會認為這種潛在的合併可以類比於大腦；如初級感知皮層那樣的感知輸入系統好像和深度學習做的是一樣的，但還有一些如 Broca 區域和前額葉皮質等領域似乎執行更高層次的抽象。大腦的能力和靈活性部分來自其動態整合許多不同計算法的能力。例如，場景感知的過程將直接的感知信息與關於對象及其屬性、光源等複雜抽象的信息無縫地結合在一起。

現已有一些嘗試性的研究探討如何整合已存的方法，包括神經符號建模（Besold et al., 2017）和最近的可微神經計算機（Graves et al., 2016）、通過可微解釋器規劃（Bonjak, Rocktschel, Naradowsky, & Riedel, 2016）和基於離散運算的神經編程（Neelakantan, Le, Abadi, McCallum, & Amodei, 2016）。雖然該項研究還沒有完全擴展到如像 full-service 通用人工智慧那樣的探討，但我一直主張（Marcus, 2001）將更多的類微處理器運算集成到神經網絡中是非常有價值的。

對於擴展來說，大腦可能被視為由「一系列可重複使用的計算基元組成 - 基本單元的處理類似於微處理器中的一組基本指令。這種方式在可重新配置的集成電路中被稱為現場可編程邏輯門陣列」，正如我在其它地方（Marcus，Marblestone，＆Dean，2014）所論述的那樣，逐步豐富我們的計算系統所建立的指令集會有很大的好處。

5.3 來自認知和發展心理學的更多洞見

另一個有潛在價值的領域是人類認知（Davis & Marcus, 2015; Lake et al., 2016; Marcus, 2001; Pinker & Prince, 1988）。機器沒有必要真正取代人類，而且這極易出錯，遠談不上完美。但是在很多領域，從自然語言理解到常識推理，人類依然具有明顯優勢。借鑑這些潛在機制可以推動人工智慧的發展，儘管目標不是、也不應該是精確地複製人類大腦。

對很多人來講，從人腦的學習意味著神經科學；我認為這可能為時尚早。我們還不具備足夠的神經科學知識以真正利用反向工程模擬人腦。人工智慧可以幫助我們破譯大腦，而不是相反。

不管怎樣，它同時應該有來自認知和發展心理學的技術與見解以構建更加魯棒和全面的人工智慧，構建不僅僅由數學驅動，也由人類心理學的線索驅動的模型。

理解人類心智中的先天機制可能是一個不錯的開始，因為人類心智能作為假設的來源，從而有望助力人工智慧的開發；在本論文的姊妹篇中（Marcus，尚在準備中），我總結了一些可能性，有些來自於我自己的早期研究（Marcus, 2001），另一些則來自於 Elizabeth Spelke 的研究（Spelke & Kinzler, 2007）。來自於我自己的研究的那些重點關注的是表示和操作信息的可能方式，比如用於表示一個類別中不同類型和個體之間不同變量和差異的符號機制；Spelke 的研究則關注的是嬰兒表示空間、時間和物體等概念的方式。

另一個關注重點可能是常識知識，研究方向包括常識的發展方式（有些可能是因為我們的天生能力，但大部分是後天學習到的）、常識的表示方式以及我們如何將常識用於我們與真實世界的交互過程（Davis & Marcus, 2015）。Lerer 等人（2016）、Watters 及其同事（2017）、Tenenbaum 及其同事（Wu, Lu, Kohli, Freeman, & Tenenbaum, 2017）、Davis 和我（Davis, Marcus, & Frazier-Logue, 2017）最近的研究提出了一些在日常的實際推理領域內思考這一問題的不同方法。

第三個關注重點可能是人類對敘事（narrative）的理解，這是一個歷史悠久的概念，Roger Schank 和 Abelson 在 1977 年就已提出，並且也得到了更新（Marcus, 2014; Koisk et al., 2017）。

5.4. 更大的挑戰

不管深度學習是保持當前形式，還是變成新的東西，抑或被替代，人們也許認為大量的挑戰問題會將系統推進到有監督學習無法通過大型數據集學習到知識。以下是一些建議，它們部分摘自最近一期的《AI Magazine》特刊（Marcus, Rossi, Veloso - AI Magazine, & 2016, 2016），該雜誌致力於超越我和 Francesca Rossi、Manuelo Veloso 一起編輯的雜誌《Turing Test》：

理解力挑戰（Paritosh & Marcus, 2016; Koisk et al., 2017）需要系統觀看一個任意的視頻（或者閱讀文本、聽廣播），並就內容回答開放問題（誰是主角？其動機是什麼？如果對手成功完成任務，會發生什麼？）。沒有專門的監督訓練集可以涵蓋所有可能的意外事件；推理和現實世界的知識整合是必需的。

科學推理與理解，比如艾倫人工智慧研究所的第 8 級的科學挑戰（Schoenick, Clark, Tafjord, P, & Etzioni, 2017; Davis, 2016）。儘管很多基本科學問題的答案可輕易從網絡搜索中找到，其他問題則需要清晰陳述之外的推理以及常識的整合。

一般性的遊戲玩法（Genesereth, Love, & Pell, 2005），遊戲之間可遷移（Kansky et al., 2017），這樣一來，比如學習一個第一人稱的射擊遊戲可以提高帶有完全不同圖像、裝備等的另一個遊戲的表現。（一個系統可以分別學習很多遊戲，如果它們之間不可遷移，比如 DeepMind 的 Atari 遊戲系統，則不具備資格；關鍵是要獲取累加的、可遷移的知識。）

物理具化地測試一個人工智慧驅動的機器人，它能夠基於指示和真實世界中與物體部件的交互而不是大量試錯，來搭建諸如從帳篷到宜家貨架這樣的系統（Ortiz Jr, 2016）。

沒有一個挑戰可能是充足的。自然智能是多維度的（Gardner, 2011），並且在世界複雜度給定的情況下，通用人工智慧也必須是多維度的。

通過超越感知分類，並進入到推理與知識的更全面整合之中，人工智慧將會獲得巨大進步。

6.結語

為了衡量進步，有必要回顧一下 5 年前我寫給《紐約客》的一篇有些悲觀的文章，推測「深度學習只是構建智能機器面臨的 15 個更大挑戰的一部分」，因為「這些技術缺乏表徵因果關係（比如疾病與症狀）的方法」，並在獲取「兄弟姐妹」或「相同」等抽象概念時面臨挑戰。它們沒有執行邏輯推理的顯式方法，整合抽象知識還有很長的路要走，比如對象信息是什麼、目標是什麼，以及它們通常如何使用。

正如我們所見，儘管特定領域如語音識別、機器翻譯、棋盤遊戲等方面出現重大進展，儘管在基礎設施、數據量和算力方面的進展同樣令人印象深刻，但這些擔憂中的很多依然存在。

有趣的是，去年開始不斷有其他學者從不同方面開始強調類似的局限，這其中有 Brenden Lake 和 Marco Baroni (2017)、Franois Chollet (2017)、Robin Jia 和 Percy Liang (2017)、Dileep George 及其他 Vicarious 同事 (Kansky et al., 2017)、 Pieter Abbeel 及其 Berkeley 同僚 (Stoica et al., 2017)。

也許這當中最著名的要數 Geoffrey Hinton，他勇於做自我顛覆。上年 8 月接受 Axios 採訪時他說自己「深深懷疑」反向傳播，因為他對反向傳播對已標註數據集的依賴性表示擔憂。

相反，他建議「開發一種全新的方法」。與 Hinton 一樣，我對未來的下一步走向深感興奮。

打響新年第一炮,Gary Marcus提出對深度學習的系統性批判

相關焦點

讓機器學習不再依賴數據?Gary Marcus和「Roomba之父」的初創公司...

保時泰的終結者,最低或不到15萬,將打響新年第一炮?

gary事件是怎麼回事 Gary離開跑男是真的嗎

《終極一班4》發布定檔海報打響暑期第一炮

軍訓基地「殺」聲震天北師大打響首都高校軍訓第一炮

中國援助的塞爾維亞:沒海軍卻修復百歲鐵甲艦,曾打響一戰第一炮

陸奇對話Gary Marcus:面對技術缺陷、倫理爭議,如何構建可信AI?

遙望召開雙十一閉門招商大會,頭部MCN打響2020年「雙十一」第一炮

以「孝」為先藍月亮冠名芒果TV《旋風孝子》打響新年營銷第一戰

如何減少噪聲標籤的影響谷歌提出一種魯棒深度學習方法MentorMix

《超人回來了》姜GARY×姜好父子確定下車,粉絲很是惋惜

姜gary教兒子說中文引起了網友的圍觀

周一情侶姜Gary對宋智孝說:「懵智啊……

國產「亞洲第一炮」,203毫米口徑,威力巨大,為何遺憾下馬?

Gary Marcus:因果熵理論的荒誕和認知科學帶給AI的11個啟示|文末贈書

吉他學習過程中系統性有多重要

論系統性學習與「刻意練習」的重要性

韓綜《超人回來了》姜gary兒子記憶力被稱讚!如何挖掘孩子天賦?

豹2革命強勢加盟《最後一炮》911周年慶即將開啟

糊塗老爸養出天才兒子,姜Gary哪些育兒經值得借鑑

打響新年第一炮,Gary Marcus提出對深度學習的系統性批判

相關焦點

讓機器學習不再依賴數據?Gary Marcus和「Roomba之父」的初創公司...

保時泰的終結者,最低或不到15萬,將打響新年第一炮?

gary事件是怎麼回事 Gary離開跑男是真的嗎

《終極一班4》發布定檔海報 打響暑期第一炮

軍訓基地「殺」聲震天 北師大打響首都高校軍訓第一炮

中國援助的塞爾維亞:沒海軍卻修復百歲鐵甲艦,曾打響一戰第一炮

陸奇對話Gary Marcus:面對技術缺陷、倫理爭議,如何構建可信AI?

遙望召開雙十一閉門招商大會,頭部MCN打響2020年「雙十一」第一炮

以「孝」為先 藍月亮冠名芒果TV《旋風孝子》打響新年營銷第一戰

如何減少噪聲標籤的影響 谷歌提出一種魯棒深度學習方法MentorMix

《超人回來了》姜GARY×姜好父子確定下車,粉絲很是惋惜

姜gary教兒子說中文 引起了網友的圍觀

周一情侶姜Gary對宋智孝說:「懵智啊……

國產「亞洲第一炮」,203毫米口徑,威力巨大,為何遺憾下馬?

Gary Marcus:因果熵理論的荒誕和認知科學帶給AI的11個啟示|文末贈書

吉他學習過程中系統性有多重要

論系統性學習與「刻意練習」的重要性

韓綜《超人回來了》姜gary兒子記憶力被稱讚!如何挖掘孩子天賦?

豹2革命強勢加盟《最後一炮》911周年慶即將開啟

糊塗老爸養出天才兒子,姜Gary哪些育兒經值得借鑑

《終極一班4》發布定檔海報打響暑期第一炮

軍訓基地「殺」聲震天北師大打響首都高校軍訓第一炮

以「孝」為先藍月亮冠名芒果TV《旋風孝子》打響新年營銷第一戰

如何減少噪聲標籤的影響谷歌提出一種魯棒深度學習方法MentorMix

姜gary教兒子說中文引起了網友的圍觀