別忽視深度學習的種種問題,Gary Marcus 潑冷水義不容辭

2021-01-09 雷鋒網

雷鋒網 AI 科技評論按:紐約大學心理學教授 Gary Marcus 曾是 Uber 人工智慧實驗室的負責人,他自己創立的人工智慧創業公司 Geometric Intelligence 2016 年 12 月被 Uber 收購,自己也就加入 Uber 幫助他們建立人工智慧實驗室。Gary Marcus 也曾號召研究人員們「借用認知科學領域的知識」,更多地構建和人類類似的認識概念。

然而 Gary Marcus 卻不是一個令人深受鼓舞的「正面人物」,實際上他曾反覆對人工智慧和深度學習潑冷水,警告大家我們現在取得的進展多麼微不足道、人們又有多麼過於樂觀。

聖誕-元旦長假剛過,Gary Marcus 在 arXiv 上傳了一篇論文,對現在火熱的深度學習的現狀進行了全面的、而且一點都不樂觀的分析。他在論文中針對現在火熱的深度學習指出了十個問題,雷鋒網 AI 科技評論把這十個問題簡單介紹如下:

一,渴求大量的數據

人類學可以根據明確的規律學習,比如學會一元二次方程的三種形式以後就可以用來解各種題目;也可以從不多的幾個樣本中迅速學到隱含的規律,見過了京巴、柴犬之後,再見到德牧就知道它也是一種狗。然而深度學習不是這樣的,「越多的數據 = 越好的模型表現」就是深度學習的基本規律,它沒有能力從字面上給出的規律學習。

對企業來說,IT 巨頭在深度學習時代更容易憑更大的數據量建立起馬太效應,第二梯隊的競爭者們已經開始感到擔憂。學者們也對此不是很樂觀,Geoffrey Hinton 在近期的膠囊論文中也提到「卷積網絡在新類別上泛化能力的困難度……要麼在網格中複製特徵檢測器,網格的大小隨著維度數目指數增長,要麼同樣以指數方式增加的標註訓練集的大小」。對於可用的數據有限的場合,深度學習往往並不是最佳的選擇。

二,學到的知識並不深入而且很難遷移

我們都知道深度學習的「深」指的是網絡的層數深、隱層數目多,而人類喜歡且崇敬的對事物運行規律的深刻總結則在深度學習中無處可尋。

即便對於需要和環境交互、理應更好地認識到環境規律的強化學習模型,一旦環境發生任何變化,它們也仍然需要重新適應——它們其實沒有真的理解「牆」是什麼、「通道」是什麼。除了 DeepMind 的玩 Atari 遊戲的強化學習模型表現出了這樣的特點,其它許多研究者在各自的研究領域中也都觀察到了輕微改變輸入數據就會造成輸出結果有巨大差別的現象。

深度學習模型學到的數據模式,看起來要比我們認為的弱得多。

三,難以處理層次化的結構

舉例來說,對多數深度學習語言模型來說,句子就是一串單詞而已,然而在語言學家眼中,句子是有固有的層次結構的;英文長句中的定語從句就是一類經典的例子,同樣是結構基本完整的句子,從層次結構角度講卻只是某一個詞或者詞組的補充說明。

深度學習對於各種層次化的結構都無能為力。人類可以把「煮米飯」這個目標拆分成「淘米、加水、設火力時間」幾個動作逐個完成,遊戲 AI 也有需求找到單個操作和全局戰略之間的平衡和協調。然而深度學習是提供不了層次化的理解、總結、控制等等能力的,它本身學到的特徵就是「平坦」的,或者說是非層次化的,每個特徵都只是清單中的一項。所以深度學習系統自身沒有能力表示出層次化結構,嘗試用一些技巧提取層次化結構的 Word2Vec 之類的模型就馬上可以脫穎而出。

然而考慮到多數任務、多數數據、多數電氣系統都有顯而易見的層次結構(這甚至就是人類構建實用系統的基本思路),深度學習在它們之上的表現都還很值得懷疑。

四,對於開放性推理問題愛莫能助

人類在看過書籍電影之後總能對其中的轉折和故事發展提出不同於原作的見解、對作者的暗示提出種種猜想,然而即便是在 SQuAD 問答數據集上表現最好的模型,也只能是在給定的文本中找到最相關的詞句然後把它們進行組合而已,完全沒有創新和理解暗示的能力。即便已經有研究者做出了嘗試,目前來說也沒有任何深度學習系統基於真實知識做開放性推理的能力可以和人類相提並論。

五,深度學習依然不夠透明

關於深度學習的「黑箱」神經網絡問題,在過去幾年來一直是被廣泛關注和討論的焦點。而在今天,深度學習系統動輒擁有數以百萬甚至十億計的參數,開發人員難以用可解釋的方式 (「last_character_typed」) 對一個複雜的神經網絡進行標註 (e.g., the activity value of the ith node in layer j in network module k)。儘管通過可視化工具,我們可以看到複雜網絡中的個體節點所產生的貢獻,但更多時候研究者會發現,神經網絡依然是一個黑匣子一般的謎。

這對於我們會產生什麼樣的影響猶未可知,如果系統的魯棒性足夠、自適應性也做得夠好,那麼可解釋與否並不成為問題。但如果它需要被用在一些更大的系統上,那麼它所具備的可調試性就變得尤為重要。

深度學習的透明性問題尚未被解決,而對於以金融或是醫學診斷為代表的應用領域,它將是一個繞不過的坑,畢竟,人們需要向機器的決策要一個可解釋的答案。就像 Catherine O』Neill (2016) 所指出的那樣,深度學習的不透明性將引致偏見的系列問題。

六,深度學習遠未與先驗知識緊密結合

深度學習的一個重要方向在於解釋學,即將它與其它的知識區隔開來。典型的深度學習方式往往是尋找一個數據集,通過調參等各種方式,學習輸入輸出的關聯,並掌握解決問題的方法。有少數研究會刻意地弱化先驗知識,比如以 LeCun 為代表的神經網絡連接約束等研究。

而以 Lerer et al 的研究為例,團隊嘗試讓系統學習物體從高塔上掉落的物理特性,在這個研究中,除了卷積隱含內容外,團隊沒有加入物理學的先驗知識。我即將發表的論文中也提及了這一點,即深度學習研究者看起來對先驗知識偏見不小,即便這些知識都是眾所周知的。

此外,將先驗知識整合到深度學習系統中也並非易事。主要原因在於,知識表徵主要描述不是抽象的量化特徵,而是特徵間的關係;機器學習過於強調系統的獨立性,而把通用性知識排除在外。以 Kaggle 機器學習競賽平臺為例,所給的數據集、所提出的問題,都是給定的,儘管在比賽的範式驅動下,研究者已經有了長足的進步,但與真實世界亟待解決的問題還有著很大差距。

生活並非一場 Kaggle 競賽。真實世界的數據並不會洗乾淨打包好等著你,而問題也比競賽所遇到的要複雜得多。在以語音識別為代表的,有大量標記的問題上,深度學習可能表現不俗。但如果是開放性的問題呢?幾乎沒有人知道要怎麼辦。被繩子卡住鏈條的自行車怎麼修?我要主修數學還是神經科學?沒有數據集可以告訴我如何解決。

與分類離得越遠的問題、與常識靠得越近的問題,越難被機器學習所解決。而目前據我所知,也沒有人嘗試過解決這樣的問題。

七,深度學習無法區分因果性與相關性

如果因果性與相關性確實不同,那麼兩者的區分會是深度學習的一個嚴峻問題。簡單地說,深度學習習得的是輸入與輸出特徵間的複雜關係,而非因果性的表徵。深度學習系統可以把人類當作整體,並學習到身高與詞彙量(height and vocabulary)的相關性,但並不能了解到長大與發展間(growth and development)的關係。也就是說,孩子隨著長大會學到更多單詞,但不代表學習更多單詞會讓孩子長大。因果關係對於 AI 而言是一個核心問題,但可能因為深度學習的目標並非解決這些問題,因此深度學習領域很少涉足這一研究。

八,深度學習對環境的穩定性提出要求,這可能會存在問題

深度學習目前在高度穩定的環境中工作得最好,比如圍棋,因為它的規則不變,而一旦遇到政治和經濟問題(這些問題會不斷變化),效果則不盡人意。

在一定程度上來說,深度學習可以應用到諸如股票預測等任務上,但是有很大的可能最終會得到類似 Google Flu Trends 的結果,雖然一開始的疫情預測表現良好,但卻沒能提前預知 2013 年的流感高發季。

九,深度學習目前得出來的結果只是近似值,不能徹底相信

從前面提出的問題中可以看到,深度學習系統在某些給定領域的大部分情況下工作得很好,卻很容易被愚弄。

越來越多的論文表明深度學習容易受到攻擊,比如上面提到的 Robin Jia 和 Percy Liang 在語言方面的研究,以及計算機視覺領域的大規模的案例——將黃黑相間的條紋誤以為校車,將帶有貼紙的停車標誌誤以為裝滿食品的冰箱。最近還有一些現實世界中的例子,比如被輕微塗損過的停車標誌被深度學習系統誤認為是限速標誌,3d 列印的烏龜被誤認為是步槍。近期,還有新聞報導了英國警局系統不能正確區分裸體和沙丘。

深度學習系統易受欺騙(spoofability)的特性可能是由 Szegedy 等在 2013 年的一篇論文中首次被提出的,四年過去了,經過了如此多的研究,研究人員還是沒能找到什麼魯棒性的解決方法。

十,深度學習發展到現在還是很難工程化

從上面提到的所有問題中得出的另一個事實是,用深度學習來做魯棒性工程很難。谷歌團隊發表的論文 Machine Learning: The High-Interest Credit Card of Technical Debt 中,他們的標題將機器學習形容為「技術債務裡高利息的信用卡」,這表明,系統在給定了限制的環境下會工作, 但是很難保證在添加了新的數據,並且這些數據與之前的訓練數據存在差異的情況下能工作。在 ICML 2015 上,Leon Bottou 將機器學習與飛機引擎的發展作了對比,他表示,飛機的設計依賴於構建複雜的系統,這可以保障可靠的性能,但機器學習系統的缺乏類似的保障。

正如谷歌的 Peter Norvig 在 2016 年所指出的那樣,機器學習與傳統項目相比,還缺乏增量性(incrementality)、透明性(transparency)和可調試性(debuggability),想要實現機器學習的魯棒性,這是一項挑戰。Henderson 和他的同事最近也提出了這一觀點,他們專注於深度強化學習,指出了這一領域在魯棒性和可複製性方面存在的一些嚴重問題。

儘管我們在開發機器學習系統的過程中已經取得了一些進步,但還有很長的路要走。

誠然,深度學習在計算機視覺、強化學習、NLP 等領域都優異地解決了不少疑難問題,但我們在對深度學習抱有熱情的同時也應當看到,深度學習並不能解決所有的問題,它高超的提取特徵和非線性抽象的能力也遠不足以構成通用人工智慧的基礎架構。雷鋒網 AI 科技評論認為,深度學習的研究當然要持續,它的火熱也為整個機器學習、人工智慧界帶來了大量關注和人才;但言必深度學習也並不是一個良好的發展狀況,我們更希望各種技術和認識方法可以齊頭並進,合力構建出人類理想中的「人工智慧」。

原論文 https://arxiv.org/abs/1801.00631 中還有更多內容。雷鋒網 AI 科技評論節選編譯。

相關焦點

  • 對話Gary Marcus:人工智慧還未找到它的牛頓,我們不能依賴它
    第二篇不太好讀,但我認為這一篇也很重要,值得一談。第一篇試圖闡述深度學習的局限性,並指出了 10 個問題,主要是關於深度學習依賴大數據並且歸納能力不很糟糕的問題。第二篇文章是關於先驗知識以及其應該如何納入 AI 系統中的問題。我想這是一種歷史重現,這個現象在人工智慧的早期就出現過。
  • 「疫」不容辭,威圖速度
    威圖人「疫」不容辭!  緊急!  1月30日,大連市第六人民醫院「負壓病房改造工程」在「疫情」爆發中啟動。  目標——20天竣工!  威圖機櫃系統解決方案作為所有元器件組件的「安全房」,必須最先交付。  不可能完成的任務?
  • 紐約大學Gary Marcus等撰文:人類思維對於AI的11個啟示
    當前,深度學習技術正嘗試規避這種方式,轉而用一系列向量以模糊的方式捕捉事件,並不直接精確地表示語義,比如從屬關係(柏林,德國)、訪問關係(甘迺迪,柏林,1963 年 6 月)。深度學習的重點在抽象推理,因為它從一開始就不是為了表示精確事實知識。可一旦事實模糊,就很難正確地推理。
  • Gary Marcus:因果熵理論的荒誕和認知科學帶給AI的11個啟示|文末贈書
    深度學習試圖用一堆向量來模糊處理這個問題,這些向量會粗略捕捉一 些信息,但永遠不會直接表示出類似「拜訪」(甘迺迪,柏林,1963 年 6 月) 這樣的命題。趕上好時候,深度學習中常見的那種變通方法或許可以正確推 斷出甘迺迪訪問過德國,但卻不具備可靠性。
  • 深度學習與統計力學(I) :深度學習中的基礎理論問題
    對英文原報告感興趣請在本公眾號回復關鍵詞「深度學習統計力學」。深度神經網絡最近在機器學習方面取得了顯著的成功,這就對其成功背後的理論原理提出了深刻的問題。例如,這樣的深層網絡可以計算什麼?我們如何訓練他們?信息是如何通過它們傳播的?為什麼他們泛化能力很好?我們怎麼能教他們想像呢?
  • 特級教師說| 朱開群:基於深度學習的「深度教學」
    本文通過對「深度學習」特徵的剖析,提出了只有將學生引向「深度學習」的「深度教學」,才是基於核心素養的教學觀點,並指出「深度教學」應該是基於價值引領的教學、基於真實情境的教學、基於高質量問題的教學、基於學科內和學科間的整合性教學、基於思辨的教學、基於微探究和微課題的研究性教學。從「深度學習」走向「深度教學」,使培養學生核心素養從理念走向行動。
  • Marcus和Bengio激辯AI未來
    期望複製完整的體系結構是非常不現實的。Yoshua Bengio 等人認為,我們可以在保持深度學習框架的同時加入因果推理,新的人工智慧系統或許可以利用注意力機制,或者通過新的模塊和訓練框架來實現(例如元學習和基於智能體的方式)。將因果關係引入深度學習會對通用人工智慧帶來切實和持久的貢獻,但是利用單一架構來獲取所有的認知是否現實?
  • 一場突如其來的討論:到底什麼是深度學習?SVM其實也是深度學習嗎?
    更重要的是,大家已經意識到了深度學習的種種限制,那麼想要破除限制、實現更高級的智慧時,就免不了需要思考,是「繼續改進深度學習就可以達到目標」,還是「我們需要在深度學習之外另起爐灶」,這裡也就引出了那個看似簡單,但大家尚未達成共識的問題「深度學習是什麼?」不少學者最近都參與了這個討論,雷鋒網 AI 科技評論帶大家回顧一下各方觀點。
  • 淺析深度學習在半導體行業的應用
    提到圖形處理技術,人工智慧的問題不可迴避。如今人工智慧、機器學習和深度學習是業界風向標。但這究竟是炒作還是已然悄悄影響行業發展?深度學習是機器學習的一個分支,而機器學習是AI的一個分支。可以預見,深度學習包含了較多的非連續性、顛覆性的技術與重大的機遇。但它不像1980年代的Lisp機器熱潮。因為Lisp程式語言並不適於一般編程人群。深度學習卻顛覆了編程,與往常的編程 ——即編程者寫代碼並將一組輸入轉化成一組輸出——不一樣的是:深度學習會消化許多輸入與輸出的示例,並學習該模式下的匹配。
  • 觀點‖楊清:走出「課堂深度學習」認識的三大誤區!
    在教學實踐中,有些教師對課堂深度學習和高階思維的理解過於片面,以致重「高階思維」輕「低階思維」:有的課堂只重知識的「拔高」而忽略了學生對基礎概念和原理的學習;有的課堂過於強調「遷移」,而忽視了學生對文本本身的「理解」。
  • Nat Rev Neurosci:深度學習能解答神經科學中的什麼問題?
    頂刊導讀目錄 1,基於深部腦網絡和全球14468個人的腦年齡和壽命疾病的核磁共振特徵 2,發表易受攻擊言論的機器人可積極塑造了人類-機器人團隊中的人類溝通方式3,利用機器學習繪製複雜人類特徵和多基因結構的腦神經網絡連接圖譜4,大腦中的分布式強化學習5,深度學習能解答神經科學中的什麼問題?
  • 高分的背後,別忽視
    而在上幼兒園的時候,又開始挑幼兒園的教育模式與科目,現在家長已經不滿足於孩子只是上幼兒園的普通課程了,甚至還要開始挑一些上育幼兒園,可見現在家長對孩子的學習是有多重視。為啥小學生平均分幾乎在「95分」以上?
  • 排便很重要,千萬別忽視
    當然,任何一個人都不希望自己出現這種情況,只是腸梗阻這病既然已經患上了,再噁心也得受著。除了噁心和痛苦,長期無法大便帶來的危險我們也不能忽視。 腸梗阻的發病原因
  • 注意力不集中已成腦力培訓不容忽視問題
    近些年來各地腦力培訓課程、腦力開發學校盛行,大多數學生通過一系列專業課程訓練或在記憶力、想像力、創造力方面擁有很大提升,或在學習能力、理解能力上有所成就,得到了很多家長和學校的重視,然而同屬於腦力訓練範疇內的注意力不集中問題卻很少有家長和有關機構重視,甚至在一些家長眼裡注意力不集中純屬孩子自身問題,智翱國際教育專家表示:目前注意力不集中問題才是孩子腦力培訓當中最不容忽視的一環
  • 深度學習筆記:深度學習——AlphaGo阿爾法狗
    它主要的原理就是深度學習。卡斯帕羅夫對戰深藍在圍棋上,深藍的方式完全不適用。為了戰勝人類圍棋選手,AlphaGo需要更加智能且強大的算法。深度學習為其提供了可能。AlphaGo主要包括三個組成部分:蒙特卡洛搜索樹(MonteCarlo tree search,MCTS)估值網絡(Value network)策略網絡(Policy notebook)AlphaGo的一個大腦——策略網絡,通過深度學習在當前給定棋盤條件下,預測下一步在哪裡落子。
  • 深度學習變革視覺實例搜索
    研究興趣為深度學習與計算機視覺。曾獲2015年首屆阿里巴巴大規模圖像搜索大賽二等獎,總排名第三名。摘要近些年,深度學習在各種計算機視覺任務上都取得了重大的突破,其中一個重要因素就是其強大的非線性表示能力,能夠理解圖像更深層次的信息。本文對基於深度學習的視覺實例搜索方法做了簡單的總結和概括,希望能給讀者們帶來啟發。
  • 前沿| 深度學習的概念、深度、策略、效果及其啟示
    美國威廉和弗洛拉·休利特基金會與美國研究院合作開展的深度學習項目(SDL)對以上問題給予了回答。在概述(SDL)研究背景和研究設計的基礎上,從核心概念、促進深度學習的策略和途徑、深度學習的效果三個維度進行了介紹與解讀。
  • 專家深談:深度學習成功的啟示,以及,為什麼它不能解決全部AI問題?
    本文原標題為《深度學習在計算機視覺領域成功的啟示與開放問題討論》。大數據支撐的深度學習的復興固然是AI領域的裡程碑式進步,但並不意味著深度學習具有解決全部AI問題的潛力。但從深度學習的視角來看,其劣勢也是同樣明顯的:子問題最優未必意味著全局的最優,每個子步驟是最優的也不意味著全過程來看是最優的。相反,深度學習更強調端到端的學習(end-to-end learning),即:不去人為的分步驟或者劃分子問題,而是完全交給神經網絡直接學習從原始輸入到期望輸出的映射。
  • 深度學習如何導致類人AI?需要解決三個問題
    深度學習是通往類人AI的道路嗎?加拿大AI研究人員Yoshua Bengio給出的回答是:是的,如果AI研究人員能設法解決功能遷移學習、高級認知和更多的人工智慧操作空間這三個重要問題的話。
  • 乾貨滿滿:5本必看深度學習書籍!
    全文共3046字,預計學習時長6分鐘有很長一段時間,沒有人想閱讀和AI有關的書,整個領域的研究如同一潭死水。但之後,AI領域湧現一批重大突破成果:圖像識別、自動駕駛汽車、阿爾法圍棋(Alpha Go)。似乎在一夜之間,AI不一樣了。