Yan LeCun強推的AI簡史:兩大流派世紀之爭,神經網絡華麗回歸

2020-12-05 大數據文摘

大數據文摘出品

編譯:李可、瑞清、李陽陽、錢天培

2010年以來,基於機器學習(尤其是深度學習)的預測算法在一些領域取得了極大的成功,比如說圖像識別和機器翻譯。而我們把這些算法都稱作是人工智慧(AI)。

不過,深度學習成為這些領域的主流並不是一蹴而就的。在人工智慧紛繁的歷史中,聯結主義(神經網絡就屬於聯結主義)長時間被符號主義所排斥。這篇論文通過符號主義和聯結主義之間的鬥爭,回溯了人工智慧的歷史,以及最近深度學習的出現。

在這篇被Yan LeCun等多位大咖推薦的法語文章中,我們將看到,聯結主義的科研者們是如何使用大量的數據和強大的算力,一步步用控制論時代的自適應推斷機,並主導了符號主義提出的人工智慧項目。

大數據文摘將全文翻譯如下,enjoy。

2012年10月 ECCV 會議中的一幕將成為計算機發展史上的一個傳奇。ECCV幾乎匯集了計算機視覺領域的所有優秀的研究人員。

「所以在2012年 ECCV 組織的比賽中,誰贏了?」

是Hinton,神經網絡之父!

他給計算機視覺領域帶來了一場地震——他和他的學生提供的系統將傳統的方法打的一敗塗地,而之前他甚至在該領域鮮有研究。

他的學生Alex Krizhevsky提出的AlexNet類似於一個黑箱,Alex對這個黑箱說:「你給我好好訓練,等可以得到好的結果了,就結束吧。」

當時他們使用帶有 GPU 的機器進行訓練。但是和現在相比,機器的算力還是很有限的,但他們通過一些技巧使GPU之間的通信變得高效,並控制了通信的性能損耗。

這絕對是一個瘋狂的機器,否則它永遠不會成功。

那個時候,計算機視覺領域的研究人員都在為 ImageNet 這個數據集感到興奮。這個數據集有120萬張帶標籤的圖片,共有1000多個類別,是衡量比較不同的模型的基準。

第一名的錯誤率是27.3%,第二名是27.18%,第三名是27.68%。而 Hinton 他們使用了AlexNet:「我們跑的模型很深,我們的錯誤率是17%」,這個錯誤率比之前最優模型減少了10%。Alex 這個穿黃衣服的極客,他做到了!他宣布結果,房間裡的所有人都震驚了。

他也不能解釋為什麼要使用這樣的技巧,他只是造了一個黑箱,然後讓它自己訓練,而他甚至對這個領域一無所知。在那裡,他對面是 李飛飛,而Yann LeCun坐在房間裡面,正站起來準備回答問題。(李飛飛是計算機教授,斯坦福SAIL 實驗室的負責人。Yann LeCun 現在是Facebook FAIR 實驗室的負責人,同時也是神經網絡的奠基人之一。)

計算機視覺領域的人試圖反駁 「這樣做是不行的,物體識別不能用這種方式來做……」 這些技術最終都落地了,這大概是因為它們默默的發展了十年然後厚積薄發吧。

很多人想探究這類方法取得這麼好結果的深層原因。

深度學習可以看作一個黑箱,它有很深的結構,一億個參數。它通過大量的數據進行訓練,然後震驚了整個計算機視覺領域。「如果輸入的圖片有一些擾動,你的模型還能給出一樣的結果嗎?」,有人問。

Alex 自己也無法回答這個問題。還是 LeCun 作出了回答:「這個模型能處理這個問題,是因為……」。LeCun 非常高興,李飛飛問他「Yann,這個模型和你在80年代發明的模型有根本上的不同嗎」,Yann 回答說:「不,它們完全一樣,並且它贏得了所有的比賽。」

深度學習在圖像分類任務的成功改變了其相關技術在科學社區長期邊緣化的境況。在這個令人吃驚的結果後面,是對這個新方法有效性的質疑,對傳統方法未來的擔憂,對這個新闖入者理論知識缺乏的嘲笑,對新方法帶來的改變的疑惑……自2010年以來,神經網絡對計算機領域產生了深刻的影響,比如說:信號處理,語音處理,自然語言處理。這個新的方法可以直接把原始數據作為輸入,而不需要人工提取特徵。它還可以通過大量的數據來優化模型,產生令人矚目的結果。圖1 簡單展示了這個轉變:由假設演繹模型變成了歸納模型。

計算過程,程序,模型的規則,在舊的系統中需要人工設置,而在這個新的系統中它們則成了學習的目標。圖1 就展示了這種轉變。

符號主義 vs 聯結主義

神經網絡在2012年的 ECCV 取得了巨大的成功,但它並不是什麼新東西。利用強大的算力,以及大量的數據,現在已經可以滿足控制論的一些要求。只是最近用於描述這些技術的術語是人工智慧( AI )。

John McCarthy 於1956年提出了人工智慧這一概念。目前在機器學習領域,尤其是深度學習領域,預測算法正在取得重大進展,但把這些技術歸於人工智慧並不嚴謹。在歷史上,神經網絡(以前叫聯結主義)長時間被符號主義所鄙視。這兩種方法之間的緊張關係在人工智慧剛誕生並與控制論劃清界限時就開始了。

符號主義的學派以認知主義為基礎構成了AI的初步框架:認知就是通過對有意義的表示符號進行推導計算。然而,聯結主義認為認知可以看作大規模並行計算, 這些計算在類似於人腦的神經網絡中進行,這些神經元集體協作並相互作用(Andler,1992)。這兩種思想下造出的「智能」機器區別是巨大的。

今天我們正在目睹科技史的一個偉大的逆轉:之前在人工智慧領域被邊緣化的聯結主義重新回歸。就像Michael Jordan (2018) 諷刺的那樣:「維納提出的方法卻披著McCarthy發明的術語的外衣」。維納提出了控制論,我們現在使用的神經網絡就可以看作控制論,而人工智慧(AI)這個術語是 McCarthy 發明的。

為了講清楚這些互相交叉的理論方法,首先我們可以根據 Web of Science(WoS)收集的出版物數據來進行統計。觀察提到「人工智慧」,「符號主義」,「聯結主義」文章作者的共引網絡就夠了。

我們可以在圖2中看到我們將在本文中將提到的主要人物的名字,他們已經根據不同的科學社區進行了區分。在聯結主義社區的中心是 Rumelhart, LeCun 和 Hinton。他們是深度學習的奠基者。他們周圍也有很多其他研究人員 (Holland, Hopfield), 還有一些人為傳統的機器學習方法作出了極大貢獻,如 Breiman, Mitchell 和 Vapnik。在符號主義那邊,核心人物如McCarthy, Minsky, Simon et Newell可以看作 AI 的創立者。他們周圍也圍繞著一群人,如 Dreyfus, Searle, Brooks,他們為認知模型、專家系統等等做出了重要貢獻。

圖3

如果我們看從1935年到2005年出版的 AI 論文,聯結主義和符號主義之間的鬥爭似乎更加直觀。在圖3中,我們看到了最初聯結主義和控制論的誕生。然後,從20世紀60年代初開始,符號主義主導和定義了人工智慧。最後,直到20世紀90年代中期,在人工智慧的第二個寒冬之後,聯結主義開始使用深度學習的名頭在科學出版物中佔據主導地位。

為了對人工智慧系統有個整體的認識,我們引入三個詞語,世界(monde),計算器(calculateur),以及視野(horizon)。這些詞在不同的情況下有不同的含義:世界可以是:環境/輸入/數據/知識數據,計算器可以是:計算/程序/模型/代理(agent),視野可以是:目標函數/結果/輸出。

我們講,這個預測系統安裝了一個計算器來根據世界計算一個視野。在 AI 的歷史中,世界,計算器,和視野的實體一直不停的變化。對這三部分的架構,研究人員還提出了種種截然不同的方式。AI 從符號主義轉向聯結主義並不是突然發生的結果,也不是說一種比另一種更有效。這個轉變過程是不同方法和科學社區之間的重新組合與競爭。這也影響了計算技術,所需要處理的數據格式,目標,以及需要解決的問題 (Latour, 1987)。現在我們稍微總結一下這些概念:符號主義的研究人員嘗試著人工設計計算器,世界,和視野。而聯結主義的研究人員則相反,他們嘗試把計算器清空了,讓世界來自己得出它的視野。

控制論和最開始的聯結主義

神經網絡起源於早期的計算機以及控制論,雖然最開始它並不是叫這個名字,我們叫它聯結主義。

神經網絡這個詞由神經學家 Warren McCulloch 和 邏輯學家 Walter Pitts 在 1943 年提出,最初含義是指給人腦的神經網絡進行數學建模。那篇文章一直被深度學習的文章引用至今,甚至可以看作聯結主義的起源。

從圖3我們可以清楚的看到,在控制論的早期階段,聯結主義一直佔據著主導地位。那篇文章所描述的是:神經元接受不同的輸入,然後會計算出一個加權和。如果這個加權和超過一個閾值,會激發這個神經元。當時這個概念並沒有和人工智慧聯繫起來,「人工智慧」這個詞語還不存在。直到1949年神經學家 Donald O. Hebb 才把神經網絡和機器學習聯繫起來。他發現神經元之間通過突觸信息被激活可以看作一個學習過程。受此影響,神經網絡模型變成了控制論的一個重點,並成了第一臺「智能」機器的計算器的核心 (Dupuy, 2005)。

世界和計算器之間的耦合

這類系統的特點在於它們與環境(世界)之間緊密耦合,以至於沒有必要為它們的計算器配備特別的部分。控制論提議直接弄一個簡單的黑箱,將這個黑箱的學習與視野聯繫起來,通過測量世界和機器行為的誤差來調節黑箱裡的參數。這種機器智能行為主要基於信息,而不同於人工智慧誕生時用的符號主義(Triclot,2008)。這個信息所指的是編碼之前的信號。根據 Shannon 的資訊理論,信息被視為一種純粹的形式,它表示 「事物中的有序程度或結構」(Triclot,2008)。

然後,控制論將其計算的視野定義為對世界的輸入和輸出的比較。在Norbert Wiener 的防空飛彈制導系統裡,預測裝置的訓練過程就是通過比較目標有效軌跡與上一步的預測軌跡之間的區別,然後不斷更新系統。

這個設備可以根據給定的數據對計算器進行更新,然後收斂到最佳的結果。負反饋系統(將輸出誤差變為自適應系統的新的輸入)就變成了控制論的主要部分。這也參考了當時的行為心理學(Skinner,1971),參考了生物器官的一些行為,機器可以根據環境信號來進行自適應,而不需要在內部給它設置一些規則,總之智能需要有自我學習能力。

Arturo Rosenblueth, Norbert Wiener 和 Julian Bigelow 在 1943 年定義了控制論的基本原理,他們想像一個能夠自我糾錯的機器,通過概率的方法根據目標以及所犯的錯誤對結果進行修正,這就是一個自適應的過程。以嚴格的「消除主義」思想,控制論裡的系統可以沒有意圖,計劃,或推理的概念(Galison,1994)。

Ross Ashby (1956, p. 110) 把系統的計算器部分描述是一個黑箱,控制論裡的預測系統的配置與世界和計算器緊密相關,它的視野是系統對自己的自適應優化。 20世紀50年代的控制論系統(Homeostat,Adaline等)由於算力限制,只能算是實驗室裡的一個玩具,但現在隨著算力的提高以及更多的數據,深度學習可以更有效地配置訓練這個黑箱。

感知機和聯結主義系統

McCulloch和Pitts提出的神經網絡給計算機視覺領域提供了一種特別適合的解決方案,用計算機配備這些原始的自適應機器。在20世紀50年代後期,神經網絡經歷了一次重大的發展,進入了一個類腦機器計劃。

聯結主義受到了很多其它工作的啟發,包括 Bernard Widrow 的 Adaline,史丹福大學 Charles Rosen 的 Shakey, Pandemonium, Oliver Selfridge 的混合系統 (1960)。康奈爾大學的心理學家和計算機學家 Frank Rosenblatt 提出的感知機可以算是一個真正的聯結主義系統,並且成為了計算器產生智能行為的標誌。這種用於圖像識別的系統受到了很多關注,並從美國海軍(ONR)獲得了大量資金。

Frank Rosenblatt 設計的機器受 McCulloch 和 Pitts 提出的神經網絡的啟發,同時增加了學習機制。在感知機疊加的各層中,輸入神經元模擬視網膜活動,輸出神經元對系統識別的「特徵」進行分類,只有中間的隱藏層才能學習。

與 McCulloch 和 Pitts 提出的「下行」組織不同,Frank Rosenblatt 提出採用自下而上的方法,用學習機制統計學習網絡結構。在軟體實現感知機之後,Frank Rosenblatt 將開始構建硬體版本的感知機:Mark I,它將400個用光電設備組成神經元。 突觸權重由電位計編碼,並且學習期間的權重變化由電動機執行。由於當時的技術限制,這類物理實現的感知機還是很罕見的。並且,由於人工智慧另一個分支, 符號主義的發展,這部分研究趨於停滯。

符號主義

Dartmouth, John McCarthy 和 Marvin Minsky 在1956年達特茅斯舉行的會議中提出了人工智慧(AI) 這個詞語,用來反對早期控制論裡的聯結主義 (Dupuy, 2005)。他們覺得機器根據輸入和輸出進行自適應調整是不夠的, 「符號主義」 人工智慧的目標是把人工定義的程序算法和規則放入計算機系統中,這樣可以從更高一級來操縱系統。所以AI誕生之初對聯結主義的一些觀點是排斥的。如圖3所示,符號主義從19世紀60年代中期到90年代初,一直在人工智慧領域佔主導地位。

符號主義的最初工作由 Herbert Simon 和 Allen Newell 在19世紀50年代推動。1956年,他們寫了第一個人工智慧程序 Logic Theorist ,讓機器來模擬做決策的過程。這個程序完成的任務也經常被人工智慧的研究人員使用。他們宣布: 「這個聖誕節我們發明了一個有思維的機器」。從1956年到70年代初,推理模型都是早期AI的核心。這個領域的研究迅速被一小部分機構和人給統治:MIT (Minsky, Papert), Carnegie Mellon (Simon, Newell) 和 Stanford University (McCarthy)。

儘管這個研究圈子內部有一些分歧,但是他們幾乎壟斷了 AI 研究的一切,包括資金以及大型計算機的使用權。從1964 到 1974,ARPA和空軍用於研究人工智慧75%的資金都被他們拿走了。他們的項目也爭取到了當時為數不多的算力資源。在ARPA,受益於 Joseph Licklider的堅定支持,符號主義項目獲得了科研資金,同時也可以通過在軍事系統上的應用來驗證系統的合理性。在19世紀60年代初,繼承自控制論的聯結主義方法由於 Frank Rosenblatt 提出的感知機產生了一股熱潮。儘管還是一名學生,他開發出了一個神經網絡系統 Snarc(1951)。

Marvin Minsky 說符號主義所領導的具有優美數學的AI正面臨著「神秘」,「被浪漫主義氣氛包圍」的自組織系統和聯結主義的挑戰 (Minsky et Papert, 1969)。通過對單層感知機的分析,他和 Simon Papert 證明了神經網絡不能實現異或(XOR)操作,所以覺得它們是沒有未來的。正如 Mikel Olazaran (1996) 所介紹的,Minsky 和 Papert 的策略是通過流行的符號主義來對人工智慧進行定義。即使這本書的造成的影響可能並不是作者的本意,其後果也將是不可改變的:在1971年 Frank Rosenblatt 英年早逝之後,神經網絡被拋棄,相關項目的資金資助被停止,神經網絡離開了人工智慧領域。

對符號進行操作的空間

符號主義的機器的主要特徵是打破了與世界的耦合,並賦予了計算器一個自主的推理空間。在這個完全對計算器開放的編程空間裡可對符號進行操作。

20世紀50年代建立的馮·諾伊曼架構,就是這樣一個空間。設計於計算飛彈彈道的ENIAC(1946)本想在硬體中給機器「編程」,但後來分離了軟體和硬體,軟體用執行基於符號的邏輯運算,而硬體是機器的物理結構 (von Neumann, 1945) 。

於是一個獨立於硬體,專門用於程序的空間產生了。硬體變成「計算程序的中央化通用型自動機」(Goldstine,1972,pp.198-199),而編程,根據艾倫·圖靈(2004,p.21),變成了「文書工作」。Paul Edwards(1996)表明,接近人類語言的高級程式語言的出現(再編譯成0/1形式的機器語言)使分離物理機器和符號機器成為可能。人工智慧從此可以說是關於機器的思想的科學。程式語言也是人工智慧對計算機科學的最早貢獻之一。

符號操作空間的出現與認知科學的出現 (1956) 有關。認知科學反對行為主義心理學極其控制論的「黑箱」概念,它的任務是賦予機器抽象和邏輯能力。認知科學也與聯結主義不同,不關心生理學和人的行為,只關注推理。計算思想的理論,基於二元論,被構建出來:假設精神狀態可以同時被物理地和符號地描述;物理式描述,如對信息的一系列物理性處理,符號式描述,包括符號操作,機械操作,比較,層次、推斷 (Andler,2016) 。這一假說也稱為「物理符號系統」,假設思想不能直接與世界交流,但世界在思想內部的表示和思想所為可以被嵌在程序中的符號描述和組織。

一個「玩具」世界

符號主義機器的世界只是一個舞臺背景,機器把它的邏輯原則的語法投射到世界:西洋棋,跳棋遊戲(Arthur Samuel),幾何定理證明 (Herbert Gelertne),就像電子遊戲的背景。 第一波人工智慧的特點是發明了簡化的空間,空間形式需要機器去認識和改動,例如Marvin Minsky的計算機環境Microscope (MAC) 或Terry Winograd的著名語言SHLURDU。 想像一個虛構的空間,只有幾個房間幾個物體,Shakey機器人在其中移動,一個「玩具空間」,其中的物體可以很容易地被聯繫到語法,語法經過計算會產生相應的系統行為。

如果計算器投射它自己的世界,這也是因為它企圖把自己本身融入視野。正是在這個意義上,AI能夠以「強者」的姿態回歸,因為給予系統的目標是它自己的,可以從模型的邏輯推理中推導出來。巧妙的塑造系統語法的語言都是推論,它們把各種操作層層組織,每個操作都是對實體的基礎變換,都是一次正確計算基礎上的推論(Andler,1990,p100)。 如決策樹,中間邏輯鏈,目標和子目標分解,中途/末尾分析(analyse moyen/fin) 。

合理的計算視野包含在程序的語法中。機器可以解決實際問題,找到正確的解,或做出適當的決策,而不需要給它正確答案(比如機器學習中的樣本),因為規則可以通過遵循計算器的推理推導出來。推理原則的語法和被操縱對象的語義都內置在計算器中,可能會在正確的推理中彼此混淆,但也可以或多或少確定下來——以人工的代價:「智能」世界是由設計師實現的,受到監督,精準,明確,因此理性就是它的視野。是,在機房,這些機器能夠達到一定的性能,但一旦向它們展現整個世界,它們很快就會變得盲目和愚蠢。

人工智慧的第一個冬天

20世紀70年代早期,人工智慧進入了它的第一個冬天,聯結主義和符號主義的項目都將凍結。 兩個流派都承諾得過多,而結果遙遙無期。 聯結主義一邊,Frank Rosenblatt的感知機被過早公之於眾。在《激動人心的智能機器》新聞中,紐約時報報導「電子計算機雛形出現,海軍希望它能走,說,看,寫,製造自己,甚至擁有自我意識」。

符號主義一邊,以Herbert Simon和Marvin Minsky為首,不切實際的宣言很快被否定掉了。翻譯俄語的翻譯器、滲透進敵人戰線的機器人,坦克和飛機駕駛員的語音指揮系統,宏圖面對的現實是:「智能系統」 還只是機房裡的遊戲。1966年,國家研究委員會削減了機器翻譯的預算,隨後一系列撤回落到了對人工智慧的財務和學術支持上:Minsky和Papert在麻省理工學院的micromonde項目,史丹福大學的Shakey機器人, DARPA的SUR語音識別計劃……英格蘭,1973年,重要的Lighthill報告發表,勸說人們停止對AI的公共資助。

在資金危機頻發的情況下,推理邏輯模型的項目奄奄一息,批評越來越多。 1965年,Rand委託哲學家Hubert Dreyfus撰寫了一篇關於人工智慧的報告,名為「鍊金術和人工智慧」,發表了一個有力的論證:「計算機不能做什麼」(Dreyfus,1972) , 第一版就大獲成功。Hubert Dreyfus對建造人工智慧的爭論迅速大大削弱了推理規則可以給機器「智能」的想法。 對邏輯規則的闡釋完全忽視了知覺有身體的,位置的,隱性的,顯性的,集體性的,語境的,也忽視了人類對行為的決策。

第一代「叛徒」出現,他們批評、質疑自己曾有的希望:Joseph Weizenbaum, 先驅Eliza,SHRDLU的設計者 Terry Winograd。「智能」機器與美妙的邏輯規則,確定性語法和理性的目標吻合,但這樣的機器的世界並不存在。

人工智慧第二波浪潮:專家的世界

然而,人工智慧將在20世紀80年代迎來第二個春天,「專家系統」對符號主義機器架構進行了重大修訂。

通過訪問更強大的計算機,將更多信息輸入計算機的內存,重生得以實現。 然後,「玩具」世界被專家的智識構成的「專業知識簿」取代。第二代AI與可以世界的外延相互作用,而世界的外延並非由程式設計師設計塑造:它現在由來自不同領域的專家的知識組成,這些知識轉化為陳述性命題,用儘可能自然的語言表達 (Winograd,1972),以便用戶可以通過提問來互動 (Goldstein,Papert,1977)。

根據Edward Feigenbaum為DENDRAL(第一個識別材料化學成分的專家系統)提出的術語,待計算世界的外延導致了符號主義機器的架構改變,分離了計算器構成的「推理引擎」和稱為「生產系統」的一系列可能的世界。知識的資料庫是一個可修改的「如果 ... 那麼」型規則的列表(例如:「如果發熱,那麼[搜索感染]」),它們與推理引擎分離,推理引擎用於決定何時、如何應用規則。

規則的聖殿

早期僵化的計算主義想發明一個不切實際的抽象宇宙,受到諸多的批評。現在人工智慧研究將從最高層開始,理解,抽象,然後完成一個概念系統,來操作這些新的知識庫。然後,這個符號主義的項目以超過必要的建模,不完備的推理和啟發式的算法,在專家的幫助下,更接近用戶的世界。這種計算器編程的特徵在於放鬆邏輯運算符(語法),而構建過密的表示知識的概念網絡(語義)。借用關於思想模塊性的討論(Fodor,1983),計算器將推理過程分解為基本的模塊,分解為交互的「代理(agent)」,這些「代理」可以自主地用不同方式使用知識和做出推斷。因此,第二波符號主義人工智慧的主要創新構思產生於知識庫、知識庫衍生出的有啟發式意義的語義結構。

越來越多的輸入知識和越來越複雜的概念網絡推動了另一個轉變:推理規則變得有條件,並且可以被概率化。對於John McCarthy的顯式邏輯方法,Marvin Minsky和Samuel Papert在20世紀70年代堅持了另一個觀點:正確/錯誤的二分法過於僵化。人們更傾向使用啟發式的而非邏輯性的處理,因此真/假的分類不如有效/無效的分類。我們主要通過近似,簡化和合理的直覺來走向真理,而這些直覺實際上是虛假的(Minsky et Papert, 1970, p. 41)。

在專家制定的數千條規則中,可能會發生這樣的情況:從一個固定的前提(IF ...)出發,第二個命題(THEN ......)有一定概率為真。概率化使我們能夠放寬人工智慧早期確定性的推理形式,於是進入機器的知識變得更實際,更多樣化,更矛盾,滲透進了更多概率(Nilsson,2010,p.475)。「有效/無效」代替了「真/假」,那麼計算機的目標與其說是邏輯真理,不如說是對系統給出的答案的正確性,相關性或可能性的估計。但是,這種估計不再有計算機的規則的內在支持, 必須求助於外部的專家,由專家為機器學習提供示例和反例。

推斷概率化逐漸滲透到AI領域,以執行程式設計師無法「手動」實現的任務(Carbonnell etc,1983)。在TomMitchell(1977)的工作之後,學習機制可總結為一種統計學方法:計算機自動生成假設空間內的最佳模型。學習機制「探索」計算器生成的各種假設模型,在邏輯推論上進行推理(概念簡化,包含關係,反演推導),搜索合理的假設。進行推斷性推理,消除候選假設的統計方法在此基礎上成熟和發展,例如決策樹(後來產生了隨機森林)或貝葉斯網絡(可以因果主義地定義變量之間的依賴關係)(Domingos, 2015)。然而,從20世紀90年代初開始,數據越來越多,卻沒有組織起來,不是被標記的變量,也不是相互依賴的概念,很快它們將失去可懂度。然後,我們將看到人工智慧學習從「探索」向「優化」轉變(Cornuéjols et al., 2018,p.22),這將使規則的聖殿崩潰。

要計算的數據的量和數據的現實意義不斷增加,歸納機制轉向了計算器內部。如果數據不再反映類別,變量之間的依賴關係,概念網絡,那麼,為了求得目標函數,歸納機制將基於優化標準得出正確的分布(Cornuéjols et al. , 2018, p. 22)。 待學習世界的構成轉變,研究人員修改歸納的方法,並提出完全不同的機器架構。這種轉變隨著神經網絡的發展加速,但轉折點其實已藏於人工智慧要學習的世界。 由於數據越來越「去符號化」,歸納機制構建模型時不再關注初始數據結構,而是優化因子 (Mazières, 2016)。計算的視野不再是計算器的內部,而是世界從外部給出的值 - 而且通常非常「人類」: 這個圖像是否包含(或不包含)犀牛? 這個用戶是否在這樣的連結上點擊(或不點擊)?答案也就是優化的標準,必須將其輸入計算器,才能發現貼切的「模型」。 因此新的機器學習方法(如SVM,神經網絡)變得更加有效,但也變得難以理解,就如決策樹的發明者LéoBreiman(2001)所指出。

由專家系統建設者建造的崇高聖殿沒有實現承諾,它們太複雜,而且性能非常有限。原本充滿活力的市場大幅崩潰,有前途的人工智慧公司也破產了。20世紀80年代,計算成本的降低和計算能力的提高給了超級計算機新的機會,這些計算機曾被符號主義者擱置,那時符號主義者統治著各種大型IT項目 (Fleck, 1987, p. 153)。將人工智慧限於符號主義的大學學術圈的控制力越來越弱,在語音合成,模式識別等領域,專家系統獲得的成果很少。在20世紀90年代初,符號主義的AI非常弱,以至於這個術語幾乎從研究中消失了。 完成無限長的顯性規則目錄,讓機器懂得人類知覺、語言和推理的千萬微妙之處,愈發成為一項不可能的,荒唐的,無效的任務(Collins, 1992 ; Dreyfus, 2007).

深度學習的分布式表示

正是在這種背景下,20世紀60年代末開始流亡的聯結主義方法在20世紀80年代和90年代回歸和興起,這個復興時期,理論和算法都有巨大創造。1979年6月在La Jolla ,加州,Geoff Hinton和James Anderson組織召開了一個會議,會議上,一個聚集了生物學家、物理學家和計算機科學家的跨學科研究小組建議重新審視心理過程極具分布式和並行性的特點。

1986年,該小組以並行分布式處理(Parallel Distributed Processing,PDP)之名,出版了兩捲成果。這一術語常用來洗脫聯結主義的惡名 (Rumelhart et al. , 1986b)。 不同於計算機的序列式操作和符號主義的推理方法,PDP基於認知的微觀結構,通過利用神經元隱喻的特點,繪製反模式:基本單元通過巨大的網絡連接在一起; 知識不是統計性存儲的,而是依靠各單元之間的連接;各單元通過0-1激活機制實現相互通信(<我們的系統中貨幣不是符號,而是激勵和抑制>,p.132) ;這些激活一直並行進行,而非遵循一系列步驟; 信息流沒有控制中心; 一個子路徑不影響另一個子路徑,但一個子系統會生成計算中需滿足的約束,進而調整其他子系統的行為。

由機器執行的操作類似於鬆弛操作,其中計算迭代地進行,直到取得某個滿足大量弱約束的近似值 (< 系統安裝出解決方案,而非計算出解決方案>,p.135)。由聯結主義者的構思物生成了許多內部表示,這些表示可能是高層級的,但它們是「亞符號的」,統計的,分布式的 (Smolensky, 1988)。如上,聯結主義方法並不簡單,而是一種非常有野心的智能架構,可以顛覆認知計算。

「一開始,在20世紀50年代,像馮·諾伊曼和圖靈這樣的人不相信符號主義人工智慧,Geoff Hinton解釋,人腦更能給他們啟發。不幸的是,他們都死得太年輕,他們的聲音沒有被聽到。

在人工智慧開始時,人們絕對相信我們所需要的智能的形式是一種符號主義的形式,不完全是邏輯的,但類似邏輯的東西:智能的本質是推理。現在的觀點完全不同:思想只是表示神經元活動的大型向量。我相信那些認為思想可以用符號表示的人犯了一個大錯。輸入一串字符,輸出一串字符,如此,字串成為顯而易見的事物表現方式,於是他們認為兩種狀態之間必然有一個字串,或者類似字串的東西。我認為兩者之間的關係與字串無關! 思想只不過是一些大型的,可以表示因果的向量。它們會產生其他大型向量,這和傳統的AI的觀點完全不同。 「

如果現在新一批的神經網絡的使用者少些參考這種認知論,由於他們沒有經歷過長輩們禁受的排斥和嘲弄,他們將形成一個堅持不懈追求聯結主義事業的團體。在輸入和輸出字串之間需要插入的,不是對思想的編程模型,而是基本單元構成的網絡,可以根據輸入輸出調整參數的網絡。 儘可能地,這個網絡需要「獨自完成一切」,這恰恰需要許多人工的技巧。

聯結主義的算法重構

收到John Hopfield工作的啟發,他提出通過賦予每個神經元獨立更新其價值的能力來修訂Perceptron模型,物理學家Terry Sejnowski和英國心理學家Geoff Hinton將在1980年代早期發展用於神經網絡的新的多層架構(成為Boltzmann機器),設計者是Nettalk,一個具有三層神經元和18000個突觸的系統,能夠將文本轉換為發聲的句子。

但這次復興的真正亮點是算法的設計,即隨機梯度反向傳播(《反向傳播》),這使得計算係數權重成為可能。除了對Minsky和Papert(1969)的評論之外,作者還表示,當它提供多個層次時,可以簡單地訓練一個神經元網絡;這些附加的神經元層可以用來學習非線性函數。該算法通過獲取網絡損失函數的導數並「傳播」誤差來修正基礎網絡(網絡下層)的係數,在接近控制論機器的精神中,輸出誤差被「傳播」到輸入。

通過一種通用算法來優化所有類型的神經網絡,20世紀80年代和90年代是一個非凡的創造性時期,它記錄了聯結主義的更新。最初成功之一的例子是Yann Lecun創造的,他對AT&T貝爾實驗室(Lecun等人,1989)的郵政編碼進行了識別,卷積技術就是AT&T貝爾實驗室發明出來的。通過使用美國郵政服務資料庫,他設法帶動多層網絡來識別包裹上的郵政編碼。

他這種方法的成功,正在成為神經網絡在銀行業(支票金額)和郵政行業中首次廣發的工業用途之一。然後遵循一系列建議來適應更多隱藏層,使地圖連結(編碼器)複雜化,使優化功能(RELU)多樣化,在網絡層中集成儲存器(循環網絡和LSTM),根據網絡的無監督和監督學習(信念網絡)等部分進行混合 (Kurenkov, 2015 )。用非常具有創意的方式,測試許多以不同方式布線神經元之間關係的架構來探索其屬性。

「它不是很突出,但效率更高!」

雖然這些算法為當今深度學習的大多數方法提供了基礎,但它們的發明並不是立即成功的。從1995年到2007年,機構支持變得非常罕見,論文在會議上被拒絕,取得的成果仍然有限。 計算機視覺研究人員說:「他們經歷了一次寒冬,實際上,在當時,沒有人可以運行這些機器。世界上有五個實驗室,他們知道,我們跑不了這些機器。」 圍繞在傑夫·辛頓,亞·萊卡和約書亞·本焦周圍的技術研究者們,形成了一個孤立卻團結的小團體,他們主要是給加拿大高級研究所(CIFAR)提供支持。他們的處境變得比1992年的原始技術學習更加困難了,支持向量機(SVM) - 也被稱為「核方法」,是非常有效的小數據集。已經處於人工智慧禁令之下,聯結主義者們發現自己已經處於人工智慧學習社區的邊緣。

「那時,如果你說你正在做一個神經元網絡,你的論文就無法順利通過。直到2010年,就像這樣,一直存在。我記得,LeCun,我們作為被邀請的老師去了實驗室,我們不得不全身心投入和他一起吃飯。沒有人想去那裡。我向你發誓這是很倒黴的事情。他哭了,因為他的論文被CVPR拒絕了,他的東西不夠潮流,也不性感,所以大家會去看時髦的東西。他們需要掌握核心,SVM的事情。所以LeCun他說:「我有一個10層的神經網絡,它們是並行的。」 他們對他說,「真的假的?你確定嗎?有新東西嗎?「因為當你提出一個神經網絡,這次它有10層,但它沒有比別機器的更好。這就很糟糕了!所以他說,「是的(新的),但沒有足夠的數據!」

在與神經網絡的少數推動者相對立的指責中,一個個論證接連不斷地被打翻。

「他們(那些SVM的支持者)總是說,」你的東西不是很突出,它只是一瞬間!「另一位研究員說。他們口中只有那個。我們提交了論文,然後他們說:「它不夠突出不夠優秀!」 他們都是數學很好的人,痴迷於優化,在他們的生活中從沒有見過這個東西!多年來,我們都有接觸。所以說,我們可以完全不用在意他們。」

由於其非線性構成,神經網絡無法保證在損失函數的優化階段,可以找到整體最小值;它可以很好地聚集到局部最小值。在2005 - 2008年,真正的政策是由一小群的「神經元的陰謀」的開始的(馬科夫,2015年,第150頁),為了說服機器學習社區,他們也是「<凸>炎症」流行病的患者(LeCun,2007)。所以在2007年,他們的論文被NIPS拒絕,他們組織了一個衛星會議,把與會者用汽車送到溫哥華凱悅酒店,捍衛了由SVM最早提出的方法。 Yann LeCun演講說:「誰害怕非凸函數?」 通過研究了幾個結果後得出,神經網絡的表現要比SVM好,他認為,線性模型對理論要求的過於接近,無法想像創新的計算架構,並關注其他優化方法。當然,非常簡單的隨機梯度下降算法並不能保證可以收斂到整體的最小值,但是「當經驗證據表明,如果你沒有理論上的保證,它只是意味著該理論是不合適的……如果因此,你就不得不將凸性拋出窗外,那太好了! (LeCun,2017,11'19)。

「這些創意總是很瘋狂」,這場爭議的一位參與者評論道。「最初,對於這群人,這群有創意的人,這是一場騷動。然後直到那些不在人工智慧圈子的人的到來。在優化方面,人們已經花了十年時間來尋找一種更巧的凸方法,來解決複雜的問題,但這是非常昂貴的(算力上)。這並不枯燥,但完全乾涸了,這方面有成千上萬的論文,當大量的數據到來時,所有的機器都不工作了!」

將世界轉變為向量

因此,聯結主義者將通過實驗室的新數據流來選擇最佳計算方法,從而改變關於凸性的科學爭議。為了面對大數據,用於預測的機器的架構將被轉變。這與傳統的小型的校準的高度人工的數據集完全不同。因為,在此次爭辯中,以大數據為依託,社會和網絡服務的發展產生了一些新的工程問題,如垃圾郵件的檢測,用於推薦的協同過濾技術,股票預測,信息搜索或社交網絡分析。

在這個工業前提下,新的數據科學的統計方法借用並開發了機器學習技術(貝葉斯,決策樹,隨機森林等)。但是,很顯然,面對數據的量和異質性特點,更準確說是「驗證」技巧,有必要使用更多的「試探性」和歸納的方法(杜克,1962年)。因此,在與行業接觸中(最初是AT&T,然後是谷歌,Facebook和百度),神經網絡的陰謀者將遇到問題:計算能力和數據上的,這些問題給他們機會去展示他們的機器的潛力,並將他們的觀點加諸科學爭議。他們將引出一個新的判準:當這些預測適用於「真實」世界時,預測是有效的。

新聯結主義者首先要求在爭辯中加入自己的術語。他們解釋說,有必要區別「淺層」架構(如SVM)的「寬度」與神經元分層架構的「深度」。他們可以證明深度優於寬度:當數據和尺寸增加時,只有深度是可計算的並且可以設法捕獲數據特徵的多樣性。所有凸(函數),因為他們,SVM不能給出大型數據集一個好的結果:維數增長太快,並無法估量,不好的對預測產生了相當大擾動,非線性方法的線性化的解,導致系統失去學習複雜表徵的能力(Bengio和LeCun,2007)。

聯結主義者設法說服人們,最好是犧牲計算的可理解性,犧牲嚴格控制的優化,換取對新的數據的複雜性更好的感知。隨著訓練數據量的急劇增加,存在有許多局部最小值。在機器學習這種緊張爭辯的核心中,一個潛臺詞是無所不在:它實驗室裡,模型才是線性的,世界,「真實世界」,由之產生的數據圖像,聲音,文字和文本的數位化,它是非線性的。它是嘈雜的,信息是冗餘的,數據流沒有被歸類為齊次變量的屬性,也並不清晰和易於構造,有些樣本甚至是錯誤的。

「一個AI」,Yoshua Bengio等人寫道(2013年),「必須從根本上了解我們周圍的世界,而我們認為,這是可以實現的。這就是為什麼<深層>架構比<淺層>架構更容易計算和更具「表現力」的原因(Lecun和Bengio,2007)。降低可理解性,讓計算器捕捉到更複雜的世界,關於凸性的爭論表明,歸納性機器的產出絕不是憑天真的經驗, 它是一個大量工作的結果, 有必要說服他們重新看待計算器和世界之間的關係。

此外,為了使這些數據能運用到科學爭辯中,有必要從源頭上增加科研數據集的大小。

在1988年關於字符識別的文章中,Yann LeCun使用了9,298個手寫體的郵政編碼。自2012年以來就被用在字符識別的資料庫mnist包括了 60, 000個標記為黑白的圖像, 每個28像素。它已經證明了神經網絡的有效性,但比起其他技術,比如SVM,還是不能贏得支持。另外,科學界將利用網際網路的優勢,來產生更大的數據集和構建機器學習任務。這種系統的,廣泛的,儘可能基礎的數字數據捕獲,讓Hubert Dreyfus的格言更具意義,「世界上最好的模型就是世界本身」 (dreyfus, 2007, p1140)。正如人工智慧的異端們長期倡導的那樣,代表性存在於世界的數據中,而不是計算器的內部。(布魯克斯,1988年)。

IMAGEnet的誕生,在這方面堪稱典範。

該數據集用於文章最初提出的挑戰,由LI Feifei最初建立(Deng et al,2009)。該資料庫目前包括1400萬個圖像,其元素已被手動標註了21841個類,分類基於自動語言處理中另一個經典資料庫Wordnet的層次結構。為了完成這項巨大的工作(鑑定各圖像,圖像的區別在於圖中由人工繪製的方塊),有必要通過Mechanical Turk, 將眾多的任務交給成千上萬的標註器。(su et al, 2012; jaton, 2017)。從9298 到1400萬個數據,數據量和數據維度天翻地覆。同時伴隨的還有計算器功耗的指數增長,這將由並行化計算和GPU的發展解決 (圖 6)。

2009年, 顯卡上實現了反向傳播算法, 從而神經網絡的速度提高了 70倍 (raina et al, 2009)。今天有 5 000個樣本的分類學習很常見,但這很快就會變成幾百萬個樣本的數據集。數據集的指數增長同樣伴隨著計算器架構的改變:網絡中的神經元數量每2.4年翻一番(Goodfellow et al,2016,p27)。

但是,聯結主義者還將採用另一種數據轉換,通過執行稱為「嵌入」的操作將它們粒化並將其轉換為可計算的格式。神經網絡要求計算器的輸入採用向量的形式。因此,世界必須用純數字向量的表示形式進行編碼。某些對象 (如圖像) 自然分解為向量, 而其他對象需要 "嵌入" 矢量空間, 然後才有可能通過神經網絡進行計算或分類。這一技術的原型來自文本。為了將單詞輸入神經網絡, word2vec 技術 將單詞"嵌入" 到一個向量空間中, 並測量它與語料庫中其他單詞的距離 (mikolov et al, 2013)。因此,這些詞在數百維的空間中有了位置。

這種表示的優點在於這種轉換可提供許多操作。在這個空間中位置接近的兩個詞在語義上也是相似的,我們說這種表示是分布式的:「appartement」的向量[-0.2,0.3,-4.2,5.1 ...]會接近「home」[-0.2,0.3,-4.0,5.1 ...]。語義接近度不是從符號分類推導出來的,而是從文本材料的所有詞的統計鄰域推導出來的。因此,這些向量可以有利地替換它們所代表的單詞以解決複雜的任務,例如文檔的自動分類,翻譯或自動摘要。因此,連接主義機器的設計者正在進行非常人工的操作,將數據轉換到另一個系統。如果說語言處理首創性地將單詞「嵌入」向量空間,那麼今天我們正在目睹嵌入的全過程,該過程逐步擴展到所有應用程式領域:有了graph2vec,網絡成為了向量空間中簡單的點,paragraph2vec ——文本,movie2vec——電影,sense2vec——單詞含義,mol2vec——分子結構,等等。用Yann LeCun的話說,聯結主義機器設計者的目標是將世界變成一個向量(world2vec)。

從模型到架構

因此,必須從計算器中扣除現在由數據多樣性和數據量帶來的真實的波動。 因此,神經架構的設計者將在計算器中事先「有意」地插入明確的規則,以便預先識別,表徵或聚合數據。

「這背後有一種力量,」該領域的一位研究人員說,「 有一股浪潮,數據浪潮,一股巨大的帶走一切的浪潮。 這完全打破了人類建模的所有思想潮流。 我在多個領域工作過,應用,語音,寫作,文本,社交數據等,每次我都是做一樣的事情。 人們曾有一個時期想將知識放進他的系統中,這種想法已被掃地出門。系統性的! 這已經持續了三十年,逐個領域。 就是這樣。 你知道,這很有意思。 與那些一生都相信社會主義政權然後崩潰的人一樣......這是同樣的事情。」

從2000年代末開始,以一種非常不安定的心情,看到一種沒有理論做依託的技術,將取代多年來耐心進行的建模工作,並連續地徵服信號,聲音,圖像和自動翻譯的社區。一個領域接著一個領域,神經網絡的計算贏在轉換到操作網絡中的權重分布的效率,這是以前科學活動的主要焦點:特徵工程和模式識別。這些技術包括「手動」編寫算法以識別初始數據的特徵。該提取過程通過簡化特徵與問題或目的之間的關係來促進學習。日益強大的自動化將允許統計機器學習技術獲得計算器內部建模器的功能(見上文)。但神經網絡正在激化這一運動,從特徵提取過程轉向所謂的端到端過程:從「原始」數字數據轉向樣本「標記」。

此舉的一個示例是本文開頭縮略圖中使用的卷積原理。計算機視覺社區已經開發了非常精細的提取方法,以識別圖像中的邊緣,角落,對比度過渡和興趣點,並將它們與詞袋相關聯。這些操作現在由給定的卷積網絡的特定結構隱式支持: 將圖像鋪成小的像素切片, 這些像素被分配到分離的神經元片段, 然後再將它們在另一層組裝。而不是建模一隻犀牛, 或概括像素塊的特點來預測犀牛的形狀, 幾千張犀牛照片在圖像中移動, 身體的一部分被切斷, 從角度和不同的位置。

相比不知道如何處理縮放,轉換或旋轉問題的預處理程序,這能更好地描繪概念 "犀牛" 對神經元的影響。數據與其特徵的關係不是需要的, 而是獲得的。神經網絡做很好的提取特徵, 邊緣往往被第一層神經元 "看到", 角落是另一個, 元素更複雜的形式在最後, 但這些操作, 沒有被明確實施, 這是網絡在體系結構約束下出現的效應。

因此,計算「參數」的預處理已轉變為計算器的「超參數」的定義。人工建模的部分越少,歸納機器的結構就越複雜。完全連接的神經網絡什麼都不產生。因此有必要對其進行雕刻,以使其架構適應委託給它的學習任務:隱藏層數,每層神經元數,連接方式,激活函數選擇,初始係數,目標函數的選擇,向模型顯示所有學習數據的次數等。這些設置可能會通過試錯調整。

例如,剪枝(pruning),包括移除神經元以查看是否會改變網絡的性能,丟棄(dropout), 在學習階段, 不發送信號輸入層中的一些神經元或隨機隱藏的層, 以避免過擬合(overfitting) 。這些方法、技巧和工藝規定為社區的許多討論提供了素材, 並保持了工藝的特徵 (domingos, 2012年)。面對特徵提取的數學改進,神經網絡的生成因而可以被看作黑客的工作,看作一個有天賦的程式設計師練習黑魔法一般的技能的活動。

「他們,也就是那些與Hinton一起的人,採取了一些措施來完成所有功能的提取以獲取原始圖像。這很瘋狂,因為它是重現的一件事,但是以探索的方式! 他們製造了一個難以想像的複雜系統,他們能夠讓它們發揮作用。 你從這些人那裡拿論文來看,我很害怕,我太老了! 夥計們,他們跟你說話,好像他們是在編程。 他們沒有用對我有意義的三個方程進行描述。

但在5行裡,他們會向你描述一個超複雜的東西。 所以,這意味著他創建了一個架構,在這個架構中,他將100個元素彼此放在一起,並且每個元素要連接它們,你有十種可能的選擇。 他和它遊戲,發動它。 這是一個黑客,這是一個黑客的工作!」

因此,超參數是一個可解釋性的新要求可以活動的地方。這些數據不是「自己說話」,而是受制於無法從數據中學習的架構,現在集中了大部分的AI研究。在NIPS會議上,有一篇值得注意的論文,它提出了一個新架構,就像對行星命名一樣,研究人員進行了系統地命名,就像一群好奇的動物。通過從模型轉向架構,有了表達研究人員創造性的地方,創造性也是他們的設計所需要的技能和品質。

這還為新的數據科學家,黑客和程式設計師提供開放且易於操作的工具,以進入以前非常封閉的AI生產者領域。通過改變預測機器的架構,聯結主義者推動了人工智慧的社交世界:首先,因為「真實的」數據集,特別是來自數字行業的數據,已經(部分)取代了學術實驗室的「玩具」數據集,還因為,生產聯結主義機器所需的專業知識是軟體開發的技能,但不是前幾代AI需要的開發技能。

歸納的工作

智能機器的發展軌跡剛剛相繼在四個背景中進行了總結,顯示了它們架構的深刻變革。 這些設備的世界,計算器和視野都經過了深刻的改造,這些組件之間的聯繫正在塑造那些提供與智能,推理和預測明顯不同的定義的設備。

然而,整體動態出現在這個動蕩歷史中。 計算並製造心靈的唯物主義項目今天已經走上了堅定的聯結主義道路。 目前成功的歸納機器只不過是一個術語或已找到的一個「解決方案」。 儘管他們的能力很強,但深度學習技術遠遠不能滿足一般人工智慧項目的要求,就像「符號主義者」一直以來的指責。 但是在本文敘述的軌跡中特別指出, 如果不做大量雄心勃勃的工作來改變兩者之間的平衡, 這種預測性演算的歸納重組就無法實現。

在計算器的輸入上,首先,世界的構成經歷了原子化和顆粒化的深刻運動。數據封裝組成的關係,全局樣式等的許多規律,它們必須由計算器,而不是程式設計師來識別,因此,歸納工作的第一個特徵是以儘可能最基本的形式將數據引入系統數據:像素,而非形式;頻率,而非音素;字母,而非字;點擊,而非用戶聲明;行為,而非類別......(Cardon,2017)。數據是否是異質的,冗餘的,常常不正確的,這些都不再是問題,每一個新的信號都可以作為構成聯結主義機器世界輸入的矩陣的新列被添加。

這一整體變動的第二個特徵是計算器活動的先驗模型的消失(這種現象通常被描述為「理論的終結」(Anderson,2008)),有利於模型的概率在假設空間中越來越大,當考慮到數據的變化維度時,模型的更激進的分布散布在神經元網絡的多個層。這是早期人工智慧的巨大野心,用於模擬推理,同時為計算機科學研究做出重大貢獻。

聯結主義機器已經將人工智慧的挑戰從解決抽象問題、正統認知科學的目標,轉變為大量敏感信號中的特徵歸納。歸納生成工作的第二個特點是實現了顛覆AI計算系統的條件,以輸出程序而不是輸入程序。儘管如此,神經網絡並沒有使「理論」消失。他們只是將其轉向計算器架構的超參數,同時讓「理論」這一概念少了一些「符號主義」的含義。

這一問題使預測過程的理解和可解釋性上的挑戰尤其敏感 (burrel, 2016;cardon, 2015)。由於許多工作需要在複雜的系統上完成,毫無疑問, 我們必須學會使可感知的, 適當的和可疑的形式的建模具有更多的屬性 (線性,可讀性、完整性、經濟性等)。在這些屬性中,我們使用了——非常 "符號主義" 的——社會科學中模型的<可理解性>的概念。

第三個變動與計算器的視野有關。符號主義AI設計出的智能機器給予了理性和邏輯的預期目標 – 內植於計算的理性,這讓AI的推動者認為,機器是「自主的」在聯結主義模型中,計算的視野不屬於計算器,而是屬於給了它有標註樣本的世界。輸出,由人類產生,符號化和加入了偏差的輸出,這些輸出組成了聯結主義機器最有價值的數據之一。歸納產生工作的第三個特點是通過更新控制論機器反射的自適應預期來建立對世界本身的預測性能: 系統與環境一起計算安裝新型的反饋循環。總而言之,面對這些越來越具創新的新機器,我們還不夠富有想像力。

相關報導:

https://neurovenge.antonomase.fr/RevancheNeurones_Reseaux.pdf

相關焦點

  • 行業前沿:結合邏輯和神經網絡的ILP,具備了兩大流派的優點
    人工智慧研究者佩德羅·多明戈斯在其著作《大師算法》(The Master Algorithm)一書中提出了單一算法的概念,該算法可以結合機器學習的主要流派。毫無疑問,這個想法非常雄心勃勃,但我們已經看到過很多類似的想法。
  • 雷射雷達vs純計算機視覺 自動駕駛的兩大流派
    那這兩大流派究竟爭得是什麼呢?首先需要說明自動駕駛技術的基本原理。 自動駕駛技術基本原理是:感知層的各類硬體傳感器捕捉車輛的位置信息以及外部環境信息。決策層的大腦基於感知層輸入的信息進行環境建模,形成對全局的理解並作出決策判斷,發出車輛執行的信號指令。最後執行層將決策層的信號轉換為汽車的動作行為。
  • 【乾貨】用神經網絡識別歌曲流派(附代碼)
    作者:Navdeep Singh編譯:肖琴【新智元導讀】本文手把手教你如何構建一個能夠識別歌曲類型的神經網絡。以下是你需要導入的內容列表:librosalibraryglob,你需要列出不同類型目錄中的文件numpymatplotlib,繪製MFCC graphsKeras的序列模型,一種典型的前饋神經網絡密集的神經網絡層,即有很多神經元的層。
  • 教程| 概率編程:使用貝葉斯神經網絡預測金融市場價格
    價格、推特數、大盤變化上圖是一些數據樣本——藍線對應價格變化,黃線對應推特數變化,綠色對應大盤變化。它們之間存在某種正相關(0.1—0.2)。因此我們希望能利用好這些數據中的模式對模型進行訓練。貝葉斯線性回歸首先,我想驗證簡單線性分類器在任務中的表現結果(並且我想直接使用 Pyro tutorial——http://pyro.ai/examples/bayesian_regression.html——的結果)。
  • 人工神經網絡的定義
    人工神經網絡的定義   人工神經網絡( Artificial Neural Networks, 簡寫為ANNs)也簡稱為神經網絡或稱作連接模型,是對人腦或自然神經網絡若干基本特性的抽象和模擬。
  • 細數當今網絡小說的幾大流派,你最喜歡哪一個?
    討論一下關於當今網絡小說流派的問題,友友們也可以看看,然後在下方評論處留下你喜歡的流派!如果您看的高興,請點擊個關注,謝謝!恐怖廣播》《地獄電影院》等、7洪荒流《佛本是道》《帝逆洪荒》8種田流《我家農場有條龍》《美國之大牧場主》9無限流《無限恐怖
  • 神經網絡和深度學習簡史(全)
    這叫做線性回歸,一個有著兩百年歷史從一些輸入輸出對組中推斷出一般函數的技巧。這就是它很棒的原因:很多函數難以給出明確的方程表達,但是,卻很容易在現實世界搜集到輸入和輸出值實例——比如,將說出來的詞的音頻作為輸入,詞本身作為輸出的映射函數。
  • CVPR 2019 神經網絡架構搜索進展綜述
    這樣,即便我們提前結束前向傳播(early exit)並用此時網絡的輸出層進行目標邊框回歸,該特徵圖依然能足夠使邊框回歸能夠有效地檢測出物體邊框。為了加速網絡搜索,作者使用了輸入尺度為512x512的、較輕量級的ResNet-10作為網絡主幹。
  • 神經網絡篇——從代碼出發理解BP神經網絡
    一提到反向傳播算法,我們就不自覺的想到隨機梯度下降、sigmoid激活函數和最讓人頭大的反向傳播法則的推導,即便是把反向傳播神經網絡的原理學了一遍,也還是一頭霧水,在這裡推薦一本小編認為把BP神經網絡講的最通透的教材《Python神經網絡編程》。
  • 從ReLU到GELU,一文概覽神經網絡的激活函數
    選自mlfromscratch作者:Casper Hansen機器之心編譯參與:熊貓、杜偉激活函數對神經網絡的重要性自不必多言,機器之心也曾發布過一些相關的介紹文章,比如《一文概覽深度學習中的激活函數如果有太多的權重都有這樣很大的值,那麼我們根本就沒法得到可以調整權重的網絡,這可是個大問題。如果我們不調整這些權重,那麼網絡就只有細微的更新,這樣算法就不能隨時間給網絡帶來多少改善。對於針對一個權重的偏導數的每個計算,我們都將其放入一個梯度向量中,而且我們將使用這個梯度向量來更新神經網絡。
  • 人工智慧之卷積神經網絡(CNN)
    人工智慧之機器學習主要有三大類:1)分類;2)回歸;3)聚類。今天我們重點探討一下卷積神經網絡(CNN)算法。^_^本文引用地址:http://www.eepw.com.cn/article/201806/381807.htm  20世紀60年代,Hubel和Wiesel在研究貓腦皮層中用於局部敏感和方向選擇的神經元時發現其獨特的網絡結構可以有效地降低反饋神經網絡的複雜性,繼而提出了卷積神經網絡CNN(Convolutional Neural Networks)。
  • 地球年齡之爭|宇宙自然生命簡史 12
    地球年齡之爭|宇宙自然生命簡史 12 To view this video please enable JavaScript, and consider upgrading to a web browser that
  • Yann LeCun:深度學習已死,可微分編程萬歲!
    LeCun也轉推此文,表示贊同。但是,光是轉發推文,對LeCun來說顯然不夠。今天,他在Facebook個人主頁上寫了一篇短文,不僅支持可微分編程,還用上了「深度學習已死」的表述。不僅如此,他還推出了一個「歸化學習」。先來看LeCun的文章。Yann LeCun:深度學習已死,可微分編程萬歲!
  • 尤瓦爾·赫拉利的《未來簡史》
    :上次我們聊過了赫拉利的《人類簡史》,這回想請您聊聊他的《未來簡史》。從20世紀90年代到21世紀的前20年,我們看到的是冷戰的結束,包括反恐戰爭在某種程度上的勝利,所以他預言由意識形態所引發的戰爭在未來應該不會是人類的一個主要的威脅了,未來的衝突不再是意識形態的衝突,而是一個後科技時代和一個新人種之間的衝突。
  • 強推熬夜也要看的網絡小說:書荒必備糧草,百萬書蟲為之著迷
    強推熬夜也要看的網絡小說:書荒必備糧草,百萬書蟲為之著迷《君臨》作者:開荒一本非常驚豔的洪荒流仙俠文。作者文筆獨到,情節扣人心弦,開始寫得一般般,但是越往後寫得越好,飛升以後無論文筆還是劇情都強出以前N個檔次,本事是對洪荒封神小說的另類演繹,故事劇情高潮不斷,打鬥以及修行的情節描寫的也非常精彩,從普通修仙者成長道與聖人博弈的過程,整個力量體系都沒有寫崩,實則不易。《君臨》是開荒玄幻的體系基礎,後續的《神煌》《劍動山河》都有它的影子。
  • 華泰證券: 人工智慧選股之全連接神經網絡
    總的來看,全連接神經網絡模型在年化超額收益率、信息比率上優於線性回歸模型,但是最大回撤普遍大於線性回歸模型。  本報告中,我們採用全連接神經網絡選股模型對個股做「漲、平、跌」三分類預測,模型在測試集上的正確率為42.9%、F1-score值為38.0%。
  • 《暗黑之書》正式更名《拉結爾》 暗黑大世界CG震撼首曝
    作為一款暗黑品類ARPG手遊,《拉結爾》(曾用名:暗黑之書)還原暗黑經典玩法,在地牢探險的基礎上,遊戲專設地圖探索模式,並加入了諸多自由度和隨機性的設定,如豐富技能、自由搭配天賦,裝備隨機組合觸發套裝效果等。再加上雙英雄切換所帶來的多流派戰鬥衍生等,全方位保證玩家的遊戲代入和體驗感受。
  • 理清神經網絡中的數學知識
    微積分鏈式反向推導之所以很頭大,很大原因在於它將微積分求導和矩陣知識揉在一起。我儘量用儘量少的公式,記住極少的關鍵點,幫助大家去順利的推導神經網絡中運用到的鏈式推導。這樣對於公司的面試,還是實際科研過程中均不會發蒙。我們都知道,神經網絡的目的是訓練網絡中的參數,即矩陣中每一個位置的數值。
  • 高清圖解:神經網絡、機器學習、數據科學一網打盡|附PDF
    、大數據!這份備忘單涵蓋了上述領域幾乎全部的知識點,並使用信息圖、腦圖等多種可視化方式呈現,設計精美,實用性強。  今天,新智元要為大家推薦一個超實用、顏值超高的神經網絡+機器學習+數據科學和Python的完全圖解,文末附有高清PDF版連結,支持下載、列印,推薦大家可以做成滑鼠墊、桌布,或者印成手冊等隨手攜帶,隨時翻看。
  • 神經網絡模型預測值 論文_bp神經網絡預測模型建模步驟 - CSDN
    當然,這也就意味著連接數量會隨著神經元個數的增加呈指數級地增加,但是,對應的函數表達力也會越來越強。這就是所謂的全連接(completely (or fully) connected)。經歷了一段時間的發展,發現把神經網絡分解成不同的神經細胞層會非常有效。神經細胞層的定義是一群彼此之間互不連接的神經元,它們僅跟其它神經細胞層有連接。