一文帶你讀懂深度學習:AI 認識世界的方式如同小孩

2021-01-09 36氪

人工智慧想要繼續發展，也許可以從兒童學習的方法中受益。

編者按：本文由圖普科技編譯自 An AI That Knows the World Like Children Do。

如果你經常花時間和小孩子待在一起的話，你會不由得思考小孩子怎麼能夠學習得如此之快。哲學家們，比如柏拉圖也曾經考慮過這個問題，但是從來沒有找到一個滿意的答案。我五歲的兒子，奧吉最近認識了植物，動物和鍾，當然也少不了恐龍和飛船。他還弄懂了如何理解他人的需要和感受。他可以用知識來定義他看到和聽到的東西，並且做出新的預測。比如他最近就說前不久在紐約市美國自然歷史博物館展示的新雷龍是食草動物，所以說並沒有那麼可怕。

但其實奧吉體驗到的不過是一串光子到達了他的視網膜，他的耳膜接收到了空氣的振動而已。他藍眼睛背後的「神經電腦」從某種角度上來說通過他感知到的有限的信息做出了食草雷龍不是很可怕的預測。那麼問題來了，是不是說電腦也可以做到這樣呢？

過去15年的時間裡，計算機科學家和心理學家一直在嘗試找到一個答案。兒童從老師和家長那有限的輸入當中獲取了大量的知識。儘管如今機器智能風頭正盛，但是最厲害的電腦也不能像一個5歲兒童那樣進行學習。

搞清楚兒童的大腦究竟是如何運轉的，然後設計出一個電子版本能夠同樣有效地運轉，可能需要計算機科學家們幾十年的努力。但同時，他們已經在開發融合了人類學習模型的人工智慧了。

追根溯源

在上世紀五六十年代的第一次熱潮爆發以後，接下來對AI的探索就沉寂了幾十年。不過在過去的幾年裡，學界突然取得了重大進展，尤其是在機器學習領域。AI一時間變成了最熱門的技術。這些進展究竟是拯救人類還是毀滅人類，一時間也眾說紛紜。AI在也確實曾被用來預示永生或者世界末日，這兩種可能性文學作品裡都已經寫過很多。

我覺得在AI領域取得了這些發展引起人們強烈感受的主要原因在於我們內心深處其實非常害怕類人類的出現的。不管是《科學怪人》裡的魔偶還是2015年《機械姬》電影裡的性感機器人，未來會出現一種「生物」會成為連接人類與人工之間鴻溝的橋梁，這種想法本身就讓人覺得恐慌。

但是計算機真的能像人類那樣學習嗎？那些席捲媒體的熱點新聞，有多少是真正具有革命意義的產品，而又有多少只是噱頭而已呢？電腦學習分辨貓，或者一個平片假名的過程很難被人理解。但是仔細觀察之後我們會發現，機器學習背後的基礎理論並沒有一開始看上去的那麼難以捉摸。

一種解決辦法是我們接收到的光子和空氣振動，到了電腦上就會以數字圖像的像素和錄音的聲音片段呈現出來。然後試著從數據中提取一串圖案用來探測並識別周圍世界的物體。這種自底向上的研究方法在一些哲學家和心理學家的理論中也可以找到，比如約翰·密爾。

上世紀八十年代，科學家找到了一種令人信服的方式應用這種自底向上的方式讓計算機在數據中尋找有價值的圖案。」神經網絡「系統通過神經元將視網膜上的光圖案再現了你周圍的環境。神經網絡也是一樣的圖案。通過互相連接的類似生物細胞的處理單元將某一層網絡上的像素轉換成抽象的表達——比如一個鼻子或一整張臉。

神經網絡的概念由於最近深度學習新技術的出現又重新振興了。深度學習這種技術是由谷歌，Facebook和其他網際網路巨頭進行商業落地的。計算機不斷增長的能力——比如由摩爾定律體現的計算能力的指數增長，也是這些系統獲得成功的一部分原因，大數據集地快速發展也是其中一部分原因。有了更高的處理速度和更多的數據之後，連接系統能夠更加高效地學習。

就像科學家一樣，自頂向上的系統形成了抽象廣泛的對於世界的假設。這個系統會預測在假設是正確的情況下，數據會呈現出什麼樣子。同時這個系統也會不斷根據這些預測的結果來修改自身的假設。

奈及利亞、萬艾可和垃圾郵件

自底向上的方式可能是最容易被理解的，我們首先來解釋這個。想像一下你試圖讓計算機從你的收件箱中分辨出重要郵件。你可能注意到垃圾郵件都有某種讓人討厭的特徵：收件人列表特別長，源地址來自奈及利亞或巴伐利亞，總是提到一百萬美元的獎金或提到偉哥。但是很可能非常有用的郵件看起來也是這樣。你不想錯過表示你升職或者得了學術獎項的郵件。

如果你對比大量垃圾郵件和正常郵件之後，你會發現只有垃圾郵件一般會具備以上的講故事方式——比如，來自奈及利亞的郵件，並承諾有一百萬美元的獎金出現了問題。事實上，也許存在更加明顯的區分垃圾郵件和正常郵件的方式——比如不太明顯的錯誤拼寫和IP位址。如果你能發現這些信息，你就可以準確地過濾掉垃圾郵件了，而且也不用擔心你的正常郵件被攔截。

自底向上的機器學習可以探索出解決這種問題的相關線索。為了達到這一目的，神經網絡必須回顧之前的學習過程。神經網絡從巨大的資料庫中對成百萬的樣例進行評估，每一個樣例標記為垃圾郵件或者正常郵件。然後計算機從一組識別特徵中提取出能區分垃圾郵件的特徵。

這種類似的方式也可以用來給「貓」「房子」之類的網絡圖片打標籤。通過提取一組相同物體圖片的共有特徵，比如將所有貓狗區分開的圖案，系統最終可以識別新圖片裡的貓，即便新的圖片和之前的圖片沒有任何相似點。

一種自下而上的學習方式叫做無監督學習，現在仍處於非常初級的階段。但是它可以檢測數據中沒有打上標籤的圖案。它僅僅尋找能夠識別一個物體的特徵束，比如說眼睛和鼻子通常會一起組成一張臉，這有別於背景中的樹或者山。

《自然》雜誌2015年發表了一篇文章解釋了自下而上的方式發展的進城。Google下屬DeepMind的研究者們使用了一種結合了兩種不同自下而上的方式，即深度學習和強化學習，從某種角度來說能讓電腦掌握玩雅達利2600電子遊戲的訣竅。電腦一開始不知道遊戲是如何運行的。最開始是通過隨機的猜測最佳行動方式並不斷接收結果反饋。深度學習幫助系統發現屏幕上的特徵，而強化學習會根據特徵返回一個高分。擁有該系統的電腦可以在幾個遊戲上都達到流暢的水準，甚至在一些案例中，電腦玩的比高級玩家還要好。也就是說，其他人類可以掌握的遊戲，該系統也可以順利掌握。

應用AI學習大的數據集，比如幾百萬張Instagram上的圖片，郵件或者聲音片段，並進行圖像識別或者聲音識別時，有時會得到令人氣餒的結果。但即便如此，我們應該記得，在有限的數據或者訓練情況下，我的孫子仍然可以準確識別動物或者回答問題。對於五歲兒童非常簡單的問題，對於計算機來說仍然很困難。

要想讓計算機識別出一個絡腮鬍子的臉需要幾百萬張案例，但是我們只需要幾張就可以了。通過大量的訓練之後，計算機可能可以識別出一隻之前沒有出現過的貓的圖片。但是這種識別能力與人類概括的能力是不同的。因為計算機軟體推理的方式不同，難免會有失誤。有些貓的圖片可能不會被標註為貓，也有可能會出現不是貓的圖片被標為貓的情況。但即便是模糊的一瞥，人類也不會弄錯。

發展之路

另外一種近些年改變了AI的深度學習方式則是自頂向下的模式。它假設我們可以從具體的數據中得到抽象的解釋，因為我們已經知道了很多知識，並且大腦已經可以理解各種基本的抽象概念了。就像科學家，我們可以使用這些概念來形成關於世界的假設，並且預測假設正確的情況下會呈現出哪種情況，這是和自底向上的AI模式相反的方式。

回到剛剛我們討論的垃圾郵件的問題，這個概念可以得到很好地詮釋。之前我從某個期刊的編輯收到一封郵件，聲稱我在他們的期刊上發表了一篇文章，要和我討論一下。這個編輯的名字很奇怪。這封郵件既沒有奈及利亞，也沒有萬艾可，也沒有百萬美元獎金——可以說沒有任何垃圾郵件的特徵。但是通過我已有的關於垃圾郵件的抽象認識，我就知道這封郵件值得懷疑。

首先，我知道發送垃圾郵件的人是想通過人的貪心來從其他人那裡竊取金錢。我還知道有些合法的「開源」期刊開始通過向作者徵收費用來盈利了。而且我的研究領域和這些期刊毫無關係。把這些信息全部整合在一起，我得出一個可靠的假設那就是這封郵件想誘惑一些學術人士付費在這些期刊上發表假的論文。只要通過這一個例子我就可以得出這樣的結論，如果我想繼續驗證我的假設的話，只需要使用一個搜尋引擎工具來查看編輯的信譽度就可以了。

計算機科學家會把我的推理過程稱為生成模型，一種可以代表抽象概念，比如貪婪和欺騙的模型。這種模型同時也可以用來描述產生假設的過程——也就是得出這封郵件可能是垃圾郵件的結論為推斷過程。這個模型讓我理解了這種垃圾郵件是如何運作的，但同時也讓我思考了一下其他類型的垃圾郵件的模式。

在上個世紀五六十年代AI和認知科學第一波浪潮興起時，生成模型非常重要。但是生成模型也有局限性。首先，很多事實依據的模式理論上可以用不同的假設解釋。比如我剛剛提到的案例中，雖然看上去不太像，但是那封郵件也可能是合法郵件。所以，近年來學界提出生成模型需要和或然性推理結合起來，這是領域內的一次重要發展。其次，形成生成模型的基本概念的來源通常不是很清晰。

近年的一個自頂向下的方式的基本案例——貝葉斯模型也許可以解決這兩個問題。貝葉斯模型是以十八世紀的統計學家和哲學家託馬斯·貝葉斯的名字命名，該模型使用貝葉斯推論將生成模型和或然性理論結合起來。如果某個假設是對的，那麼概率生成模型會告訴你看到對應的數據型態的可能性。如果一封郵件是垃圾郵件，那麼這封郵件可能迎合了讀者的貪婪之心。不過當然，一封不是垃圾郵件的郵件也可能滿足讀者的貪婪。貝葉斯模型將潛在假設和你看到的數據結合起來，讓你清楚地分辨一封郵件到底是合法郵件還是垃圾郵件。

這種自頂向下的方式比自底向上的方式要更類似兒童學習的方式。這就是為什麼過去15年裡我和我的同事們一直將貝葉斯模型應用在兒童學習研究中。我們的實驗室一直用這種方式來理解兒童學習因果關係的過程，並預測兒童何時以何種方式發展出新的關於世界的理解，或者更新他們已有的認知。

貝葉斯模型也是訓練機器像人類那樣思考的最好的方式。2015年，麻省理工學院的Joshua B. Tenenbaum和紐約大學的Brenden M. Lake以及他們的同事在《科學》雜誌上發表了一篇研究論文。他們設計了一種人工智慧系統，可以認出陌生的手寫文字。這件事對人類來說很容易，但是對計算機來說則非常複雜。

想想你自己的辨別能力。即便你從來沒有見過日本的片假名，你還是可以發現片假名之間的區別。甚至你自己都可以重新寫出一些片假名或者設計類似片假名的文字，而且你會清楚的知道片假名和韓國文字，俄羅斯文字之間差異很大。這就是Tenenbaum的團隊設計的一種軟體。

通過自底向上的方法，計算機會從上千張樣例中找到合適的模式辨別新的文字。而貝葉斯模型則通過一個通用模型訓練機器來寫文字，比如筆畫可以往左或者往右。當該軟體寫完一個文字的時候，再寫下一個。

當該軟體對一個現有文字進行識別時，軟體可以推測出寫出該文字的筆順，然後會自動設計出一組類似的筆順。該軟體識別文字並設計筆順的方式和我推理自己收到的郵件是不是垃圾郵件的方式是一樣的，但是Tenenbaum的模型的推理過程目的在於得到想要的文字。數據一樣的情況下，這種自頂向下的程序比深度學習要有效的多，甚至接近人類表現。

完美融合

自底向上和自頂向下的方式都是深度學習的有效方式，並且各有優劣。使用自底向上的方式，計算機不需要理解任何有關貓的內容，但是需要大量的數據來訓練。

貝葉斯模型只需要一小部分數據，便可以大範圍應用。但是這種自頂而下的方式需要對正確的假設做大量的解釋。兩種方式的設計者可能會碰到同樣的問題。這兩種方式都只適合用來解決一些簡單清晰的問題，比如識別手寫的文字或者貓的圖片或者是玩Atari遊戲。

但是兒童學習的過程卻沒有這種限制。發展心理學家們發現兒童在某種程度上能融合這兩種方式的優點，並且最大化應用這兩種方式。像我的孫子學習的時候只需要一兩個例子，就像自頂而下的方式。但是他某種程度上也會通過這些數據整理出關於這些例子的抽象概念，就像自底向上的方式。

我的孫子可以做的事情還有很多。他可以很快地辨認貓和字母，甚至可以得出一些遠遠超出他的經驗和背景知識的推斷。他最近說，要是一個大人想變成孩子，就應該不吃健康的蔬菜，因為這些東西讓孩子長成了大人。而我們卻不知道這種富有創意的推理是從哪裡來的。

當我們聽到人工智慧對人類是一種威脅這種觀點的時候，我們應該想到人類大腦的神秘力量。人工智慧和機器學習聽起來很可怕，當然從某種角度來說，確實也是。部隊在考慮用這些技術來控制武器。比起人工智慧，人類的愚蠢有時候能帶來更大的威脅，我們應該儘可能地正確地規範使用這些技術。摩爾定律早已表明，即便在理解人類思維上沒有什麼革命性的理論，僅僅是數據和計算能力的大量增長也可以帶來計算結果的顯著提升，並且產生重要的具有實質意義的結果。也就是說，人工智慧的出現並不意味著顛覆世界。

一文帶你讀懂深度學習:AI 認識世界的方式如同小孩

相關焦點

一文讀懂深度學習中的矩陣微積分,fast.ai創始人&ANTLR之父出品

一文帶你讀懂自然語言處理 - 事件提取

一文帶你讀懂計算機視覺

一文帶你讀懂 WaveNet:谷歌助手的聲音合成器

一圖讀懂 | 帶你認識中山大學深圳校區

機器學習 101:一文帶你讀懂梯度下降

深度學習自學指南:6個月,從基礎知識到模型構建

一文帶你讀懂精靈 4 多光譜版無人機

一文讀懂MEMS傳感器(必須收藏)

一文讀懂磁傳感器(必須收藏)

一文讀懂電容傳感器

《讀懂一本書》,閱讀是一種深度體驗,而不是觀光打卡

深度學習助力數據壓縮,一文讀懂相關理論

一文讀懂:人工智慧與人類智能有何區別?

讓AI讀懂0,會帶來更多前沿突破嗎?

十行代碼就能搞定深度學習?飛槳框架高層API,輕鬆玩轉AI

一文讀懂雲計算和海計算

自動化是當前與深度學習及人工智慧等的不可分割的關係

在深度學習中對正則化的直觀認識

主板名字帶WiFi和不帶有什麼區別?一文讀懂