一個鍊金術師的自述:為什麼深度學習的理論基礎不靠譜?

2021-02-13 撲克投資家

撲克導言：作為人工智慧領域裡最熱門的概念，深度學習會在未來對我們的生活產生顯著的影響，或許現在已經是了，從AlphaGo到iPhone X上的人臉識別（FaceID），背後都有它的身影。關於深度學習，我們或許已經看到過很多優秀的介紹、課程和博客，但看完本文你會發現這是一篇「不一樣」的文章，它在質疑：深度學習，真的靠譜嗎？

本文來自微信公眾號「駐波」（ID: Science_in_Boston），作者：格利亞貓。

撲克投資家基於多年積累的大量優質乾貨內容，於近日推出——撲克大宗產業&金融知識庫搜尋引擎。

您只需在撲克投資家公眾號的前臺對話框輸入相應關鍵詞（例如，輸入「貨幣」），即可獲取更多歷史乾貨內容。——詳情見文末關鍵詞列表。

同時，也可使用微信自帶的「號內搜」，輸入任何您查找的內容，即可獲得相關文章推送。

一、深度學習和鍊金術

機器學習裡有個很有名的會議叫NIPS，全稱是Neural Information Processing Systems。2017年的NIPS 上，Google的工程師Ali Rahimi在他獲得一項大獎之後的發言中稱，深度學習成為了今天的鍊金術。這個說法便由此而來，但卻在業界引起了大論戰，既有強烈反對這個說法，感到被侮辱的；也有支持這個說法，反思深度學習當前發展態勢的。

鍊金術是把一種金屬變成另外一種金屬的買賣。在現代化學發現不同的金屬是由不同原子組成的之前，鍊金術師們幻想著通過搗騰金屬來實現元素之間的轉變。當今上過初中物理的朋友大概就知道這不大可行，然而就連了不得的艾薩克·蘋果大王·牛頓也曾沉迷於鍊金術。鍊金術師們缺乏現代理論的指導，通過不斷摸索嘗試，沒能變出金子來，倒是歪打正著地推動了冶金、化學等行業的發展。

描述鍊金術師的刻板畫，看上去還真是……很邪乎啊

在有的深度學習從業者看來，深度學習是當代的鍊金術。

Rahimi的這個比喻這麼說，正指的是深度學習中理論的匱乏。用最寬泛的定義來說，深度學習是對已有機器學習方法的疊加；用比較容易想像的定義來說，深度學習使用類似神經網絡的系統來學習。不管用哪個定義，深度學習都涉及到把學界已經不太理解的東西聚合在一起，變成了更難理解的，額，大東西。應對著這樣複雜的系統，深度學習從業者沒有可靠的理論作為支撐，只能東試試西試試，「歪打正著」地取得進展。

要想直觀地體驗深度學習的發展是多麼歪打正著，我們可以比較一下我現在戴著的眼鏡，和在機器視覺領域經典的神經網絡 -- AlexNet。咱們來一項一項考慮它們是怎麼設計出來的。

AlexNet 的結構示意圖。反正就是有很多瞎選出來的數字就對了。

眼鏡上面有一層白光下面看起來五顏六色的薄膜。這層膜利用了光波的相消幹涉原理，減少眼鏡片的反光；

AlexNet第一層的卷積內核（不必在意它到底是幹什麼的了啦）是11像素乘11像素的。為什麼是11不是10，不是12？不知道，作者寫論文的時候也沒講。在 AlexNet 之後的機器視覺系統也要麼是沿用了 11乘11 的設計，要麼同樣莫名其妙地選了另一組參數。

眼鏡片打磨成的弧度，是根據我的近視度數，和我的眼鏡片材料的折射率計算出來的曲線；

AlexNet為什麼有9層，為什麼第一層的卷積內核是11乘11的，第二層就變成5乘5，後面又變成3乘3了？作者也沒說。甚至，為什麼這個內核的大小越來越小也沒有交代。

外國友人原來也是《光明日報》的忠實讀者，深刻地學習了「實踐最重要」的重要思想。

所以說，名噪一時的卷積神經網絡，理論基礎還不如我鼻梁上掛著的眼鏡。

設計AlexNet 的 Alex Krizhevsky一定是深入學習貫徹落實了《光明日報》1978年刊登的《實踐是檢驗真理的唯一標準》。一篇論文下來能有幾十個上百個完全沒有解釋的設計選擇，連大的設計思路都沒有很好的理論基礎和motivation。即便如此，只要最後搞出來的神經網絡表現出眾，那就夠了。什麼理論不理論的，都是讀書人的迂腐罷了！

然而理論還真不是讀書人的迂腐。掌握了一個問題的理論基礎，我們就能提前進行預測，知道什麼樣的設計能成功，什麼樣的設計不用浪費時間嘗試（否則造飛機也要靠隨便設計一個試試看也太危險了吧！）；一個設計成功了，我們能分析哪個細節，下次便多用這個細節；如果理論已經能證明一些目標是不可能實現的（比如，永動機），那我們也不必大開腦洞地去試圖實現這個目標；通過理論，我們也能看出新的設計是否只是新瓶裝舊酒，還是真的有實質性突破。

二、為什麼深度學習沒有好的理論基礎

理論大法這麼好，為什麼深度學習沒有好的理論呢？

第一個原因是，深度學習的研究，現在很多是由工業界的科研部門在驅動，而工業界的科研當時注重應（zhuan）用（qian）的啦。

明明試試不同的神經網絡的參數就能取得一些性能上的提升，給企業帶來收益，幹嘛要去幹開發理論這種又不知道要花多少時間又不知道能不能成功的東西呢？按道理說，工業界科研總的來說都是比較在意應用的，理論研發要靠學術界來帶，這一點在什麼學科都是一樣的。但是深度學習在性能上的重大成功，讓工業界的企業們不惜重金挖走學術界的大佬們。

在工作環境、薪金等方面，科技企業能提供非常誘人的offer，很多在大學裡取得教職的教授也是很心動。我記得在 17年的 Cognitive Computational Neuroscience (CCN)的會議上，MIT的腦與認知科學系主任James DiCarlo提到強化學習（reinforcement learning）時打趣說，Yann LeCun在facebook工作，所以肯定不缺reinforcement吧！又比如說，開發了AlphaGo等系統的Deepmind，14年平均每個僱員的」staff cost「高達34.5萬美元。

遇到這種資本主義的腐化，有些學風不正、革命意念不堅定的同志就動心了，拋棄了偉大的理論事業。（哪位讀者有Deepmind就業方面的機會請一定要聯繫我）

工業界科研力量缺乏做理論研究的動力只是一個方面。另一點是，深度學習的理論很難做。對於神經網絡的理論研究，遠在機器學習的浪潮之前就開始了。然而直到今天，我們對於神經網絡的理論還較為原始。解釋力不足、難以產生可以實驗認證的預測，成為神經科學理論的重要問題。

神經網絡的複雜性驅使了理論學家訴諸統計物理。19世紀末開始的統計物理今天已經是較為成熟的學科。統計物理所研究的問題，確實和理論神經科學有不少相通之處 —— 可以說，這兩個學科都是研究複雜的宏觀行為是如何由微觀結構和性質產生的。在70年代，眾多統計物理學家們轉行做起了神經網絡的理論，開始把神經網絡的問題轉換成在數學上研究較為充分的物理問題：

工作記憶（working memory）成了神經網絡中能量曲面（energy landscape）上的吸引子（attractor） —— 原來記電話號碼幾個數字的能力也可以說的這麼酷炫嗎！

Hopfield Network 的能量曲面

感覺系統（大概就是眼睛鼻子耳朵這種）變成了資訊理論中的一個 information channel。

信息學之父克勞德·香農：你們啊，就知道蹭我的熱度

神經網絡中神經元的互相作用，變成二維伊辛模型（Ising Model）裡磁鐵之間的吸引和排斥。

一個正方晶格二維伊辛模型（蒙特卡洛模擬）

所以感覺神經網絡是個物理問題啊！這貨是怎麼被扯到機器學習裡去的呢？

人腦是不斷變化的，神經元之間連接的強度可大可小，讓人獲得了學習的能力。

於是心理學家們想著，那咱們也搞個會變化的神經網絡模型唄。他們提出了一個叫perceptron的簡單模型，並指出這種系統雖然簡陋，但是也有有存儲信息的能力！

這種模型，指出了像「記憶」、「學習」這樣的心理學現象，是如何能由一個物理系統來實現的。

蠢蠢欲動的統計物理學家們，如愛丁堡大學的Elizabeth Gardner、普林斯頓的 John Hopfield等人蜂擁而上，硬是把一個直直的心理問題掰成彎彎的物理問題。其中，以Hopfield 命名的Hopfield Network把神經網絡的變化和一個單一的標量自由能函數聯繫在了一起。在這個模型裡，所有神經元之間的連接變化，都是在最小化系統的自由能。

警察同志，Hopfield 就是他！（來源:普林斯頓大學網站)

這就給了機器學習的熊孩子們以思路。在Hopfield Network的自由能表達式中，既有神經元之間連接帶來的自由能，也有」外界環境「帶來的自由能。（這個結構本身便是受了伊辛模型的啟發，神經元連接的自由能就像是相鄰原子自旋相同/相反導致的能量，外界環境的自由能就像是外界磁場帶來的能量。）我們能否利用這個原理，讓這個神經網絡「記住」外界環境中的一些信息呢？

在Hopfield Network的基礎上，深度學習的先驅們開發了如Boltzmann Machine、Restricted Boltzmann Machine等的早期機器學習用神經網絡。就連 Ising Model這種筆筆直的物理模型，也被用來給圖像降噪了。

這些神經網絡仍然是有紮實的理論基礎的。因為他們的設計是遵循統計物理系統的原理的，每個神經元在穩態中的數值分布可以用波茲曼分布（統計物理中把穩態系統裡一個狀態的能量和概率相聯繫的等式）來描述。正因為如此，這些神經網絡還是可以放在概率論的理論框架中進行闡述的 -- 他們屬於所謂的無向圖模型（undirected graph model）。

但是機器學習熊孩子們的腦洞不止於此。他們設想，我們要不乾脆就放棄物理原理吧。假如我們拋棄自由能函數，定義一個我們想要在實際生活中最小化的函數（比如說，辨認手寫數字的錯誤率），然後把這個函數當自由能函數一樣做最小化，是不是也能取得不錯的效果呢？這裡基本的操作，就是反向傳播算法（backpropagation） -- 我對網絡中的每一個參數都求這個函數的偏導數，再按照偏導數調節這些參數，實現函數的最小化。

按照當時的統計學習的理論，這個思路有一萬個出錯的地方。和簡單的統計模型相比，神經網絡的參數要多的多（AlexNet有約10萬參數），經常遠遠比用來訓練的數據量大。按道理說，這應該導致訓練「過擬合」（overfit），也就是網絡學到的東西只適用於訓練的數據集，不能用來推廣；神經網絡最小化的函數經常有無數個 local minimum，按道理說用反向傳播會導致系統卡在 local minimum 不能動；大的神經網絡訓練和運行，需要做極多的矩陣運算，對於計算機性能要求也很高。

然而深度學習有千千萬萬失敗的理由，結果卻是很成功的。工業界的朋友們都深入學習了《實踐是檢驗真理的唯一標準》一文，表示對缺乏理論基礎並不在意。而深度學習的成功，就變成做神經網絡理論研究的人面前又一大難題：和別的機器學習方法相比，深度學習到底特別在什麼地方？是什麼讓深度學習取得這樣的成功？

繞了這麼一大圈，我是想說兩件事。首先你看，就算是統計物理的高大上方法，仍然只能描述非常簡陋的神經網絡。這些方法所能透徹理解的神經網絡，不要說和人腦相比，就算是和機器學習課上教學用的小學生神經網絡都相差甚遠。最最基礎的三維Ising Model物理學家研究了大半個世紀了，仍然沒有找到解析解，而Ising Model又已經是高度抽象和簡化的神經模型了。也就是說，就算是用上了統計物理的數(zhuang)學(bi)方(shen)法(qi)，咱們也就能研究個智力比不上微生物的神經網絡。不管是人的神經系統，還是深度學習所使用的神經網絡，複雜程度都遠遠超出了已有方法能描述的範疇。

第二是，你看啊，想做深度學習應用的人，根本不需要掌握什麼理論知識。已有的理論知識，要麼是描述和商用深度學習系統完全不同的系統的，要麼是預言深度學習不會成功的。而真的要讓一個深度學習系統跑起來，除了會編程，最麻煩的地方也就是設計一個損耗函數了吧。

理論對於今天很多的深度學習人來說，是一個既不懂又不想懂的東西，Hopfield 等等本應該熠熠生輝的名字，很多深度學習實踐者卻沒有聽說。我一個朋友是某業界超級大佬以前的學生，另外一個朋友是他現在的學生。他們都說這個大佬的指導思路就是，不用搞懂一個東西什麼原理，管用就行了。

這尼瑪別人說你是鍊金術，你還敢回嘴？

不能理解深度學習運行原理的我們，還在尋找理論框架的路上。缺少了理論基礎，深度學習像一劑成分複雜、原理不明的藥。在機器學習愈發普遍的未來，我們真的希望在生活的方方面面依賴一個原理不明的東西嗎？正如製藥者希望能提取藥劑裡的有效成分，我們也希望能找到深度學習取得成功的關鍵並加以推廣，並發現和改善深度學習隱藏的種種弊病。

三、什麼是神經網絡

許多小讀者、大讀者們說對「神經網絡」沒有直觀的概念！那在這篇文章繼續之前，我來說一個最最簡單的神經網絡。

神經網絡裡面有一個個「神經元」（neuron）。每個神經元都會進入一個「興奮」的狀態，而且有不同的興奮程度。一個神經元興奮了，它就也會讓和它相連的神經元變得興奮，然後它相連的神經元又讓他們相連的神經元興奮了……興奮值在神經元之間傳遞的是有強弱的。假如說，兩個神經元之間的連接很強，那一個神經元很興奮了，另外一個神經元也會變得很興奮；如果連接很弱，那一個神經元興奮了，它相連的神經元一臉懵逼，並沒有變得很興奮。兩個神經元之間的連接，用神經科學的說法是一個「突觸」（synapse），而這個突觸的強弱就是這個連接的「權重」。

假設咱們現在有【阿貓】，【阿狗】和【大象】三個神經元。【阿貓】、【阿狗】是輸入的神經元。

什麼意思呢，就是【阿貓】和【阿狗】的興奮程度是外界環境決定的。

假設我是一個沒有味覺的人，我希望通過「貓狗象」這個神經網絡來幫我判斷一個罐頭是牛肉味的還是魚肉味的。只有【阿貓】和【阿狗】能吃到這個罐頭。

【阿貓】喜歡吃魚，不喜歡吃牛肉，所以吃了魚罐頭就很興奮，對牛肉罐頭沒什麼反應；【阿狗】正好相反。不管是【阿貓】還是【阿狗】，他們只要一興奮就會拉【大象】的鼻子，把大象也帶興奮了，就會發出叫聲。

作為同樣吃不到罐頭的我和【大象】約定好了：我要是聽到你叫了，就代表現在他們在吃魚肉罐頭；如果你沒叫，就代表他們在吃牛肉罐頭。

現在訓練開始了！一開始，【阿貓】和【阿狗】興奮起來了都狠狠地拉【大象】的鼻子。

這下可好，吃魚的時候【阿貓】很興奮，【大象】就被帶了節奏，也很興奮，嗷嗷直叫；

吃牛肉的時候【阿狗】很興奮，結果大象還是被帶了節奏，還是很興奮，嗷嗷直叫。

所以吃什麼罐頭，【大象】都嗷嗷直叫，這叫我怎麼知道罐頭是什麼味道的呢？

於是作為訓練師的我先通過偷看外包裝看到了罐頭的真實口味，然後對【大象】說，「你啊，下次魚肉口味的罐頭來了，你叫沒問題；牛肉罐頭來了，我對你使個眼色，你就別叫了！」

接下來，一個牛肉罐頭來了。喜歡吃牛肉的【阿狗】變得超興奮，馬上伸手要拉【大象】的鼻子。

結果【大象】看了我的眼色，和阿狗說，「你啊，下次不聽你的了，你就知道瞎帶節奏！」

於是以後【阿狗】也不敢再拉【大象】鼻子了，只有【阿貓】拉【大象】鼻子了。【阿貓】正好是吃魚興奮，吃牛不興奮，符合了我的要求。

錯誤信號的反向傳播導致造成錯誤的權重（箭頭越粗，權重越大）被削弱。（我的畫畫水平達到了巔峰）

這個神經網絡的訓練就算是成功了。

以後，我不用跑出去看罐頭的外包裝，也能通過聽【大象】的叫聲來判斷罐頭的口味了。

這個動物小故事裡面出現了很多深度學習中基本的概念。除了神經元、突觸和權重以外，那些我看了外包裝、知道真實口味的罐頭是訓練過程中的「訓練集」；每次【大象】瞎叫的時候我對它使眼色，它又轉而批評【阿狗】，這便是網絡對錯誤信號（error signal）的反向傳播（backpropagation）。【阿貓】【阿狗】是神經網絡的輸入層，【大象】是輸出層。我讓這個網絡做的便是一個分類（classification）任務。【阿貓】和阿狗只對一些罐頭感興趣，說明他們具有選擇性（selectivity）。

四、什麼能算是「深度學習的理論」

言歸正傳。上篇裡提過，用神經網絡來獲得、儲存信息的基本模型 Perceptron 在上世紀五六十年代就由心理學家提出了。這種模型的基本性質，比如能儲存多少信息、能進行什麼樣的分類任務、等價於什麼統計模型，也摸的比較清楚了。

數學上Perceptron等價於簡單的線性回歸，因此能進行的任務非常有限。理論上，更加複雜的神經網絡（很多個perceptron疊加在一起、用上非線性函數）能進行更複雜的任務，然而由於已有數學方法的局限性，這種網絡無法很好的進行理論研究。

當時的統計學習理論和最優化理論已經較為成熟，一些現在主流的複雜神經網絡（準確地說，前饋神經網絡）也可以找到等價的統計模型（即一個複雜的廣義線性模型，Generalized Linear Model），但是這些模型如何訓練仍然是個未知數。寬泛地說，越複雜的系統，訓練起來也越困難。現在流行的訓練方法「反向傳播算法」在80年代就提出了，但即便在當時也難以從理論上理解。

不僅如此，按照已有的統計學習理論，神經網絡的應用效果應該非常糟糕才對。其中一大問題，就是一個神經網絡裡的參數數量（也就是可以隨著訓練調節的東西）經常遠比用來訓練的數據集大，而且有的時候是大好幾個數量級。對於簡單的統計模型來說，這可是大忌。

比如說做一個簡單的線性回歸，y=kx+b，一共就 k 和 b 兩個參數，你經常要幾十個數據點來做線性回歸。假如只有一個數據點（也就是數據點比參數的數量小），比方說（1，1），那就會出現無限個同樣正確的參數對：對於就這一個數據點來說，y=x+0 和 y=2x-1 都是正確答案，出現了參數的簡併（degeneracy）。那你怎麼知道哪個是真正的正確答案呢？

參數簡併問題的一個方面。另外一個方面就是機器學習裡經常遇到的「過擬合」（overfitting）了。請看下面這張圖 —— 明明 y 和 x 之間是線性關係，如果我們強行用一個參數比數據點多很多的多項式函數來做回歸的話，就會做出一個奇形怪狀的形狀，根本不能反映 y 和 x 之間的真實關係。

用十一階多項式函數擬合十一個數據點，獲得了——奇怪的形狀！！

在很多統計模型裡，實際操作中要想避免過擬合，需要數據點遠比參數多；然而深度學習裡經常是參數比數據點多很多。

（怎麼看都感覺神經科學是「腦科學家」發明出來蹭熱點、騙錢的啊。）

深度學習專家 Yann LeCun 也說，正是二十年前理論上對深度學習不可行、不可用的預測，耽誤了深度學習在應用上的大發展。直到最近，神經網絡還是理論上應該不可行、實際上難以實現（由於計算機性能的限制）的模型。到了最近的十五年，尤其是過去十年，計算機算力的發展允許「科學家」們不管不顧悲觀的理論預測，在實踐中嘗試用反向傳播來訓練複雜的神經網絡。

結果訓練出來的結果好的一塌糊塗。所謂「一塌糊塗」當然是相對的 —— 神經網絡訓練的效果比一些精心設計的統計學習算法還要好。說神經網絡+反向傳播不行的人被狠狠的打了臉。

爽啊

我覺得，深度學習理論裡最大、最根本的問題就在這裡：

深度學習，按照既有理論沒什麼前途的方法，為什麼能比其他方法更好、更有效地解決問題呢？

和這個問題相比，什麼樣的神經網絡適合用在什麼樣的任務上、超參數到底怎麼選、訓練到什麼時候停止等等的問題，我們只能找到實證的答案，而不是原理上的理解。

就像是，我們發現了一種化學成分，按照已有的生物知識應該有劇毒，結果給人吃了不僅沒有劇毒，還能治好各種疑難雜症。理論上最首要的問題應該是，到底為什麼它其實沒有毒還能治病呢？別的問題，比如「吃多少治療效果最好」、「應該飯前吃還是飯後吃」，我們能通過不斷嘗試和實驗得到實證的規律，但是在首要問題沒有解決之前，很難得到原理上的理解。

實證的規律，當然是走向原理理解的重要一步。就像我們要先觀察到了東西在空中會掉向地面，才能想到有可能是萬有引力的作用。反過來，當萬有引力這個理論被提出了，它也應該能解釋實證觀察到的現象。

現在的深度學習理論研究，能在一些非常應用的小問題上給出一些原理上的解釋。比如說，訓練的時間太長了，網絡在測試集的性能下降是因為過擬合之類的。對於神經網絡 in general 為什麼能用，還遠遠沒有答案。

五、現在有什麼深度學習的理論

很多很聰明很聰明很聰明的人已經研究這個問題很久很久很久了。各種統計學的大佬、理論計算機科學的大佬、物理學的大佬、神經科學的大佬都有所嘗試，現在似乎也沒有一個比較受認可的理論。理論們也是腦洞大開各不相同。

他們的畫風大概是這樣的。

1. Tishby的信息瓶頸理論

最近很火的是 Nafisa Tishby 和同事提出的 information bottleneck（IB）理論。IB其實在2000年就提出了。

當時也不能算是個大新聞，除了些做理論神經科學還有數理統計的 nerd，並沒有人在意它。剛提出的時候，它其實是個框架，而不是理論。

簡單的說，IB框架把一系列機器學習中遇到的問題想成一個資訊理論優化的問題。

假如我們有隨機變量X，Y——X是我們想要知道的東西，Y是我們對X的估測。從X到Y，我們使用了一個codeZ。一方面我們想要儘可能多讓Y包含X的信息（Shannon information），另一方面我們又不希望Z的體積過大，所以我們想增加Y中包含的X的信息，同時限制Y中包含的Z的信息。（我最近看到一個新穎的解釋，說是可以試著從rate distortion theory的角度理解這個問題，Z的constraint類似於對rate 的 constraint，然而我不是很理解。）

最近，Tishby及其走狗覺得深度學習可以用IB的框架來解釋。他們說，你看啊，這神經網絡一層一層的，不就像咱們那個 IB 框架裡面 X 先變成 Z 再變成 Y嗎？X是網絡的輸入，Y是輸出，Z是中間那麼多層的內容。他們畫了幾張奇怪的圖說，呦嘿你看，神經網絡訓練的時候先是增加了 Y中X的信息，再縮減了 Y中Z的信息。

這個比較新穎的思路把一眾報導深度學習的媒體搞的很 high，各種「重磅！」的標題接踵而至。我最服氣的是知乎上一個如何評價 IB 的問題下面一個人說，我覺得這個理論很好啊，就像讀書一樣，先把書讀厚，再把書讀薄。

可是正如作者所意識到的那樣，IB 用在神經網絡上有一個根本性的大問題。

IB 的一切定義是基於 shannon information的。要想 non-trivially 定義信息，X，Y，Z必須得是隨機變量，有隨機性。研究神經科學的人用這個框架，完全沒問題，因為生物神經系統裡是有噪音的，所以有隨機性 —— 可是機器學習裡面用的神經網絡是完全 deterministic 的，沒有隨機性啊！deterministic 系統裡 shannon information 無法有效的定義，談什麼 IB 呢？

為了能用上 IB 的框架，隨機性必須要被強加到系統中去。但是這個隨機性到底怎麼搞進去，就成了一個新問題。一個 deterministic系統裡的信息量是無窮的，信息量的有限化完全依賴於增加噪音的辦法。結果，增加噪音的方法似乎是產生他們得到的結果的關鍵。換句話講，他們所得到的信息瓶頸的效果，並不是深神經網絡固有的性質，而是他們的研究方法強加上去的。

2. Mehta and Schwab：重整化群和神經網絡

啊嘞。這個有點作弊。因為其實他們研究的不能算是深度學習。

雖然論文標題裡說的是「深度學習」，但是作者們其實研究的是受限波茲曼機（Restricted Boltzmann Machine， RBM）。這是一種比較原始的神經網絡，和機器學習裡用的深度神經網絡之類，有很大的區別啊。

先簡單地介紹一下RBM。波茲曼機裡面是一堆神經元相互連接在了一起。設計者為它強行定義了一個類似易辛模型（Ising Model）的能量函數，然後又用波茲曼分布給每一個能量值加上了對應了的概率。「受限」的意思是，神經元不是全部兩兩相連的，而是分成了兩團，每團的神經元之間不相連，只和另外一團的神經元相連（神經元和它們之間的連接構成了二分圖）。

1906年去世的路德維希·波茲曼（Ludwig Boltzmann）自然沒有發明神經網絡。波茲曼分布把一個物理系統不同狀態的出現概率和每個狀態對應的能量聯繫了起來，因此在很多非深度神經網絡的設計中都有人為的加入。

RBM中的神經元被分成兩團，它們只能互相連接，不能內部連結。

重整化群（renormalization group，RG）是一個計算的工具。重整化群在物理裡經常用到，最最直觀的解釋是，它是一個把物理系統不斷粗粒化的過程。比如我需要做一個關於很多個水分子的性質的計算。最最細緻的辦法就是一個水分子就是一個單位。然後我也可以把幾個水分子「捆綁」在一起當一個大的單位來對待，就像是把一張照片縮小，接近的幾個像素就變成了一個像素一樣。如果這個物理系統有尺度不變性（scaled invariance），那一個能用高「像素」（一個單位是一個水分子）的方法描述的東西也能用低「像素」的方法來描述（一個單位是很多個水分子）。在不斷「降低像素」的過程中，有些性質是不變的，那麼我們就可以用非常低的「像素」來研究這些性質。最最經典的尺度不變的系統是一個處在相變（phase transition）臨界值的系統，比如水就要結成冰的時候。

這篇論文的作者說，你看，RBM 不是兩群神經元相連嗎？這就有點像 RG 裡面小尺度的磁鐵和大尺度的磁鐵之間的對應關係。RBM 的「訓練」是最小化系統的能量，和 RG 裡面需要做的最小化兩個尺度之間的能量差有數學上相同的地方。他們都可以寫成是對用波茲曼分布作的概率分布的近似（具體的說，在 RBM 中是減小 RBM 概率分布和數據分布之間的 KL 散度；重整化群中是減小大尺度和小尺度之間的分布之間的KL散度）。

然後就沒有然後了。

我記得我最早聽說這篇論文的時候，覺得「哇塞簡直太酷了」。這裡確實要給作者敏銳的直覺打個滿分。能看到兩個貌似不相干的東西中數學的聯繫，是非常了不起的事情。

但是讀完了這篇論文，我似乎又覺得它並沒有讓我對神經網絡的理解更加深刻起來。他們得到的結果對於理解 RBM 是很有幫助的，然而 RBM 並不是現今主流的神經網絡，而且本身的設計就比較容易理解。只能說，作者這種找和深度學習相似的數學方法的思路可能很有前途，但是目前好像還沒有取得特別實質性的進展。

六、一個不完整的總結

現今這方面理論的處境，似乎還是連一個大家認同的語言框架都不存在的地方。有的人想用概率論的框架（比如信息瓶頸），有的人想用物理方法的框架……已有的這些理論，雖然有種種的問題，但是都是朝著正確的方向邁的步子。以上介紹的這兩個例子，在剛出來的時候都是佔盡了新聞頭條，好像我們一下就要解決重大的理論問題了。其實我們離找到能解釋深度學習種種現象的統一理論還差得很遠很遠。

那這個統一理論會在哪兒呢？前天開組會的時候，組裡一個博士後（Ph.D.是純數的）說，他很含糊地覺得線性代數不應該是描述神經網絡的基本語言，因為線性對於神經系統來說是個很不真實的假設。也許他是對的。也許為了更好地描述神經網絡和神經系統，我們需要一套新的數學語言和框架，就像日本數學家甘利俊一的信息幾何論（information geometry）讓人們對資訊理論有了新的認識一樣。

這個新的框架在哪裡呢？學界裡好像也沒有統一的思路。那麼在有統一的思路之前，是需要我們朝不同的方向作嘗試的。因此已有的這些理論，雖然不大可能是最正確的理論，但也是我們現在要走的第一步了。

在撲克投資家公眾號對話框輸入「關鍵詞」（例如，輸入「黃金」），即可獲取更多乾貨內容。

產品/商品

黃金 | 白銀 | 鎳 | 鋅 | 鋁 | 鉛 | 錫 | 銅 | 鈷 | 鋰 | 黑色 | 鐵礦石 | 鐵合金 | 鋼鐵 | 廢鋼 | 螺紋鋼 | 焦炭 | 煤炭 | 石墨 | 石油 | 瀝青 | 頁巖油 | 稀土 | 棕櫚油 | 食用油 | 成品油 | 原油 | 燃料油 | 油氣 | 天然氣 | 油料 | 油脂 | 烯烴 | 乙烯 | 丙烯 | 甲醇 | 塑料 | PTA | PVC | 聚丙烯 | 輪胎 | 橡膠 | 棉花 | 棉紗 | 糖 | 油菜籽 | 菜籽 | 菜粕 | 穀物 | 小麥 | 飼料 | 玻璃 | 玉米 | 蘋果 | 雞蛋 | 豬 | 牛 | 咖啡 | 大豆 | 豆粕 | 澱粉 | 魚粉

產業

港口 | 造船 | 航運 | 紙業 | 礦業 | 化工 | 有色 | 物流 | 煉化 | 煤化 | 能源 | 石化 | 5G | 畜牧 | 糧食 | 養雞 | 養豬 | 養殖業 | 去產能 | 農產品 | 轉基因 | 製造業 | 半導體 | 機器人 | 貨櫃 | 貴金屬 | 倉儲業 | 普氏指數 | 人工智慧 | 波羅的海 | 金融衍生品 | 新能源汽車

金融

美元 | 歐元 | 盧布 | 貨幣 | 匯率 | 利率 | 期貨 | 債券 | 私募 | 槓桿 | 股災 | 熊市 | 交易 | 信託 | 併購 | CTA | 國債期權 | ETF | 套利 | 資管 | 融資 | 反身性 | 區塊鏈 | 衍生品 | 金融城 | 供給側 | 亞投行 | 資本配置 | 股權投資 | 影子銀行 | 跨市套利 | 分析框架 | 場外市場 | 金融市場 | 金融危機

公司/公司志

美孚 | 三星 | 力拓 | 摩根 | 3M | 三井 | 住友 | 拜耳 | 東芝 | 橋水 | 高盛 | 嘉吉 | 浦項 | 貝恩 | 杜邦 | 貢沃 | 淡馬錫臺積電 | 麥肯錫 | 孟山都 | 摩科瑞 | 科萊恩 | 馬士基 | 巴斯夫 | 西門子 | 米其林 | 嘉能可 | 伯克希爾 | 三菱化學 | 陶氏化學 | 益海嘉裡 | 皇家殼牌 | 路易達孚 | 淡水河谷 | 必和必拓 | 卡特彼勒 | 德意志銀行 | 蒂森克虜伯 | 英國石油BP | 新日鐵住金

人物

付鵬 | 劉鶴 | 高善文 | 郭鶴年 | 郭樹清 | 寧高寧 | 彭文生 | 周金濤 | 傅海棠 | 林廣茂 | 伯南克 | 凱恩斯 | 索羅斯 | 格羅斯 | 巴菲特 | 哈裡伯頓 | 格林斯潘 | 查理芒格 | 傑西利弗摩爾 | 羅斯柴爾德

宏觀/經濟

外匯 | 關稅 | 投資 | 風險 | 央行 | 降息 | 周期 | 通縮 | 貿易戰

說明：也可使用微信自帶的模糊搜索功能，點擊 撲克投資家 前臺底部菜單欄，使用「號內搜」，輸入您查找的內容，即可獲得相關文章推送。

如果您對撲克投資家有什麼建議、您有什麼好的想法，或者您本身就對某一領域、話題有獨到見解，願意寫成文章（或者我們來採訪您），撲克投資家都非常歡迎您跟我們聯繫。

我們的聯繫方式

郵箱：tougao@puoke.com

微信：puoker

電話：186 1651 5893 / 171 9176 9126

在追求完美的道路上，撲克永不停歇！

因為你，我們一直在努力。

你的參與，將使我們的未來更美好！

▼

點擊閱讀原文，與大咖同道而行

一個鍊金術師的自述:為什麼深度學習的理論基礎不靠譜?

相關焦點

深度學習的理論來源|一個鍊金術師的自述(2)

鋼之鍊金術師FA:實力最強的6位正派鍊金術師,愛德華墊底!

鋼之鍊金術師第1話:鋼之鍊金術師參上!擊敗冰之鍊金術師!

為什麼鋼之鍊金術師FA被稱為神作?聽我慢慢道來-01

鋼之鍊金術師FA:盤點4位見過真理之門的鍊金術師,一人是被逼的

動畫版《文豪與鍊金術師》太宰治成為最弱文豪?其實中原中也更弱

《龍之谷》鍊金術師萌系統技能展示

光明的背面是黑暗牛頓為何從科學家「墮落」成一個鍊金術師?

03版鋼之鍊金術師,是否應該為原創劇情而廣受人詬病

解密鋼之鍊金術師鍊金術禁忌——人體煉成,靈魂是不能煉成的!

漫改電影《鋼之鍊金術師》這特效我給滿分

《艾斯卡與羅吉的工作室黃昏天空的鍊金術師》專題上線

副職業:鍊金術師升級攻略

現代化學之父拉瓦錫,其實他活的更像是一個「鍊金術師」

[鋼之鍊金術師]新劇場版預告出爐

不吹也不《黑鋼之鍊金術師》到底是不是神劇

鋼之鍊金術師FA(一):用身體換母親

真人版《鋼之鍊金術師》動畫聲優樸璐美的訪談

高分單集簡評系列——《鋼之鍊金術師FA》

LOL鍊金術師一秒疊滿徵服者小技巧

一個鍊金術師的自述:為什麼深度學習的理論基礎不靠譜?

相關焦點

深度學習的理論來源|一個鍊金術師的自述(2)

鋼之鍊金術師FA:實力最強的6位正派鍊金術師,愛德華墊底!

鋼之鍊金術師第1話:鋼之鍊金術師參上!擊敗冰之鍊金術師!

為什麼鋼之鍊金術師FA被稱為神作?聽我慢慢道來-01

鋼之鍊金術師FA:盤點4位見過真理之門的鍊金術師,一人是被逼的

動畫版《文豪與鍊金術師》太宰治成為最弱文豪?其實中原中也更弱

《龍之谷》鍊金術師萌系統技能展示

光明的背面是黑暗 牛頓為何從科學家「墮落」成一個鍊金術師?

03版鋼之鍊金術師,是否應該為原創劇情而廣受人詬病

解密鋼之鍊金術師鍊金術禁忌——人體煉成,靈魂是不能煉成的!

漫改電影《鋼之鍊金術師》這特效我給滿分

《艾斯卡與羅吉的工作室黃昏天空的鍊金術師》專題上線

副職業:鍊金術師升級攻略

現代化學之父拉瓦錫,其實他活的更像是一個「鍊金術師」

[鋼之鍊金術師]新劇場版預告出爐

不吹也不《黑鋼之鍊金術師》到底是不是神劇

鋼之鍊金術師FA(一):用身體換母親

真人版《鋼之鍊金術師》動畫聲優樸璐美的訪談

高分單集簡評系列——《鋼之鍊金術師FA》

LOL鍊金術師一秒疊滿徵服者小技巧

光明的背面是黑暗牛頓為何從科學家「墮落」成一個鍊金術師?