Yann LeCun說是時候放棄概率論了,因果關係才是理解世界的基石

2020-11-23 大數據文摘

作者:Carlos E. Perez

編譯:高寧、阮雪妮、Aileen

Yann LeCun說,他已經做好放棄概率論的準備了!

今年9月初,Yann LeCun在Cognitive Computational Neuroscience (CCN) 2017上發表了題為「為什麼大腦能短時間內學習如此多東西?」的演講,在演講中他提到,他已經做好放棄概率論(throw Probability Theory under the bus)的準備。

他認為概率理論只是一個工具,而非現實或智能系統的基本特徵。作為一個工具,它就存在應用領域的限制。就算你的鋸子能夠砍樹,這並不意味著它就能切割鈦。

點擊查看Yann LeCun演講

視頻來源:http://www.ccneuro.org

概率論存在的這個問題與預測的有效性密切相關。首先,請看下面的gif動圖

從圖中我們可以很明顯看出他們的分布是不同的,但右側顯示的統計測量的方法和結果卻是相同的!換句話說,如果你的預測是基於概率分布所計算出的期望值,那麼你很容易就被騙了。

創建這些分布的方法和我們在深度學習中發現的漸進方法類似,主要使用攝動方法(perturbation method)和模擬退火(simulated annealing)。從這個角度看,如果你想騙過一個統計學家,那麼深度學習方法會是一個非常方便的工具。

在2015年,有一篇很有趣的論文「使用非平衡熱力學進行深度無監督學習」(「Deep Unsupervised Learning using Nonequilibrium Thermodynamics)」寫道,你可以使用統計力學的攝動方法,從根本上重新創建一個從隨機噪音開始的特定分布。也有一個反向擴散的方法可以將噪音回收成原始分布。

圖:我們是基於二維的類似「瑞士卷」分布的數據集上訓練的建模框架。第一行顯示了沿著軌道方向的時間切片

。數據的分布(左圖)在經歷高斯擴散後,逐漸轉化為特性-協方差高斯分布(右圖)。中間一行顯示了已經訓練好的反向軌跡對應的時間切片

。一個特性-協方差高斯(左圖)經歷學習後的均值和協方差函數進行高斯擴散後,逐漸還原為最初的數據分布(右圖)。最下面一行顯示了同樣的逆擴散過程的漂移項

增量攝動(Incremental perturbation)是一個非常強大的工具,很難對其使用統計方法進行處理。攝動方法很重要的一點是它們在非均衡狀態下運行。也就是說,與中心極限定理(Central Limit Theorem)所在的範圍相差還很遠。以上信息讓我們有理由相信:增量攝動法確實可以躲過統計檢測。

然而,如何創建人為分布並不是我們的真正問題。真正的問題在與,整個貝葉斯理論的實踐以及相關的信息理論在非線性領域存在著根本性的缺陷。

Sante Fe複雜性科學研究機構的James Crutchfield最近在新加坡做了一個非常有趣的演講,提到了非線性系統的這些缺陷:

那些在香農熵(Shannon Entropy)或貝葉斯理論中將過去、現在的概率與未來預測聯繫起來的方程,在非線性糾纏系統中進行預測時,從本質上說是毫無價值的。相關的論文連結(http://csc.ucdavis.edu/~cmg/papers/mdbsi.pdf),這篇論文中的一個圖解讓「貝葉斯們」開始去質疑他們在18世紀的信仰:

圖:圖中描述了將多個貝葉斯網絡推理算法應用於二元分布和三元分布的結果。該算法認為變量X,Y和Z之間不存在相關關係,所以形成了三個獨立的節點。這個算法會出錯其實並不意外:因為二元分布和三元分布不能用有向的無環圖來表示,但這是貝葉斯網絡的基本假設之一。

總而言之,我們只知道這些非線性系統工作得非常好,但我們對它們一無所知。Crutchfield的發現結果(這可以通過模擬來驗證,不能用邏輯論證)是概率歸納法並不適用於非線性領域。

事實上這確實是複雜和非線性的,但幸運的是,我們已經找到了一絲光明:可以通過綜合措施來消除非線性的影響。因此,概率歸納可以通過類似於使用分段線性段逼近曲線的方法來運行。這聽起來有點瘋狂,但它在特定情況下確實可以運行。然而,這並不是一個萬無一失的方法。

預測系統的研究人員必須提出的問題是:我們能做得更好嗎?我們可以使用純粹的攝動方法而不用概率歸納法嗎?概率歸納法的問題在於它是一種「不成熟的優化」。也就是說這種數學方法中考慮了不確定性。所以當我們使用這種數據方法來預測時,就受到了潛在的不確定性處理機制的影響。

我們的大腦並沒有使用蒙特卡羅抽樣來估算概率,那麼它是怎樣處理不確定性的呢?

它的工作方式和「樂觀交易」處理不確定性的方式相同,也與任何強大且可擴展的系統處理故障的方式相一致。任何強大的系統都假設會發生故障,因為配置有相應的調整機制。我們的大腦在遇到意外的情況時會進行補償標記。它通過攝動方法來學習自我糾正。這也是深度學習系統在做的事情,和概率計算無關。這只是一大堆「無限小」的增量的調整。

攝動系統可能有點讓人討厭,因為它們像迭代函數系統(IFS)一樣。任何自我迭代或擁有內存的系統都可能成為混沌行為或通用機器的候選對象。我們應該接受現實,這些系統已經脫離了概率方法可分析的範疇。然而,「貝葉斯們」似乎有著無懈可擊的信仰,還在堅持他們的方法是普遍適用的。

這篇Max Tegmark et al.的論文(連結:https://arxiv.org/pdf/1606.06737v3.pdf)研究了各種語言之間的點互式信息。注意到這裡馬爾科夫過程(Markov processes)的表現並不好。簡而言之,如果你的預測器是無記憶的,那麼它就不能預測複雜的行為。

然而我聽說有人認為概率歸納法(probabilistic induction)/貝葉斯法則(Bayes rule)在某些領域適用。這樣的領域都有哪些呢?Bernard Sheolkopf準確地告訴了你概率歸納法到底適用於哪些領域(連結:http://ml.dcs.shef.ac.uk/masamb/schoelkopf.pdf)。其實就是那些表現出反因果的領域。

簡單地說,由於Y是X(輸入)的原因,所以你可以預測Y。因此實際上,關於在哪裡能夠應用概率歸納法,你得非常小心,即使是對於線性系統也是這樣。所以當我們試著應用概率歸納法區分恐龍、星星、橢圓和叉號時,我們發現我們做不到。為什麼呢?這是因為觀測到的輸入(即X)並不是由這裡的原因(即Y)直接造成的。也就是說Y不是X的分布的原因。更確切地說,這其中有另一種擾動機製造成了這種混淆。

然而如果你掌握了關於這一擾動機制的輸入的信息,那會怎麼樣呢?你能利用所生成的分布預測輸入嗎?答案顯然是yes!

一篇新的論文研究了顯著性方法(saliency method)的不可靠性。在深度學習網絡中,顯著性用於強調對網絡預測起到最大作用的輸入。它被多次提出以用來解釋網絡的行為。有趣的是,這篇論文展示了對輸入的一個簡單變換(即常數變換)會導致歸因的失敗。

這確實是一個很有趣的發現,同時也揭示了我們對深度學習網絡的因果關係的理解還在嬰兒階段。過分地要求貝葉斯推斷或概率歸納法作為深度學習網絡背後的指導原則只是一個幾乎沒有什麼證據支撐的假設。概率歸納法從來不是自然的基本準則,因此當用它來解釋複雜系統的時候,應該小心一些。

在這裡我引用Judea Pearl的兩段話,把它們送給你:

回顧過去,我所遇到的最大挑戰是擺脫概率思維並接受兩點:第一,人們並不總是從概率角度思考,而是因果效應的角度思考;第二,因果的思維很難用概率的語言描述,它需要一種屬於它自己的正式的語言。

人們並不使用概率思維,這是事實。

第二段話是關於概率和現實的本質:

我現在把因果關係作為物理現實和人類對現實的理解的根本基石,把概率關係看作是推動我們理解世界的因果機制的表層現象。

這段話揭示了物理學家是怎樣看待熱力學和統計力學之間的關係的。這其中可能會出現的認知偏差是他們不僅僅把那些指標當作是系統的結果,還把他們當作是對系統的解釋。更確切地說,不要用概率論去解釋複雜的非線性現象,如認知過程。更糟的是,不要把概率方法作為機理來構建你的人工智慧機器。如果你手頭上的是一個簡單不那麼複雜的問題,你可以隨意使用合適的工具。但儘管你的鋸子能夠砍樹,這並不意味著它就能切割鈦。

反饋循環處於智能的核心地位,這就意味著一個循環依賴的非線性系統。概率理論只是一個工具,而非現實或智能系統的基本特徵。作為一個工具,它就存在應用領域的限制。因此我們應該謹慎使用這一工具作為理解複雜系統的動力。幾十年來人工智慧一直艱難前行,也許突破口就在於重新審視和質疑我們自己的科研偏差。

相關焦點

  • 珀爾:數據非常愚蠢,領會因果關係才是理解世界的關鍵
    2016年,在大數據的幫助下,人工智慧(AI)圍棋軟體AlphaGo在系列賽中以4:1戰勝了世界圍棋頂尖高手李世石,震驚了全人類。當時網絡上有人戲謔道:「人工智慧贏了不可怕,至少說明它還不懂得韜光養晦,如果它假裝輸給人類,那才更加可怕。」
  • 以概率論的方式理解世界
    18世紀的法國數學家布豐提出了這樣一個問題:在數條間隔相等的平行線之間,隨機投下長度與間距相等的一根針,它與這些平行線相交的概率是多少?在這裡,因為角度與距離都是連續的值,基本事件有無數不同的結果,這樣的隨機系統被稱為幾何概型。早在19世紀,概率論已經成為了一門枝繁葉茂的數學分支。有趣的是,「概率」這個概念的嚴格定義要等到20世紀才出現。
  • 物理學是如何解釋因果論的?我們怎樣理解量子力學不遵行因果關係?
    之前我寫過幾篇關於量子力學的文章,提到過因果論,有很多朋友也表示很難理解為什麼在量子尺度因果論就失效了呢? 參考以前本人用其它帳號發的文章 怎樣形象地理解量子力學中違反「常識」的理論?
  • 論刑法中的因果關係
    二、大陸法系的因果關係理論及其評析  (一)條件說  條件說由德國學者於1873年在其著作《論因果關係及其刑事責任》中提出[5],他說:「在因果關係的概念之下,可以理解某種現象的成立過程,如果要把握某種具體現象的因果關係,就必須依次確認對該現象的成立顯示出了某種作用的一切力量。果真如此,這些力量的全部總和,就是該現象的原因。
  • 因果關係都是幻覺,休謨才是「不確定性」的鼻祖
    前面的內容,我們分享了休謨對「因果關係」必然性的懷疑,我們來簡單回顧一下。休謨是一個懷疑主義者,他懷疑的是,任何不以直觀和印象為基礎的知識的必然性和確定性。有一個著名的例子,休謨說:一般來說人們都認為,因為太陽曬,所以石頭熱了,太陽曬是石頭熱的原因,我們說這是客觀世界的因果律。
  • 概率論和數理統計:必然性的因果關係,遇見多種可能的隨機事件
    在自然界和現實生活中,某些事物或現象在一定條件下,必定會導致某種確定的結果,像這種「確定性現象」,正是通常自然科學各學科的研究和認知主體:尋求這種必然現象的因果關係,把握數量規律。那麼自然界、現實生活中除了「確定性現象」,就沒有其他現象了麼?大千世界中的萬事萬物之間滿是必然性的因果關係麼?顯然世界不是那麼單調的!有些現象在一定條件下,它的結果就是不確定的。
  • 刑法因果關係的理論爭鳴
    在不同學科、不同語境中,因果關系所指涉的範圍並不一致。經驗科學中的因果關係一般歸屬於存在論,而規範科學中的因果關係則大致可歸屬於規範論。如德國學者韋塞爾斯所指出的:「對應於刑法擔負的特別目的,自然科學界的這個作為結果歸納唯一原則的因果原則是不足夠和不適當的。在這裡起關鍵作用的刑法上的『原因性』概念,是一個法律—社會影響性上的關係概念,具有本體論和規範性的含義,也就是說既不同於自然科學界的也不同於哲學上的因果概念。」在刑法因果關係的判斷中,必須以規範目的的發現和確認作為前提。
  • 量子物理學:新研究綜合了量子場論中因果關係的不同方面
    在當前的量子場論中,因果關係通常由場換向器消失以進行類空分離來定義。麻薩諸塞州大學和裡約熱內盧聯邦農村大學的兩名研究人員最近進行了一項研究,討論並綜合了量子場論中因果關係的一些關鍵方面。他們的論文發表在《物理評論快報》上,是他們對量子引力理論進行研究的結果,該理論通常被稱為「二次引力」。
  • Yann LeCun:深度學習已死,可微分編程萬歲!
    這個說法讓英偉達的AI架構VP Clement Farabet深表贊同,Farabet還評價說,這是對現今深度學習的最好總結。LeCun也轉推此文,表示贊同。但是,光是轉發推文,對LeCun來說顯然不夠。今天,他在Facebook個人主頁上寫了一篇短文,不僅支持可微分編程,還用上了「深度學習已死」的表述。不僅如此,他還推出了一個「歸化學習」。
  • 刑法中相當因果關係說的判斷方法
    一般認為,刑法因果關係的判斷包括兩個層次(或階段),第一個層次是事實因果關係的歸因判斷,應採用條件說;第二個層次是法律因果關係的歸責判斷,需在前者基礎上融入價值考量,對此,我國的傳統學說是繼受蘇聯的「必然——偶然」因果關係理論,目前有影響力的學說是繼受日本的相當因果關係說和繼受德國的客觀歸責理論。
  • 張小虎|論刑法替代因果關係的歸責:理論基奠與事實根據
    二、替代因果關係歸責的學說與立法顯然,替代因果關係不同於因果關係的常態,這典型地表現在其「實施造成結果之行為的行為人不明——致害人不明」,在此場合應否對結果予以追責也就成為問題。對此,總體上存在「未遂犯論」與「既遂犯論」兩種對立的立場與處置。
  • 張輝:人生概率論
    這時候99.9%的人是猜,但是這個同學告訴我說他不是猜的,他是有策略的。他的策略是什麼?他說這兩個地方一個地方標A,一個地方標B,當A是雷的時候B就是個數字,反過來也是這樣子。當B是雷的時候,A是個數字。好,然後假設A是雷,那B是一個數字,我們假設是5吧,我們說極端一點;假設B是雷,A是數字,假設是1。兩種可能,一個是1,一個是5,他就問我說1出現的概率大還是5出現的概率大?
  • 1993珍貴錄像:32歲的LeCun向世界親自展示了首個CNN
    那大家有沒有想像過,CNN剛誕生的時候,場景是怎麼樣的? 今日,Reddit上一則帖子曝光了一段視頻: 視頻上記錄了1993年32歲Yann LeCun展示的,用於文本識別的世界上第一個卷積網絡。
  • 概率論概述
    ,為了更好地描述這一性質概率由此而生,而研究概率的性質的學科概率論也應運而生。比如說射箭的中環的概率。只不過這種的概率依舊是建立在有面積的地方是均勻分布的前提之下的——即基本事件對應的概率是一樣的,或者說面積一樣的區域塊的概率一樣。當然這種均勻性是我們假設的條件,如果這一條件不成立,也就是第三階段的現代概率論雛形。我們引入了概率的公理化定義,在測度論上定義概率是在可測空間上的對應於任何一個子集的實值集函數。於是研究了在這個空間上的對應於集合的幾種性質以及運算法則。
  • 目的論 - 顛覆傳統因果論的阿德勒心理學
    一提到心理學,人們往往只會想到弗洛伊德或榮格的名字,但在世界上,阿德勒是與弗洛伊德、榮格並列的三大巨頭之一。阿德勒根據自己的理論開創了「個體心理學」,阿德勒心理學不是死板的學問,而是要理解人性的真理和目標。可以說領先時代100年的阿德勒思想非常超前,他的觀點極具前瞻性。
  • 通俗理解:概率分布函數、概率密度函數
    這篇文章通俗地解釋了概率論的兩個基石函數:概率分布函數、概率密度函數,建議不熟悉的同學
  • 刑法因果關係判斷標準的反思與重構
    諸如,「在什麼時候進行原因探究是適宜的,對於這一問題難以完整地作出說明」;同時,強調將習慣標準注入因果關係的感知中,這造成了「因果關係概念的流動性與不確定性」。⑤對此,筆者認為,英美法系因果關係理論的雙層路徑有其合理之處,其清晰明確地界分了刑法因果關係的事實歸因與法律歸責,從而構建了刑法因果關係判斷的基本骨架結構。
  • 坤鵬論:一切都是已經決定好的嗎?
    哲學是科學之母,隨著科學的昌盛,又反過來影響哲學,特別是近現代,關係近乎顛倒,科學作用於哲學的力量明顯更強大些。——坤鵬論坤鵬論在文章中曾多次提到過決定論,但是,查了查後才發現,以前並沒有對其進行過比較詳細的解釋。
  • 貝葉斯網絡之父Judea Pearl力薦、LeCun點讚,這篇長論文全面解讀機器學習中的因果關係
    這個缺點並不令人吃驚,因為機器學習是忽視動物嚴重依賴的信息:對世界的幹預、域偏移、時間結構,總體上,我們覺得這些因素很煩並儘量移除。最後,機器學習還不擅長在想像空間中行動。我認為,關注對幹預進行建模和推理的因果關係可以極大地幫助理解和解決這些問題,從而將機器學習領域推向新高度。
  • 量子力學違反了因果律?還是因為量子力學不適用因果律?
    其實關於物質本身的規律是很難用因果律來形容的,特別是微觀量子世界,試圖用經典力學來解釋?還有那位打算獲知宇宙某一時刻的狀態而計算出宇宙未來的拉普拉斯則更是異想天開!一、什麼是因果律表示任何一種現象或事物都有著直接或者間接的關係,在牛頓經典力學中,我們可以這樣來理解,只要或者一切初始條件,那麼事物的發展規律就可以用一套公式表達出來,即使再複雜,不過是輸入參數不一樣而已,有多少選擇參數,就有多少種輸出可能!