珀爾:數據非常愚蠢,領會因果關係才是理解世界的關鍵

2020-11-22 第一財經

2016年,在大數據的幫助下,人工智慧(AI)圍棋軟體AlphaGo在系列賽中以4:1戰勝了世界圍棋頂尖高手李世石,震驚了全人類。

當時網絡上有人戲謔道:「人工智慧贏了不可怕,至少說明它還不懂得韜光養晦,如果它假裝輸給人類,那才更加可怕。」這句看似戲言的話,卻暗藏了人工智慧當前最大的發展瓶頸:只會學習和處理數據,卻不懂得像人類一樣去思考和模擬存在於數據之外的其他可能性。

正因如此,人工智慧領域先驅、2011年圖靈獎得主朱迪亞·珀爾在本書中直言不諱地寫道:「數據非常愚蠢。」珀爾認為,當前的人工智慧學習系統幾乎完全以統計模式運行,這在理論上嚴重限制了AI的發展。

作為本書的核心內容之一,作者把認知能力分為三個等級,而統計行為僅處於最底層的「觀察」級別。所謂「觀察」即是根據數據(經驗)積累來尋找不同變量之間的相關性,同時觀察者無需對變量施加任何影響。例如,AI只需分析銷售數據即可得出超市中餅乾與巧克力之間的銷量存在一定相關性,這就是最基礎的認知能力。

但如果將餅乾的售價提高一倍(假設之前從未發生過),巧克力的銷量會發生什麼變化呢?基於大數據分析的AI並不能準確地回答這個問題,因為從過往的銷售數據中無法得出客戶見到餅乾漲價後的行為。這時候想要了解漲價後的銷售情況,AI就必須主動對變量進行「幹預」,進行分組測試,根據測試結果來預判餅乾漲價對巧克力銷量的影響。「幹預」能力是AI擺脫被動接受數據,轉而主動創造數據的關鍵一步。

最高級別的認知能力則是「想像」,即設想一個與現實不同的情景,比如假如昨天把巧克力的售價降低一半,餅乾的銷量會發生什麼變化,然後預測它的結果。「想像」能力是如此重要,在人類簡史作家尤瓦爾·赫拉利眼裡,數萬年前正是這種想像不存在事物的能力,引發了人類的認知革命,從而創造了今天的人類文明。

在珀爾眼裡,人類的認知能力之所以能超越「觀察」,達到「幹預」和「想像」的級別,是因為我們天生擁有一顆善於發現並理解「因果關係」的大腦,這也是我們目前仍領先AI的地方。不過嚴格來說,如同對「時間」或「意識」的理解一樣,在哲學、科學界對於什麼是「因果關係」至今仍未有一致的定論。

幸運的是,作為一名計算機科學家,珀爾並不需要挑戰「因果關係是什麼」這一世紀難題,他只需用計算機能理解的語言描述在哪種情況下,不同變量之間可以被認為存在「因果關係」而不僅僅是相關性即大功告成。簡而言之,作者的雄心在於破解因果關係背後的數學邏輯,然後建立一個可算法化的因果推理模型,並讓計算機學會這個模型,由此即能創造出懂得如何思考和推理的「人工智慧科學家」。這個AI科學家將如同超級加強版的愛因斯坦一樣,了解如何設計新的實驗,發現未知現象,找到懸而未決的科學困境解釋,並不斷地從學習中提煉出更多嶄新的知識。

書中提到的「結構因果模型(SCM)」正是珀爾想要與我們分享的最新研究成果,該模型由概率圖模型、結構方程模型(SEM)和反事實算法組成。概率圖模型是SCM主要的數學基礎,由作者於1985年提出的貝葉斯網絡構成。貝葉斯網絡又被稱為信念網絡,用以計算多個變量間的聯動概率,有助於理解數據之間的內在聯繫。比如,當你想分析氣溫和餅乾、巧克力銷量三者有何關聯時,貝葉斯網絡就能派上用場。

想要進一步確認因果關係,僅靠貝葉斯網絡是不夠的,需要用反事實算法進行幹預,控制其中一個或多個變量,再去觀察結果,這也是科學研究的開端。除了直接幹預之外,反事實算法還可以預測幹預及模擬未干預時的結果,而結構方程模型則以清晰的語義將概率圖模型與反事實算法相關聯。

在現實世界裡,一個變量周邊可能存在著無數混淆因素,想要抵消這類因素的影響必須做隨機對照試驗(RCT)。作者為此設立了判斷規則,規定哪些變量應該被控制,哪些可以被無視。

珀爾的研究成果在於,只要你將兩個變量置入他的結構因果模型,並列出模型要求的所有相關因素,而又根據規則排除了其他混淆因素,此時如果兩個變量之間依然存在協同變化,那你就有充分的權利得出結論,兩者之間存在因果關係。

作者此書的目的是描述如何構建「強」人工智慧,一個可以理解因果關係、懂得思考並能和我們直接無障礙交流的,甚至可以說是擁有自由意志的智慧機器人。珀爾認為,這是一個可實現的目標,而且並不需要擔心「強」人工智慧會損害人類利益,「因為因果推理模型將使AI能夠反思它們自身的錯誤,找出軟體的弱點,充當道德實體,幫助我們作出決策」,通過在AI上模擬人類的思維方式,可以讓我們更加了解自己。

對於一艘沒有目標的船而言,所有風向都是逆風,在這本書裡,珀爾凝聚了畢生的研究成果,用相對通俗的語言,在層層迷霧中為人工智慧的未來發展指明了方向。

任何對人工智慧發展、大數據分析、深度學習等話題感興趣的閱讀愛好者,都不應該錯過這本人工智慧大師珀爾的集大成之佳作。

(作者系第一財經編輯,本文是《The Book of Why: The New Science of Cause and Effect》一書概要,該書獲評2018「第一財經·摩根大通年度金融書籍」年度英文書籍獎)

相關焦點

  • Yann LeCun說是時候放棄概率論了,因果關係才是理解世界的基石
    從這個角度看,如果你想騙過一個統計學家,那麼深度學習方法會是一個非常方便的工具。圖:我們是基於二維的類似「瑞士卷」分布的數據集上訓練的建模框架。第一行顯示了沿著軌道方向的時間切片。數據的分布(左圖)在經歷高斯擴散後,逐漸轉化為特性-協方差高斯分布(右圖)。中間一行顯示了已經訓練好的反向軌跡對應的時間切片。一個特性-協方差高斯(左圖)經歷學習後的均值和協方差函數進行高斯擴散後,逐漸還原為最初的數據分布(右圖)。
  • 因果關係都是幻覺,休謨才是「不確定性」的鼻祖
    前面的內容,我們分享了休謨對「因果關係」必然性的懷疑,我們來簡單回顧一下。休謨是一個懷疑主義者,他懷疑的是,任何不以直觀和印象為基礎的知識的必然性和確定性。有一個著名的例子,休謨說:一般來說人們都認為,因為太陽曬,所以石頭熱了,太陽曬是石頭熱的原因,我們說這是客觀世界的因果律。
  • 刑法意義上因果關係的理解
    該案中,小張詐騙的行為與老劉死亡之間是否存在刑法意義上的因果關係呢?案例2、小張實施詐騙行為,騙取老劉用於養老的存款十萬元,老劉發現自己受騙之後,悔恨交加,一時想不開,自尋短見,氣絕身亡。該案中,小張詐騙的行為與老劉死亡之間是否存在刑法意義上的因果關係呢?
  • 刑法因果關係的理論爭鳴
    在不同學科、不同語境中,因果關系所指涉的範圍並不一致。經驗科學中的因果關係一般歸屬於存在論,而規範科學中的因果關係則大致可歸屬於規範論。如德國學者韋塞爾斯所指出的:「對應於刑法擔負的特別目的,自然科學界的這個作為結果歸納唯一原則的因果原則是不足夠和不適當的。在這裡起關鍵作用的刑法上的『原因性』概念,是一個法律—社會影響性上的關係概念,具有本體論和規範性的含義,也就是說既不同於自然科學界的也不同於哲學上的因果概念。」在刑法因果關係的判斷中,必須以規範目的的發現和確認作為前提。
  • 論刑法中的因果關係
    因果關係表現為一種現象必然產生另一種現象,表現為一種現象和其所產生的現象之間的必然聯繫[10]。簡而言之,其認為,只有必然因果關係才是行為人負擔刑事責任的客觀基礎。  雖然必然因果關係說是我國較早的理論,但是綜觀其述,必然因果關係說存在一下一些缺點:第一,把刑法中的因果關係限定為必然因果關係一種形式,是只看見客觀世界中的必然聯繫,看不見偶然聯繫的結果,是一種片面的思維方式;第二,其把必然聯繫同因果聯繫混為一談,把偶然聯繫同無因果聯繫混為一談,是一種機械唯物主義的表現;第三,其否定了因果關係的複雜性。
  • 從「相關關係與因果關係」到「用事實解釋事實」的錯誤
    無獨有偶,批改學生的作業,看到有一個學生說相關關係不等於因果關係,這是對的,但正確的說法是:因果關係一定有相關關係,相關關係不一定有因果關係,不能以相關關係來直接否定具有因果關係,還要進一步分析。  因果關係在邏輯鏈上是在一條直線上居於前後,如A推出B,B推出C,則A與B、B與C、A與C之間都存在著因果關係。而非因果關係的相關關係在邏輯鏈上不在一條直線上,而是處於平行狀態。
  • 物理學是如何解釋因果論的?我們怎樣理解量子力學不遵行因果關係?
    之前我寫過幾篇關於量子力學的文章,提到過因果論,有很多朋友也表示很難理解為什麼在量子尺度因果論就失效了呢? 參考以前本人用其它帳號發的文章 怎樣形象地理解量子力學中違反「常識」的理論?
  • 政治科學視角下的大數據方法與因果推論
    探究因果關係並非僅為了滿足人們理解社會現象的好奇心,更重要的是通過科學研究促進知識積累,為改善或幹預人類社會提供知識庫。政治科學對因果性知識的追求使得研究者對政治現象(制度、組織、行為等)開展定性、定量或實驗式的「科學化」研究,探求政治現象背後的特定概念、變量或因素間的因果關係,尤為重視中觀和微觀層面的因果關聯及相應的因果機制。
  • 因果觀念新革命?萬字長文,解讀複雜系統背後的暗因果
    珀爾認為,現在人工智慧只處於「因果關係之梯」的第一階段:觀察,其本質是關聯,被動發現數據中的規律。另外兩個層級是幹預和反事實推理(想像),分別是主體介入後預測行動改變環境的能力,以及在虛擬世界獲反思和理解事件因果關係能力。
  • 連因果關係都能顛覆,量子物理的奇異性超出想像
    2015年的這一發現,讓科學家意識到,量子物理要比他們此前的理解更加匪夷所思。Walther的實驗向「一件事導致了另一件事」的因果邏輯發起了挑戰,仿佛是物理學家攪亂了時間這個概念本身,讓時間向兩個方向流逝。如果用日常的思維來理解,那這簡直就是胡扯。但在量子理論的數學體系中,因果關係上的模糊性是完全符合邏輯且自洽的。
  • 劉曉蕾:實證研究中如何確定因果關係
    圍繞「實證研究中如何確定因果關係」這個問題,劉老師循循善誘,依次講了「實證研究的目的」、「確定因果關係的重要性及難題」,最後針對這些問題給出了常用的幾個方法。以下為筆記正文:為什麼因果關係重要為了回答這個問題,我們首先要弄明白實證研究的目的是什麼?
  • 量子世界的詭異性超乎想像,連因果關係都能完全顛覆
    如果用日常的思維來理解,那這簡直就是胡扯。但在量子理論的數學體系中,因果關係上的模糊性是完全符合邏輯且自洽的。研究人員還認為,利用人為製造的因果關係模糊的物理系統,我們便可以探索更加廣闊的物理領域。有人提出,非因果系統可以用於推動頗具潛力的量子計算的發展。
  • 相關關係並不意味著因果關係 大數據應避免大混亂
    199IT數據中心微信帳戶:i199IT翻譯:騰躍 校對:王晨當今時代,大數據泛濫
  • 從哲學上看,因果關係為什麼很難確定?
    專業領域裡,因果關係的判斷也一樣重要。在醫學上,因果關係可以幫助我們判斷應該要採取怎麼樣的醫療行為,「如果對病人施打抗生素,可以治療他的肺炎,因為肺炎源於細菌感染,而抗生素可以治療細菌感染。」在科學上,因果關係的判斷可以幫助我們預測世界:「如果氣壓下降,那表示即將下雨了,因為在低氣壓區,周圍空氣的流入會迫使空氣逐漸上升,遇到高空低溫時凝結成水滴,達到一定程度則落下成雨。」
  • Python實現固定效應回歸模型實現因果關係推斷
    眾所周知,「相關並不意味著因果關係」。 我要告訴你,相關可以表示因果關係,但需要一定條件。 這些條件已在計量經濟學文獻中被廣泛討論。 在本文中,我將以一種易於理解的方式對其進行總結。 我將解釋如果不滿足這些條件為什麼標準的普通最小二乘(OLS)無法確定因果關係。 然後,我將介紹可以提供有效解決方案的固定效應(FE)模型。
  • 相關性 ≠ 因果性,用圖的方式打開因果關係
    選自GitHub作者:David Salazar編輯:陳萍、魔王機器學習方法是預測的有力工具,但是很多領域的工作或研究重視對因果關係的討論。相關性並不意味著因果關係,那麼如何識別因果關係呢?
  • 鄭捷團隊運用遺傳學大數據構建蛋白質與人類疾病的因果關係網絡
    該研究運用孟德爾隨機化方法學,完整構建了1002種蛋白質與225種人類複雜疾病之間的因果關係網絡。通過此因果網絡和現有藥物隨機雙盲實驗(randomised controlled trials;RCT)的比較,該研究證實蛋白質和人類疾病因果關係的推論能有效提高藥物RCT的成功率,深度揭示了蛋白質組的遺傳學研究方法在藥物靶點早期篩查中的重要性。
  • 索達吉堪布:該如何理解業因果?
    佛教認為,人們即生中遇到的很多事情並不是偶然的,而是與前一世或者許多生世以前的業有關係。  不過這種業緣非常隱蔽、深遠,世人看不到這種遠因,只能看到眼前的近因,不僅看不到這種遠因,甚至連想都想不到。  所以佛教的因果律非常深奧,一般的人依靠自力根本無法通達。由於受現代教育的影響。