作者:Gary Marcus(紐約大學名譽教授),Ernest Davis(紐約大學計算機科學教授)
原文:Insights for AI from the Human Mind,Communications of the ACM
譯者:朱演瑞
馬文 明斯基在《心智社會》(The Society of Mind)中寫道:「什麼訣竅可以讓人類變得更加智慧?訣竅就是 —— 沒有訣竅。智慧的力量來源於人類的複雜性,而不是來源於一個單一的完美的原理。」
近年來,人工智慧在圍棋、撲克領域擊敗了世界冠軍,並在機器翻譯、對象分類和語音識別等領域取得了非凡的進步。但是,大多數 AI 系統的關注點都非常局限。AlphaGo 並不知道圍棋是一個在棋盤上放石頭的遊戲,它甚至不知道什麼是 「石頭」,什麼是 「棋盤」。如果圍棋的棋盤並不是正方形而是矩形的,它又需要一套完全不一樣的算法。
為了能讓 AI 理解開放文本或控制家用機器人,我們還需要更進一步的探索。讓它學習人類的思維會是一個很好的開端,因為在理解能力和思考能力上,人類思維遠超機器。
為此,本文提供了 11 條來自認知科學(心理學,語言學和哲學)的線索。
1、沒有萬能藥
從行為主義到貝葉斯推理再到深度學習,我們總是提出簡單的理論來解釋人類的智慧。但是,Chaz Firestone 和 Brian J.Scholl 卻說,「人的思維並不僅僅以一種方式運作,因為它從來不是一個單一的個體。思維由不同的部分組成,每個部分有其獨特的運作方式:比如,感知色彩和做計劃的思維截然不同,也和理解文章、調整形體、記憶事件、體會情感等思維大相逕庭。」
人類大腦極其複雜,擁有 150 多個腦區、860 億左右個神經元,神經元又有數百個不同的類型、萬億個神經突觸,每個突觸中都有大量不同的蛋白質。
真正靈活、智能的系統會像大腦一樣,充滿著複雜性,任何把智能體簡化為單一原理的理論都註定失敗。
2、豐富的內部表徵
認知心理學重視內部表徵(Internal Representations),比如信念、欲望和目標等,經典的 AI 系統也是如此。假如 AI 要表示 「甘迺迪總統 1963 年著名的柏林訪問」 這一語義,它會添加一系列表徵事實,例如從屬關係(柏林,德國)、訪問關係(甘迺迪,柏林,1963 年 6 月)。通過積累這樣的表徵事實,AI 增加自己的知識和經驗,而它的推論就建立在這個基礎上。因此它的推論是瑣碎的,並不是整體的。
當前,深度學習技術正嘗試規避這種方式,轉而用一系列向量以模糊的方式捕捉事件,並不直接精確地表示語義,比如從屬關係(柏林,德國)、訪問關係(甘迺迪,柏林,1963 年 6 月)。深度學習的重點在抽象推理,因為它從一開始就不是為了表示精確事實知識。可一旦事實模糊,就很難正確地推理。被大肆宣傳的 GPT-3 系統就很能說明這個問題,與之相關的系統 BERT 無法可靠地回答諸如 「如果你在桌子上放兩個獎盃,再放一個,那麼你有多少個獎盃?」 這樣的問題。
3、抽象和概括
大部分我們的所知都是抽象的。比如,「甲是乙的妹妹」 這一關係能代表很多人,比如 Malia 是 Sasha 的妹妹,Anne 公主是 Charles 王子的妹妹,等等。雖然我們不知道世界上所有具體的兄妹關係,但我們知道 「妹妹」 的含義,我們能根據具體情況辨別。如果兩個人有共同的父母,就能推斷他們是兄弟姐妹。如果我們知道 Laura 是 Charles 和 Caroline 的女兒,也知道 Mary 是他們的女兒,那麼我們可以推斷出 Mary 和 Laura 是姐妹。
認知模型和常識的表示形式是由抽象關係構建而成的,並以複雜的結構組合。我們幾乎可以抽象出任何事物:時間(「10:35 PM」)、空間(「北極」)、特殊事件(「亞伯拉罕 林肯遇刺」)、社會政治組織(「美國國務院」 )和理論構造(「語法」),並在解釋事件或講述故事的時候使用它們,從複雜的情況中簡化出本質,對詮釋世界產生了巨大的作用。
4、高度結構化的認知系統
馬文 明斯基認為,我們應該將人類認知視為一種 「思維社會」,其中有數十或數百種不同的 「主體」 或曰 「腦區」,每種主體專門從事不同類型的任務。例如,喝一杯茶需要 「抓取區」、「平衡區」、「口渴區」、「行動區」 等區域的相互作用。進化心理學和發展心理學的許多研究都表明,頭腦不是單一的整體,而是由很多腦區組成。
進化心理學和發展心理學的許多研究都表明,頭腦不是單一的整體,而是由很多腦區組成。
諷刺的是,當前機器學習的研究情況和人類思維方式大相逕庭,它傾向於使用內部結構簡單的單一機制構建端到端模型。英偉達 2016 年的駕駛模型就是一個例子,它放棄了感知、預測和決策等經典模塊。取而代之的是,它使用了一個神經網絡模型作為整體,根據神經網絡的輸入(圖像像素)和輸出(轉向、加速等指令)來進行算法訓練。
機器學習的擁護者指出整個系統 「聯合性」 的優點,不必把各個模塊單獨分開。既然擁有一個大型網絡如此容易,為什麼還要苦於構造許多單獨的模塊呢?
這種系統的缺點是難以調試,並且不具有靈活性。英偉達的系統通常只能在人類駕駛員幹預的情況下,在幾個小時內運行良好,而不是數千小時。Waymo 的多模塊系統,則可以從 A 點導航到 B 點並處理車道變更,而英偉達不能變更車道。
頂尖 AI 研究人員解決複雜問題時,通常會使用混合系統。要在圍棋中獲勝,需要將深度學習、強化學習、遊戲樹搜索和蒙特卡洛搜索相結合。沃森在 Jeopardy! 遊戲中的勝利、Siri 和 Alexa 等問答機器人和各種網絡搜尋引擎都使用了 「廚房水槽」(kitchen sink,可以理解為追求寧濫勿缺,把能用上的元素都用上的方法)的思路,併集成了許多不同種類的方法。Mao 等人的研究 The neuro-symbolic concept learner: Interpreting scenes, words, and sentences from natural supervision,也展示了深度學習和符號技術的集成系統,如何在視覺問題解答和圖像文本檢索方面產生良好的結果,討論了許多不同的混合系統。
5、簡單的任務也有多種工具
即使在細粒度的情況下,認知機制也通常由多種機制組成,比如動詞及其過去式。在英語和許多其他的語言中,一些動詞通過簡單的規則形成過去時態,比如 「walk-walked, talk-talked, perambulate-perambulated」,而另一些動詞過去時態不規則,比如 「sing-sang, ring-rang, bring-brought, go-went」。根據兒童的錯誤數據,Gary Marcus 和 Steven Pinker 曾提出了一種混合模型,其中常規動詞由規則概括,而不規則動詞通過關聯網絡整理,即便是在這樣簡單的問題上也有結構化可言。
6、組成性
用著名語言學家洪堡(Humboldt)的話來說,語言的本質是 「用有限的詞語表達無限的含義」。藉助有限的大腦和有限的語言數據,我們設法創建一種語法,通過單詞和短語等較小的部分來構造一個長句,這樣我們就能夠表達和理解無數的話語。比方說,「水手愛這個女孩」,我們可以把它擴大,「瑪麗亞想像水手愛這個女孩」,還可以擴大,「克裡斯寫了一篇文章,關於瑪麗亞如何想像水手愛這個女孩」 等等,每一個句式我們都能看懂。
相反的是,神經網絡研究者 Hinton 一直在爭論,認為句子的含義應該以他所謂的 「思想向量」(thought vectors)進行編碼。然而,語句本身和它表達的含義存在著一種微妙的差別,這種差別是難以捕捉的。建立在這個基礎上的系統雖然可以產生符合語法的語句,但系統本身並不理解它創造的文本的含義。
7、自上而下和自下而上地集成信息
圖 1. 可能的數字或字母。
圖 1 所示的圖像是字母還是數字?都可能是,這取決於上下文(請看圖 2)。
認知心理學家對兩種知識做出區分,一種是自下而上式的,來源於我們的感知體驗,另一種是自上而下式的,來源於我們對先驗世界的認知。字母和數字屬於兩種不同的類別,而單詞和號碼則是由這兩種類別中的元素組成。當我們看到圖 2 中更加完整的圖像時,其中一個模糊的圖像在某個語境中是字母,在另一個語境中是則是數字。
圖 2. 上下文相關的解釋。
不管我們看到什麼,都會將它放在一個特定的認知模型中,並加入與之相關的整體理解。
8、將概念嵌入理論之中
在一個經典的實驗中,發展心理學家 Frank Keil 問孩子們,如果一個浣熊經過整容手術變成臭鼬的模樣,並且有著非常難聞的氣味,那它是不是一個臭鼬?孩子們認為它仍然是浣熊,這大概源於他們的生物學觀念,認為一個生物是什麼取決於它的本質。
但面對一些人造產品的時候,孩子的觀點發生了改變,比如把咖啡壺改造成餵鳥器,他們認可了。
理論中的概念對於有效學習至關重要。假設一個學齡前兒童第一次看到鬣蜥的照片,他不僅能夠很快地識別鬣蜥的其他照片,還能識別視頻中的鬣蜥和現實生活中的鬣蜥,輕鬆地將它們與袋鼠區分開。同樣,孩子能從鬣蜥吃飯和呼吸的動物學常識中推斷出他們會成長、繁殖和死亡。
沒有事實的積累,理論體系就是匱乏的。想要獲得成功,一個智能體需要不斷將事實嵌入它的理論體系,來豐富總體的理論以及更好地組織事實。
9、因果關係
正如 Judea Pearl 所強調的,對因果關係的深刻理解是人類認知中普遍存在且必不可少的環節。如果世界很簡單,我們對所有的事情都了如指掌,或許我們唯一需要了解的因果關係就是物理。我們可以通過仿真模擬來確定什麼影響了什麼:如果我施加 XX 微牛頓的力,接下來會發生什麼?
但是這種詳細的模擬是不現實的:需要追蹤的粒子太多,發生的時間太短,我們的信息太不精確。
相反,我們經常使用大概的說法。我們知道某些事情是因果相關的,即使我們不知道為什麼會這樣。我們服用阿司匹林,因為我們知道它能減緩不適,而並不需要了解生物化學。我們知道性愛能導致懷孕,即使我們不了解胚胎產生的具體機制。因果知識無處不在,它是人類活動的基礎。
10、追蹤個體
在日常生活中,你會注意各種客觀對象,追蹤它們的屬性和歷史。比如,你的配偶曾經是記者,你的汽車後備箱上有凹痕,去年你更換了變速箱等等。我們的經驗是由隨著時間變化的實體組成的,我們所了解的很多東西都是圍繞著這些東西以及它們的歷史和特質組織而成。
奇怪的是,深度學習系統並沒有這種觀點。大多數情況下,當前的深度學習系統專注於學習普遍的、類別層次的關聯,而不是有關特定個體的事實。它沒有類似記載時間和變化的資料庫這樣的存在,因而很難追蹤各個實體與其類別的變化差異。
11、先天知識
大腦先天具有多少結構(和能力),後天它又學習了多少?以往的 「先天和後天」 相互獨立的觀點是錯誤的。發展心理學和發展神經科學的證據認為,先天和後天(天生和養育)共同作用。
大多數機器學習研究人員都想從絕對空白的狀態訓練算法,卻由此為研究增加了難度,因為他們只關注後天訓練而忽略了先天優勢。最有效的方法是將兩者結合起來。人類可能天生就理解世界是由物質組成的,它們在時空上是連續的,並且天生就擁有對幾何和數量的感知以及直覺心理學基礎(the basis of an intuitive psychology)。
AI 系統也一樣,不應該僅僅從像素與動作之間的關聯學習,而應該把對世界的理解作為一切開發工作的基礎。
總結
認知科學的發現啟示我們,可以在人類思維的靈活性和普遍性基礎上建立人工智慧。機器不需要複製人類的思想,但是對人類思想的透徹理解將有助於 AI 的重大進步。
我們認為,AI 的研究應當從借鑑人類知識的核心框架開始,比如時間、空間、因果關係以及人與其他事物的相互關聯。這些應該嵌入到可以擴展各種知識的體系結構中,並堅持抽象、組成性和關注客觀個體的原則。
我們還需要開發強大的推理技術,以處理複雜、不確定和不完整的知識,可以兼顧自上而下和自下而上的工作,並將它們與感知、操縱和語言聯繫起來,以建立豐富的認知模型。重點將是構建一種以人類為靈感的學習系統,該系統可以激發 AI 擁有的所有知識和認知能力。它可以將新知識整合到其先驗知識中,可以像孩子一樣從各種可能的信息源中學習。學習方式包括與世界互動、與人互動、閱讀、觀看視頻、接受明確的教導等等。
這是一個艱巨的任務,但這是必須要做的。
References:
1. Brown, T.B. et al. Language models are few-shot learners. (2020); arXiv preprint arXiv:2005.14165
2. Darwische, A. Human-level intelligence or animal-like abilities? Commun. ACM 61, 10 (Oct. 2018), 56–67.
3. Devlin, J. et al. BERT: Pre-training of deep bidirectional transformers for language understanding. NAACL-2019. (2019), 4171–4186.
4. Firestone, C. and Scholl, B.J. Cognition does not affect perception: Evaluating the evidence for 'top-down' effects. Behavioral and Brain Sciences 39, e229. (2016.)
5. Keil, F.C. Concepts, Kinds, and Cognitive Development. MIT Press, Cambridge, MA, 1992.
6. Lupyan, G. and Clark, A. Words and the world: Predictive coding and the language=perception-cognition interface. Current Directions in Psychological Science 24, 4 (2015), 279–284.
7. Marcus, G. Innateness, alphazero, and artificial intelligence. (2018); arXiv preprint arXiv:1801.05667).
8. Marcus, G. Deep Understanding: The Next Challenge for AI. NeurIPS-2019 (2019).
9. Marcus, G. GPT-2 and the nature of intelligence. The Gradient. (Jan. 25, 2020).
10. Marcus, G. The next decade in AI: four steps towards robust artificial intelligence. (2020); arXiv preprint arXiv:2002.06177
11. Marcus, G. and Davis, E. GPT-3, Bloviator: OpenAI's language generator has no idea what it's talking about. Technology Review (Aug. 22, 2020).
12. Mao, J. et al. The neuro-symbolic concept learner: Interpreting scenes, words, and sentences from natural supervision. arXiv preprint arXiv:1904.12584.
13. Murphy, G. The Big Book of Concepts. MIT Press, 2002.
14. Pearl, J. and MacKenzie, D. The Book of Why: The New Science of Cause and Effect. Basic Books, New York, 2018.
15. Spelke, E. Initial knowledge: Six suggestions. Cognition 50, 1–3 (1994), 431–445.
16. van Harmelen, F., Lifschitz, V., and Porter, B., Eds. The Handbook of Knowledge Representation. Elsevier, Amsterdam, 2008.