神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。
編者按:AI發展著幾十年,總像四季一樣經歷起起伏伏。每每取得一定進展之後,又會遭遇所謂的寒冬,一下子一蹶不振。最近十年,隨著機器學習的崛起,對AI的炒作一下子到達了頂峰,然後末日論和質疑聲又日益喧囂起來。質疑者提出,那些僅具備單項能力的AI並不具備理解能力,算不上真正的AI,深度學習已經走進了死胡同,要另起爐灶。對此,傑出名譽教授Thomas G. Dietterich提出,其實並沒有什麼「真正」的理解,人類的理解也永遠都不是完整和完美的。所以我們不要再把我們取得的成功視為不夠「真實」而摒棄,而應該繼續以誠實的、富有成效的自我批評去推進AI發展。原文標題在Medium上,標題為:What does it mean for a machine to 「understand」?
對人工智慧最新進展的批評者抱怨說,儘管這些進展已經給AI系統中帶來了顯著進步,但這些系統依然未能展現出「真實」、「正確」或者「真正」的理解。像「真實」、「正確」以及「真正」之類詞彙的使用意味著「理解」是二進位的。一個系統要麼表現出「真正」的理解,要麼就是沒有理解。這種思維方式的困難在於,人類的理解永遠都不是完整和完美的。在本文中,我將提出「理解」是能力的系列連續譜。比方說,不妨考慮一下「水」的概念。大多數人都理解水的許多特性:水是溼的,水可以喝,植物需要水,溫度很低的話水會結成冰,等等。但不幸的是,很多人不理解,水是導電體,所以,淋浴的時候不應該用風筒。儘管如此,我們不會說這些人對誰缺乏 「真實」、「正確」或「真正」的理解。相反,我們會說他們對水的理解是不完整的。
我們也應該以同樣的態度來評估我們的AI系統。現有的系統已經表現出了某些類型的理解。比方說,當我讓Siri「打電話給Carol」,然後它能夠撥打正確的號碼時,你就很難說服我說Siri並不理解我的要求。當我問Google「IBM的深藍系統擊敗了誰?」,後者返回一個信息框,給出用大寫字母寫成的「卡斯帕羅夫」時,它就已經正確地理解了我的問題。當然,這種理解是有限的。如果我接著問它「什麼時候?」的時候,它只會給我提供一個「when」的字典定義——而不會把我的問題解釋成對話的一部分。
關於「理解」之爭可以追溯到亞裡斯多德,也許John Searle的「中文房間」思想實驗對此闡述得最清楚。我鼓勵大家可以去看看《斯坦福哲學百科全書》裡面科爾的那篇出色的文章。我的態度是一種功能主義的形式。我們從功能上去表示理解,並且根據大腦或者某AI系統各種內部結構在產生所衡量的功能中存在的因果關係來評估它們所做的貢獻。
從軟體工程的角度來看,功能主義鼓勵我們設計一系列測試去衡量系統的功能。我們可以問一個系統(或一個人),「如果把水冷卻到–20度會發生什麼?」或者「如果在洗澡的時候用吹風機會發生什麼?」然後對回應進行衡量。就回應恰當而言,我們可以說系統理解了,而如果說回答錯誤的話,我們可以說發現了系統存在不理解的情況。
為了讓一套系統能夠理解,它必須建立不同概念、狀態和動作之間的關聯。今天的語言翻譯系統可以正確地把英語的「水」跟西班牙語的「agua」關聯到一起,但是它們沒有在「水」和「電擊」之間建立起任何的關聯。
對於最新的AI進展,批評大都來自兩個方面。第一個是,(研究人員、前者所在的組織,甚至政府以及資助機構)圍繞著人工智慧的炒作已經達到了極端水平。這種炒作甚至引發了對「超級智能」或「機器人末日」迫在眉睫的恐懼。批評對於抵制胡說八道至關重要。
其次,另一種批評是持續進行的有關人工智慧研究的未來研究方向以及政府撥款的分配之爭的一部分。爭論的其中一方是聯結主義的倡導者,他們發展出深度學習並支持繼續進行這方面的研究。而另一方則是倡導基於符號的建構和操縱(比方說,形式邏輯的使用)的AI方法。主張在混合結構中結合這兩種辦法的社區業主日益壯大。對於這類討論來說批評也是至關重要的,因為AI界必須不斷挑戰我們的假設,並選擇如何把社會的時間和金錢投入到AI科學和技術的發展當中。但是,我反對這樣的觀點,即「因為當今基於深度學習的系統並沒有表現出真正的理解,所以我們應該放棄深度學習」。這種說法跟「今天基於深度學習的系統已經取得了巨大的進步,並且進一步研究下去將可以『解決智能問題』」的說法一樣有問題。我喜歡Lakatos 做出的分析,也就是應該不斷深入研究計劃,直到研究不再產生有效成果。所以我認為我們應該繼續去追求連結主義計劃,符號表徵主義計劃以及新興的混合計劃,因為它們都將繼續結出累累碩果。
對深度學習的批評已經把我們帶到了新的方向。尤其是,一方面已經證明深度學習系統在各種基準任務上跟人類的表現可以相匹敵,但另一方面又不能將其推廣到表面上非常相似的任務上,這已經導致了對機器學習的批評。研究人員正在用新想法予以回應,比方說學習不變性(learning invariants),發現因果模型(discovering causal models)等。這些想法既適用於機器學習的符號主義也適用於聯結主義。
我相信我們不應該去爭論什麼才算是「真正的」理解。相反,我鼓勵大家把那個先放到一邊,去尋求人工智慧的科技進步,把焦點放在未來5、10或者50年內應該努力去實現哪些系統功能上面。我們應該根據可以在AI系統上進行的測試來定義這些功能,來衡量它是否具備這些功能。為此,這些功能必須是可操作的。簡而言之,我的觀點是要AI開發要以測試為驅動。這需要我們把我們對「理解」和「智能」的模糊概念轉化為具體的,可衡量的能力。這本身就是一個非常有用的練習。
操作測試不需要只考慮AI系統的輸入輸出行為。還可以可以檢查產生這種行為的內部結構(數據結構,知識庫等)。人工智慧優於神經科學的一大優勢是,我們可以更輕鬆地在人工智慧系統上進行實驗,從而了解和評估它的行為。但是請注意,包括深度學習在內的聯結主義方法往往會建立難以解釋的內部結構,似乎我們的大腦也是如此。因此,我們不應該將確保特定結構(比方說,符號表示)存在作為研究目標。相反,我們應該專注於希望具備的行為能力,並詢問內部機制是如何實現這些能力的。比方說,要想讓對話成功進行,對話的每一位參與者都必須能夠跟蹤互動的歷史。但是有很多方法可以做到這一點,我們未必就要指望在深度學習系統裡面找到明確的歷史記憶。相反,僅僅因為我們編寫了特定的內部結構,並不意味著它就會按照我們的預期方式工作。德魯·麥克德莫特(Drew McDermott)在他著名的批評文章《人工智慧遇到天生愚蠢》中曾詳細討論過這個問題。
人工智慧總是不斷地取得發展又受到批評,其後果之一是所謂的「AI效應」,也就是因為最新的系統沒有表現出「真正的理解能力」或者「真實的智力」,所以人工智慧領域被視為失敗。其結果是人工智慧的成功被忽略,投入的資金也相應減少了。比方說,有一段時間以來,大家認為,下西洋棋或者圍棋能達到人的水平就可以認為達到了智能的標準。但是,當IBM的深藍在1997年擊敗了卡斯帕羅夫時,一位著名的AI研究人員認為,西洋棋擊敗人類其實很容易——為了展現真實的智力,AI必須解決「卡車倒車問題」,也就是把鉸接式半掛卡車倒入停車位置的問題。實際上,這個問題早在九年前就被Nguyen和Widrow 用強化學習給解決了。今天,許多深思熟慮的批評家又再次提出了新的任務以及新的必要或充分條件來證明系統具備「理解」能力。
與此同時,人工智慧的研發正在為我們提供可以為社會帶來價值的,功能越來越強大的系統。無論是出於學術誠信還是為了繼續獲得資助,人工智慧的成功要歸功於那些研究人員,而存在的問題也需要他們站起來負責,這一點很重要。我們一方面必須壓一壓那些圍繞著AI新進展進行的炒作,另一方面,不管我們的系統是怎麼理解或者不理解用戶、目標以及所處的更廣闊世界的,我們也必須客觀地予以衡量。我們不要再把我們的成功視為「假的」,不夠「真實」而摒棄,而應該繼續以誠實的、富有成效的自我批評去推進AI發展。
譯者:boxi。