圖靈測試錯了嗎?——後圖靈時代的思考

2021-02-07 機器之心

本文經微信公眾號：楊靜lillian（ID：lillian_yang_1111 ）授權轉載。

【靜點評】2015年第10期《三聯生活周刊》的封面專題為《圖靈預言——人工智慧將代替人類嗎？》，其中對圖靈的生平及其對人工智慧和計算機科學的卓越成就進行了回顧，有不少篇幅涉及圖靈測試。然而對圖靈測試在量化人工智慧方面的局限，無論是企業界還是學術界，都有痛點。圖靈測試的標準是否該與時俱進？是個嚴肅的課題，值得國際人工智慧業界共同推動。而後圖靈時代的開啟，則不僅需要嚴謹的體系建構，更需要百家爭鳴，共商大計。

今天就給大家推薦楊強教授刊發於福布斯雜誌的文章作為開篇。

【楊強】香港科技大學計算機和工程系主任，大學冠名講座教授, 2015年國際人工智慧大會主席。主要研究人工智慧和大數據。於1982年和1989年分別獲得北京大學天體物理專業學士學位和美國馬裡蘭大學計算機系博士學位。他是國際人工智慧協會（AAAI）首個華人Fellow和IEEE等國際協會的Fellow，ACM傑出科學家。

智能測試並不容易

20世紀初，一匹叫「漢斯」（Hans）的馬引起了巨大的轟動。它具有驚人的數學能力：這匹馬不僅可以把寫在黑板上的數字數出來，還掌握了好幾種數學運算方法，包括加減乘除。任何在場的人都可以提出一個數學問題讓漢斯來回答。只要答案是整數，漢斯都可以用蹄子敲擊地板，並用敲擊的次數來代表答案。用這個辦法，它甚至可以回答這樣的問題：「如果一個月的第八天是星期二，那麼緊接著的那個星期五是這個月的第幾天？」

這個事兒可不得了：向來只有人類才被認為具有數學能力，而漢斯卻是一匹馬！所以，大家都爭相來看漢斯表演，並稱它為「聰明的漢斯。」

漢斯在回答問題。來源：維基百科

漢斯的數學天賦引起了各行各業廣泛的關注。也有人提出質疑，所以人們成立了一個專家組來判別真偽。這個組包括著名的心理學家，動物園園長，獸醫以及騎兵軍官。專家組的鑑定結論是：這事兒是真的，沒有造假的痕跡！

但是，有一位心理學教授卻不相信這樣的結論，並堅持要找出漢斯的破綻。他做了各種實驗，包括把提問者和觀眾隔離，把漢斯的眼睛蒙起來，讓它看不到提問者等。通過長期的調查他發現，當問題太難而沒有人知道答案時，漢斯也會答錯！通過這樣的手段，教授斷定，漢斯不是真的會思維，而主人也沒有有意地在進行欺騙。事實是，提問題的人們，在漢斯的蹄子敲到正確答案時，會有細微的反應，比如突然放鬆或微微地昂頭，甚至鼻孔略放大等。漢斯具有超強的觀察能力，能夠捕捉到提問者的這些細微的表情變化，並給出正確的答案。

「聰明的漢斯」這件事說明，智能的測試是一個非常複雜的事情。雖然漢斯這匹馬不具有智能，但漢斯加上提問者的這個整體卻具有智能。要測試出真正「智能」的能力，是要費盡苦心的。

同樣的道理也適用於對機器的智能測試。看過「模仿遊戲」這個電影的人都知道，圖靈的靈感來自於一個他設計的「模仿遊戲」：如果在一個裁判問了很多問題以後，還不能區分對方是人或計算機的話，那麼這個計算機就可以被認為是具有智能和思維能力的了！

圖靈測試難不難？圖靈舉了一個例子來說明：

裁判：我們現在來讀你的詩：「第一行裡『我把你比作夏日』，或『我把你比作春天裡的一天』，這兩句到底哪一個比喻更好？

回答：這個很難講。

裁判：把第一句改成『冬季的一天』，是不是更好？

回答：但沒有人要比把自己比喻成冬季的一天。

裁判：Pickwick先生是不是讓你想到了聖誕節？(Pickwick先生是狄更斯小說裡的人物)

回答：有點兒。

裁判：不過聖誕節是冬季的一天，我認為Pickwick先生不會介意這樣的比較的。

回答：你不會不知道吧？『冬季的一天』常常意味著一個特指的某個冬天的一天，而不是泛指的聖誕節。

看了這樣的對話，讀者也會覺得對方是個人嗎？

這個例子說明，計算機要通過圖靈測試，它不僅需要會查字典，還要能理解文學，進行類比，有一般人類的常識以及邏輯推理能力。

但是，即使計算機通過了這樣的圖靈測試，就能說明計算機可以思維了嗎？

關於圖靈測試的質疑

美國的哲學家約翰·塞爾(John Searle)用一個「中文屋子」的例子來說明他對圖靈測試的不同觀點：假設有一個字典把中文的問題和答案相對應。那麼，一個不懂中文的人，可以依靠這個字典來圓滿地回答中文問題。對於旁觀者來說，回答問題的個人貌似是懂中文的，但實際上是他和這個字典的整體在回答問題。也就是說，即便有一臺計算機通過了圖靈測試，我們也不能說計算機真正地具備了人類的思維能力，因為這臺計算機很可能是通過某種字典來回答圖靈測試中的問題。

「中文屋子」的質疑讓我們聯想到文章開始提到的「聰明的漢斯。」在「中文屋子」的實驗裡，人和字典作為整體可以被認為有中文的理解能力，但這不表明回答問題的人具有這個能力。那麼，有著強大記憶能力的計算機，即使通過了圖靈測試，是不是也不能被認為是具有智能的思維能力了呢？

「聰明的漢斯」和「中文屋子」的共性是被測試者和周邊的環境一起參加測試，從而導致了裁判誤以為被測試者是具有智能的。下面這個例子，是被測試者成功改變了裁判對智能的預期，從而順利地通過了測試。

最近，在英國的雷丁大學，一個聊天程序成功地讓三分之一的裁判們相信它是一個人。為了引導裁判們來問一些跟更為簡單的問題，設計者們把計算機偽裝成了一個13歲的烏克蘭男孩兒。這樣，裁判們自然地降低了他們的標準，因為他們認為對方的母語不是英語。有些人因而聲稱這是人類首次通過了圖靈測試。但是，質疑者們也在問：這到底是人工智慧的成功還是裁判在手下留情？那麼，到底是這個程序具有智能，還是程序加上想出這個鬼點子的程式設計師具有智能呢？更深一層的問題是：這樣對人類進行欺騙很有意思嗎？

後圖靈時代

「圖靈測試」可以誤導某些研究人員為了騙過裁判而想些歪點子。這種可能性也驅使人們去思考這個測試的不足。圖靈測試從提出到現在已經有六十多年了。學者們終於開始提問：圖靈測試錯了嗎？它是智能的唯一標準嗎？

2015年一月份，在德克薩斯州召開的美國人工智慧大會（AAAI-15)上，學者專門組織了一個研討會，題目叫做「後圖靈時代」（Beyond Turing Test).會上，大家各抒己見，對圖靈測試進行深入的審視，並對智能的標準提出新的建議。

《ACM通訊》（Communications of ACM)雜誌的主編瓦迪（Moshe Vardi）教授問道：圖靈自己能通過圖靈測試嗎？瓦迪的觀點是，如果讓一個不善言辭的人，比如圖靈本人，來參與圖靈測試，所得的結果很可能是這個被測試者不被認為是人類。圖靈的「機器能思維嗎？」這個問題本身就問錯了。這是因為思維是人的特性，而機器的特性是可以產生各種行為。比方說飛機具有能飛行這樣的行為。我們真正應該問的問題是：計算機是不是具備智能的行為特性呢？針對這種智能行為的測試標準是什麼呢？瓦迪教授推測，這樣的智能行為測試很可能和圖靈測試完全不一樣！

瓦迪教授認為，計算機的智能特性不能用單一的測試來檢驗，而應該用一系列的測試來證明，其中每一個測試都是針對一個不同的智能特點。瓦迪教授建議，讓圖靈測試離開科學的舞臺吧，讓我們引入不同類型的測試，比如開車、打球、下棋，這樣我們可以把智能分段來實現。

計算機視覺的研究者們也提出了新的測試標準：基於圖像的智能測試。我們可以把這個叫做「圖像圖靈測試。」德國的馬克斯普朗克研究所的兩位研究人員Mateusz Malinowski and Mario Fritz提出了一個「看圖問答」的測試，讓測試對象看著一幅照片來回答關於照片內容的問題。比如，要回答「桌子上可以切菜的東西是什麼？」這樣的問題，回答者不僅要看到什麼東西放在桌子上，而且要知道刀子是可以用來切菜的。這種知識屬於常識，而具有常識是智能的一個重要特徵。

與「圖像圖靈測試」同時，科學雜誌日報（Science Daily）報導了布朗大學和霍普金斯大學校的研究者所建議的一個測試：被測試的對象回答計算機提出的關於照片的問題，比如：「照片裡的兩個人在交談嗎？」通過一系列這樣的問題，這些研究者們試圖讓計算機自動地區分回答者是人還是機器。

喬治亞技術學院的瑞德教授（Mark O. Riedl）指出，圖靈測試的一個缺陷是它把人處在一個被『欺騙』的地位，讓人和電腦對立。這樣做並沒有把智能的本質體現出來，而瑞德教授認為，智能的本質在於創造力。他設計了一個叫做Lovelace2.0 版本的測試。這個測試的命名來自Ada Lovelace這個19世紀的女子，她是世界上第一個程式設計師。Lovelace2.0 的測試範圍包括：創作有虛擬故事的小說和詩歌創作，油畫和音樂等。瑞德教授認為，如果程序所創作的內容把程式設計師和她的小夥伴們都驚呆了，那麼計算機就可以被認為具有智能了。

圖靈測試的另一個問題是它太像在五，六十年代盛行的IQ測試。那時的人們常用IQ測試來識別一個孩子的智力水平，並給孩子們打上標籤。但到後來，教育學的學者們發現，這樣的測試只是一個非常片面的考試，因為它並沒有測試孩子更廣泛的天份，包括孩子們的學習能力，創造力和好奇心。

關於人的智能和認知，一個特別值得參考的領域是皮亞傑（JeanPiaget)的「認知發展理論。」皮亞傑認為：智力的發展是連續的。人最初的智力發展反應在視覺、聽覺、觸覺等感覺與手的動作上。嬰兒從最簡單的反射逐步學習而變得複雜。其後，在兩歲到七歲兒童的認知發展進入第二個階段，遇到問題時會思維，雖然有可能並不合乎邏輯。第三個階段適用於七歲至十一歲兒童：在他們遇到問題時，他們能夠按照邏輯法則進行推理，並從已有的知識推斷新的知識。第四個階段是十一歲以上青少年。在這個階段，人可以進行抽象的邏輯思維，比如回答像「如果你是歐巴馬，你會怎樣做醫改？」這樣的問題。

這樣看來，圖靈測試只是在測驗皮亞傑理論中的第四個階段後面的一個點,但智能不應只是一個點，它應是一條或多條連續的曲線。莎士比亞說：「人是宇宙的精華，萬物之靈長。」人類具有智能這一特性，是人類可以不斷學習、發展、創造的獨特基因，是人類優於機器和動物的最大特性。人類的智能，同時也是宇宙和自然界的奧妙之一。

所以，智能不是一個特定時間點上的特定值；「智能」二字，應該是對不斷上升不斷發展的創造力、想像力、對世界感知和反饋的能力的「趨勢」的描述。因此，如果要對智能進行測試，就不應單單只測一個時點的值，而應該測試整個時間區間內曲線上升的趨勢，即對其「導數」的測試。

基於這一理念，我們香港科技大學的研究小組在「後圖靈時代」的研討會上提出了一種新的測試叫「終生學習測試」：給計算機一系列的學習問題和所需的數據，然後觀察計算機的知識水平。如果這個水平是隨時間不斷上升的，那麼計算機就可以算是智能的。

利用「終生學習」的算法，我們可以訓練一臺計算機，讓它不斷地讀書。在理解一本新書的時候，計算機可以利用所有過去所學到的知識來幫助其提高。這樣的效果是可以不斷在新的領域進行知識的遷移學習。計算機就像一個愛讀書的孩子，在讀了幾百本書的以後，不斷積累知識，其知識的理解能力也越來越高，書也讀的越來越快！

「後圖靈時代」的研討會引起了廣泛的關注。今年七月份在阿根廷舉辦的國際人工智慧大會（IJCAI-2015）已經決定再次舉辦這個研討會。迄今為止，研究人員還沒有一個公平的比賽平臺來展示智能的高低，這也許是因為大家一直認為人工智慧的實現還是遙不可及的事。但隨著科技的進步，人工智慧的成就也超乎很多人的意料。所以，舉辦人工智慧的「奧運會」也自然成為大家關心的議題。在IJCAI-2015的研討會上，人們將有機會第一次見到人工智慧測試的世界級大賽。屆時，人工智慧驅動的計算機會在同一擂臺上一比高低。我們會期待不同門派的選手、劍宗氣宗、魔教丐幫都來一展身手，全新的明星算法也很可能會脫穎而出。

圖靈之夢

1950年，圖靈在他的經典文章《計算機器與智能》裡寫道：

智能的計算機應該具有以下這些人類才有的特點：善良，機智，美麗，友好，有進取心，有幽默感，明辨是非，犯錯，墜入愛河，享受草莓和奶油冰激凌，使有愛心的人愛上它，從實踐中學習有用的經驗，像人一樣偶爾用詞不當，在自己的冥思中是個主角兒，像人類一樣擁有不同類型的行為，並且學會創新。

很多這些特點並不能由「圖靈測試」所覆蓋。我們今天在人工智慧的道路上繼續探索，如果圖靈在天有知，也會感到欣慰和期待吧？

✄--

添加個人微信號"jiqizhixin2014"：

參與機器之心翻譯合伙人計劃。

國內外前沿科技尋求報導。

通過朋友圈查看歷史文章。

申請加入機器之心微信群，討論前沿科技。

轉載請在文章開頭顯著註明「本文來源於微信公眾號『機器之心』（almosthuman2014）」，並保留原文作者和來源。

圖靈測試錯了嗎?——後圖靈時代的思考

相關焦點

關於圖靈和圖靈測試

人工智慧:圖靈測試

【思辨】王培:圖靈測試是人工智慧的標準嗎?

圖靈的人工智慧世界

谷歌通過圖靈測試,真正的人工智慧還有多遠?

圖靈測試已經過時,人工智慧需要建立一套全新指標

圖靈、圖靈機、圖靈獎

「小薇」為何能通過圖靈測試?

計算機被當13歲男孩首次通過圖靈測試(圖)

【深度】圖靈測試已OUT,這才是測試AI的更佳方法

語言與圖靈測試

Alexa首席科學家:圖靈測試對AI沒啥意義了

圖靈的圖靈機

最小化圖靈測試:如何用一個單詞證明你是真人?

Google Duplex通過圖靈測試人工智慧還會遠嗎?

人工智慧機器人之父:艾倫·圖靈

圖靈成50英鎊新鈔人物,傳奇人生照亮未來

萬物皆是圖靈機?

艾倫·圖靈小傳:每一位天才,都有屬於其自己的告別方式

偉大的圖靈與恩尼格碼的對決,最終勝利者為何英年早逝?

圖靈測試錯了嗎?——後圖靈時代的思考

相關焦點

關於圖靈和圖靈測試

人工智慧:圖靈測試

【思辨】王培:圖靈測試是人工智慧的標準嗎?

圖靈的人工智慧世界

谷歌通過圖靈測試,真正的人工智慧還有多遠?

圖靈測試已經過時,人工智慧需要建立一套全新指標

圖靈、圖靈機、圖靈獎

「小薇」為何能通過圖靈測試?

計算機被當13歲男孩 首次通過圖靈測試(圖)

【深度】圖靈測試已OUT,這才是測試AI的更佳方法

語言與圖靈測試

Alexa首席科學家:圖靈測試對AI沒啥意義了

圖靈的圖靈機

最小化圖靈測試:如何用一個單詞證明你是真人?

Google Duplex通過圖靈測試 人工智慧還會遠嗎?

人工智慧機器人之父:艾倫·圖靈

圖靈成50英鎊新鈔人物,傳奇人生照亮未來

萬物皆是圖靈機?

艾倫·圖靈小傳:每一位天才,都有屬於其自己的告別方式

偉大的圖靈與恩尼格碼的對決,最終勝利者為何英年早逝?

計算機被當13歲男孩首次通過圖靈測試(圖)

Google Duplex通過圖靈測試人工智慧還會遠嗎?