圖靈測試錯了嗎?——後圖靈時代的思考

2021-02-07 機器之心

本文經微信公眾號:楊靜lillian(ID:lillian_yang_1111 )授權轉載。


【靜點評】2015年第10期《三聯生活周刊》的封面專題為《圖靈預言——人工智慧將代替人類嗎?》,其中對圖靈的生平及其對人工智慧和計算機科學的卓越成就進行了回顧,有不少篇幅涉及圖靈測試。然而對圖靈測試在量化人工智慧方面的局限,無論是企業界還是學術界,都有痛點。圖靈測試的標準是否該與時俱進?是個嚴肅的課題,值得國際人工智慧業界共同推動。而後圖靈時代的開啟,則不僅需要嚴謹的體系建構,更需要百家爭鳴,共商大計。


今天就給大家推薦楊強教授刊發於福布斯雜誌的文章作為開篇。


【楊強】香港科技大學計算機和工程系主任,大學冠名講座教授, 2015年國際人工智慧大會主席。主要研究人工智慧和大數據。 於1982年和1989年分別獲得北京大學天體物理專業學士學位和美國馬裡蘭大學計算機系博士學位。他是國際人工智慧協會(AAAI)首個華人Fellow和IEEE等國際協會的Fellow,ACM傑出科學家。


智能測試並不容易


20世紀初,一匹叫「漢斯」(Hans)的馬引起了巨大的轟動。它具有驚人的數學能力:這匹馬不僅可以把寫在黑板上的數字數出來,還掌握了好幾種數學運算方法,包括加減乘除。任何在場的人都可以提出一個數學問題讓漢斯來回答。只要答案是整數,漢斯都可以用蹄子敲擊地板,並用敲擊的次數來代表答案。用這個辦法,它甚至可以回答這樣的問題:「如果一個月的第八天是星期二,那麼緊接著的那個星期五是這個月的第幾天?」


這個事兒可不得了:向來只有人類才被認為具有數學能力,而漢斯卻是一匹馬!所以,大家都爭相來看漢斯表演,並稱它為「聰明的漢斯。」



漢斯在回答問題。來源: 維基百科


漢斯的數學天賦引起了各行各業廣泛的關注。也有人提出質疑,所以人們成立了一個專家組來判別真偽。這個組包括著名的心理學家,動物園園長,獸醫以及騎兵軍官。專家組的鑑定結論是:這事兒是真的,沒有造假的痕跡!


但是,有一位心理學教授卻不相信這樣的結論,並堅持要找出漢斯的破綻。他做了各種實驗,包括把提問者和觀眾隔離,把漢斯的眼睛蒙起來,讓它看不到提問者等。 通過長期的調查他發現,當問題太難而沒有人知道答案時,漢斯也會答錯!通過這樣的手段,教授斷定,漢斯不是真的會思維,而主人也沒有有意地在進行欺騙。事實是,提問題的人們,在漢斯的蹄子敲到正確答案時,會有細微的反應,比如突然放鬆或微微地昂頭,甚至鼻孔略放大等。漢斯具有超強的觀察能力,能夠捕捉到提問者的這些細微的表情變化,並給出正確的答案。


「聰明的漢斯」這件事說明,智能的測試是一個非常複雜的事情。雖然漢斯這匹馬不具有智能,但漢斯加上提問者的這個整體卻具有智能。 要測試出真正「智能」的能力,是要費盡苦心的。


同樣的道理也適用於對機器的智能測試。看過「模仿遊戲」這個電影的人都知道,圖靈的靈感來自於一個他設計的「模仿遊戲」:如果在一個裁判問了很多問題以後,還不能區分對方是人或計算機的話,那麼這個計算機就可以被認為是具有智能和思維能力的了!


圖靈測試難不難?圖靈舉了一個例子來說明:


裁判:我們現在來讀你的詩:「第一行裡 『我把你比作夏日』,或『我把你比作春天裡的一天』,這兩句到底哪一個比喻更好?

回答:這個很難講。

裁判:把第一句改成 『冬季的一天』,是不是更好?

回答:但沒有人要比把自己比喻成冬季的一天。

裁判:Pickwick先生是不是讓你想到了聖誕節?(Pickwick先生是狄更斯小說裡的人物)

回答:有點兒。

裁判:不過聖誕節是冬季的一天,我認為Pickwick先生不會介意這樣的比較的。

回答:你不會不知道吧?『冬季的一天』常常意味著一個特指的某個冬天的一天,而不是泛指的聖誕節。


看了這樣的對話,讀者也會覺得對方是個人嗎?

這個例子說明,計算機要通過圖靈測試,它不僅需要會查字典,還要能理解文學,進行類比,有一般人類的常識以及邏輯推理能力。

但是,即使計算機通過了這樣的圖靈測試,就能說明計算機可以思維了嗎?


關於圖靈測試的質疑


美國的哲學家約翰·塞爾(John Searle)用一個「中文屋子」的例子來說明他對圖靈測試的不同觀點:假設有一個字典把中文的問題和答案相對應。那麼,一個不懂中文的人,可以依靠這個字典來圓滿地回答中文問題。對於旁觀者來說,回答問題的個人貌似是懂中文的,但實際上是他和這個字典的整體在回答問題。也就是說,即便有一臺計算機通過了圖靈測試,我們也不能說計算機真正地具備了人類的思維能力,因為這臺計算機很可能是通過某種字典來回答圖靈測試中的問題。


「中文屋子」的質疑讓我們聯想到文章開始提到的「聰明的漢斯。」 在「中文屋子」的實驗裡,人和字典作為整體可以被認為有中文的理解能力,但這不表明回答問題的人具有這個能力。那麼,有著強大記憶能力的計算機,即使通過了圖靈測試,是不是也不能被認為是具有智能的思維能力了呢?


「聰明的漢斯」和「中文屋子」的共性是被測試者和周邊的環境一起參加測試,從而導致了裁判誤以為被測試者是具有智能的。下面這個例子,是被測試者成功改變了裁判對智能的預期,從而順利地通過了測試。


最近,在英國的雷丁大學,一個聊天程序成功地讓三分之一的裁判們相信它是一個人。為了引導裁判們來問一些跟更為簡單的問題,設計者們把計算機偽裝成了一個13歲的烏克蘭男孩兒。這樣,裁判們自然地降低了他們的標準,因為他們認為對方的母語不是英語。 有些人因而聲稱這是人類首次通過了圖靈測試。但是,質疑者們也在問:這到底是人工智慧的成功還是裁判在手下留情?那麼,到底是這個程序具有智能,還是程序加上想出這個鬼點子的程式設計師具有智能呢?更深一層的問題是:這樣對人類進行欺騙很有意思嗎?


後圖靈時代


「圖靈測試」可以誤導某些研究人員為了騙過裁判而想些歪點子。這種可能性也驅使人們去思考這個測試的不足。圖靈測試從提出到現在已經有六十多年了。 學者們終於開始提問:圖靈測試錯了嗎?它是智能的唯一標準嗎?


2015年一月份,在德克薩斯州召開的美國人工智慧大會(AAAI-15)上,學者專門組織了一個研討會,題目叫做「後圖靈時代」(Beyond Turing Test).會上,大家各抒己見,對圖靈測試進行深入的審視,並對智能的標準提出新的建議。


《ACM通訊》(Communications of ACM)雜誌的主編瓦迪(Moshe Vardi)教授問道:圖靈自己能通過圖靈測試嗎?瓦迪的觀點是,如果讓一個不善言辭的人,比如圖靈本人,來參與圖靈測試,所得的結果很可能是這個被測試者不被認為是人類。圖靈的「機器能思維嗎?」這個問題本身就問錯了。這是因為思維是人的特性,而機器的特性是可以產生各種行為。比方說飛機具有能飛行這樣的行為。我們真正應該問的問題是:計算機是不是具備智能的行為特性呢? 針對這種智能行為的測試標準是什麼呢?瓦迪教授推測,這樣的智能行為測試很可能和圖靈測試完全不一樣!


瓦迪教授認為,計算機的智能特性不能用單一的測試來檢驗,而應該用一系列的測試來證明,其中每一個測試都是針對一個不同的智能特點。瓦迪教授建議,讓圖靈測試離開科學的舞臺吧,讓我們引入不同類型的測試,比如開車、打球、下棋,這樣我們可以把智能分段來實現。


計算機視覺的研究者們也提出了新的測試標準:基於圖像的智能測試。 我們可以把這個叫做「圖像圖靈測試。」 德國的馬克斯普朗克研究所的兩位研究人員Mateusz Malinowski and Mario Fritz提出了一個「看圖問答」的測試,讓測試對象看著一幅照片來回答關於照片內容的問題。比如,要回答「桌子上可以切菜的東西是什麼?」這樣的問題,回答者不僅要看到什麼東西放在桌子上,而且要知道刀子是可以用來切菜的。這種知識屬於常識,而具有常識是智能的一個重要特徵。


與「圖像圖靈測試」同時,科學雜誌日報(Science Daily)報導了布朗大學和霍普金斯大學校的研究者所建議的一個測試:被測試的對象回答計算機提出的關於照片的問題,比如:「照片裡的兩個人在交談嗎?」通過一系列這樣的問題,這些研究者們試圖讓計算機自動地區分回答者是人還是機器。


喬治亞技術學院的瑞德教授(Mark O. Riedl)指出,圖靈測試的一個缺陷是它把人處在一個被『欺騙』的地位,讓人和電腦對立。這樣做並沒有把智能的本質體現出來,而瑞德教授認為,智能的本質在於創造力。他設計了一個叫做Lovelace2.0 版本的測試。 這個測試的命名來自Ada Lovelace這個19世紀的女子,她是世界上第一個程式設計師。Lovelace2.0 的測試範圍包括:創作有虛擬故事的小說和詩歌創作,油畫和音樂等。瑞德教授認為,如果程序所創作的內容把程式設計師和她的小夥伴們都驚呆了,那麼計算機就可以被認為具有智能了。


圖靈測試的另一個問題是它太像在五,六十年代盛行的IQ測試。那時的人們常用IQ測試來識別一個孩子的智力水平,並給孩子們打上標籤。但到後來,教育學的學者們發現, 這樣的測試只是一個非常片面的考試,因為它並沒有測試孩子更廣泛的天份,包括孩子們的學習能力,創造力和好奇心。


關於人的智能和認知,一個特別值得參考的領域是皮亞傑(JeanPiaget)的「認知發展理論。」 皮亞傑認為:智力的發展是連續的。人最初的智力發展反應在視覺、聽覺、觸覺等感覺與手的動作上。嬰兒從最簡單的反射逐步學習而變得複雜。 其後,在兩歲到七歲兒童的認知發展進入第二個階段,遇到問題時會思維,雖然有可能並不合乎邏輯。第三個階段適用於七歲至十一歲兒童:在他們遇到問題時,他們能夠按照邏輯法則進行推理,並從已有的知識推斷新的知識。第四個階段是十一歲以上青少年。在這個階段,人可以進行抽象的邏輯思維,比如回答像「如果你是歐巴馬,你會怎樣做醫改?」這樣的問題。


這樣看來,圖靈測試只是在測驗皮亞傑理論中的第四個階段後面的一個點,但智能不應只是一個點,它應是一條或多條連續的曲線。莎士比亞說:「人是宇宙的精華,萬物之靈長。」人類具有智能這一特性,是人類可以不斷學習、發展、創造的獨特基因,是人類優於機器和動物的最大特性。人類的智能,同時也是宇宙和自然界的奧妙之一。


所以,智能不是一個特定時間點上的特定值;「智能」二字,應該是對不斷上升不斷發展的創造力、想像力、對世界感知和反饋的能力的「趨勢」的描述。因此,如果要對智能進行測試,就不應單單只測一個時點的值,而應該測試整個時間區間內曲線上升的趨勢,即對其「導數」的測試。


基於這一理念,我們香港科技大學的研究小組在「後圖靈時代」的研討會上提出了一種新的測試叫「終生學習測試」:給計算機一系列的學習問題和所需的數據,然後觀察計算機的知識水平。如果這個水平是隨時間不斷上升的,那麼計算機就可以算是智能的。


利用「終生學習」的算法,我們可以訓練一臺計算機,讓它不斷地讀書。在理解一本新書的時候,計算機可以利用所有過去所學到的知識來幫助其提高。這樣的效果是可以不斷在新的領域進行知識的遷移學習。計算機就像一個愛讀書的孩子,在讀了幾百本書的以後,不斷積累知識,其知識的理解能力也越來越高,書也讀的越來越快!


「後圖靈時代」的研討會引起了廣泛的關注。今年七月份在阿根廷舉辦的國際人工智慧大會(IJCAI-2015)已經決定再次舉辦這個研討會。迄今為止,研究人員還沒有一個公平的比賽平臺來展示智能的高低,這也許是因為大家一直認為人工智慧的實現還是遙不可及的事。但隨著科技的進步,人工智慧的成就也超乎很多人的意料。所以,舉辦人工智慧的「奧運會」也自然成為大家關心的議題。 在IJCAI-2015的研討會上,人們將有機會第一次見到人工智慧測試的世界級大賽。屆時,人工智慧驅動的計算機會在同一擂臺上一比高低。我們會期待不同門派的選手、劍宗氣宗、魔教丐幫都來一展身手,全新的明星算法也很可能會脫穎而出。


圖靈之夢


1950年,圖靈在他的經典文章《計算機器與智能》裡寫道:


智能的計算機應該具有以下這些人類才有的特點:善良,機智,美麗,友好,有進取心,有幽默感,明辨是非,犯錯,墜入愛河,享受草莓和奶油冰激凌,使有愛心的人愛上它,從實踐中學習有用的經驗,像人一樣偶爾用詞不當,在自己的冥思中是個主角兒,像人類一樣擁有不同類型的行為,並且學會創新。


很多這些特點並不能由「圖靈測試」所覆蓋。我們今天在人工智慧的道路上繼續探索,如果圖靈在天有知,也會感到欣慰和期待吧?



✄--

添加個人微信號"jiqizhixin2014":



參與機器之心翻譯合伙人計劃。

國內外前沿科技尋求報導。

通過朋友圈查看歷史文章。

申請加入機器之心微信群,討論前沿科技。



轉載請在文章開頭顯著註明「本文來源於微信公眾號『機器之心』(almosthuman2014)」,並保留原文作者和來源。

相關焦點

  • 關於圖靈和圖靈測試
    圖靈測試:為了避免對「思維」「思想」「自由意志」應該是什麼的哲學式討論,他提出只需要比較機器的表現和人類的表現,就可以判斷一個機器人的思維能力。這是「思考」的操作性定義,而非像愛因斯坦堅持的對時間和空間的操作性定義,以便將它的理論從先驗假設中解放出來……如果機器表現出了像人類一樣的行為,那麼它正是像人類一樣在行動。我們對人類網絡意識的定義,收緊了圖靈測試:圖靈測試需要軟體說服一小組專家,而非單一個體;不只涉及偶然的對話,也關乎自律和移情。
  • 人工智慧:圖靈測試
    以下圖文來源於CSDN頭圖來源:視覺中國什麼是圖靈測試?「機器是否能夠思考?」,1950 年,Alan Turing 針對這個問題提出了一個著名的思想實驗:圖靈測試(Turing test),用於測試機器是否能表現出與人等價或無法區分的智能。
  • 【思辨】王培:圖靈測試是人工智慧的標準嗎?
    以通過圖靈測試為目標的對話程序一般稱為「chatbot」 ,這個標準不能推廣到人工智慧的其它子領域。因此,至今以通過圖靈測試為目標的工作仍只佔人工智慧領域中很小的一部分。【編者按】科學就是一個可以被證偽的學說。任何一個科學論述,都要能夠被實驗檢驗。比如說,要科學地解釋定義什麼是自我意識,其本質就是設計一個實驗。
  • 圖靈的人工智慧世界
    圖靈曾勾勒出一幅動人圖景,可以說那裡就是圖靈營造的一個人工智慧的世界。在那個世界裡,具有自主「學習」和「思考」能力的機器分擔了人類在各個領域的工作;能「思考」的機器通過「自主」的學習可以成為工程師、醫生、詩人、棋手、科學家、畫家、音樂家……凡是人類能做的工作,能「思考」的機器都可以做。圖靈的設想及其驗證方式(圖靈測試)為人類塑造了一幅全新的世界圖景。
  • 谷歌通過圖靈測試,真正的人工智慧還有多遠?
    而在大會的最後一天,谷歌母公司Alphabet董事長、前斯坦福校長約翰軒尼詩道出Duplex已經通過了圖靈測試的消息,一石激起千層浪。那麼,測試人工智慧的圖靈測試究竟是怎麼一回事呢?圖靈測試?圖靈測試一詞來源於計算機科學和密碼學的先驅阿蘭·麥席森·圖靈寫於1950年的一篇論文《計算機器與智能》。簡單來說,圖靈測試就是用來測試AI是否真正具有人工智慧這一概念的標準。
  • 圖靈測試已經過時,人工智慧需要建立一套全新指標
    今年是艾倫·圖靈引入「圖靈測試」概念的論文發表70周年。在這篇論文裡,他回答了這個問題——「機器會思考嗎?」。該測試的目標是確定機器能否表現出與人類難以分辨的對話行為。 圖靈測試 與公眾想像力 在概念引入後的短短幾年裡,圖靈測試成為人工智慧學術界的北極星。
  • 圖靈、圖靈機、圖靈獎
    1950年10月圖靈發表了題為「計算機和智能」的論文,闡明了計算機可以有智能的思想,並提出了測試機器是否有智能的方法,他稱之為「模仿遊戲」,而後人稱之為「圖靈測試」。由於圖靈的一系列傑出貢獻和重大創造,1951年被選為英國皇家學會院士。1954年6月7日科學奇才圖靈去世,為世人留下了無限惋惜。‍‍‍‍‍‍‍‍
  • 「小薇」為何能通過圖靈測試?
    2017年,由北京中科匯聯科技股份有限公司研發的「小薇」作為中國第一個通過圖靈測試的作詩機器人,入選中央電視臺《機智過人》節目。圖靈測試是被譽為電腦科學之父的英國數學家圖靈,於1950年提出的一個關於判斷機器是否能夠思考的試驗。圖靈認為,如果人們與電腦進行文字對話後,人無法判定對方是電腦還是人,那就證明電腦會「思考」。在業界,機器人很難通過圖靈測試。
  • 計算機被當13歲男孩 首次通過圖靈測試(圖)
    原標題:計算機被當13歲男孩 首次通過圖靈測試(圖)   6月9日消息,據國外媒體報導,最近,一個俄羅斯團隊開發的聊天機器人軟體,使得三分之一的聊天參與者,認為它是一個人類,這意味著在人類歷史上,計算機首次通過了有關計算機智能能否超過人類的圖靈測試。
  • 【深度】圖靈測試已OUT,這才是測試AI的更佳方法
    布萊切利園對這一議題來說是個很合適的比賽場地:整場比賽都是基於數學家和計算機技術先鋒阿蘭·圖靈曾經提出的測試「COMPUTING MACHINERY AND INTELLIGENCE 」。眾所周知阿蘭·圖靈在整個二戰期間把心血都貢獻在了破譯納粹密碼上。他曾經提出這樣一個假設:如果機器可以愚弄一個人類認為他也是同類,那麼就代表機器也具備思考能力。
  • 語言與圖靈測試
    自古以來, 什麼是智能就難以定義. 1950 年圖靈提出圖靈測試[1], 以是否通過人機對話測試來判定機器是否具有智能. 圖靈測試巧妙地避開了智能的內涵式定義和判定難題, 將研究智能的重點放在智能的外在功能性表現, 使得智能從工程上看是可以實現和判斷的. 現代人工智慧從此肇始. 為了通過圖靈測試, 需要研究語言.
  • Alexa首席科學家:圖靈測試對AI沒啥意義了
    近日,亞馬遜副總裁兼 Alexa 首席科學家 Rohit Prasad 在《快公司》上發表了文章(原文連結在最後),做出了一項大膽的表態:圖靈測試已經失去了意義,是時候建立一個新的 AI 衡量標準了。「機器能否思考?」這是加密學和人工智慧先驅阿蘭·圖靈在70年前論文 Computing Machinery and Intelligence 的核心問題。
  • 圖靈的圖靈機
    在這一長篇大作中,圖靈設計出了圖靈機來模擬人類的數學演算過程,定義並研究了與實數、實變函數相對應的可計算數、可計算函數,並由此引出了不存在一臺圖靈機判定任意圖靈機是否是非循環機的問題,並通過哲學論證試圖在圖靈機和人之間建立聯繫,說明人的「機械運算過程」完全與圖靈機等價。
  • 最小化圖靈測試:如何用一個單詞證明你是真人?
    最近,有一對科學家針對圖靈測試提出了新的觀點。 其假設是:「如果你與一個聰明的機器人,同處於一個看不見的法官面前,那如何充分證明自己是真人?因為被判定為機器的那一個會被宣告死亡,而你和機器人都希望活下去」。
  • Google Duplex通過圖靈測試 人工智慧還會遠嗎?
    Google Duplex通過圖靈測試 人工智慧還會遠嗎? 在大會的最後一日,Alphabet董事長John Hennessy親口承認:Google Duplex已經在預約領域通過了圖靈測試。 通過圖靈測試! 多麼令人興奮的六個字。被人工智慧所改變的世界藍圖仿佛就在我們眼前鋪展。
  • 人工智慧機器人之父:艾倫·圖靈
    1931年圖靈進入劍橋大學國王學院,畢業後到美國普林斯頓大學攻讀博士學位,二戰爆發後回到劍橋,後曾協助軍方破解德國的著名密碼系統Enigma,幫助盟軍取得了二戰的勝利。2013年12月24日,在英國司法部長克裡斯·格雷靈(Chris Grayling)的要求下,英國女王向圖靈頒發了皇家赦免。
  • 圖靈成50英鎊新鈔人物,傳奇人生照亮未來
    他看過圖靈的論文後極為讚賞,惺惺相惜,極力邀請圖靈畢業後到普林斯頓高等研究院工作,做他的研究助手。馮·諾依曼雖然也很年輕,但已經出類拔萃,大紅大紫。給馮·諾依曼當研究助手是令多少年輕學者夢寐以求的事情,然而圖靈心系劍橋,執意要回到母校任教,令馮·諾依曼教授惋惜不止。1936年,圖靈在倫敦權威的數學雜誌上發表了一篇劃時代的重要論文《可計算數字及其在判斷性問題中的應用》。
  • 萬物皆是圖靈機?
    在圖靈的概念裡,一臺好的機器——圖靈稱之為非循環機,即符合要求的機器,是永不停止的。經過克萊尼改造後,一臺好的機器將在計算完函數後停止運行。一臺陷入了無限循環而無法停止的克萊尼機是「不好」的機器。顯然,克萊尼的機器更接近傳統的數學觀念,即函數接受輸入並經過有限步驟輸出結果。
  • 艾倫·圖靈小傳:每一位天才,都有屬於其自己的告別方式
    10:圖靈差點結婚了Part 11:二戰後的圖靈Part 12:我們有必要知道大腦是如何進行思考的嗎? ▲ 圖靈【左】 香農【右】自從進入文明時代,人類就開始思考關於機器的問題,但是直到《可計算數》的提出,機器才有了嚴格的數學定義。人們在通信方面,也進行了很多思考,這個領域也需要現代化的思想,而正是克勞德·香農對此給出了精確的概念定義。
  • 偉大的圖靈與恩尼格碼的對決,最終勝利者為何英年早逝?
    1950年,圖靈編寫並出版了《曼徹斯特電子電腦程式員手冊》,後來又提出了著名的「圖靈測試」;1951年,圖靈又發表論文《機器能思考嗎》;1951年,他成為英國皇家學會會員,時年39歲;1952年,他辭去劍橋大學國王學院研究員職務,專心在曼特斯特大學從事研究,還擔任了製造自動數字計算機的弗蘭蒂公司顧問。但好景不長。