超越圖靈測試:判斷機器是否在思考的現代方法

2021-01-14 讀芯術

全文共2189字,預計學習時長6分鐘

圖源:slate

人工智慧正在改變生活的方方面面,大多數專家認為,今天的人工智慧進化為人工通用智能只是時間問題,計算機遲早會達到甚至超過人類智能的臨界點。但問題是,我們如何知道這種情況何時會發生?

1950年,艾倫·圖靈提出了著名的測試方法,用來判斷機器是否真的在思考。這一測試在論文發表後經歷了一些演變,其中一個常見的解釋是這樣的:

一個人,即審訊者(C),可以通過電腦終端進行交流(現在,我們可能會說通過即時通訊、電子郵件或簡訊);在計算機鏈路的另一端是人(B)或計算機(A)。經過20分鐘的鍵盤通信後,詢問者會表明在另一端是人還是計算機。

如果審訊者認為他在和一個人交談,但實際上是一臺電腦,那麼結論就是,這臺電腦一定在像人一樣思考。為了讓計算機「通過」測試,這個實驗要進行多次,超過一半的審問者同意。

最近,對圖靈測試的一種改進將對話時間縮短到5分鐘,並認為如果計算機愚弄受試者的時間超過30%,測試就通過了。2014年,一個名為Cleverbot的程序被聲稱通過了圖靈測試,愚弄了33%的審訊者。然而,雖然Cleverbot有一些複雜的反應,但我與它的互動很快暴露了其局限性。

不過,我寧願對圖靈的測試吹毛求疵,也不願對Cleverbot s的主張吹毛求疵。我有兩個主要擔憂:

· 圖靈測試的名聲推動了諸如Cleverbot或Watson等程序的發展,這些程序擁有驚人的語言能力,但卻犧牲了針對真正AGI的資源。

· 為了通過測試,計算機必須被設定為會說謊。有沒有私人問題,比如你多大了?眼睛是什麼顏色的?甚至你是一臺電腦嗎?如果電腦如實回答,那就是洩密。在某種程度上,為了通過測試,一個系統被編程為目標和情感的等價物,這些必須是人類的目標和情感,而不是可能對機器有效的目標和情感。這需要花費大量的開發努力來玩這種本質上屬於聚會遊戲的遊戲

我對該測試的準確性也有幾點擔憂:

· 測試結果的好壞取決於審訊者的老練or易上當。

· 該測試允許在計算機的某一部分上假裝有缺陷以掩蓋其局限性。例如,為了彌補理解上的缺陷而聲稱自己是一個孩子。

· 它強加了人類層次的約束。如果我們能造出一臺具有超人智慧的機器,它會不會因為看起來太聰明而無法通過測試。

假設有真正的AGI系統,並且位置顛倒了——一個AGI來決定你是計算機還是人,你能做得多好?

在最近的AGI-20會議上,一位與會者評論說,真正智力的測試應該是設計真正智力測試的能力。沒有這樣的測試,難道我們就沒有真正的智慧嗎?

為了解決這些問題,人們建議調整圖靈測試,創造出一套標準類型的問題,用來探究情報的各個方面,而不是由審問者單獨或多或少地編造一些隨機問題。與其將計算機的反應與個人進行比較,不如將計算機與不同年齡、性別、背景和能力的人類回答者進行比較。

現在,把審問者重新塑造成法官,他們會給測試結果打分,以判斷每個答案是否都是對問題的合理回答。問題和答案應該隨機混合,以防止發現得分趨勢。例如,如果一個回答者給出了一個低分數的答案,不應該影響該回答者對其他回答的感知質量。

針對特定智力領域的樣本問題可能包括以下內容:

· 你能描述現在看到(聽到)的東西嗎?

· 描述一下你在這幅圖中看到了什麼?

· (模式識別/知識)如果我[動作,比如唱歌,跌倒,掉鉛筆,講笑話],你的反應會是什麼?

· (預測/理解人類行為)如果你[行為,比如講笑話,偷我的錢包,或者通過這個測試],我的反應會是什麼?

· 說出三種類似於[一個物體,如樹、花、汽車或電腦]的東西。

· 說出你最喜歡的[物體,如食物、飲料、電影明星、書或科學家]。

· (目標導向)解釋一種電碼。

· 使用那個代碼,編碼這個消息。

· 這張照片怎麼了?

「這張照片有什麼問題嗎?」該問題不僅關於對象識別的圖像,還關於現實世界的理解使用和關係的對象。發件人:科赫、克里斯多福和朱利奧·託諾尼,「關於意識的測試——我們如何知道這臺電腦有感知能力?讓它解決一個簡單的難題」 (2011)。

可以對一個會思考的機器和一個人提出同樣的問題,但我們可以假定,會從這兩者得到顯著不同的答案,而且很容易區分電腦和人。對每個問題的回答由幾位評委來評定是否有意義,如果計算機給出的有意義的答案數量相同,它就在思考。

關鍵在於,問題需要是開放式的,以便讓受訪者表明他們真正理解。為了創造無限的集合,題目的類型可以是多種多樣的,這可以防止計算機被輸入特定的答案。這些問題都需要認真思考。

同樣地,一個法官可能不擅長判斷一個人的回答是否合理,但如果有多個法官對多個應答者進行評級,我們應該可以得到一個好的評估。讓AGI成為裁判之一怎麼樣?

圖源:unsplash

是時候用更好的東西取代圖靈測試了,繼續致力於在圖靈測試中欺騙人類並不是創建AGI的正確方向,該去嘗試衡量它的智力。

留言點讚關注

我們一起分享AI學習與發展的乾貨

如轉載,請後臺留言,遵守轉載規範

相關焦點

  • 圖靈測試判斷機器是否智能的依據?
    因為我們會覺得嬰兒是一個人,所以他是智能的,而機器人歸根結底也只是一個機器,所以我們認為它沒有智能。智能這個概念十分的模糊,目前解釋智能有兩個要點,三個層次兩個要點自適應能力:目前AI在一定程度內可以,知識遷移能力;AI的一個很重要的目標是實現通用人工智慧自我意識:「知道自己在做什麼」,如何判斷一個事物是否有自我意識。
  • 機器能夠思考嗎?人工智慧鼻祖提出圖靈測試
    圖靈測試 艾倫·圖靈承認,「思考」這個詞的定義能夠被用來支持也可以被用來反對機器的思考,並且真正上升到解釋層面。對於「機器」和「思考」,我們應該儘可能用接近它們的普通用法的方式來定義這些詞語,但是這種方式是危險的。 因此,他選擇創建圖靈測試,開啟了回答「機器是否能思考」這一問題的實驗。圖靈測試也被稱作「模仿遊戲」,需要三個人來玩這個遊戲:一位詢問者、一個人以及一臺機器。
  • 人工智慧方向改變,圖靈測試是否已過時?
    【編者按】人工智慧已經影響人們的生活很久很久了,甚至可以說,如果沒有人工智慧,現代生活恐怕很難維持。然而什麼是人工智慧,應該怎麼去評判人工智慧,標準有哪些?這些都是值得思考的問題……編譯 | 彎月 責編 | 張文頭圖 | CSDN 下載自視覺中國什麼是圖靈測試?「機器是否能夠思考?」
  • 人工智慧≠類人智能:超越圖靈測試的世界觀
    圖靈認為,如果提問者不能區分兩者的身份,並且計算機能成功假扮成人,那麼就成功通過測試。從實踐目的來說,計算機不就是「智能」的嗎?計算機需要假裝成人以通過人類的測試,而圖靈需要隱藏同性戀傾向以通過「直男測試」,這真是有趣的巧合。遺憾的是,更多的人僅僅「知道」圖靈測試,而沒有真正閱讀過。圖靈的文本是非凡、奇妙而令人驚訝的。
  • 圖靈測試介紹 圖靈機的工作原理詳解
    進行多次測試後,如果有超過30%的測試者不能確定出被測試者是人還是機器,那麼這臺機器就通過了測試,並被認為具有人類智能。圖靈測試一詞來源於計算機科學和密碼學的先驅阿蘭·麥席森·圖靈寫於1950年的一篇論文《計算機器與智能》,其中30%是圖靈對2000年時的機器思考能力的一個預測,目前我們已遠遠落後於這個預測。
  • 著名的圖靈測試 究竟是什麼鬼?
    圖靈測試,是現代計算機之父阿蘭-圖靈在1950年提出的,想考量的問題是:機器能否思考。 圖靈測試,如果你感覺這個詞比較陌生,我們就先來解釋一下:圖靈測試是測試人(多人)在與被測試者(一個人和一臺機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。
  • 著名的圖靈測試,究竟是什麼鬼?
    知識點:圖靈測試,是現代計算機之父阿蘭-圖靈在1950年提出的,想考量的問題是:機器能否思考。圖靈測試,如果你感覺這個詞比較陌生,我們就先來解釋一下:圖靈測試是測試人(多人)在與被測試者(一個人和一臺機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。
  • 人工智慧與圖靈測試
    「圖靈機」不是一種具體的機器,而是一種思想模型,可製造一種十分簡單但運算能力極強的計算裝置,用來計算所有能想像得到的可計算函數。「圖靈機」與「馮·諾伊曼機」齊名,被永遠載入計算機的發展史中。1950年10月,圖靈又發表另一篇題為「機器能思考嗎」的論文,成為劃時代之作。也正是這篇文章,為圖靈贏得了「人工智慧之父」的桂冠。
  • 俞志晨:圖靈機器人4年後可能過圖靈測試
    圖靈測試是圖靈於1950年提出的一個關於判斷機器是否能夠思考的著名試驗,測試某機器是否能表現出與人等價或無法區分的智能。 阿蘭·圖靈被視為計算機科學與人工智慧之父,據說,圖靈的粉絲賈伯斯把公司取名為蘋果,並且以被咬了一口的蘋果作為標誌就是為了紀念這位先驅。 機器是否有可能思考這個問題歷史悠久,1637年,笛卡爾就預言了圖靈測試。1950年,圖靈發表了一篇劃時代的論文,文中預言了創造出具有真正智能的機器的可能性。
  • 圖靈測試:機器人與人類比試智能—新聞—科學網
    用機器偽裝人   圖靈認為,如果機器能夠與人類溝通並不被辨認出其機器身份,那麼這臺機器就具有智能。   戰前和戰時的思考及實踐,最終化為數學家阿蘭·圖靈在1950年發表的一篇具有跨時代意義的論文。他在論文中詳細闡述了「機器能思考嗎?」這個問題。正是這篇論文中,圖靈設計了一個被後人稱之為圖靈測試的實驗。
  • 機械姬的靈魂困境:從圖靈測試、中文瑪麗房間、哲學殭屍到他心通
    圖靈測試圖靈測試,拜現代媒體與影視工業所賜,已經幾乎成為了一個家喻戶曉的名詞,尤其是最近卷福出演的《模仿遊戲》,更是讓「圖靈測試」成為了時髦用語。 這是一個非常有技巧性的提問方式,通過暗箱中反饋來的行為(無論是男人A,女人B,還是機器人A',對於詢問者C來說都是一個個暗箱)來判斷暗箱到底是什麼屬性。而
  • 重讀圖靈經典之作,九條反駁意見引人深思
    一、圖靈測試艾倫·圖靈承認,「思考」這個詞的定義能夠被用來支持也可以被用來反對機器的思考,並且真正上升到解釋層面。對於「機器」和「思考」,我們應該儘可能用接近它們的普通用法的方式來定義這些詞語,但是這種方式是危險的。因此,他選擇創建圖靈測試,開啟了回答「機器是否能思考」這一問題的實驗。
  • 圖靈測試的前世今生——計算無法想像之物
    如果計算機科學家圖靈在世,看完這兩段對話很可能會說,B顯然沒辦法通過他所提出的一項測試——圖靈測試——判定機器是否具有智能。圖靈在介紹圖靈測試之前,顯然有必要了解圖靈其人。對沒有計算機教育背景的人而言,了解圖靈很可能是通過那個被咬掉一口的蘋果公司的大Logo,這也算是賈伯斯對圖靈這位計算機科學之父的一種致敬。
  • 圖靈測試已過時,是時候為AI構建新計算基準了
    自艾倫·圖靈(Alan Turing)發表論文介紹圖靈測試的概念以回應「機器可以思考嗎?」這一問題以來,今年已經是70年了。該測試的目的是確定一臺機器是否可以表現出與人類沒有區別的對話行為。Turing預測,到2000年,在模擬遊戲中,從評估者中隱藏了正在做出響應的人(人類或AI),普通人將AI與人類區分開的機會不到70%。
  • Alexa首席科學家:圖靈測試對AI沒啥意義了
    近日,亞馬遜副總裁兼 Alexa 首席科學家 Rohit Prasad 在《快公司》上發表了文章(原文連結在最後),做出了一項大膽的表態:圖靈測試已經失去了意義,是時候建立一個新的 AI 衡量標準了。「機器能否思考?」這是加密學和人工智慧先驅阿蘭·圖靈在70年前論文 Computing Machinery and Intelligence 的核心問題。
  • 圖靈逝世66年後,AI可以自我思考了嗎?
    * 圖靈的早逝無疑是人類歷史上的一個巨大損失。作為「計算機之父」、「人工智慧之父」,圖靈在計算機科學與人工智慧領域有諸多貢獻,他提出的「圖靈機」設想啟發了現代計算機的發明,而其更著名的「遺產」,是一種用於判定機器是否具備智能的測試方法,即「圖靈測試」。
  • 小薇橫空出世,中國機器人通過圖靈測試,一個新的裡程碑
    在這裡,我要明確的告訴你,它是我們中國於2017年研發出來的機器人,而且還通過了超級嚴苛的圖靈測試哦!很多人聽到這裡,大都是聽起來覺得很厲害但就是不知道為什麼很厲害,因為確實是還有很多人都不知道圖靈測試是什麼。在這裡我們給大家科普一下它是計算機大師圖靈提出的關於判斷機器人能否思考的一個試驗。
  • 俄羅斯計算機「尤金」成為歷史上第一個通過圖靈測試的人工智慧
    在「人工智慧之父」阿蘭·圖靈(Alan Turing)逝世60周年之際,英國科學家昨天(8日)宣布,一臺超級計算機首次通過了「圖靈測試」,成功讓人類相信它是一個13歲的男孩。也就是說,這臺計算機成為有史以來第一個具有人類思考能力的人工智慧設備。
  • 亞馬遜科學家:圖靈測試已成古董,要給AI構建新的「黃金標準」!
    【新智元導讀】1950 年,圖靈提出著名的「圖靈測試」去回答「機器能否思考」的問題,目的是判斷機器是否能表現出人類也無法區分的對話行為。70年來,圖靈測試也一直作為學術界的AI「北極星」而存在。近日,亞馬遜語音助手 Alexa 部門的首席科學家認為,人們現在關心的是人機之間的互動,而不是區分機器和人類。他認為,圖靈測試過時了,AI 需要新基準測試!
  • 超級計算機首次通過圖靈測試,人工智慧時代來臨?
    密碼專家阿蘭圖靈在1950年設計了一種測試,其理念是如果一臺機器能夠做到讓人類無法分辨出他們是在同機器還是人類在對話,那麼這臺機器就是在「思考」。此次在英國王家學會共有5臺計算機接受了測試,通過基於文本的對話,考察它們是否能夠讓人們認為他們的談話對象是一個人而不是一臺計算機。