圖靈測試已經過時,人工智慧需要建立一套全新指標

2021-01-14 騰訊網

出品:放牛班的秘密花園(ID:CDXBN1)

來源:快公司

編譯:sail2008

責任編輯:sunnisky

亞馬遜Alexa副總裁兼首席科學家Rohit Prasad認為,舊的計算標準對當今的人工智慧時代已不再具有借鑑意義。

今年是艾倫·圖靈引入「圖靈測試」概念的論文發表70周年。在這篇論文裡,他回答了這個問題——「機器會思考嗎?」。該測試的目標是確定機器能否表現出與人類難以分辨的對話行為。

圖靈預測,到2000年,普通人在模擬遊戲中將人工智慧與真人區分開的概率將不到70%,遊戲中的回應者可能是真人,也可能是人工智慧,而評估者對此毫不知情。

阿蘭·圖靈

為什麼20年過後,作為一個產業,我們還無法實現這個目標呢?我認為圖靈提出的努力目標對我這樣的人工智慧科學家來說並不是一個實用目標。

圖靈測試充滿了限制性因素,圖靈自己在這篇開創性論文中就討論過其中一些。隨著如今人工智慧普遍集成到手機、汽車和家庭中,一個事實越來越明顯:人們更關心他們與機器的交互是實用、無縫和透明的,實現機器與人真假難分的理念已經過時。

因此,是時候讓這個70年來一直作為靈感源泉的傳奇退役了,我們需要設立一個全新的挑戰來賦予研究者和從業者以同樣的靈感。

圖靈測試

與公眾想像力

在概念引入後的短短幾年裡,圖靈測試成為人工智慧學術界的北極星。

六七十年代最早出現的聊天機器人「伊麗莎」(ELIZA)和「帕裡」(PARRY)的目標就是通過圖靈測試。2014年,聊天機器人「尤金·古斯特曼」(Eugene Goostman)宣布它通過了圖靈測試,騙過了33%的人類裁判,讓他們誤以為自己是真人。然而,正如其他人所指出的,騙過30%人類裁判的標準是武斷的,即使這樣,這場勝利還是讓一些人覺得過時了。

然而,圖靈測試繼續激發著公眾想像力。OpenAI的「生成性預訓練」Transformer 3(GPT-3)語言模型以其擊敗圖靈測試的潛力而成為頭條新聞。同樣地,記者、商界領袖和其他觀察家仍然會問我:「Alexa什麼時候能通過圖靈測試?」

毫無疑問,圖靈測試是衡量Alexa智能的一種方法,但這樣衡量Alexa的智能真的重要嗎?有意義嗎?

要回答這個問題,讓我們回到圖靈第一次提出這篇論文的時候。

1950年,第一臺商用計算機尚未開售,光纖電纜的基礎性研究又過了四年才發表,人工智慧領域也還沒有形成,要到1956年才正式確立。如今手機的計算能力是阿波羅11號的10萬倍,再加上雲計算和高帶寬連接,人工智慧可以在數秒內根據海量數據做出決策。

雖然圖靈的最初設想仍能賦予我們靈感,但將圖靈測試理解為人工智慧進步的終極標誌,必然會受到它剛提出時所處時代的局限。

首先,圖靈測試幾乎沒有考慮人工智慧的機器屬性,比如快速計算和信息查找等,這些才是現代人工智慧最有效的特徵。

刻意強調騙過人類,意味著人工智慧要通過圖靈測試,就必須在回答諸如「你知道3434756的立方根是多少嗎?」或者「西雅圖離波士頓有多遠?」這類問題的時候做出停頓。

事實上,人工智慧立刻就知道這些答案,而做出停頓讓自己的回答聽起來更像真人,並不是利用其技能的最佳方式。

此外,圖靈測試沒有考慮到人工智慧使用傳感器聽、看和感受外部世界的能力越來越強大。相反,圖靈測試僅限於文字溝通。

其次,要想讓人工智慧在今天更實用,這些系統需要高效地完成我們的日常任務。當你讓人工智慧助手幫你關掉車庫的燈時,你並不想發起一場對話。相反,你會希望它立刻滿足這個要求,並以一個簡單確認比如「ok」或「好的」來通知你。

即使你與人工智慧助手就一個熱門話題進行廣泛對話,或讓它為孩子朗讀故事,你還是想知道它是人工智慧而非真人。事實上,通過假裝真人來「騙過」用戶會帶來真正的風險。想想反烏託邦的可能性,我們已開始看到散布假消息的機器人和深度虛假新聞的出現。

人工智慧

面臨全新的重大挑戰

與其說沉迷於讓人工智慧與人類毫無差別,我們更應該致力於構建能增強人類智力、以公平和包容的方式改善我們日常生活的人工智慧。

一個有價值的潛在目標是,讓人工智慧表現出類似人類的智能屬性——包括常識、自我監督和語言能力,與快速搜索、記憶喚起和代表你完成任務等機器效率相結合。最終的結果是學習和完成各種任務,適應全新的情況,遠超一個普通人所能做的。

這一焦點揭示了當前人工智慧領域真正重要的研究——感官理解,對話,淵博的知識,高效學習,決策推理,以及消除任何不恰當偏見(即實現公平)。這些領域的進展可以用多種方式來衡量。

一種方法是將挑戰分解為多個任務。例如,Kaggle的「抽象和推理挑戰」專注於解決人工智慧從未見過的推理任務。

另一種方法是為人機互動設計一個大規模的現實世界挑戰,比如「Alexa 社交機器人大獎賽」——一個面向大學生的對話型人工智慧大賽。

事實上,當我們2016年推出Alexa大獎賽時,我們就應該如何評價競爭對手的「社交機器人」展開了激烈的辯論。我們是想讓人們相信社交機器人是真人,展開某種程度的圖靈測試嗎?或者,我們是想讓人工智慧具備進行自然對話的能力,從而促進學習、提供娛樂,還是只是把它當作一種令人愉悅的消遣?

首個獲得公民身份的機器人「索菲亞」

我們制定了一個規則,要求社交機器人在20分鐘內與真人就包括娛樂、體育、政治和科技在內的廣泛熱門話題進行連貫有趣的對話。

在決賽前的開發階段,客戶會根據是否願意與機器人再次交談來給它打分。在決賽中,獨立的人類裁判會根據連貫性和自然性以5分制為其打分。

如果任何一個社交機器人的平均對話時長達到20分鐘,並獲得4.0以上的分數,那它就能通過這個重大挑戰。

雖然目前還沒有社交機器人通過這一重大挑戰,但這種方法正引導人工智慧研發,使其在基於深度學習的神經方法的幫助下,擁有類似於人的對話能力。它優先考慮讓人工智慧在適當情況下展現出幽默和同理心,而無需假裝成真人。

威爾·史密斯主演的科幻電影《我,機器人》

像Alexa這樣的人工智慧在我們日常生活中的廣泛應用,是衡量人工智慧進展的又一個絕佳機會。

雖然這些人工智慧服務依靠類似於人的對話技巧來完成簡單事務(如設置鬧鐘)和複雜任務(如規劃周末),要實現效用最大化,它們就要從對話人工智慧跨越到「環境人工智慧」——當你需要它時,人工智慧會立刻回應你的請求並預測你的需要,當你不需要它時,它會消失在背景中。

例如,Alexa能檢測到玻璃破碎的聲音,並提醒你採取行動。如果你在睡覺時設置了鬧鐘,它會建議關掉樓下還開著的聯網燈具。

這種人工智慧的另一個方面是,它們需要在日益增加的大量任務中成為專家,這隻有通過更廣泛的學習能力而非特定任務智能才能實現。因此,在未來十年乃至更長的時間裡,人工智慧服務的實用性,及其在環境設備上的對話和主動協助能力,是值得考察的。

這絕不是要貶低圖靈的最初設想——圖靈的「模仿遊戲」的設計初衷是一個思想實驗,而不是對實用型人工智慧的終極測試。

然而,現在正是取消圖靈測試的時候,讓我們從艾倫·圖靈的大膽構想中獲取靈感,加快以幫助人類為目標的人工智慧的建設進程。

【今日互動】

你覺得圖靈測試對人工智慧過時了麼?」

喜歡我們的話,記得加星標或置頂哦

聲明:著作權所有,轉載需授權

Come on,給你的靈魂充充電

相關焦點

  • 人工智慧方向改變,圖靈測試是否已過時?
    【編者按】人工智慧已經影響人們的生活很久很久了,甚至可以說,如果沒有人工智慧,現代生活恐怕很難維持。然而什麼是人工智慧,應該怎麼去評判人工智慧,標準有哪些?這些都是值得思考的問題……編譯 | 彎月 責編 | 張文頭圖 | CSDN 下載自視覺中國什麼是圖靈測試?「機器是否能夠思考?」
  • 人工智慧與圖靈測試
    「圖靈機」與「馮·諾伊曼機」齊名,被永遠載入計算機的發展史中。1950年10月,圖靈又發表另一篇題為「機器能思考嗎」的論文,成為劃時代之作。也正是這篇文章,為圖靈贏得了「人工智慧之父」的桂冠。圖靈還進一步預測稱,到2000年,人類應該可以用10GB的計算機設備,製造出可以在5分鐘的問答中騙過30%成年人的人工智慧。
  • 人工智慧≠類人智能:超越圖靈測試的世界觀
    這最早可以回溯到1950 年,英國數學家阿蘭·圖靈發表了論文《計算機器與智能》,那時候他提出了「模仿遊戲」測試,也就是我們今天說的「圖靈測試」。雖然版本有所不同,但它揭示了我們研究人工智慧文化和道德的方法論定義了人工智慧本身:無論是好的還是壞的。最讓人熟悉的版本是:提問者向兩個隱藏的參賽者提問,一個是人,另一個是計算機。
  • 圖靈測試已過時,是時候為AI構建新計算基準了
    圖靈測試充滿局限性,其中一些圖靈本人在開創性論文中對此進行了辯論。如今,人工智慧已無處不在地集成到我們的電話,汽車和房屋中,人們越來越在乎與計算機的交互是有用,無縫和透明的,並且人們無法區分機器這一概念。因此,是時候退役已經成為過去七年靈感的絕殺了,並提出了一個新的挑戰,這一挑戰同樣會激發研究人員和從業人員。
  • 圖靈的人工智慧世界
    【環球科技】作者:黎學軍(廣西藝術學院教授)圖靈是英國著名數學家、邏輯學家,被稱為計算機科學之父。說人工智慧,不能不說圖靈。圖靈曾勾勒出一幅動人圖景,可以說那裡就是圖靈營造的一個人工智慧的世界。圖靈的設想及其驗證方式(圖靈測試)為人類塑造了一幅全新的世界圖景。製造一個長得像人或神話中的人物且擁有遠超人類力量的機器的想法自古就有。只不過,在時代具備了建造能「思考」的機器的物質基礎之後,這個想法才得以逐步實現。到底什麼樣的機器算是有「思考」的能力,圖靈率先對此做出了回答。在他看來,只要能進行邏輯運算的機器就是能「思考」的機器。他認為,人類思考的本質或者說核心就是邏輯運算。
  • 機器學習與人工智慧是什麼?圖靈測試判斷機器是否智能的依據?
    (這一點也是為什麼很多人認為嬰兒具有智能而機器人不具有,目前有著一種檢測的方法就是照鏡子)三個層面1.運算智能:數學運算2.感知智能:視覺,聽覺目前已經基本解決,計算機視覺與語音識別方面的技術已經很成熟3.認知智能:邏輯推理,知識理解,決策思考語言是一個典型的,很重要的應用,語言是表示世界的一套符號系統,無論是各種自然語言還是數學語言
  • 人工智慧鼻祖提出圖靈測試
    人工智慧鼻祖提出圖靈測試 Andre Ye 發表於 2020-12-28 15:34:06 對於艾倫·圖靈,相信大家都並不陌生,作為人工智慧鼻祖,圖靈的諸多觀點即便經過幾十載歷史歲月的洗禮,依舊閃發著智慧的光芒。
  • 人工智慧測試:關於無人車測試的案例研究
    概述本篇文章主要是講述在人工智慧應用領域對智能性的測試,基於場景和任務的測試體系的描述,以及介紹了如何設計智能性測試中基於仿真的測試及其測試指標,並在智能車這一典型人工智慧領域舉例說明。2. 無人駕駛和人工智慧人工智慧(AI)通常是指機器表現出來的和人類類似的智能。
  • 計算機聊天機器人首次通過圖靈測試 人工智慧來臨
    摘要:今天圖靈測試 2014 的舉辦方英國雷丁大學發布新聞稿,宣稱俄羅斯人弗拉基米爾·維西羅夫(Vladimir Veselov)創立的人工智慧軟體尤金•古斯特曼(Eugene Goostman)通過了圖靈測試。
  • Alexa首席科學家:圖靈測試對AI沒啥意義了
    近日,亞馬遜副總裁兼 Alexa 首席科學家 Rohit Prasad 在《快公司》上發表了文章(原文連結在最後),做出了一項大膽的表態:圖靈測試已經失去了意義,是時候建立一個新的 AI 衡量標準了。「機器能否思考?」這是加密學和人工智慧先驅阿蘭·圖靈在70年前論文 Computing Machinery and Intelligence 的核心問題。
  • Google Duplex通過圖靈測試 人工智慧還會遠嗎?
    Google Duplex通過圖靈測試 人工智慧還會遠嗎? 工程師1 發表於 2018-05-22 05:01:00 最近的Google I/O大會很是熱鬧。
  • 俄羅斯計算機「尤金」成為歷史上第一個通過圖靈測試的人工智慧
    在「人工智慧之父」阿蘭·圖靈(Alan Turing)逝世60周年之際,英國科學家昨天(8日)宣布,一臺超級計算機首次通過了「圖靈測試」,成功讓人類相信它是一個13歲的男孩。也就是說,這臺計算機成為有史以來第一個具有人類思考能力的人工智慧設備。
  • 超級計算機首次通過圖靈測試,人工智慧時代來臨?
    一臺超級計算機成功地騙過了33%的裁判,讓他們認為它是一個13歲的男孩,這是人工智慧發展史上的裡程碑事件。密碼專家阿蘭圖靈在1950年設計了一種測試,其理念是如果一臺機器能夠做到讓人類無法分辨出他們是在同機器還是人類在對話,那麼這臺機器就是在「思考」。
  • 亞馬遜科學家:圖靈測試已成古董,要給AI構建新的「黃金標準」!
    【新智元導讀】1950 年,圖靈提出著名的「圖靈測試」去回答「機器能否思考」的問題,目的是判斷機器是否能表現出人類也無法區分的對話行為。70年來,圖靈測試也一直作為學術界的AI「北極星」而存在。近日,亞馬遜語音助手 Alexa 部門的首席科學家認為,人們現在關心的是人機之間的互動,而不是區分機器和人類。他認為,圖靈測試過時了,AI 需要新基準測試!
  • 已通過圖靈測試,人工智慧緣何越來越聰明,它們會「覺醒」嗎?
    人工智慧機器人是否具有主觀意識,能不能自主思考,這個看似十分難以準確定義的問題,早在上世紀50年代就由數學家、邏輯學家、「人工智慧之父」艾倫·麥席森·圖靈給出了解決辦法。 這便是大名鼎鼎的圖靈測試,只要機器通過這項測試,便可認為它擁有智能。
  • 俞志晨:圖靈機器人4年後可能過圖靈測試
    阿蘭·圖靈被視為計算機科學與人工智慧之父,據說,圖靈的粉絲賈伯斯把公司取名為蘋果,並且以被咬了一口的蘋果作為標誌就是為了紀念這位先驅。 機器是否有可能思考這個問題歷史悠久,1637年,笛卡爾就預言了圖靈測試。1950年,圖靈發表了一篇劃時代的論文,文中預言了創造出具有真正智能的機器的可能性。
  • 圖靈測試與科技的更新迭代
    為了回答這一問題,圖靈在70年前提出了圖靈機以及(順帶的)圖靈測試的概念。圖靈在最後預測,到2000年,在圖靈測試裡,普通人從人類之中鑑別出AI的可能性不到70%。為什麼人工智慧領域的學者沒有實現圖靈的預言呢?在引入圖靈測試之後的幾年中,圖靈測試一度成為了AI學術界的北極星。雖然現在仍有其價值,但今天的學者已經意識到,通過圖靈測試,並不是特別有價值的目標。
  • 圖靈測試Out啦!首個為AI設置的「IQ測試」:玩遊戲、解魔方、考SAT...
    最經典的方法當然是「圖靈測試」。早在1950年,圖靈發表了一篇劃時代的論文,他表示機器也可以擁有智能,像人一樣會「思考」,並且提出了圖靈測試:測試者與被測試者(一個人和一臺機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。進行多次測試後,如果機器讓平均每個參與者做出超過30%的誤判,那麼這臺機器就通過了測試,並被認為具有人類智能。
  • 圖靈測試介紹 圖靈機的工作原理詳解
    圖靈測試介紹 圖靈機的工作原理詳解 工程師3 發表於 2018-05-01 10:45:00 圖靈測試簡介 圖靈測試(TheTuringtest)由艾倫·麥席森·圖靈發明,指測試者與被測試者(一個人和一臺機器
  • 機械姬的靈魂困境:從圖靈測試、中文瑪麗房間、哲學殭屍到他心通
    圖靈測試圖靈測試,拜現代媒體與影視工業所賜,已經幾乎成為了一個家喻戶曉的名詞,尤其是最近卷福出演的《模仿遊戲》,更是讓「圖靈測試」成為了時髦用語。 最後這裡圖靈所提出的「模仿遊戲」的內容其實就是:如果A是一臺恰當變成的電腦,而B是一個人類,那麼在這個模仿遊戲中詢問者是否可能無法對這兩者做出區分? 這便是我們現在最熟悉的「圖靈測試」。