圖靈測試out啦!首個為AI設置的「IQ測試」:遊戲、魔方、SAT評估

2021-01-08 大數據文摘

大數據文摘出品

作者:牛婉楊

自從計算機問世,人們對於機器便開始了永無止境的探索,如何讓機器更聰明。

那麼怎麼判斷機器的「聰明程度」呢?最經典的方法當然是「圖靈測試」。

早在1950年,圖靈發表了一篇劃時代的論文,他表示機器也可以擁有智能,像人一樣會「思考」,並且提出了圖靈測試:測試者與被測試者(一個人和一臺機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。進行多次測試後,如果機器讓平均每個參與者做出超過30%的誤判,那麼這臺機器就通過了測試,並被認為具有人類智能。

2015年11月,《Science》雜誌封面刊登了一篇重磅研究:人工智慧終於能像人類一樣學習,並通過了圖靈測試。這個系統能夠迅速學會寫陌生的文字,同時還能識別出非本質特徵(也就是那些因書寫造成的輕微變異),通過了圖靈測試,這也是人工智慧領域的一大進步。

因為易於理解又簡單可控,這一測試方法自誕生起,一直被看作測試人工智慧是否智能的重要方式。但是隨著AI系統的快速發展,其複雜性正在迅速上升,而這些年,各種新的人工智慧「智能」測試方法正層出不窮的湧現。

近期,華盛頓州立大學電子工程與計算機科學學院的教授Larry Holder表示,「以前,測量AI系統智能與否的研究大多是理論性的,沒有在未知的新環境中測試AI系統的實際性能,也沒有考慮到任務的複雜性。」

Larry Holder

於是Holder和他的團隊正在為AI系統創建首個「IQ測試」,以了解它們學習和適應新環境的能力,測試根據AI系統所能解決問題的難度對其進行評分,評分還將考慮系統的準確性、耗時以及所需的數據量。該研究的主要內容之一就是創建對問題難度進行排名的方法。

Holder表示,「我們專注於測試和改進那些更具通用性的系統,比如可以幫助你完成許多日常任務的機器人助手。」

研究人員主要關注的是,他們測試的AI系統能否很好地將它們從一個任務中學到的知識應用到另一個全新的,未知的任務上。例如,你可能想在下象棋之前先學習跳棋,因為可以很容易地把跳棋的知識轉移到象棋。

一名與Holder一起做暑期研究的本科生幫助他設計了一個評估環境,用於測試AI系統需要完成的任務,比如玩視頻遊戲、解答SAT考試的相關問題和解魔方。

可根據AI系統學習和玩新的視頻遊戲(例如Vizdoom)的能力來評估AI系統

Holder目前在維護一個AI系統可以進行「IQ測試」和排行的網站。他希望大家都可以使用它來測試自己的AI系統,同時在這個過程中為研究人員提供更多的數據。

要想測試,需要先創建一個AIQ帳戶,然後在AIQ的後端提交分數。AIQ是一個開源測試框架,用於評估AI系統的「智商」。有關運行AIQ框架的詳細教程及代碼都在Github上,感興趣的同學可以上手測一下~

AIQ網站地址:

https://portal.eecs.wsu.edu/aiq/

研究人員希望利用這一框架,為人工智慧評估提供一個開放的度量標準。另外,他們還將利用這一框架來確定人工智慧領域的發展情況,以及在實現通用智能方面是否取得了進展。

Github教程:

https://github.com/Christopher-P/AIQ#tutorial

DeepMind曾為AI定製一套IQ測試題

Holder教授不是第一個想突破圖靈測試、為AI測智商的人。去年,DeepMind就動過為AI測智商的念頭~

先來看下面這張圖,有沒有熟悉的感覺!這種圖形推理題,考過公務員的同學一定都不陌生~它能夠用來考察我們的觀察與邏輯推理能力,也是IQ測試題的一種。

去年,DeepMind發表了一篇論文,想要用這些推理題來測試神經網絡的抽象推理能力。

論文連結:

http://proceedings.mlr.press/v80/santoro18a/santoro18a.pdf

研究人員將抽象推理定義為在概念層次上檢測模型和解決問題的能力,因此他們構建了一個涉及一系列抽象因素的題目生成器,以此來測試和訓練機器學習。

在測試中,大多數模型都表現良好。研究人員發現,模型準確性與推斷任務底層抽象概念的能力密切相關。「有些模型學會了解決複雜的視覺推理問題,」該團隊寫道,「為此,他們需要從原始像素輸入中引入並檢測抽象概念的存在,並將這些原則應用於從未觀察到的刺激。「

對於我們來說,考試前大家往往都會大量「刷題」,所以如果受試者準備太多,這樣的測試也可能無效,因為我們學到了特定於測試的啟發式方法,從而縮短了對推理的需求。研究人員也表示, 「這對神經網絡而言可能更嚴重,因為它們具有驚人的記憶能力。」

最終的研究結果表明,想得出關於泛化的普遍結論可能是無益的:研究人員測試的神經網絡在某些泛化方案中表現良好,而在其他方面表現很差。該團隊在一篇博客文章中寫道,「它們的成功是由一系列因素決定的,包括所用模型的架構以及該模型是否經過培訓等等。」

雖然實驗結果可能是一個「大雜燴」,但研究人員還沒有放棄,他們計劃改進泛化策略,並探索在未來的模型中使用「結構豐富,但普遍適用」的歸納偏差。

AI研究之路艱辛漫長,「IQ測試」或許來的有點早

創造能夠在新環境中自主學習和行動的智能機器,仍然是人工智慧研究者們追求的方向,也是目前所面臨的挑戰。

Holder和他的團隊建立這樣一個測試系統,旨在測試和改進那些更具通用性的系統,比如可以完成許多日常任務的機器人助手。這是一個很好的研究方向,但實際上,要想實現「通用人工智慧」,還有很長一段路要走。

現在的人工智慧技術,雖然在一些特定的領域以及實際應用上具備超人的能力了,但是它還需要大量的數據來進行訓練。這種人工智慧也被稱為面向特定任務的「窄人工智慧」,例如人臉檢測、語音識別。

未來希望能夠達到「通用人工智慧」,即具備人一樣的智能,能夠不斷的自主學習,在更廣的範圍內提升整個機器的智能。

IBM副總裁、IBM大中華區首席技術官謝東曾在演講中表示,「通用人工智慧可能還需要一段時間才能實現,我們經常說可能是2050年以後吧。」(劃重點:可能)

那麼現在,研究人員們正在努力把「窄人工智慧」變成「寬人工智慧」,所謂寬是什麼?在學習的基礎上加入一些推理的能力,這樣就可以支持多任務、多領域、多模態的學習。

美國哥倫比亞大學創意機器實驗室總監、工程學教授Hod Lipson與團隊研究出一款可以自我學習的機器人。它只有一個「手臂」,不像我們擁有眼睛可以看到自己,研究人員也沒有告訴它它是什麼,而是讓它自己去感受,在自我想像中學習。

一開始它像嬰兒般瘋狂的甩著手臂,在感知自己的形態,感知這個世界。過了大概一天,它就可以開始做一些簡單的任務了。

這樣簡單的任務完全可以通過編程讓它達到,但是這個機器人在它自己的模擬中學會了這項任務,這是人類邁向建造具備自我學習能力的機器人的重要一步。

最後不得不說,在人工智慧不斷發展的同時,我們必須要確保是「可信的人工智慧」,因為要把人工智慧進行大規模應用的話,一定要保證它是可信的。

相關焦點

  • 首個為 AI 設置的 「IQ 測試」:玩遊戲、解魔方、考 SAT 全面評估
    最經典的方法當然是「圖靈測試」。早在1950年,圖靈發表了一篇劃時代的論文,他表示機器也可以擁有智能,像人一樣會「思考」,並且提出了圖靈測試:測試者與被測試者(一個人和一臺機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。進行多次測試後,如果機器讓平均每個參與者做出超過30%的誤判,那麼這臺機器就通過了測試,並被認為具有人類智能。
  • 計算機首次「通過」圖靈測試
    2014年6月7日是計算機科學之父阿蘭·圖靈(Alan Turing)逝世60周年紀念日。這一天,在英國皇家學會舉行的「2014圖靈測試」大會上,聊天程序「尤金·古斯特曼」(Eugene Goostman)首次「通過」了圖靈測試。如果你想深入了解何為圖靈測試,請看《圖靈測試,測的到底是什麼?》
  • 原創 | 人工智慧漫談之圖靈測試與中文房間
    夭壽啦!機器人能獨立思考啦!!天網時代在向我們招手了嗎?!!!不過該消息很快就被澄清,其實只是由於該模型的「獎勵」引導設置不合理而出現的bug(大失所望~~)。還好,這個時候一位長者橫空出世,拍了拍你的肩膀笑眯眯地問道:「小夥子,聽說過安……啊不,圖靈測試嗎?」2014年6月8日,英國雷丁大學在著名的倫敦皇家學會舉辦了一場「圖靈測試」,一個俄羅斯團隊開發的一款名為「尤金·古特曼(Eugene Goostman)」的計算機軟體通過了測試。
  • 周末劇場 | 我們給四個AI仿生人和賽博女孩做了圖靈測試……
    進行多次測試後,如果測試者不能確定出被測試者是人還是機器,那麼這臺機器就通過了測試,並被認為具有人類智能。圖靈測試又被叫作「模仿遊戲」。今日,測試站得到委託,為兩名AI智能仿生人和兩名賽博人進行圖靈測試。這本是一次已知結果的測試,但結果卻令人擔憂。如下是這四次圖靈測試的視頻日誌記錄及轉錄文本。
  • 圖靈測試:機器人與人類比試智能—新聞—科學網
    「卷福」本尼迪克特·康伯巴奇扮演的英國數學家圖靈幫助盟軍贏得二戰勝利,本人的命運雖以悲劇告終,卻為後人留下了最大的遺產:圖靈測試,開啟了計算機和人工智慧的時代。   至今,通過圖靈測試,乃至改變、超越圖靈測試,依然是計算機科學家們謀求達到的最高高度。   圖靈測試是什麼?
  • 安培、圖靈、RNDA比一比:三大架構顯卡能耗比對比測試
    8nm製程工藝,在官方的宣傳中,英偉達測試表明,在《控制》這款遊戲中,在60 FPS時基於圖靈架構的GPU所消耗的功耗是安培架構GPU的1.9倍,即安培架構顯卡在這裡表現出相對於圖靈顯卡1.9倍的能耗比提升。
  • 圖靈測試介紹 圖靈機的工作原理詳解
    圖靈測試介紹 圖靈機的工作原理詳解 工程師3 發表於 2018-05-01 10:45:00 圖靈測試簡介 圖靈測試(TheTuringtest)
  • 更好的IQ測試
    IQ測試題目想像一下玩拼字遊戲時無法用字卡排列字母,或者設計一座建築時無法畫草圖、搭模型。很難是不是?但是,許多預測現實成就的認知測試卻只考察人們在腦內思考的最終結果。最近,一項讓測試者把解決問題的過程「外顯化」的IQ測試問世了,比起只考察最終結果的老版本,這種測試可以更好地預測學習成績。「瑞文矩陣測試」(Raven’s Progressive Matrices)是一種常見的IQ測試,每道題都預先提供了8個形狀,它們分別被安放在一個3乘3的矩陣中,其中有1個位置空白。測試者需要根據另外8個形狀的規律,選出一個可以很好填補空白的形狀。
  • 應用融智學分析首次通過圖靈測試,給了我們什麼啟示?
    經過65年,圖靈測試第一次被電腦程式尤金·古斯特曼通過,被學界業界認為是一件標誌性的事件。2014周六在倫敦著名的皇家學會舉行了圖靈測試。該事件發生在圖靈逝世60周年之際,距圖靈死後獲得皇家赦免已近6個月。它模擬了一個13歲的男孩。
  • 電腦冒充13歲男孩 首次通過「圖靈測試」(圖)
    電腦程式首次  通過圖靈測試  「圖靈測試」是驗證電腦是否具備與人類相似的思考能力的一個著名測試。這項測試活動的英國主辦方8日宣布,一款電腦程式日前成功通過測試,成為首個「冒充」人類以假亂真的電腦程式。  英國「人工智慧之父」阿蘭·圖靈1950年設計出這個測試。
  • 對話《主算法》作者:圖靈測試是個壞主意 | AI英雄
    選自|Gigaom翻譯|網易見外翻譯機器人審校|李擎人物觀點:圖靈測試實際上是個壞主意,原因是它混淆了智能和人類的關係圖靈測試是個壞主意,它混淆了智能與人類的關係【問】:每當我看到聊天機器人或試圖通過圖靈測試的東西時,我總是會輸入相同的第一個問題,那就是
  • 機械姬的靈魂困境:從圖靈測試、中文瑪麗房間、哲學殭屍到他心通
    然而本文並不打算在電影上多做停留,這部電影的劇情之所以會讓人關注,無非便是因為這裡的「女主角」是一個人工智慧罷了。我們今天要討論的,是影片引申出的另外的一些概念和問題。其中,最先拉開大幕的,便是最電影中最開始提到的那個酷炫的名詞——圖靈測試。
  • 門薩IQ測試,測一下你的IQ是多少,打開能玩上一天
    門薩IQ測試遊戲遊戲選擇語言頁面選擇完畢點擊測試門薩測試題目說實話前面的題目都是看著很簡單的,但是越到後面,你就會知道這些題目的恐怖了。門薩測試一般從注意力、觀察力、邏輯思維、想像力和記憶力這幾個方面出題,私信回復門薩IQ測試,看一看你們的IQ是多少吧。信任的進化這是一款關於信任的遊戲,遊戲內容很簡單,其實就是囚徒困境的拓展。
  • 智商(IQ)測試3.0
    點擊上方 小數據 關注我們獲取更多作品、答案 小數據出品IQ測試3.0再一次與大家見面啦,測試3.0中有更豐富的題目內容,從而變得很難且更有挑戰!請手機屏幕對面的你認真回答測試中的18個問題,為了你的測試結果準確,如果在答題過程中遇到不會解答的問題請選擇「不知道」而不要憑感覺胡亂猜測噢~本智商測試其實與學術界的智商定義有很大差別,測試結果與其他智商測試結果也因此不具備可比性。小數據這麼久以來一貫堅持用心做好測試,歡迎小夥伴們留言為我們提出寶貴的建議哈!
  • 學生遊戲首選 映泰880G搭配HD5670測試
    映泰TA880GB+主板聲網卡晶片  映泰TA880GB+主板板載了ALC892音頻晶片,另外板載了全球首顆應用了& Memory Benchmark,VocaloMark,HD Tune,CineBench R11.5七款單項測試軟體來評估測試平臺的性能。
  • 人工智慧測試:關於無人車測試的案例研究
    同時必須注意到的是,為測試智能性所選擇的任務也是有特定針對性的,不同的任務測試不同方面的智能性,例如,一個文盲可能能成為一個很好的司機,但是一個眼盲的飽學之士卻無法開車。圖靈測試是迄今為止我們所知的最早的針對智能性的測試。圖靈測試是圖靈對於人工智慧的睿智思考,其核心思想是:要求計算機在沒有直接物理接觸的情況下,儘可能把自己偽裝成人類回答人類的詢問。但
  • 圖靈的人工智慧世界
    說人工智慧,不能不說圖靈。圖靈曾勾勒出一幅動人圖景,可以說那裡就是圖靈營造的一個人工智慧的世界。在那個世界裡,具有自主「學習」和「思考」能力的機器分擔了人類在各個領域的工作;能「思考」的機器通過「自主」的學習可以成為工程師、醫生、詩人、棋手、科學家、畫家、音樂家……凡是人類能做的工作,能「思考」的機器都可以做。圖靈的設想及其驗證方式(圖靈測試)為人類塑造了一幅全新的世界圖景。
  • AI魔方大師:1.2秒解魔方超世界紀錄2倍,平均移動28步
    在這項研究中,DeepCubeA算法能夠破解100%隨機打亂的魔方方塊,並在60.3%的遊戲時間裡計算出最短的目標解決路徑,將魔方的六個面都解成同一個顏色。   研究人員表示,該算法還適用於其他組合遊戲,如15拼圖、24拼圖、35拼圖、48拼圖、Lights Out和推箱子遊戲。
  • 遊戲用研測試——4個步驟了解基本測試流程
    完整的遊戲用研測試流程完整的遊戲用研測試流程主要包括以下四個步驟。一個合格的UE人員應該可以獨立負責整個流程。1.溝通需求和確定目標首先要和遊戲項目方進行測試的目標溝通,明確「問題是什麼」,和「用麼方式測試」,心中要逐步確定一份「測試需求列表」和「評價標準」。要始終記得——本次測試就是為了解決這些問題!
  • 心理學冷知識:IQ測試的起源
    柏拉圖是古希臘偉大的哲學家阿爾弗雷德·比奈:預測學業成就大約在一個世紀以前,人們就已經開始試圖評估心理能力的個體差異。現代智力測驗運動開始於1904年法國早期心理學家阿爾弗雷德·比奈對智力能力的評估。劉易斯·特曼:先天智商1911年比奈去世之後,史丹福大學教授劉易斯·特曼試圖使用比奈的測驗預測學生的學業成就,但他發現以巴黎兒童為常模編制的量表不適合加利福尼亞的大學生,於是,特曼對這個測試進行了修訂。