首個為 AI 設置的 「IQ 測試」:玩遊戲、解魔方、考 SAT 全面評估

2020-11-22 IT之家

自從計算機問世,人們對於機器便開始了永無止境的探索,如何讓機器更聰明。

那麼怎麼判斷機器的「聰明程度」呢?最經典的方法當然是「圖靈測試」。

早在1950年,圖靈發表了一篇劃時代的論文,他表示機器也可以擁有智能,像人一樣會「思考」,並且提出了圖靈測試:測試者與被測試者(一個人和一臺機器)隔開的情況下,通過一些裝置(如鍵盤)向被測試者隨意提問。進行多次測試後,如果機器讓平均每個參與者做出超過30%的誤判,那麼這臺機器就通過了測試,並被認為具有人類智能。

2015年11月,《Science》雜誌封面刊登了一篇重磅研究:人工智慧終於能像人類一樣學習,並通過了圖靈測試。這個系統能夠迅速學會寫陌生的文字,同時還能識別出非本質特徵(也就是那些因書寫造成的輕微變異),通過了圖靈測試,這也是人工智慧領域的一大進步。

因為易於理解又簡單可控,這一測試方法自誕生起,一直被看作測試人工智慧是否智能的重要方式。但是隨著AI系統的快速發展,其複雜性正在迅速上升,而這些年,各種新的人工智慧「智能」測試方法正層出不窮的湧現。

近期,華盛頓州立大學電子工程與計算機科學學院的教授Larry Holder表示,「以前,測量AI系統智能與否的研究大多是理論性的,沒有在未知的新環境中測試AI系統的實際性能,也沒有考慮到任務的複雜性。」

▲Larry Holder

於是Holder和他的團隊正在為AI系統創建首個「IQ測試」,以了解它們學習和適應新環境的能力,測試根據AI系統所能解決問題的難度對其進行評分,評分還將考慮系統的準確性、耗時以及所需的數據量。該研究的主要內容之一就是創建對問題難度進行排名的方法。 Holder表示,「我們專注於測試和改進那些更具通用性的系統,比如可以幫助你完成許多日常任務的機器人助手。」 研究人員主要關注的是,他們測試的AI系統能否很好地將它們從一個任務中學到的知識應用到另一個全新的,未知的任務上。例如,你可能想在下象棋之前先學習跳棋,因為可以很容易地把跳棋的知識轉移到象棋。 一名與Holder一起做暑期研究的本科生幫助他設計了一個評估環境,用於測試AI系統需要完成的任務,比如玩視頻遊戲、解答SAT考試的相關問題和解魔方。

可根據AI系統學習和玩新的視頻遊戲(例如Vizdoom)的能力來評估AI系統

Holder目前在維護一個AI系統可以進行「IQ測試」和排行的網站。他希望大家都可以使用它來測試自己的AI系統,同時在這個過程中為研究人員提供更多的數據。

要想測試,需要先創建一個AIQ帳戶,然後在AIQ的後端提交分數。AIQ是一個開源測試框架,用於評估AI系統的「智商」。有關運行AIQ框架的詳細教程及代碼都在Github上,感興趣的同學可以上手測一下~

AIQ網站地址:點此前往。

研究人員希望利用這一框架,為人工智慧評估提供一個開放的度量標準。另外,他們還將利用這一框架來確定人工智慧領域的發展情況,以及在實現通用智能方面是否取得了進展。

Github教程:點此前往。

DeepMind曾為AI定製一套IQ測試題

Holder教授不是第一個想突破圖靈測試、為AI測智商的人。去年,DeepMind就動過為AI測智商的念頭~ 先來看下面這張圖,有沒有熟悉的感覺!這種圖形推理題,考過公務員的同學一定都不陌生~它能夠用來考察我們的觀察與邏輯推理能力,也是IQ測試題的一種。

去年,DeepMind發表了一篇論文,想要用這些推理題來測試神經網絡的抽象推理能力。 論文連結:http://proceedings.mlr.press/v80/santoro18a/santoro18a.pdf 研究人員將抽象推理定義為在概念層次上檢測模型和解決問題的能力,因此他們構建了一個涉及一系列抽象因素的題目生成器,以此來測試和訓練機器學習。

在測試中,大多數模型都表現良好。研究人員發現,模型準確性與推斷任務底層抽象概念的能力密切相關。「有些模型學會了解決複雜的視覺推理問題,」該團隊寫道,「為此,他們需要從原始像素輸入中引入並檢測抽象概念的存在,並將這些原則應用於從未觀察到的刺激。「 對於我們來說,考試前大家往往都會大量「刷題」,所以如果受試者準備太多,這樣的測試也可能無效,因為我們學到了特定於測試的啟發式方法,從而縮短了對推理的需求。研究人員也表示,「這對神經網絡而言可能更嚴重,因為它們具有驚人的記憶能力。」 最終的研究結果表明,想得出關於泛化的普遍結論可能是無益的:研究人員測試的神經網絡在某些泛化方案中表現良好,而在其他方面表現很差。該團隊在一篇博客文章中寫道,「它們的成功是由一系列因素決定的,包括所用模型的架構以及該模型是否經過培訓等等。」 雖然實驗結果可能是一個「大雜燴」,但研究人員還沒有放棄,他們計劃改進泛化策略,並探索在未來的模型中使用「結構豐富,但普遍適用」的歸納偏差。

AI研究之路艱辛漫長,「IQ測試」或許來的有點早

創造能夠在新環境中自主學習和行動的智能機器,仍然是人工智慧研究者們追求的方向,也是目前所面臨的挑戰。

Holder和他的團隊建立這樣一個測試系統,旨在測試和改進那些更具通用性的系統,比如可以完成許多日常任務的機器人助手。這是一個很好的研究方向,但實際上,要想實現「通用人工智慧」,還有很長一段路要走。 現在的人工智慧技術,雖然在一些特定的領域以及實際應用上具備超人的能力了,但是它還需要大量的數據來進行訓練。這種人工智慧也被稱為面向特定任務的「窄人工智慧」,例如人臉檢測、語音識別。 未來希望能夠達到「通用人工智慧」,即具備人一樣的智能,能夠不斷的自主學習,在更廣的範圍內提升整個機器的智能。

IBM副總裁、IBM大中華區首席技術官謝東曾在演講中表示,「通用人工智慧可能還需要一段時間才能實現,我們經常說可能是2050年以後吧。」(劃重點:可能) 那麼現在,研究人員們正在努力把「窄人工智慧」變成「寬人工智慧」,所謂寬是什麼?在學習的基礎上加入一些推理的能力,這樣就可以支持多任務、多領域、多模態的學習。 美國哥倫比亞大學創意機器實驗室總監、工程學教授Hod Lipson與團隊研究出一款可以自我學習的機器人。它只有一個「手臂」,不像我們擁有眼睛可以看到自己,研究人員也沒有告訴它它是什麼,而是讓它自己去感受,在自我想像中學習。

一開始它像嬰兒般瘋狂的甩著手臂,在感知自己的形態,感知這個世界。過了大概一天,它就可以開始做一些簡單的任務了。 這樣簡單的任務完全可以通過編程讓它達到,但是這個機器人在它自己的模擬中學會了這項任務,這是人類邁向建造具備自我學習能力的機器人的重要一步。 最後不得不說,在人工智慧不斷發展的同時,我們必須要確保是「可信的人工智慧」,因為要把人工智慧進行大規模應用的話,一定要保證它是可信的。

相關焦點

  • 圖靈測試out啦!首個為AI設置的「IQ測試」:遊戲、魔方、SAT評估
    Larry Holder於是Holder和他的團隊正在為AI系統創建首個「IQ測試」,以了解它們學習和適應新環境的能力,測試根據AI系統所能解決問題的難度對其進行評分,評分還將考慮系統的準確性、耗時以及所需的數據量。該研究的主要內容之一就是創建對問題難度進行排名的方法。
  • 邊玩邊學會,計客超級魔方
    不過充電口沒有使用typeC接口,而是使用了MicroUSB接口,好在我們不會經常用到充電器,因為計客超級魔方一次充電可以續航30小時,每天玩一小時也能玩一個月的時間。在青色和藍色中心點有充電接觸口,充電時候將「耳機」帶到魔方頭上即可。
  • 會玩魔方的孩子,成績一定差不了?!趕緊帶上孩子來參加魔方比賽,贏取好禮吧!
    結合日常生活和一些簡單的遊戲培養孩子的思維、想像、實踐、創造等能力。比如通過玩魔方,能有效增強孩子的記憶力,培養思維、創造等能力。 魔方的魅力,玩過的人才知道。作為智力遊戲界的三大不可思議之一,因其燒腦而有趣,吸引了一批又一批忠實愛好者。
  • AI魔方大師:1.2秒解魔方超世界紀錄2倍,平均移動28步
    在這項研究中,DeepCubeA算法能夠破解100%隨機打亂的魔方方塊,並在60.3%的遊戲時間裡計算出最短的目標解決路徑,將魔方的六個面都解成同一個顏色。   研究人員表示,該算法還適用於其他組合遊戲,如15拼圖、24拼圖、35拼圖、48拼圖、Lights Out和推箱子遊戲。
  • 魔方新手入門學玩魔方 魔方教研室1.0
    魔方新手入門學玩魔方 魔方教研室1.0 2010年01月06日 11:32作者:陳濤編輯:陳濤文章出處:泡泡網原創     泡泡網軟體頻道1月6日 魔方,Rubik''s Cube 又叫魔術方塊,也稱魯比克方塊。
  • 世界上最小的電子魔方,你玩過嗎?
    而Super Impulse的這款世界上最小的電子魔方革命,雖然體積不大,但與原版相比,該有的功能一樣都不會少喔~電子魔方革命玩法介紹▌在魔方經典玩法上升級電子魔方革命的形狀和大小與傳統魔方一模一樣,它同樣有六個不同顏色的面,每一面有屬於自己的遊戲。與傳統魔方不同,它不通過旋轉來解決難題。
  • PSoC 4 手把手教你成為魔方大神
    在美國加州,一款新型魔方「 HEYKUBE 」吸引了我們的注意。開發人員 Dave Gargett 和 Mehdi Hatamian 專為玩家開發了一款可以編程的智能魔方。它會逐步引導玩家完成復原魔方的所有動作,直到玩家快速學習動作,形成肌肉記憶,掌握復原魔方的辦法。
  • 《最強大腦》同款磁力魔方積木,燒腦益智,玩出高智商
    這種擁有無數種變化的「小方塊」,被認為是不可思議的世界三大智力遊戲之一。因為多變,玩起來複雜又燒腦,在很多人眼裡會玩魔方簡直是高智商的代名詞!歐美一些教育機構用魔方作教具,幫助孩子理解枯燥的數學知識;名校在出考題時,也會以魔方為載體。
  • 魔方教程圖解 玩魔方的公式口訣 魔方還原步數
    魔方,也稱魯比克方塊,臺灣稱為魔術方塊,香港稱為扭計骰,英文名為:Rubik's Cube。是一種娛樂玩具。每次玩魔方時是否要花費很長時間?
  • 傳統魔方玩膩了?試試這個能玩貪吃蛇的電子魔方吧!
    對,真的不騙你,這個魔方可以利用 LED 燈光顯示來玩貪吃蛇,不相信的話?跟我一起看看下面的視頻了解一下吧:QCoo 是世界上第一個能玩電子遊戲的魔方,它的大小和我們日常玩的 3 乘 3 魔方大小相當,利用藍牙和手機相連。原理上,QCoo 其實拆下外殼是一個裝滿 LED 燈的立方體,由於內部有電池和傳感器,所以能夠感應到旋轉的角度而且能發光。
  • 戴上耳機充電的魔方 米家計客超級魔方評測
    計客魔方具有兩個配套APP,分別具有不同的功能。不過筆者在使用過後還是覺得這兩個APP可以合併成一個APP。筆者進行測試「魔方學院Pro」的版本號為V1.1.0,「超級魔方」的版本號為V1.1.0。計客魔方通過藍牙與手機進行連接,並且只能同時連接一個APP,在打開APP時都會先與魔方進行連接,然後才會進入APP。
  • 三階魔方怎麼玩?整理出的七步還原法在這裡
    在筆者退休後,為了預防一系列老年疾病,除了身體鍛鍊外,也玩起了魔方、數獨、速算等,整理和學習掌握了一些技巧和方法。下面,就介紹三階魔方的還原法。提起魔方,很多人認為這是小孩子、學校學生玩的一種智力遊戲。其實,它是一款大眾益智類玩具,任何年齡段的人都可以玩,尤其是中老年人,玩一玩魔方,對提高記憶力,增強注意力 ,鍛鍊手腦靈活性、協調性,都是有好處的。
  • 「魔方之父」介紹魔方最初的樣子
    據俄羅斯衛星通訊社sputniknews報導,《每日郵報》消息,「魔方之父」厄爾諾·魯比克(Erno Rubik)表示,魔方最初完全是另外一個樣子,它原本應該比現在的玩具大很多。多年來,全世界範圍內都有人一直在玩這個著名的益智遊戲,幾乎每家都有一個、甚至幾個魔方。匈牙利建築師和發明家厄爾諾·魯比克是魔方發明人。
  • 更好的IQ測試
    IQ測試題目想像一下玩拼字遊戲時無法用字卡排列字母,或者設計一座建築時無法畫草圖、搭模型。很難是不是?但是,許多預測現實成就的認知測試卻只考察人們在腦內思考的最終結果。最近,一項讓測試者把解決問題的過程「外顯化」的IQ測試問世了,比起只考察最終結果的老版本,這種測試可以更好地預測學習成績。「瑞文矩陣測試」(Raven’s Progressive Matrices)是一種常見的IQ測試,每道題都預先提供了8個形狀,它們分別被安放在一個3乘3的矩陣中,其中有1個位置空白。測試者需要根據另外8個形狀的規律,選出一個可以很好填補空白的形狀。
  • 門薩IQ測試,測一下你的IQ是多少,打開能玩上一天
    門薩IQ測試遊戲遊戲選擇語言頁面選擇完畢點擊測試門薩測試題目說實話前面的題目都是看著很簡單的,但是越到後面,你就會知道這些題目的恐怖了。門薩測試一般從注意力、觀察力、邏輯思維、想像力和記憶力這幾個方面出題,私信回復門薩IQ測試,看一看你們的IQ是多少吧。信任的進化這是一款關於信任的遊戲,遊戲內容很簡單,其實就是囚徒困境的拓展。
  • 華為和網易發布首個5G雲遊戲白皮書,世界級雲遊戲標準是怎樣的?
    華為和網易發布首個5G雲遊戲白皮書,世界級雲遊戲標準是怎樣的? 要說當下什麼技術最火?非5G莫屬。
  • 魔方,是如何成為裝bility神器的?
    評論區也很熱鬧:「看到這條視頻,就給我玩王者榮耀的兒子一巴掌」,「說一下你們12歲的時候在幹嘛」,「少年可期」……通常在人們眼裡,會玩魔方的孩子是「別人家的孩子」,會玩魔方的成年人是「社會精英」,「擁有高出一般人的智商」,電影、電視、綜藝節目也喜歡對其大加渲染。
  • 寧波這位老師把數學益智遊戲引進課堂 讓學生在「玩中學,學中玩」
    有人說「數學是聰明人的思維遊戲」,這個說法雖然不夠全面,但是突出了數學學習對於思維鍛鍊的價值。而遊戲是學生喜聞樂見的學習形式,很多時候教師可以藉助遊戲來激發學生的學習積極性,讓他們在「玩中學,學中玩」。
  • 這裡有世界上最早的魔方、最大的魔方以及最貴的魔方……
    抱著這樣的目的,匈牙利發明家厄爾諾·魯比克在42年前發明了魔方,作為一種幫助學生增強空間思維能力的教學工具。這個以「魯比克」命名的小方塊甫一問世便迅速風靡全球,幾乎每7個人當中就有1個玩過魔方。「魔方之父」厄爾諾·魯比克 兩年前,為慶祝魔方這個「全球最受歡迎的益智遊戲」誕生40周年,美國自由科學中心攜手谷歌和「魔方之父」厄爾諾·魯比克打造了「超越魔方」科技互動大展。
  • 學生遊戲首選 映泰880G搭配HD5670測試
    什麼樣的配置最能滿足學生用戶看大片,玩遊戲的需求呢?考慮到無產階級暫時不鼓的荷包,似乎還是AMD平臺最划算,選什麼主板攢機好呢?全面體檢」吧~性能好不好,數據說了算,當然,遙控器功能也是一定要體驗一下的,多功能的電腦自然是比單純的遊戲機強多了。