我們給AlphaGo做了一次智商檢測,結果發現……

2020-12-03 中科院格致論道講壇

自從AlphaGo 戰勝了人類,獲得了世界冠軍,各種關於人工智慧的威脅論眾說紛紜,人工智慧儼然走在了風口浪尖。如何判定AI的智商?如何評定AI的綜合素質?

出品:"格致論道講壇"公眾號(ID:SELFtalks)

以下內容為《人工智慧學家》主編,《網際網路進化論》作者劉鋒的演講實錄:

人工智慧爆發的今天,特別是AlphaGo 戰勝了人類,獲得了世界冠軍,這讓大家有些困惑,甚至是恐慌,人工智慧會不會超越人類,甚至成為主宰?

關於這個問題眾說紛紜。

包括霍金、馬斯克在內的很多人提出了人工智慧威脅論。

如果要在科學上解決這個問題,我們需要找到一個定量的方法,去分析人工智慧與人類智力的發展水平

最著名的人工智慧測試是圖靈測試

但圖靈測試主要是評價一個智能系統能否達到人類的智能水平,並不能夠定量分析智能系統與人類智能的關係。

定量評價智能系統的智能水平

從2012年左右開始,我和科學院的石勇教授、劉穎教授對這個問題進行了持續研究,試圖尋找一個新的能夠定量分析這個問題的方法

這是我們在2007年開展的研究項目。當時判斷整個網際網路正向著與人類相似的類大腦結構進化的方向發展,並提出了這個模型。

在2012年的時候,我們最初希望去測試一個類大腦系統的智商。

但是經過兩年的研發,最終從類大腦系統的智能智商評測轉變成AI通用的智商評測,這個轉化包含了網際網路和人工智慧關係

為什麼在很長時間裡沒有關於AI定量的分析?

主要面臨兩個困難,第一是人工智慧系統沒有形成統一的模型,第二就是人工智慧系統與以人類為代表的生命體之間沒有形成統一的模型

通俗地說,人類和AlphaGo機器人、IBM的Watson系統等很多的智能系統之間沒有一個統一的模型,告訴我們在智能方面有什麼共性

沒有這樣的模型,就沒有辦法持續深入下去做定量分析,然後評判到底誰優誰劣。

我們在2012年開始研究的時候,困惑了我們長達兩三年。

我們也大量的研究了前人的分析結果。

第一,首先會想到人類的智商和評測。但是我們發現,人類的智商和評測不能直接作為AI的智商評測。

譬如韋特斯勒的評測方法,主要是常識的評測和動手能力,但是很多智能系統連機械臂沒有,沒有辦法進行評測。

但是韋克斯勒的方法給我們一個啟發,就是我們的智力不是單一的要素,它有很多子要素組成,比如常識能力、計算能力、動手能力等等。

第二個給我們啟發的是AI領域和計算機領域中著名的馮諾依曼架構

它啟示我們,智能系統應該有智能的輸入輸出和存儲能力。

第三,就是知識管理裡面比較著名的KIDW模型,它啟示我們人類的智慧裡面最頂級、最重要的能力是創新能力,而不是我們平時的數據、掌握的信息或者知識掌握多少。

基於前沿研究,我們團隊在2014年發表了第一篇論文,提出了標準的智能模型,認為任何一個智能模型同時具備知識的輸入、輸出、掌握和創新能力。

任何一個智能體是這四個方面的組合,只是能力強弱不同而已。

比如老鷹看的更遠,它識別的更清晰。

像IBM的Waston系統掌握常識能力很強,這就是為什麼跟人類的對抗裡面它能獲勝。

AlphaGo 也是這樣,在人類特定的規則之下,它掌握了規則並戰勝人類,這也是一種知識掌握的能力。

更為重要的是創新能力

比如偉大的科學家牛頓看到了蘋果落到地上,發現了萬有引力。

門捷列夫在睡夢中想出元素周期表,這些是人類原生出來的創新知識。

這反映出智能系統在不同的智力方向上強弱不同,我們希望用這一套模型去尋找智慧統一模型

如果把智慧模型和著名的馮諾依曼架構做了關聯,可以看到以紅線劃出來的方框。

給馮諾依曼架構加上創新發生器雲端共享知識庫,馮諾依曼架構就可以從計算機的模型、AI模型轉變成把人類囊括進去的模型。

基於以上的研究,我們在2014年發表的論文裡面,基於標準智能模型四個大的領域,又模仿、學習韋克斯勒的結構,把它又拆分成20多個智慧的子系統。

上圖中,可以看到輸入和輸出,包括圖像的識別和輸出、聲音的識別和輸出、文字的識別和輸出

像我們掌握的常識,包括計算能力、翻譯能力、分類能力等,這些劃分為知識的掌握能力

更為重要的,就是知識的創新能力,可以看到拆分成了若干個重要的分類,譬如發現規律、創新創造能力、猜測預測能力,甚至包括能夠識別敵我能力、撒謊的能力。

這些能力往往會被我們忽略,震驚於AlphaGo的能力,震驚於IBM Waston系統能力,但是這些創新創造能力也許是我們人類真正重要的部分,而且還沒有概括完全,還有一些更深層次的創新能力。

然後,我們基於專家的打分法——德爾菲法,對整個子元素授予它的權重,形成了可以定量測試的方法

智能系統的智能水平測試結果

在2014年和2016年,我們分別對像Google系統、Siri系統,還有6歲兒童、12歲少年、18歲的成人進行了測試。

當時測試的人工智慧系統比較多,只列出了前十位的名單。

大家可以看到,2016年人工智慧增長確實比較快,但是跟6歲的兒童相比依然有相當的差距

兩年的測試過程顯示,雖然人工智慧有很快的增長,但是在最重要的知識創新領域,依然進展非常緩慢

大家也許提問,AlphaGo 的智商怎麼評測呢?

比如,我們把它下棋功能放在知識掌握部分,並為其賦予權重。

但是我們發現AlphaGo在其它方面很弱,甚至創始人被稱之為AlphaGo的人肉手臂,因為它連下棋的能力沒有,還要靠人類幫它下棋。

當然,其它的猜測能力、判斷能力、區別敵我能力,AlphaGo是不具備的,只在下棋這個局部領域非常強大。

如果對AlphaGo進行綜合智商評測,它的得分非常低

我們所表達的含義,就是從科學的角度看,人工智慧想威脅到人類其實還非常遠

我們的這項研究在2017年10月份也得到世界範圍內的關注,像麻省理工科技評論、CNBC以及日本、歐洲和中東的媒體,對這項研究給予了報導。

但是這項研究依然處於起步的階段,它背後包括大量的科學問題還需要我們探索,希望將來能把最新的進展向大家進行匯報。

「格致論道」,原稱「SELF格致論道」,是中國科學院全力推出的科學文化講壇,由中國科學院計算機網絡信息中心和中國科學院科學傳播局聯合主辦,中國科普博覽承辦。致力於非凡思想的跨界傳播,旨在以「格物致知」的精神探討科技、教育、生活、未來的發展。獲取更多信息。本文出品自「格致論道講壇」公眾號(SELFtalks),轉載請註明公眾號出處,未經授權不得轉載。

相關焦點

  • 小學教師讓學生檢測智商 稱能對症下藥-智力量表 短時記憶能力...
    看到這個結果,仲凱和媽媽如釋重負。  等待檢測的孫倩(化名)今年8歲,她面無表情地坐在椅子上,緊張得環抱著手臂。坐在一旁的奶奶不時地安慰著孫女,「放鬆點兒,沒什麼大不了的。我們小倩倩多聰明呀,會唱歌會跳舞,智商怎麼會有問題呢。」  1個小時後,孫倩的檢測結果出來了:70分,及格。
  • 基因檢測靠譜嗎?對比了 3 家檢測結果,我們發現...
    現在,你也許跟我們還有一個相同的問題——這些消費級基因檢測到底靠不靠譜?這次我們篩選了市面上比較火的 3 家消費級基因檢測機構:23 魔方、各色 DNA、微基因,為同一個人做基因檢測。並做了十幾張表單,花兩天時間仔仔細細對比了檢測報告的結果。
  • 我做了一次價值3999元的基因檢測,發現原來是這樣的(上)
    那沒辦法啊,工作那麼多,還不是得做。另一個工人忙不過來,因為太累了,難免會眼花看錯,次品率就上升了。一次兩次還好,如果長期一個人做兩個人的工作,你也懂的,鐵打的金剛也熬不住啊,次品就越來越多了。如果整條流水線有很多次品,這個工廠就攤上大事啦,甚至會導致整個工廠倒閉哦。
  • AlphaGo 圍棋教學工具已發布
    在Deepmind所謂的「教學工具」發布之前,小編曾在腦海出現萬千猜想……但今天揭底才知道,原來只是一個平平淡淡的網頁……(建議複製到電腦上打開,因為據有的棋友反映手機打不開,小編這裡實測手機能打開,只是讀取了較長時間)https://alphagoteach.deepmind.com
  • 多少錢做一次乳腺癌基因檢測?
    這一技術就是朱莉選擇的基因檢測——通過血液篩查相關基因,來確定乳腺癌的患病概率。「並不是每一種癌症都可以通過基因檢測來準確判斷的,但乳腺癌屬於高遺傳性癌症,在這一情況下,通過基因檢測的方式來篩查自己是否患有突變基因,結果就比較具有借鑑意義。」上海長海醫院胸外科專家蔣庚西告訴《第一財經日報》記者。
  • 我做了一次價值3999元的基因檢測,發現原來是這樣的(下)
    >在《我做了一次價值3999元的基因檢測,發現原來是這樣的(上)》中,雷鋒網編輯體驗了一回價值3999元的安吉莉娜·朱莉「同款」基因檢測,這次體驗讓筆者覺得,基因檢測的過程並不如想像中的困難,但同時伴隨而來的一些問題,筆者將在這篇文章裡拋磚引玉。
  • 柯潔終結AI「符合預期」41連勝:若當初第一個與alphago對弈的是我
    【文/觀察者網 周遠方】昨夜,「半狗」柯潔贏了一隻41連勝的「小狗」,輾轉難眠…… 他在今天(18日)凌晨0時23分發微博感嘆: 一個AI滿地走的時代...除了alphago以外,這個暱稱為「符合預期」的AI尤其強,實力應該已經遠超當時與李世石對弈的alphago了吧?...
  • 做絕育術後患上貓瘟,貓主人質疑醫院:一次檢測出兩種結果,無抗體被...
    追溯貓貓從做手術後發病的過程,劉萍發現,做絕育術的醫院對貓貓的「貓三聯抗體」檢測,竟然出了兩份信息不全,結果不同的報告,同時報告顯示貓貓具有貓瘟抗體,與在另一家醫院檢測結果及貓貓臨床症狀不相吻合……當事醫院【貓貓做絕育術後頻繁嘔吐】
  • 千萬別給孩子做微量元素檢測,特別是6個月以下
    但這幾種方法測得的結果都不準確。 頭髮:用來檢測的頭髮並不能保證就是孩子剛生長出來的,很可能是幾周或者幾個月前的,因此測得的結果,也只能反映孩子之前的身體情況,而非當下。況且頭上的其他物質也會影響檢測結果,比如:殘留的洗髮水。 指尖血:指尖血本身就是末梢血,檢測結果也不能完全代表全身血液的元素含量。
  • 柯潔vs阿爾法狗結果:2017alphago對陣柯潔誰贏了(最新)
    柯潔vs阿爾法狗結果:2017alphago對陣柯潔誰贏了(最新)  4月10日報導,Google在中國棋院召開發布會,宣布5月23日-27日在烏鎮主辦「中國烏鎮·圍棋峰會」,去年戰勝韓國職業棋手李世石的圍棋人工智慧AlphaGo將挑戰目前世界排名第一的柯潔九段。
  • 柯潔感嘆AlphaGo可怕:讓三子!如先捅三刀(圖)
    5月24日,柯潔在網上分享狀態,對於AlphaGo團隊給出的檢測報告:Master版本相較戰李世石版本提升3子的結果發表感嘆:在跟怎樣可怕的對手下棋。  柯潔寫到:「早就聽說新版alphago的強大....但...讓...讓三個?我的天,這個差距有多大呢?
  • 老師要求成績差學生做智商測驗 疑出於評優考慮
    第1頁:智商門診暑期爆滿 許多孩子都非自願檢測 第2頁:檢測結果要對孩子保密 老師表示檢測只為「對症下藥」 第3頁:人大代表建議有關部門關注此事  智商門診暑期爆滿 專家:別拿智商分給孩子劃等級  「你的孩子成績這麼差
  • 一對年輕人訂婚後做了基因檢測,結果…孩子到底生不生?
    "我們科近段時間來了一對剛訂婚的聾啞人,他們非常相愛,馬上要結婚了,但基因檢測發現他們生出的孩子百分之百會耳聾,這下結婚生子都成了問題 …… "昨天, 寧波市婦女兒童醫院耳鼻喉科醫生鄭周數,向記者講述了這樣一對特殊戀人的故事。
  • 基因檢測 真能幫我們預測智商嗎?
    通過精挑細選,找到了一組能夠預測抑鬱風險的基因區別,然後算出多基因風險打分,你還需要有一個相對較大,且具有代表性的人群(有些研究是基於歐洲人群做的,不一定適合亞洲人),才能判斷對於某個人的打分處在什麼位置上,從而得出更準確的評價。因此如果你看到某個基因檢測,使用了很多的基因位點,給你呈現的不是一個是或否的結果,而是你在人群中的位置,那麼這個檢測的可信度就更高[4]。
  • 智商檢測卡?銘瑄GT 1030與集顯對決
    老黃新出的 GeForce GT 1030 上市已經有一段時間,這卡從曝光到上市以來圍繞它的段子也不少,再加上一些不明真相的圍觀群眾吶喊助威,一夜之間,仿佛成了白送大家都不要的東西,甚至被標上了智商檢測卡,那麼事實真如大家所說的嗎?今天就來做個試驗吧。
  • 家門口做核酸檢測 35分鐘出結果
    想做核酸檢測,有了一種新的「打開方式」:只需站在一輛輕型客車外的指定位置,便會有採樣機器人完成口腔咽拭子的採樣,採樣樣本通過快速滅活處理後直接加入晶片分析系統,45分鐘即出結果,最快35分鐘可報陽性。整個過程只需要兩名工作人員,車上搭載的8臺低通量或中通量檢測儀每天可分別處理樣本500至2000人份。
  • 全球智商佼佼者,愛因斯坦的智商僅有200,比最高者落後150
    因為他做出來很多優異的成就,所以從小到大我們都會認為愛因斯坦是世界上智商最高的人。其實不是這樣的,世界上早就對智商最高的人做出了一個排名,裡面有五個人,但是你肯定猜不到愛因斯坦在裡邊連第二都排不上。那誰才是智商最高的呢?他叫威廉姆阿爾弗雷德· 昆寧頓,很多人都不知道他是何方神聖,但是他的智商高達到三百五,比著名的愛因斯坦都要高出150。
  • 少年成績倒數被誤認弱智 測智商發現接近天才
    原標題:少年成績倒數被誤認弱智 測智商發現接近天才   為了兒子,高管父親辭職回渝,母親成全職媽媽,可憐天下父母心   醫生說,這是小兒多動症引起,可以治   11歲鵬鵬(化名)的智商測評結果135分!正常人中只有3%~5%的人有這樣的智商水平。
  • 寶媽沒事少給孩子做智力測試,靠譜嗎?測試結果會造成不良影響嗎?
    有些研究兒童心理的專家發現,從嬰兒的微笑中可以大致了解其智力發育的情況。愛笑的孩子要比不愛笑的孩子智力發育更好一些。如果嬰兒出生8~10個星期後,仍不會笑,那麼就可能在智力方面存在著問題。進行智力測試,通常需要寶寶回答問題、配合做任務,而不是像某些家長所認為的那樣,用儀器一掃,智商結果就一目了然。由於嬰兒很難明確告訴你他的真實想法。
  • 寶寶出生「斤兩」暗示智商高低?研究發現:跟我們想像的不太一樣
    結果發現:新生兒的體重越重,則寶寶智商越高! 但事實上,我們可以輕而易舉地從這樣的研究結果中,發現問題所在,因為寶寶出生時的體重不會無限大,而且大到一定程度,也會增加分娩難度,所以「越重」就無從談起。