世界人工智慧智商最新測試結果公布

2020-12-11 網易科技

文|人工智慧學家(微信公眾號:AItists)

谷歌AlphaGo4:1戰勝前圍棋冠軍韓國選手李世石後,人工智慧威脅論進一步瀰漫在社會各個領域,認為谷歌阿爾法狗的勝利標誌著人類沒落的開始,其實在本次比賽前,不同領域的科學家,企業家如物理學家霍金,微軟創始人比爾蓋茨等人,已經紛紛對人工智慧的未來表達了擔心,提出人工智慧的快速發展可能對人類本身產生威脅,由於這些科學家,企業家具有很強的影響力,人工智慧威脅論因此得到廣泛傳播。

針對人工智慧能否超越人類智慧問題, 從2014年開始,由人工智慧學家創辦的AIE實驗室,其成員劉鋒博士帶領的團隊和科學院大數據挖掘與知識管理重點實驗室石勇教授參考馮·諾伊曼結構,維.韋克斯勒人類智力模型定義,知識管理領域DIKW模型體系。發表論文提出了標準智能模型(擴展的馮諾依曼架構)和「人工智慧智商測試量表」,為解決人工智慧與人類智慧未來關係判斷建立理論基礎。


圖1統一人和機器的標準智能模型(擴展馮諾依曼架構)

2014年AIE實驗室研究團隊從信息知識的輸入,輸出,掌握和創新等4個大類 ;圖像、文字、聲音識別;常識、計算、翻譯、創作、挑選、猜測、發現等、15個小類,對世界50個搜尋引擎和三個不同年齡段人群進行了」人工智慧智商測試「,測試結果發現目前人工智慧系統的智商遠遠低於人類智商,最高的谷歌尚不及6歲兒童智商的一半。因此從2014年科技領域關於人工智慧達到三歲兒童智商傳言由此而來,2014年人類和人工智慧系統智商排名如下(前13名)。


2016年2月,AIE實驗室劉鋒團隊和科學院大學劉穎帶領的於蔓璐胡藍藝團隊,開始開展2016年人工智慧智商測試,目前已對包括谷歌,SIRI ,小冰,百度,搜狗,小度等世界知名的人工智慧系統進行了測試。

測試結果顯示,人工智慧的AI得分與兩年前相比,智商都大幅度提高,得分最高的谷歌測評分數為47.28分,高2014年20.78分,距2014年測評的人類6歲兒童的智商差距也由29分縮小至8.22分。具體到一級指標上,人工智慧的知識獲取、掌握、反饋能力都表現良好,但知識創新能力仍是短板所在。下面我們分別看一下參與測試的各人工智慧系統表現情況。

2016年2月 谷歌 智商 47.28

其中知識的獲取能力( 1 0%) 獲得 8 分, 知識的掌握能力( 1 5%) 獲得 1 5分, 知識的創新能力( 65%) 獲得 1 8.84 分, 知識的反饋能力( 1 0%) 獲得 5.44分 。

谷歌搜尋引擎在前兩部分表現優異, 在知識的掌握能力方面獲得滿分, 體現了其優秀的翻譯、 計算、 常識儲備能力 。 在知識的獲取能力方面也獲得 80%的分數, 相較於其他搜尋引擎都是得分最高的 。 值得一提的是, 谷歌搜尋引擎在知識創新能力方面獲得了 29%的分數, 高於其他搜索引 擎 1 0%以上, 知識反饋方面獲得 54.4%, 由於國內對谷歌的使用限制, 本文僅使用了谷歌搜索 PC 端進行測試, PC 端不支持語音回復功能, 所以在聲音表達方面獲得 0 分 。 但經過搜索發現谷歌是具有文字轉語音的功能, 期待之後進行測試時會有意外驚喜 。

綜上, 谷歌搜尋引擎的絕對智商在 2015-2016 年有了突飛猛進的進步, 蟬聯榜首,並且拉大了與其他搜尋引擎的差距 。

2016年2月  度秘 智商 37.2

度秘是百度在 2015 年世界大會上全新推出,為用戶提供秘書化搜索服務的機器人助理。其在廣泛索引真實世界的服務與信息的基礎上,依託百度搜索與智能交互技術,通過人工智慧用機器不斷學習和替代人的行為,為用戶提供優質服務。

各方面得分情況:知識的獲取能力( 10%)方面獲得 6 分,知識的掌握能力( 15%)方面獲得了 15 分,知識的創新能力( 65%)方面獲得了 7.2 分,知識的反饋能力( 10%)獲得了9 分。

具體來說,度秘在知識的掌握能力方面表現最好,在常識、計算以及翻譯部分都表現優秀,獲得了 100%的分數。其次是知識的反饋能力,可以清晰地進行文字和聲音的表達但仍然缺乏對複雜圖像的表達能力而獲得了 90%的分數。度秘的知識的獲取能力方面表現正常,可以較好識別文字和聲音,但無法掃描圖片以及圖片上的文字,而獲得了 60%的分數。度秘在知識的創新能力方面表現較弱,僅在聯想、挑選和發現規律部分獲得部分分數,其他方面未有獲得分數,故在該部分僅獲得 11.1%的分數。

綜上,度秘相較於其他搜尋引擎的智商得分價高,並且在知識掌握方面獲得了滿分,說明世界範圍的人工智慧系統的智商還不斷的提升,人工智慧機器人在不斷的完善。

2016年2月  百度搜索 智商 32.92

各方面得分情況:知識的獲取能力( 10%)方面獲得 6.8 分,知識的掌握能力( 15%)方面獲得 14.25 分,知識的創新能力( 65%)方面獲得 2.88 分,知識反饋能力( 10%)獲得了 9 分。

具體來說,百度搜索在知識的掌握能力方面表現最好,在常識、計算部分表現優秀,而翻譯部分有些許欠缺,獲得了 95%的分數,其次是知識的反饋能力,可以清晰地進行文字和聲音的表達但仍然缺乏對複雜圖像的表達能力而獲得 90%的分數。知識的獲取能力方面表現正常,可以較好識別文字和聲音,在識別圖像部分可掃描圖片並讀取文字但無法根據文字證券回答問題而最終獲得 68%的分數。百度搜索在知識的創新能力方面表現較差,僅在猜測和發現規律部分有所分數,僅獲得 4.43%的分數。

綜上,百度搜索相較於其他搜尋引擎的智商得分較高,且對比 2014 年的測試結果有所提升,說明世界範圍的人工智慧系統的智商提高較為明顯,但在知識的創新能力方面仍然有較大改進空間。

2016年2月  搜狗 智商 32.25

其中知識的獲取能力(10%) 獲得 6 分, 知識的掌握能力(15%) 獲得 14.61分, 知識的創新能力(65%) 獲得 7.2 分, 知識的反饋能力(10%) 獲得 4.44分。

搜狗搜索前兩部分均獲得較高的成績, 尤其在知識的掌握能力方面獲得的分數最多,獲得 97.4%的分數,體現了其優秀的翻譯、計算、常識儲備能力。知識的獲取能力方面獲得了 60%的分數, 主要受圖像識別的影響, 4 道題均沒有有效識別。知識創新能力方面只獲得了 11%的分數,尤其在排列、創造、發現能力上均為 0 分。知識反饋方面獲得 44.4%, 搜狗搜索不支持語音回復功能,所以在聲音表達方面獲得 0 分。

綜上, 2015 年搜狗搜索的得分水平高於 2014 年,在各項項中均有所提高,但在創新能力、語音表達、圖像識別處理等方面需要進一步提高。

2016年2月  微軟必應 商 31.98

各方面的得分情況:知識的獲取能力(10%)方面獲得 6 分,知識的掌握能力(15%) 方面獲得 13.86 分, 知識的創新能力(65%) 方面獲得 7.2 分, 知識的反饋能力(10%)上獲得 4.92 分。

必應搜索在知識的獲取能力及知識的掌握能力方面獲得較高的分數, 尤其在知識的掌握能力上表現突出, 獲得 92.4%的分數, 體現了優秀的翻譯、 計算、 常識儲備能力。 知識的獲取能力方面獲得了 60%的分數, 主要是由於其不能有效識別圖像並提供正確答案。 知識創新能力方面只獲得了 11%的分數, 而且得分的方面也只能反饋答案, 沒有針對性。 知識反饋能力方面僅獲得 44.4%的分數, 必應在不具備語言回復的功能,所以該項沒有得分。

綜上, 2015 年必應搜索的得分水平高於 2014 年,在各項項中均有所提高,但在創新能力、語音表達、圖像識別處理等方面需要進一步提高。

2016年2月  微軟小冰 商 31.98 

「微軟小冰」 是微軟(亞洲) 網際網路工程院在 2014 年 5 月 29 日發布一款人工智慧伴侶虛擬機器人。

各方面的得分情況: 知識的獲取能力(10%) 方面獲得 6 分, 知識的掌握能力(15%) 方面獲得 12 分, 知識的創新能力(65%) 方面獲得 3 分, 知識的反饋能力(10%)上獲得 3.48 分。微軟小冰在知識的掌握能力方面表現的最好, 獲得了 80%的分數, 其次是知識的獲取能力。 知識的反饋能力方面表現處於正常水平, 由於不支持語音反饋導致, 並且在圖像反饋方面的能力也較差。 知識的創新方面表現的相較於其他搜尋引擎較差。

綜上,微軟小冰相較於其他搜尋引擎智商得分較低,但相比於 2014 年仍為較高水平, 說明世界範圍的人工智慧系統的智商提高較為明顯。 但在用戶使用功能的方便性上希望可以進一步優化, 能夠直接獲得完整功能, 讓客戶快速獲得有用信息。 當然, 也是受到這方面因素影響, 對小冰的測試結果存在低估, 之後會對其全部解鎖的功能再次測量。

蘋果SIRI2月  智商 23.94

各方面得分情況:知識獲取能力( 10%)獲得 6 分,知識的掌握能力( 15%)獲得 10.5分,知識的創新能力( 65%)獲得 1.44 分,知識的反饋能力( 10%)獲得 6 分。

具體來說, Siri 在知識的掌握能力方面表現最好,在常識、計算部分都有優秀表現,但缺乏翻譯功能,獲得了 70%的分數。其次為知識的獲取能力和反饋能力部分,皆獲得了 60%的分數,其中在知識的獲取能力方面,在識別文字和聲音部分獲得滿分,但無法掃描圖片故未獲得識別圖片的分數,在知識的反饋能力方面, Siri 可以進行文字和聲音的表達但無法給予圖像的表達。知識的創新能力部分則表現最差,僅在發現規律部分獲得部分分數,故只獲得 2.2%的分數。

綜上, Siri 相較於其他搜尋引擎的智商得分較低,在知識的掌握、獲取以及反饋能力部分皆有改進空間,而在知識的創新能力部分的較大欠缺表明人工智慧系統在創新能力方面仍然有較大進步空間。

結束語:

AIE實驗室研究團隊後續將繼續開展第二批測試,研究對象將涵蓋目前世界上近百個人工智慧系統,也將與IBM沃森系統積極聯繫,對沃森系統進行智商測試。測試結果在2016年3月逐步對外公布。期間《人工智慧學家》將組織多場研討會對人工智慧智商測試問題和人工智慧未來發展方向進行探討。

人工智慧與網際網路進化實驗室(AIE Lab)是在科學院大數據與知識管理重點實驗室等科研機構以及諸多專家支持下,由」人工智慧學家「籌備建立的獨立前沿科技研究機構。

AIE實驗室重點研究網際網路,人工智慧,腦科學,虛擬實境,機器人,移動網際網路等領域的未來發展趨勢和重大科學問題,發現符合網際網路進化趨勢的創新技術和創新企業。

AIE實驗室將充分利用網際網路創新研究模式,邀請跨領域科學家,企業家和投資人,依託科學院等相關機構的科研優勢,開展上述領域的前沿交叉和未來發展趨勢研究,力爭成為世界領先的獨立科學研究機構和創新成果孵化器。

本文來源:網易科技報導 責任編輯:齊亞倫_NT4779

本文為作者獨立觀點,不代表網易科技立場。 《易語中的》為網易科技旗下重點打造的專欄作者平臺,歡迎投稿!投稿通道:taidutougao@163.com

相關焦點

  • 世界智慧型手機AI智商測試報告發布
    智慧型手機也可以測智商嗎?是的。11月21日,中國科學院虛擬經濟與數據科學研究中心、中國科學院大數據挖掘與知識管理重點實驗室和天府大數據國際戰略與技術研究院在北京正式發布了中英文版的《2018—2019世界智慧型手機AI智商測試報告》。
  • 2018年AI智商將達到多少?第三次世界AI智商評測啟動
    2016年2月,研究團隊開展了「2016年人工智慧系統的智商測試」,對包括谷歌、百度、搜狗、蘋果Siri、微軟小冰在內的人工智慧系統進行了測試,從測試結果看,谷歌、百度等人工智慧系統的性能比兩年前已有大幅提高,但仍與6歲兒童有一定差距
  • 世界第一個AI智商評測機構未來智能實驗室成立
    二.AI智商評測的最新研究面對AI的突然爆發,人工智慧威脅論的廣泛傳播,那麼AI究竟能不能超越人類,AI智能水平究竟達到什麼水平,各種智能產品究竟有多少智能,各種爆炸性的AI和機器人突破事件究竟是否真實,這些問題都說明需要在科學上有一套方法,能夠對包括AI系統,人類和其他智能體進行統一的智能水平測試,以判斷它們的發展水平。
  • ai語音助手測試結果出爐,谷歌智商領先蘋果
    打開APP ai語音助手測試結果出爐,谷歌智商領先蘋果 發表於 2017-10-12 17:58:20   近幾年,AI語音助手的款式層出不窮,相對於其他不知名的語音助手,蘋果和谷歌都取得了不錯的成就,通過幾項測試,AI語音助手終於有了成績。
  • 擊敗水哥王昱珩還不算最強,有個人工智慧已經通過人類的智商測試了…
    這幾天百度的人工智慧在《最強大腦》擊敗「水哥」王昱珩,再次引發了人們對於人工智慧的熱議。然而人工智慧在人臉識別的比賽中擊敗水哥,還遠遠稱不上「最強大腦」,因為模式識別只是人工智慧的第一步。下一步,是像人一樣觀察和理解這個世界。今天『量子位』就講一個科學家進一步縮短計算機和人腦之間鴻溝的故事。不過,在繼續之前,先考一考大家,下面這道題答案是什麼?
  • 我們給AlphaGo做了一次智商檢測,結果發現……
    自從AlphaGo 戰勝了人類,獲得了世界冠軍,各種關於人工智慧的威脅論眾說紛紜,人工智慧儼然走在了風口浪尖。如何判定AI的智商?如何評定AI的綜合素質?在2012年的時候,我們最初希望去測試一個類大腦系統的智商。但是經過兩年的研發,最終從類大腦系統的智能智商評測轉變成AI通用的智商評測,這個轉化包含了網際網路和人工智慧關係。為什麼在很長時間裡沒有關於AI定量的分析?
  • 智慧型手機AI智商哪家強?——世界智慧型手機AI智商測試報告在京發布
    科學院AI智商研究團隊石勇、劉鋒對世界智慧型手機AI智商測試的研究情況進行了詳細介紹。中科院AI智商研究團隊劉鋒發言智慧型手機作為人們與外界即時連接的終端設備,不僅極大地滿足了人們的通訊需求,更是滲透到了娛樂、社交、教育、醫療和生活服務各個領域,成為大眾工作生活不可分割的一部分。
  • 人工智慧是如何成為「智商檢測器」的?
    編輯導讀:人工智慧概念雖然已經流行了很多年,並且在一些產品上得到落地與應用。不過從整理的商業環境出發,人工智慧大多數時候只是一個「智商檢測器」,商家們打著「人工智慧」的幌子,包裝的卻是「坑蒙誘騙」的生意。文章對此展開了詳細的說明,一起來看看。在5G沒有取代4G之前,也許一切有關AI未來的暢想都只是空談。
  • 愛因斯坦「智商200」?專家:都是假的!家長不必在意孩子智商測試結果
    很多家長熱衷於給自己的孩子測試智商但廣州中醫藥大學碩士生導師陳浩昨天在公開講座中告訴在座的家長,家長不要迷信於智商測試的結果。智商的測定實際上並不能反映一個人的全部智力水平,家長也不必太過在意在外面的商業機構測定的孩子的智商的高低。關於愛因斯坦「智商200」也只是謠傳,根本不足為據。
  • 最新人工智慧系統超級厲害!能準確揭曉人們有多聰明
    網易科技訊  6月30日消息,一項最新人工智慧系統可能超越現有的智商測試,僅通過掃描你的大腦就能知道你有多麼聰明。
  • ...九成結果正常或偏高-測智商 差生 智商測試 孩子 弱智 家長 高...
    9歲的亮亮(化名)學習成績常年擺尾,老師多次向家長暗示「孩子智商有問題」,可測試結果卻令其父大跌眼鏡:兒子的智商距「天才級」僅差6分。  無獨有偶,一位6歲女孩近日也被母親帶到醫院測智商,原因是參加一所小學的入學面試沒通過,被別人提示「是不是孩子不夠靈光,做個智商測試吧」,但測試結果顯示一切正常。
  • "中國雨人"測試結果:智商情商低 數字能力超常
    "中國雨人"測試結果:智商情商低 數字能力超常 近日,在江蘇衛視《最強大腦》節目組的幫助下,周瑋前往北京、上海接受了上海交通大學、華東師範大學等機構和專家的行為及腦測試。結果表明:從量表測驗的結果來看,周瑋的智商和情商都顯著地低於常人,但他的算術能力在多方面測試上與常人一致,並且在開方、乘方上遠超成人。
  • 世界雙面組件國際比對結果公布
    世界雙面太陽能組件國際比對結果公布,陝西眾森PV Test 實驗室測試結果與世界知名實驗室結果一致(後附項目背景和報告),證明了國產測試設備已達到國際先進水平。此次國際能力驗證測試項目,是按照國際最新標準IEC 60904-1-2雙面組件電壓電流測試方法,要求各實驗室對單面組件和雙面組件樣品在不同測試條件下,分別測量關鍵光電性能參數,包括短路電流、開路電壓、正面功率、背面功率、總功率、雙面率等。
  • 年度智能音箱智商測試:谷歌助手智商最高 能完全理解用戶的指令
    年度智能音箱智商測試:谷歌助手智商最高 能完全理解用戶的指令  olivia chan • 2018-12-21 11:15
  • 用五個實驗來測試《我的世界》村民的智商!結果讓人不敢相信!
    沒錯,在《我的世界》中,村民就是個大大的奸商!咱們玩家從他那買把鐵劍,需要花上五六顆綠寶石的代價,而當我們將鐵劍賣給村民時,這幫黑商卻只願意給一顆綠寶石的錢!這不是奸商是什麼?不過話說回來,能當奸商,這說明村民的智商絕對不低!這不禁讓方塊菌心生好奇:這幫村民的智商到底有多高呢?
  • 匪夷所思的智商測試
    譜寫智商測試的興衰史 《智商測試》一書講述了智商測試的緣起及其原理,介紹了近百年的發展歷程和應用情況,剖析了智商測試背後的真正「面目」,探討了它是如何滲透到人類世界。而《智商測試》是他的第一本書。 智商測試在一百多年後的今天,依舊在各個學校、醫院活躍著,大多數人傾心於智商測試,迷戀智商指數,卻從未真正關注過它的緣起,從未想過是否一套測試題就能肯定或否定自己所擁有的智慧。而默多克是如何關注到智商測試的光環下的影子並寫出這本書的呢? 當默多克還是一名心理學本科生時,就已經知道了創立這類測試的一些歷史人物。
  • 「中國雨人」周瑋腦測試結果出爐:智商得分56
    近日,在江蘇衛視《最強大腦》節目組的幫助下,周瑋前往北京、上海接受了上海交通大學、華東師範大學等機構和專家的行為及腦測試。結果表明:從量表測驗的結果來看,周瑋的智商和情商都顯著地低於常人,但他的算術能力在多方面測試上與常人一致,並且在開方、乘方上遠超成人。
  • 智商測試真的靠譜嗎
    說到智商測試,你肯定聽說過,這是一種通過做題來測試一個人智力水平的方法。其實就是給你一套題,然後讓你在一定時間內把它們做出來。你做這些題目的得分,經過複雜的運算和對比,最後得出的就是你的智商。現在世界上有很多不同的智商測試題,網上也流傳著很多測試題目。那這種測試智商的方法,到底靠不靠譜呢?有沒有科學依據呢?其實,專業的智商測試還是有一定的科學依據的。
  • 智商測試到底是不是精確的?你是否了解真正的智商測試呢?
    其實這個問題,自從智商測試發明以來,就不斷有人爭論。它測試的是天生的「智力」、綜合心理能力,還是像埃德溫.波林所說的那樣,「做智商測試的能力」?無論答案如何,總是不斷有研究證明,智商測試得高分的人學習成績更高、工作表現更好、掙的錢更多、犯罪率更低,甚至於連壽命都更長。
  • 「智商測試」真的能夠測試智商嗎?
    為此,推孟在自己的「斯坦福-比奈測驗」當中引入了世界上第一個智商分級系統。如大於140分是接近天才或天才,110-120是智力出眾,低於70分是智力孱弱等。為了不與現行的標準混淆,恕不在此詳述當時的等級劃分標準。