世界人工智慧智商最新測試結果公布

2020-12-11 網易科技

文|人工智慧學家（微信公眾號：AItists）

谷歌AlphaGo4：1戰勝前圍棋冠軍韓國選手李世石後，人工智慧威脅論進一步瀰漫在社會各個領域，認為谷歌阿爾法狗的勝利標誌著人類沒落的開始，其實在本次比賽前，不同領域的科學家，企業家如物理學家霍金，微軟創始人比爾蓋茨等人，已經紛紛對人工智慧的未來表達了擔心，提出人工智慧的快速發展可能對人類本身產生威脅，由於這些科學家，企業家具有很強的影響力，人工智慧威脅論因此得到廣泛傳播。

針對人工智慧能否超越人類智慧問題，從2014年開始，由人工智慧學家創辦的AIE實驗室，其成員劉鋒博士帶領的團隊和科學院大數據挖掘與知識管理重點實驗室石勇教授參考馮·諾伊曼結構，維.韋克斯勒人類智力模型定義，知識管理領域DIKW模型體系。發表論文提出了標準智能模型（擴展的馮諾依曼架構）和「人工智慧智商測試量表」，為解決人工智慧與人類智慧未來關係判斷建立理論基礎。

圖1統一人和機器的標準智能模型（擴展馮諾依曼架構）

2014年AIE實驗室研究團隊從信息知識的輸入,輸出，掌握和創新等4個大類；圖像、文字、聲音識別；常識、計算、翻譯、創作、挑選、猜測、發現等、15個小類，對世界50個搜尋引擎和三個不同年齡段人群進行了」人工智慧智商測試「，測試結果發現目前人工智慧系統的智商遠遠低於人類智商，最高的谷歌尚不及6歲兒童智商的一半。因此從2014年科技領域關於人工智慧達到三歲兒童智商傳言由此而來，2014年人類和人工智慧系統智商排名如下（前13名）。

2016年2月，AIE實驗室劉鋒團隊和科學院大學劉穎帶領的於蔓璐胡藍藝團隊，開始開展2016年人工智慧智商測試，目前已對包括谷歌，SIRI ,小冰，百度，搜狗，小度等世界知名的人工智慧系統進行了測試。

測試結果顯示，人工智慧的AI得分與兩年前相比，智商都大幅度提高，得分最高的谷歌測評分數為47.28分，高2014年20.78分，距2014年測評的人類6歲兒童的智商差距也由29分縮小至8.22分。具體到一級指標上，人工智慧的知識獲取、掌握、反饋能力都表現良好，但知識創新能力仍是短板所在。下面我們分別看一下參與測試的各人工智慧系統表現情況。

2016年2月 谷歌 智商 47.28

其中知識的獲取能力（ 1 0%）獲得 8 分，知識的掌握能力（ 1 5%）獲得 1 5分，知識的創新能力（ 65%）獲得 1 8.84 分，知識的反饋能力（ 1 0%）獲得 5.44分。

谷歌搜尋引擎在前兩部分表現優異，在知識的掌握能力方面獲得滿分，體現了其優秀的翻譯、計算、常識儲備能力。在知識的獲取能力方面也獲得 80%的分數，相較於其他搜尋引擎都是得分最高的。值得一提的是，谷歌搜尋引擎在知識創新能力方面獲得了 29%的分數，高於其他搜索引擎 1 0%以上，知識反饋方面獲得 54.4%，由於國內對谷歌的使用限制，本文僅使用了谷歌搜索 PC 端進行測試， PC 端不支持語音回復功能，所以在聲音表達方面獲得 0 分。但經過搜索發現谷歌是具有文字轉語音的功能，期待之後進行測試時會有意外驚喜。

綜上，谷歌搜尋引擎的絕對智商在 2015-2016 年有了突飛猛進的進步，蟬聯榜首，並且拉大了與其他搜尋引擎的差距。

2016年2月 度秘 智商 37.2

度秘是百度在 2015 年世界大會上全新推出，為用戶提供秘書化搜索服務的機器人助理。其在廣泛索引真實世界的服務與信息的基礎上，依託百度搜索與智能交互技術，通過人工智慧用機器不斷學習和替代人的行為，為用戶提供優質服務。

各方面得分情況：知識的獲取能力（ 10%）方面獲得 6 分，知識的掌握能力（ 15%）方面獲得了 15 分，知識的創新能力（ 65%）方面獲得了 7.2 分，知識的反饋能力（ 10%）獲得了9 分。

具體來說，度秘在知識的掌握能力方面表現最好，在常識、計算以及翻譯部分都表現優秀，獲得了 100%的分數。其次是知識的反饋能力，可以清晰地進行文字和聲音的表達但仍然缺乏對複雜圖像的表達能力而獲得了 90%的分數。度秘的知識的獲取能力方面表現正常，可以較好識別文字和聲音，但無法掃描圖片以及圖片上的文字，而獲得了 60%的分數。度秘在知識的創新能力方面表現較弱，僅在聯想、挑選和發現規律部分獲得部分分數，其他方面未有獲得分數，故在該部分僅獲得 11.1%的分數。

綜上，度秘相較於其他搜尋引擎的智商得分價高，並且在知識掌握方面獲得了滿分，說明世界範圍的人工智慧系統的智商還不斷的提升，人工智慧機器人在不斷的完善。

2016年2月百度搜索 智商 32.92

各方面得分情況：知識的獲取能力（ 10%）方面獲得 6.8 分，知識的掌握能力（ 15%）方面獲得 14.25 分，知識的創新能力（ 65%）方面獲得 2.88 分，知識反饋能力（ 10%）獲得了 9 分。

具體來說，百度搜索在知識的掌握能力方面表現最好，在常識、計算部分表現優秀，而翻譯部分有些許欠缺，獲得了 95%的分數，其次是知識的反饋能力，可以清晰地進行文字和聲音的表達但仍然缺乏對複雜圖像的表達能力而獲得 90%的分數。知識的獲取能力方面表現正常，可以較好識別文字和聲音，在識別圖像部分可掃描圖片並讀取文字但無法根據文字證券回答問題而最終獲得 68%的分數。百度搜索在知識的創新能力方面表現較差，僅在猜測和發現規律部分有所分數，僅獲得 4.43%的分數。

綜上，百度搜索相較於其他搜尋引擎的智商得分較高，且對比 2014 年的測試結果有所提升，說明世界範圍的人工智慧系統的智商提高較為明顯，但在知識的創新能力方面仍然有較大改進空間。

2016年2月搜狗 智商 32.25

其中知識的獲取能力（10%）獲得 6 分，知識的掌握能力（15%）獲得 14.61分，知識的創新能力（65%）獲得 7.2 分，知識的反饋能力（10%）獲得 4.44分。

搜狗搜索前兩部分均獲得較高的成績，尤其在知識的掌握能力方面獲得的分數最多，獲得 97.4%的分數，體現了其優秀的翻譯、計算、常識儲備能力。知識的獲取能力方面獲得了 60%的分數，主要受圖像識別的影響， 4 道題均沒有有效識別。知識創新能力方面只獲得了 11%的分數，尤其在排列、創造、發現能力上均為 0 分。知識反饋方面獲得 44.4%，搜狗搜索不支持語音回復功能，所以在聲音表達方面獲得 0 分。

綜上， 2015 年搜狗搜索的得分水平高於 2014 年，在各項項中均有所提高，但在創新能力、語音表達、圖像識別處理等方面需要進一步提高。

2016年2月 微軟必應 智商 31.98

各方面的得分情況：知識的獲取能力（10%）方面獲得 6 分，知識的掌握能力（15%）方面獲得 13.86 分，知識的創新能力（65%）方面獲得 7.2 分，知識的反饋能力（10%）上獲得 4.92 分。

必應搜索在知識的獲取能力及知識的掌握能力方面獲得較高的分數，尤其在知識的掌握能力上表現突出，獲得 92.4%的分數，體現了優秀的翻譯、計算、常識儲備能力。知識的獲取能力方面獲得了 60%的分數，主要是由於其不能有效識別圖像並提供正確答案。知識創新能力方面只獲得了 11%的分數，而且得分的方面也只能反饋答案，沒有針對性。知識反饋能力方面僅獲得 44.4%的分數，必應在不具備語言回復的功能，所以該項沒有得分。

綜上， 2015 年必應搜索的得分水平高於 2014 年，在各項項中均有所提高，但在創新能力、語音表達、圖像識別處理等方面需要進一步提高。

2016年2月 微軟小冰 智商 31.98

「微軟小冰」是微軟（亞洲）網際網路工程院在 2014 年 5 月 29 日發布一款人工智慧伴侶虛擬機器人。

各方面的得分情況：知識的獲取能力（10%）方面獲得 6 分，知識的掌握能力（15%）方面獲得 12 分，知識的創新能力（65%）方面獲得 3 分，知識的反饋能力（10%）上獲得 3.48 分。微軟小冰在知識的掌握能力方面表現的最好，獲得了 80%的分數，其次是知識的獲取能力。知識的反饋能力方面表現處於正常水平，由於不支持語音反饋導致，並且在圖像反饋方面的能力也較差。知識的創新方面表現的相較於其他搜尋引擎較差。

綜上，微軟小冰相較於其他搜尋引擎智商得分較低，但相比於 2014 年仍為較高水平，說明世界範圍的人工智慧系統的智商提高較為明顯。但在用戶使用功能的方便性上希望可以進一步優化，能夠直接獲得完整功能，讓客戶快速獲得有用信息。當然，也是受到這方面因素影響，對小冰的測試結果存在低估，之後會對其全部解鎖的功能再次測量。

蘋果SIRI2月智商 23.94

各方面得分情況：知識獲取能力（ 10%）獲得 6 分，知識的掌握能力（ 15%）獲得 10.5分，知識的創新能力（ 65%）獲得 1.44 分，知識的反饋能力（ 10%）獲得 6 分。

具體來說， Siri 在知識的掌握能力方面表現最好，在常識、計算部分都有優秀表現，但缺乏翻譯功能，獲得了 70%的分數。其次為知識的獲取能力和反饋能力部分，皆獲得了 60%的分數，其中在知識的獲取能力方面，在識別文字和聲音部分獲得滿分，但無法掃描圖片故未獲得識別圖片的分數，在知識的反饋能力方面， Siri 可以進行文字和聲音的表達但無法給予圖像的表達。知識的創新能力部分則表現最差，僅在發現規律部分獲得部分分數，故只獲得 2.2%的分數。

綜上， Siri 相較於其他搜尋引擎的智商得分較低，在知識的掌握、獲取以及反饋能力部分皆有改進空間，而在知識的創新能力部分的較大欠缺表明人工智慧系統在創新能力方面仍然有較大進步空間。

結束語：

AIE實驗室研究團隊後續將繼續開展第二批測試，研究對象將涵蓋目前世界上近百個人工智慧系統，也將與IBM沃森系統積極聯繫，對沃森系統進行智商測試。測試結果在2016年3月逐步對外公布。期間《人工智慧學家》將組織多場研討會對人工智慧智商測試問題和人工智慧未來發展方向進行探討。

人工智慧與網際網路進化實驗室(AIE Lab)是在科學院大數據與知識管理重點實驗室等科研機構以及諸多專家支持下，由」人工智慧學家「籌備建立的獨立前沿科技研究機構。

AIE實驗室重點研究網際網路，人工智慧，腦科學，虛擬實境，機器人，移動網際網路等領域的未來發展趨勢和重大科學問題，發現符合網際網路進化趨勢的創新技術和創新企業。

AIE實驗室將充分利用網際網路創新研究模式，邀請跨領域科學家，企業家和投資人，依託科學院等相關機構的科研優勢，開展上述領域的前沿交叉和未來發展趨勢研究，力爭成為世界領先的獨立科學研究機構和創新成果孵化器。

本文來源：網易科技報導責任編輯：齊亞倫_NT4779

本文為作者獨立觀點，不代表網易科技立場。《易語中的》為網易科技旗下重點打造的專欄作者平臺，歡迎投稿！投稿通道:taidutougao@163.com

世界人工智慧智商最新測試結果公布

相關焦點

世界智慧型手機AI智商測試報告發布

2018年AI智商將達到多少?第三次世界AI智商評測啟動

世界第一個AI智商評測機構未來智能實驗室成立

ai語音助手測試結果出爐,谷歌智商領先蘋果

擊敗水哥王昱珩還不算最強,有個人工智慧已經通過人類的智商測試了…

我們給AlphaGo做了一次智商檢測,結果發現……

智慧型手機AI智商哪家強?——世界智慧型手機AI智商測試報告在京發布

人工智慧是如何成為「智商檢測器」的?

愛因斯坦「智商200」?專家:都是假的!家長不必在意孩子智商測試結果

最新人工智慧系統超級厲害!能準確揭曉人們有多聰明

...九成結果正常或偏高-測智商差生智商測試孩子弱智家長高...

"中國雨人"測試結果:智商情商低數字能力超常

世界雙面組件國際比對結果公布

年度智能音箱智商測試:谷歌助手智商最高能完全理解用戶的指令

用五個實驗來測試《我的世界》村民的智商!結果讓人不敢相信!

匪夷所思的智商測試

「中國雨人」周瑋腦測試結果出爐:智商得分56

智商測試真的靠譜嗎

智商測試到底是不是精確的?你是否了解真正的智商測試呢?

「智商測試」真的能夠測試智商嗎?

世界人工智慧智商最新測試結果公布

相關焦點

世界智慧型手機AI智商測試報告發布

2018年AI智商將達到多少?第三次世界AI智商評測啟動

世界第一個AI智商評測機構未來智能實驗室成立

ai語音助手測試結果出爐,谷歌智商領先蘋果

擊敗水哥王昱珩還不算最強,有個人工智慧已經通過人類的智商測試了…

我們給AlphaGo做了一次智商檢測,結果發現……

智慧型手機AI智商哪家強?——世界智慧型手機AI智商測試報告在京發布

人工智慧是如何成為「智商檢測器」的?

愛因斯坦「智商200」?專家:都是假的!家長不必在意孩子智商測試結果

最新人工智慧系統超級厲害!能準確揭曉人們有多聰明

...九成結果正常或偏高-測智商 差生 智商測試 孩子 弱智 家長 高...

"中國雨人"測試結果:智商情商低 數字能力超常

世界雙面組件國際比對結果公布

年度智能音箱智商測試:谷歌助手智商最高 能完全理解用戶的指令

用五個實驗來測試《我的世界》村民的智商!結果讓人不敢相信!

匪夷所思的智商測試

「中國雨人」周瑋腦測試結果出爐:智商得分56

智商測試真的靠譜嗎

智商測試到底是不是精確的?你是否了解真正的智商測試呢?

「智商測試」真的能夠測試智商嗎?

...九成結果正常或偏高-測智商差生智商測試孩子弱智家長高...

"中國雨人"測試結果:智商情商低數字能力超常

年度智能音箱智商測試:谷歌助手智商最高能完全理解用戶的指令