雷鋒網(公眾號:雷鋒網) AI 科技評論按:美國史丹福大學創立的 AI Index 項目旨在追蹤人工智慧的活動和進展,以可靠、可驗證數據為基礎,研究人工智慧對人們生活的影響。2018 年度的《AI Index》在 2018 年 12 月 17 日如期發布,從學界和業界的角度對全球的 AI 生態進行了全盤總結。
AI Index 最早可追溯至美國史丹福大學一個名叫「AI100」的項目,其首要目標是持續地去調查、總結人工智慧未來 100 年在學術研究、經濟、道德倫理、法律等方面的進展和對此的展望,然而遺憾的是,該報告每五年推出一次,不能及時跟蹤 AI 的發展。2016 年,史丹福大學計算機科學院教授,前谷歌首席科學家 Yoav Shoham 決定退出「AI100」的領導小組,並和 Ray、Erik、Jack 和 Kelven 等人開始領導、開發一項旨在及時跟蹤並反映人工智慧當前發展的現狀的一個指標體系——AI Index。
第一份報告《AI Index 2017》於 2017 年 12 月份正式推出,上個月 17 日,第二份報告《AI Index 2018》如期發布。
經雷鋒網 AI 科技評論分析,與上一年相比,《AI Index 2018》的分析指標更全面細緻,同時不再只注重於北美地區的 AI 活動分析。具體內容方面,有幾個亮點值得我們關注:
中國在 2017 年產出全球 25% 的 AI 論文(排名第一的歐洲也才 28%),AI 論文發表數量與 2007 年相比,增幅將近 150%,然而論文影響力部分依然存在增長空間。
美國依然是全球論文引用影響力最高的地區,美國學者的論文引用影響力要比全球平均水平高出 83%。
自 2007 年以來,中國政府署名 AI 論文經歷了 400% 的增長,而同期中國企業署名 AI 論文增長只有 73%。
中國擁有最高比例的固守類 AI 學者(76%),其次為歐洲(52%)和美國(38%)。固守類 AI 學者即那些未曾在家鄉以外地區發表過論文的活躍研究人員。中國的非固守類學者雖然佔比較小,然而論文出版率卻高於其他兩個地區的非固守類學者,說明中國的非固守類學者更有效率。
自 2014 年開始,計算機視覺與模式識別一直是 arXiv 上為數最多的 AI 子類論文。
神經網絡論文在 2010 年——2014 年的複合年增長率(CAGR)為 3 %,而這個數值在 2014 年——2017 年期間則是 37 %。
2014 年,30% 的 AI 專利源自美國,韓國和日本分別以 16% 排在第二、第三。
由於報告信息體量較大,雷鋒網 AI 科技評論挑選了其中大部分的學術章節與小部分的業界章節進行翻譯,其他內容可自行查閱:
http://cdn.aiindex.org/2018/AI%20Index%202018%20Annual%20Report.pdf
活動體量
【AI 學術論文發表情況】
1)主題
下圖展示不同主題的學術論文的年度發表情況(與 1996 年對比),報告將這些主題劃分為:AI 、計算機科學以及所有領域。
數據來源:Scopus
結果表明:
2)地區
下圖展示不同地區的 AI 論文的年度發表情況。
數據來源:Elsevier
結果表明:
歐洲繼續穩坐 AI 論文發表戶的頭把交椅,在 2017 年產出全球 28% 的 AI 論文。
緊隨其後的中國在 2017 年產出全球 25% 的 AI 論文,AI 論文發表數量與 2007 年相比,增幅將近 150%(儘管 2008 年前後曾出現異常波動)。
排名第三的美國在 2017 年產出全球 17% 的 AI 論文。
3)子類別
下圖展示不同子類別的 AI 論文的發表情況。需要強調的是,這些子類別之間並非排他關係。
數據來源:Elsevier
結果表明:
機器學習與概率推理論文佔到 2017 年論文總數的 56%,而這個比例在 2010 年時只有 28 %。
相較 2010 年——2014 年,大部分子類別的論文發表率在 2014——2017 年期間經歷了高速增長。
值得注意的是,神經網絡論文在 2010 年——2014 年的複合年增長率(CAGR)為 3 %,而這個數值在 2014 年——2017 年期間則是 37 %。
4)arXiv
下圖展示幾個關鍵子類別的 AI 論文在 arXiv 上的發表數量。右軸是 arXiv 上所有 AI 論文的總和(由灰色虛線進行表示)。
數據來源:arXiv
結果表明:
5)側重領域
下圖展示美國、歐洲與中國的 Relative Activity Index (RAI 指數)——RAI 指數通過將具體某個地區的 AI 研究活動與全球進行對比,從而近似某個地區的 AI 研究側重。
如果指數是 1,說明與全球保持一致,大於 1 意味重視,小於 1 則意味較少被關注。
數據來源:Elsevier
結果表明:
6)署名機構
下圖展示 Scopus 上由政府、企業和醫療機構署名的論文總量,涉及中國、美國和歐洲 3 個地區。此外,我們也展示了企業署名論文與政府署名論文的增長情況。
數據來源:Elsevier
數據來源:Elsevier
結果表明:
2017 年,中國政府署名 AI 論文的產量幾乎是中國企業署名論文的 4 倍。自 2007 年以來,中國政府署名 AI 論文經歷了 400% 的增長,同期中國企業署名 AI 論文的增長只有 73%。
美國的 AI 論文很大比例都是由企業產出的,單就 2017 年而言,其企業署名 AI 論文的比例是中國的 6.6 倍,歐洲的 4.1 倍。
需要強調的是,三個地區的高校署名論文(圖中未顯示)在數量上都超過了政府、企業和醫療機構。
7)論文引用影響力
下圖展示不同地區 AI 學者的科研論文影響力(Field Weighted Citation Impact,簡稱 FWCI)——FWCI 將某地區 AI 學者的論文引用平均值除以了所有 AI 學者的論文引用平均值。圖中的 FWCI 被我們重新進行調整,其引用影響力是相對於世界平均值進行展示的。
如果其指數是 1,說明論文的引用影響力與世界平均值保持一致,如果指數是 0.85,說明論文的引用影響力要比世界平均值低 15%。
數據來源:Elsevier
結果表明:
作為全球每年發布 AI 論文最多的地區,歐洲 AI 論文的引用影響力維持在相對平穩的水平,基本與全球平均水平相當。
中國的論文引用影響力有明顯增長,中國學者在 2016 年的論文引用影響力要比 2000 年高出 44%。
美國依然是全球論文引用影響力最高的地區,美國學者的論文引用影響力要比全球平均水平高出 83%。
8)學者流動性與論文發表的關係
下圖展示流動性如何對論文發表率以及 AI 學者的論文引用影響力造成影響。
我們主要關注這 4 種流動類型的學者:固守(Sedentary)、短暫流出(Transitory)、流入遷移(Migratory Inflow)和流出遷移(Migratory Outflow)。固守類學者是指那些未在家鄉以外地區發表過論文的活躍研究人員;短暫流出類學者是指那些曾在家鄉以外地區發表過兩年或以下論文的研究人員;遷移類學者是指那些曾在家鄉以外地區發表過兩年或以上論文的研究人員,至於屬於「流出」還是「流入」,主要取決於圖表的視角。
x 軸展示的是論文相對發表率(每個類別作者的平均出版數除以該區域的整體平均出版數);y 軸展示的是 FWCI(每個類別作者的平均論文引用數除以該區域的整體平均論文引用數)。本章節的分析只考慮 AI 學者,即寫過的論文中起碼有 30% 是關於 AI 的研究人員。學者的家鄉則取決於他第一篇論文的發表地區。
數據來源:Elsevier
結果表明:
無論是美國、中國還是歐洲,固守類學者的論文發表率都是最低的。
無論是美國、中國還是歐洲,遷移類學者(包括流入遷移與流出遷移)的論文引用影響力(FWCI)都是最高的。這說明經常流動的學者往往擁有更多的論文引用,並傾向於頻繁發表論文。
在上述 3 個地區當中,中國擁有最高比例的固守類學者(76%),其次為歐洲(52%)和美國(38%)。中國的非固守類學者雖然佔比較小,然而論文出版率卻高於其他兩個地區的非固守類學者,說明中國的非固守類學者更有效率。
流動性強的學者在論文引用數與論文發布頻率上都要更高。
9)頂會論文發表
下圖展示了 2018 年 AAAI 大會的論文提交與接收情況(按國別統計),大會於 2018 年 2 月份在美國路易斯安那州紐奧良市舉行。
數據來源:AAAI
結果表明:
70% 的提交論文來自中國和美國,中國以 1242 篇排名第一。
就接收論文數量方面,中國與美國相差無幾,分別為 265 篇(接收率 21%)和 268 篇(接收率 29%)。
德國與義大利的論文接收率最高,達到了 41%,然而兩者提交的論文數量較少。
10)高校 AI 課程報讀情況
下圖展示了美國地區以外幾所計算機學科處於領先地位的大學,它們的 AI + ML 相關課程的註冊情況。第一張圖展示這些院校在 2010 年——2017 年的課程註冊增長情況,第二張圖則展示的是 2016 年——2018 年的課程註冊增長情況。關於院校的選擇標準、實際入學人數及完整高校名稱可參閱報告中的「附錄」。
數據來源:高校數據
結果表明:
11)大型頂會參會情況
下圖分別展示了大型頂會的出席人數以及對比 2012 年的增長情況。這裡的「大型」指的是那些 2017 年出席人數超過 2000 人的頂會。
數據來源:頂會數據
結果表明:
NeurIPS (原 NIPS )、 CVPR 和 ICML 作為出席率最高的 AI 頂會,它們的出席增長率(自 2012 年以來)同樣也是最高的,當中又以 NeurIPS 和 ICML 的增長速度最快,分別達到 2012 年的 4.8 倍 & 6.8 倍,說明 ML 作為 AI 子領域持續受到大家的密切關注。
與此同時,專注符號推理(symbolic reasoning)的大型頂會的增長率相對較小。
12)小型頂會參會情況
下圖分別展示了小型頂會的出席人數以及相比 2012 年的增長情況。這裡的「小型」指的是那些 2017 年出席人數少於 2000 人的頂會。
數據來源:頂會數據
結果表明:
【AI 業界應用情況】
1)AI 初創企業融資情況
下圖展示了在特定年份中獲得風險投資支持的美國初創企業數量。藍線(左軸)顯示的是 AI 領域的初創企業,灰線(右軸)則顯示的是綜合領域的初創企業(含 AI 初創公司)。這些數據是逐年積累的。
數據來源:Sand Hill Econometrics
結果表明:
2)AI 初創企業融資情況
下圖展示了風險投資向不同階段美國初創企業提供的的年度融資金額。藍線(左軸)顯示的是 AI 初創企業的融資金額,灰線(右軸)則顯示的是綜合初創企業(含 AI 初創公司)的融資金額。這些數據是年度總結而非逐年累積的。
數據來源:Sand Hill Econometrics
結果表明:
從 2013 到 2017 年,AI 初創企業的融資金額增加了 4.5 倍,綜合初創企業則增加了 2.08 倍。
1997 年—2000 年的爆發性增長可用網際網路泡沫(dot-com bubble)來進行解釋。
2014 年與 2015 年小幅度爆發增長反映了當時的經濟繁榮增長。
3)崗位所需 AI 技能
下圖分別展示了 AI 型崗位的歷年缺口及增長情況。需要注意的是,這些崗位所需的 AI 技能之間並非排他關係。
數據來源:Monster.com
結果表明:
4)AI 專利
下圖展示了不同區域 AI 專利的增長情況。這些 AI 專利通過 IPC 專利碼進行匯總,主要集中在認知與意義理解(Cognition and meaning understanding)和人機互動領域。按時間追蹤專利發布情況是一項富有挑戰性的事情,關於指標的注釋和差異說明,請參閱報告的「附錄」。
數據來源:amplified
結果表明:
5)AI 在企業中的使用情況(按地區)
下圖展示的是麥肯錫公司針對 2135 名企業僱員的調查結果,可以反映 AI 技能在企業業務中的使用情況,涉及地區包括北美洲、發展中國家(含中國)、歐洲、亞太地區、印度、中東與北非和拉丁美洲,
數據來源:麥肯錫公司
結果表明:
6)Github 星標數量
下圖展示了不同 AI 和 ML 軟體包在 GitHub 上的星標數量,從中可以初步判斷不同 AI 編程框架的流行程度。
數據來源:Github
結果表明:
衍生測量指標
本章節試圖分析前邊提及的趨勢之間的關係。
學界-業界動態分析(Academia-Industry Dynamics)
為了探索 AI 分別在學界和業界的趨勢之間的關係,我們首先從前邊內容中選取了一些有代表性的測量指標,尤其是 Scopus 上的 AI 論文發表情況、美國多所大學的入門級 AI 課程註冊情況,以及 AI 初創公司的融資情況。
由於這些指標無法直接進行對比,為了能夠更好分析趨勢之間的關係,我們從 2010 年起開始對每個指標進行標準化,以確保顯示的是增長情況,而非絕對數字。
數據來源:Sand Hill Econometrics、Scopus 以及大學數據
AI 活躍指數(The AI Vibrancy Index)
該指數將論文發表、課程註冊以及風險投資 3 個學術-業界指標匯總成一個衡量標準,以量化 AI 作為獨立領域活躍程度。和學界-業界動態分析(Academia-Industry Dynamics)一樣,AI 活躍指數(The AI Vibrancy Index)在 2010 年是進行了統一標準化。
數據來源:Sand Hill Econometrics、Scopus 以及大學數據
AI 活躍指數在很大程度上由風險投資推動,這是因為相對其他兩個指標,風險投資的增長幅度最大。不過三個指標的權重是相等的。我們鼓勵讀者們自行下載我們的數據,並對指標和權重進行調整,進而創建出一個最符合個人需求的 AI 活躍指數。
via http://cdn.aiindex.org
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。