選自arXiv
作者:Steffen Eger 等
機器之心編譯
參與:路
大量研究者在預印本網站 arXiv 上發表前沿研究,那麼基於 arXiv 判斷研究趨勢是否可行呢?近日,來自德國達姆施塔特工業大學和法蘭克福金融管理學院的研究者在 arXiv 上發表論文,試圖基於兩個 arXiv 論文數據集預測相關領域的研究趨勢。
研究者使用的數據集來自 arXiv 上機器學習 (cs.LG) 和自然語言生成問題,cs.LG 領域的主導研究方向是強化學習和對抗學習。研究者通過外推法(extrapolation),預測這些話題在中短期內仍將是各自領域中的主要問題/方法。
下面展示了前沿研究的任務、方法和目標分布情況。
圖 1:cs.CL 領域 top-100 論文的任務分布情況。我們可以從中觀察到自然語言生成任務是其中的主導任務。
圖 2:cs.LG 領域 top-100 論文的方法分布情況。我們可以從中看到強化學習和對抗學習是這些論文中使用最廣泛的方法。
圖 3:cs.CL 領域 top-100 論文的目標分布情況。我們可以從中看到超半數研究的目標是提高準確率。
預測研究趨勢一直是科學家的夢想。關於流行研究課題的項目往往能夠比較輕鬆地被大會和期刊接收,同時也更容易得到研究經費批准。此外,了解未來研究趨勢有益於整個社會,因為這些趨勢很可能直接影響勞動市場、技術方向、消費者和產品,以及人類認同性的文化隱喻和定義,對人工智慧等領域來說更是如此。但是,隨著研究者發布的論文數量逐年攀升,消化這麼多信息並從中人工識別出可能具備長期科學影響的話題更加困難。本文介紹的研究開發了一種自動化系統,旨在發現重要的研究趨勢,從而幫助研究者更好地規劃自己的學術活動。
這個系統從 arXiv 的機器學習 (cs.LG) 和自然語言處理 (cs.CL) 類別中抓取論文及其引用信息,來構建數據集。然後,研究者根據論文引用量(經過標準化處理)判斷數據集中有潛力的論文,然後通過人工和自動的方式將這些論文分類。研究者使用 arXiv 論文的原因在於,arXiv 是非常流行的科研成果預印本(及後印本)平臺,且近年來影響力逐漸上升。
數據和標註
數據
研究者創建了兩個數據集,分別包括來自 arXiv 機器學習 (cs.LG) 和自然語言處理 (cs.CL) 類別的論文。選擇這兩個人工智慧子領域的原因是,它們動態變化大,每年都會發生很大的變化和性能改進。收集的數據包括論文標題、摘要和作者,研究者還從 Semantic Scholar 網站抓取了這些論文的引用量信息。數據集中的論文發表於 2017 年 6 月至 2018 年 12 月,包括 4800 篇 cs.CL 領域論文和 12400 篇 cs.LG 論文。
標註
該研究的作者之一手動標註了這兩個領域 top-100 論文的摘要,主要標註了三個屬性:任務、方法和目標/成果。這些屬性回答了論文研究什麼、如何研究、為什麼研究這幾個問題。研究者為 cs.CL 領域論文設置了 15 個任務類別、28 個方法類別和 7 個目標類別,為 cs.LG 設置了 13 個任務類別、15 個方法類別和 13 個目標類別。
表 1:根據標準化後的引用量得到的 cs.CL 領域 Top-3 論文,及其任務、方法和目標。括號中的數字表示截至 2018 年 12 月時的引用量絕對值和標準化後的值。
表 2:cs.CL 和 cs.LG 領域各自的任務和方法標籤。
對引用量進行標準化處理
論文影響力最簡單的衡量方式是引用量,但研究領域和論文發布日期會影響引用量數字的絕對值。因此,研究者對比同一研究領域的論文,並按論文發表時長調整引用量分數,從而對引用量進行標準化處理。這即是 Newman [8,9] 提出的 z-score 方法:根據引用量絕對值的均值和標準差進行標準化。
研究者以 ±10 天作為時間窗口,對數據集中的所有論文執行 z-score 標準化(忽略引用量少於 4 的論文)。
論文:Predicting Research Trends From Arxiv
論文連結:https://arxiv.org/pdf/1903.02831v1.pdf
本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。