大數據趨勢預測靠譜嗎?德國研究者用1.7萬篇arXiv論文預測機器學習...

2021-01-10 機器之心Pro

選自arXiv

作者:Steffen Eger 等

機器之心編譯

參與:路

大量研究者在預印本網站 arXiv 上發表前沿研究,那麼基於 arXiv 判斷研究趨勢是否可行呢?近日,來自德國達姆施塔特工業大學和法蘭克福金融管理學院的研究者在 arXiv 上發表論文,試圖基於兩個 arXiv 論文數據集預測相關領域的研究趨勢。

研究者使用的數據集來自 arXiv 上機器學習 (cs.LG) 和自然語言生成問題,cs.LG 領域的主導研究方向是強化學習和對抗學習。研究者通過外推法(extrapolation),預測這些話題在中短期內仍將是各自領域中的主要問題/方法。

下面展示了前沿研究的任務、方法和目標分布情況。

圖 1:cs.CL 領域 top-100 論文的任務分布情況。我們可以從中觀察到自然語言生成任務是其中的主導任務。

圖 2:cs.LG 領域 top-100 論文的方法分布情況。我們可以從中看到強化學習和對抗學習是這些論文中使用最廣泛的方法。

圖 3:cs.CL 領域 top-100 論文的目標分布情況。我們可以從中看到超半數研究的目標是提高準確率。

預測研究趨勢一直是科學家的夢想。關於流行研究課題的項目往往能夠比較輕鬆地被大會和期刊接收,同時也更容易得到研究經費批准。此外,了解未來研究趨勢有益於整個社會,因為這些趨勢很可能直接影響勞動市場、技術方向、消費者和產品,以及人類認同性的文化隱喻和定義,對人工智慧等領域來說更是如此。但是,隨著研究者發布的論文數量逐年攀升,消化這麼多信息並從中人工識別出可能具備長期科學影響的話題更加困難。本文介紹的研究開發了一種自動化系統,旨在發現重要的研究趨勢,從而幫助研究者更好地規劃自己的學術活動。

這個系統從 arXiv 的機器學習 (cs.LG) 和自然語言處理 (cs.CL) 類別中抓取論文及其引用信息,來構建數據集。然後,研究者根據論文引用量(經過標準化處理)判斷數據集中有潛力的論文,然後通過人工和自動的方式將這些論文分類。研究者使用 arXiv 論文的原因在於,arXiv 是非常流行的科研成果預印本(及後印本)平臺,且近年來影響力逐漸上升。

數據和標註

數據

研究者創建了兩個數據集,分別包括來自 arXiv 機器學習 (cs.LG) 和自然語言處理 (cs.CL) 類別的論文。選擇這兩個人工智慧子領域的原因是,它們動態變化大,每年都會發生很大的變化和性能改進。收集的數據包括論文標題、摘要和作者,研究者還從 Semantic Scholar 網站抓取了這些論文的引用量信息。數據集中的論文發表於 2017 年 6 月至 2018 年 12 月,包括 4800 篇 cs.CL 領域論文和 12400 篇 cs.LG 論文。

標註

該研究的作者之一手動標註了這兩個領域 top-100 論文的摘要,主要標註了三個屬性:任務、方法和目標/成果。這些屬性回答了論文研究什麼、如何研究、為什麼研究這幾個問題。研究者為 cs.CL 領域論文設置了 15 個任務類別、28 個方法類別和 7 個目標類別,為 cs.LG 設置了 13 個任務類別、15 個方法類別和 13 個目標類別。

表 1:根據標準化後的引用量得到的 cs.CL 領域 Top-3 論文,及其任務、方法和目標。括號中的數字表示截至 2018 年 12 月時的引用量絕對值和標準化後的值。

表 2:cs.CL 和 cs.LG 領域各自的任務和方法標籤。

對引用量進行標準化處理

論文影響力最簡單的衡量方式是引用量,但研究領域和論文發布日期會影響引用量數字的絕對值。因此,研究者對比同一研究領域的論文,並按論文發表時長調整引用量分數,從而對引用量進行標準化處理。這即是 Newman [8,9] 提出的 z-score 方法:根據引用量絕對值的均值和標準差進行標準化。

研究者以 ±10 天作為時間窗口,對數據集中的所有論文執行 z-score 標準化(忽略引用量少於 4 的論文)。

論文:Predicting Research Trends From Arxiv

論文連結:https://arxiv.org/pdf/1903.02831v1.pdf

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

相關焦點

  • 170多萬篇論文,存儲量達1.1 TB,Kaggle上線arXiv完整數據集
    近 30 年來,arXiv 為公眾和研究社區提供了開放獲取學術論文的服務。這些論文涉及物理學的龐大分支和計算機科學的眾多子學科,如數學、統計學、電氣工程、定量生物學和經濟學等等。arXiv 上研究論文數量之多有利也有弊。一方面,對於在自身研究領域迅速成長的研究生,以及致力於用科研為公眾提供服務的研究者而言,這一豐富的信息庫可以提供極有效的助力。
  • 170多萬篇論文打包下載,1.1 TB,Kaggle上線arXiv完整數據集
    這些論文涉及物理學的龐大分支和計算機科學的眾多子學科,如數學、統計學、電氣工程、定量生物學和經濟學等等。arXiv 上研究論文數量之多有利也有弊。一方面,對於在自身研究領域迅速成長的研究生,以及致力於用科研為公眾提供服務的研究者而言,這一豐富的信息庫可以提供極有效的助力。另一方面,arXiv 有時在搜索時也有不便。
  • 17篇論文,詳解圖的機器學習趨勢 | NeurIPS 2019
    在NeurIPS 2019上,僅主會場就有 100多個與圖相關的論文;另外,至少有三個workshop的主題與圖有關:我們希望在接下來的這篇文章裡,能夠儘可能完整地討論基於圖的機器學習的研究趨勢,當然顯然不會包括所有。
  • Arxiv網絡科學論文摘要11篇(2020-08-05)
    為了獲得Twitter標籤的高質量群集,我們還提出了一種新穎的多視圖群集技術,該技術結合了多種不同的數據類型,可用於描述用戶如何與標籤交互。我們的多視圖聚類結果表明,在COVID-19 Twitter討論中存在明顯的時間和主題趨勢。尤其是,我們發現,主題標籤的某些主題簇在大流行過程中發生了轉移,而其他主題簇在整個流行過程中都持續存在,並且主題標籤的使用存在明顯的時間趨勢。
  • Arxiv網絡科學論文摘要19篇(2020-07-09)
    將模型應用於湖北地區,韓國,義大利,西班牙,德國和法國的COVID-19數據集,我們發現熵的絕對變化存在顯著差異,但熵演化和瞬時繁殖的趨勢卻非常規律比。為了遵守德國政府規定的最小距離150萬美元(感染率為2%),我們的模擬結果表明,每1千6百萬^ 2美元或以下的人口密度即可。這項研究的結果提供了有關如何更有效地進行物理距離作為保護措施以幫助減少COVID-19擴散的見解。
  • arXiv無償捐贈170萬篇論文給Kaggle,BERT版審稿人要來了!
    新智元報導 來源:arXiv等 編輯:白峰 【新智元導讀】最近,知名預印本網站arXiv宣布向Kaggle提供170萬篇
  • 業界| 分子性質預測新突破:谷歌新型神經網絡助力化學研究
    為了幫助化學家更快地預測出分子的性質並協助進一步的開發(比如發現新藥物或新材料),計算機科學家也在嘗試構建能夠基於分子的基本數據預測分子性質的算法和模型。近日,谷歌等機構的研究者發表了兩篇論文介紹了他們在這方面的研究進展——達到了當前最佳的預測表現。在本文中,機器之心編譯介紹了其成果介紹文章和兩篇論文的摘要,研究詳情請參閱對應論文。
  • 騰訊AI Lab入選20篇論文,含2篇Spotlight
    被譽為神經計算和機器學習領域兩大頂級會議之一的NIPS於近日揭曉收錄論文名單,此次為第32屆會議,將於 12 月 3 日至 8 日在加拿大蒙特婁舉辦。 騰訊AI Lab第三次參加NIPS,共有20篇論文入選,其中2篇被選為亮點論文(Spotlight),涵蓋遷移學習、模仿學習、半監督學習等多個研究主題,去年我們入選論文8篇,含1篇口頭報告(Oral)。
  • 「蝴蝶效應」也能預測了?看機器學習如何解釋混沌系統
    最近,美國馬裡蘭大學的研究表明,人工智慧算法可以預測混沌系統的發展趨勢。比如,預測模型火焰鋒面的混沌演進過程:  大數據文摘後臺對話框內回復「  混沌」即可下載這篇論文~  德國不萊梅雅各布大學計算科學教授Herbert Jaeger表示:「這種方法真的很了不起,能夠預測一個系統的混沌演進將會進行到什麼地步。」
  • 謝國彤:疾病預測的機器學習、深度學習和經典回歸方法
    有感於 「搞人工智慧技術的人不知道醫療裡重要又可解的問題是什麼,搞醫療的人不知道技術究竟能幫到什麼程度」,前 IBM 認知醫療研究總監、平安醫療科技研究院副院長謝國彤博士針對疾病預測技術的核心概念、主要方法和發展趨勢,帶來詳細解讀。去年在新智元上寫了《我看到的靠譜醫療 AI 應用場景和關鍵技術》,原本計劃要寫個 「連續劇」 的,後來諸多事情就耽誤了。
  • Arxiv網絡科學論文摘要17篇(2020-08-20)
    19的空間傳播網絡模型;紐約市地鐵閘機使用率和COVID-19患病率的時間序列分析和相關性;針對COVID-19大流行的基於物理的機器學習:八個國家採用社會疏離和短期預測鏈路預測是網絡分析的一個分支,它使我們可以預測網絡的未來狀態:哪些新連接最有可能在將來出現?在多路鏈路預測中,我們還問:哪種類型?因為最後一個問題無法用經典鏈路預測來解決,所以在這裡我們研究使用圖關聯規則來告知多路鏈路預測。我們通過通過多重圖挖掘來識別網絡中的所有頻繁模式,從而得出此類規則,然後通過查找原始網絡中每個規則的出現情況,對每個未觀察到的連結的可能性進行評分。
  • 騰訊AI Lab 20 篇論文入選 NIPS2018,含 2 篇 Spotlight
    騰訊 AI Lab 第三次參加 NIPS,共有 20 篇論文入選,其中 2 篇被選為亮點論文(Spotlight),涵蓋遷移學習、模仿學習、半監督學習等多個研究主題,而去年他們入選論文8篇,含1篇口頭報告(Oral)。
  • Kaggle上線arXiv完整數據集,以促進機器學習領域的發展
    現今的一些數學家及科學家習慣先將其論文上傳至 arXiv,再提交予專業的學術期刊。無論你是在自身研究領域迅速成長的研究生,還是致力於用科研為公眾提供服務的研究者,arXiv 這一豐富的信息庫都可以為你提供重要、甚至難以置信的幫助。
  • 機器學習新戰果,破解「蝴蝶效應」,預測火焰的下一秒形態
    德國德勒斯登物理研究所混沌理論學家Holger Kantz說:「機器學習的確大有裨益。」「機器學習技術某種意義上說等同於認知真理。」 該算法本身對Kuramoto-Sivashinsky方程一無所知,它只獲取方程式演化數據。這就是機器學習法的強大所在。
  • Arxiv網絡科學論文摘要22篇(2020-08-04)
    校正社會人口統計學選擇偏差,以從社交媒體準確預測人口;TA-Dash:用於時空交通分析的交互式儀錶板——演示論文;使用起步和引導來緩解逆火效應;從值機、犯罪和事件響應數據聯合學習的用於巡邏高風險區域的多警察巡邏路線;用於對比網絡分析的可視化分析框架;100,000,000,000個網絡數據包的多時相分析和尺度關係
  • Arxiv網絡科學論文摘要15篇(2020-10-29)
    利用信息尋求行為模式來預測美國國會選舉;西班牙和印度的COVID-19:通過分析流行病學和社交媒體數據比較政策含義;控制COVID-19:勞動力結構比鎖定政策更重要;SIDARTHE流行病模型中學習的最優控制方法;用Wikipedia數據估算類似流感症狀的患病率的通用方法;預測2016年美國大選前後網際網路研究機構的
  • 2018年最具影響力的20篇數據科學研究論文,盤它!
    吳恩達提到,他經常隨身攜帶一個裝滿研究論文的文件夾,利用搭車的空閒時間研究論文。Daniel Gutierrez因此建議,不管是數據科學從業者還是研究者,都可以準備一個論文文件夾來裝一些論文,就像吳恩達建議的:如果你每周閱讀幾篇論文(部分論文可以泛讀),一年後你就閱讀了100多篇論文,足夠比較深入地了解一個新領域。
  • Arxiv網絡科學論文摘要18篇(2020-07-28)
    通過研究美國3900萬社交媒體帖子中有關COVID-19大流行的語言使用情況,這是第一個不僅在全球範圍而且在網上迅速傳播的大流行。我們確定了三個不同的階段,它們與Kuebler-Ross的悲傷階段平行。
  • Arxiv網絡科學論文摘要17篇(2020-12-01)
    自疫情爆發以來,已經有大量研究調查了大流行的各個方面。本章感興趣的內容包括以在線社交媒體平臺上的數據集為中心的研究,在社交媒體平臺上,大多數公共話語發生。主要目標是通過(1)貢獻各種策展的相關數據集(2)提供相關領域以使用數據集進行研究(3)展示相關數據集,策略和現狀如何來支持對抗負面信息流行病可以利用現有的IT工具來管理大流行病。
  • Arxiv網絡科學論文摘要13篇(2020-10-26)
    通過全球班輪運輸網絡估算國家的國際貿易狀況;超圖的可控性;使用卷積神經網絡和模擬研究基本圖中的文化方面;用於社交視覺問答的表徵數據集和新的TinySocial數據集;可公開獲得的新聞和信息轉移到金融市場的影響;不斷演化的共同作者復形中的同質滲流轉變;d+1維的隨機雙曲圖;