本文轉載自【微信公眾號:機器之心】,經微信公眾號授權轉載,如需轉載原文作者聯繫
現在,用戶可以在 Kaggle 平臺上獲取 arXiv 論文了!
眾所周知,arXiv 是我們搜索、瀏覽和下載學術論文的重要工具。近 30 年來,arXiv 為公眾和研究社區提供了開放獲取學術論文的服務。這些論文涉及物理學的龐大分支和計算機科學的眾多子學科,如數學、統計學、電氣工程、定量生物學和經濟學等等。
arXiv 上研究論文數量之多有利也有弊。一方面,對於在自身研究領域迅速成長的研究生,以及致力於用科研為公眾提供服務的研究者而言,這一豐富的信息庫可以提供極有效的助力。另一方面,arXiv 有時在搜索時也有不便。
與此同時,Kaggle 通常是數據科學家和機器學習工程師尋求有趣數據集、公開筆記和賽題的重要平臺。研究者可以利用 Kaggle 上廣泛的數據探索工具,輕鬆地與他人共享相關腳本和輸出。
所以,是不是可以將 arXiv 上的巨量學術論文打包放在 Kaggle 上呢?
近期,為了讓 arXiv 可用度更高,康奈爾大學和其他一些開發者在 kaggle 上創建了一個免費、開放的 arXiv 數據集。該數據集是一個含有 170 多萬篇學術論文的存儲庫,用戶可以獲取論文的標題、作者、類別、摘要、全文 pdf 等。
arXiv 執行董事 Eleonora Presani 表示:「在 Kaggle 上放置完整的 arXiv 語料庫,可以極大地增強 arXiv 論文的閱讀潛力。並且,通過在 Kaggle 上提供該數據集,我們能夠獲取比通讀這些文章更多的知識,並且能夠以機器可讀的格式將 arXiv 背後的數據和信息向公眾開放。」
此外,她還表示:「arXiv 不僅是一個論文資源庫,它還是一個知識共享平臺。這就要求我們在展示和解釋可用知識的方式上不斷創新,Kaggle 用戶能夠幫助突破這種創新的局限,並且能夠成為社區協作的新渠道。」
開發者希望啟用能夠探索出更豐富機器學習技術的新用例。這些技術還將結合面向如趨勢分析、論文推薦器引擎、類別預測、共引網絡、知識圖譜構造、語義搜索接口等諸多應用的多模態功能。
Kaggle 上的 arXiv 數據集是什麼樣的
這是一個包含 170 多萬篇理工科(STEM)學術論文的 arXiv 數據集和元數據。目前,開發者已經更新了 5 個版本,從第一版的 arXiv 元數據集(arXiv metadata)到最新版本的 arXiv 數據集,包含的論文數量越來越多,範圍也更廣。該數據集將每周更新一次。
第一版的 arXiv 元數據。
該數據集是原始 arXiv 數據的鏡像,存儲量高達 1.1TB,並且還會繼續增加。數據集僅提供了 json 格式的元數據文件,它包含每篇論文的相關條目,具體如下:
id:arXiv ID,可用於訪問論文;submitter:論文提交者;authors:論文作者;title:論文標題;comments:論文頁數和圖表等其他信息;journal-ref:論文發表的期刊;doi:數字對象標識符;abstract:論文摘要;categories:論文在 arXiv 系統的所屬類別或標籤;versions:論文版本。
批量訪問
用戶可以在谷歌雲存儲(Google Cloud Storage, GCS)bucket gs://arxiv-dataset 上免費獲取全部 PDF 論文,或通過谷歌 API json documentation 和 xml documentation 也可以獲取。
PDF 論文被分組到 tarpdfs 文件夾的幾個. tar.gz 文件中,具體如下所示:
tarpdfs/arXivpdf1001001.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001001.tar.gz)tarpdfs/arXivpdf1001002.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001002.tar.gz)tarpdfs/arXivpdf1001003.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001003.tar.gz)Which are chunks 1, 2 and 3 for month 1001 (2010-01).
此外,用戶可以使用 gsutil 工具將數據下載到本地計算機中。
arXiv 將 170 多萬篇論文打包放在 Kaggle 上,更方便了用戶獲取和下載論文。有網友表示:「此舉棒極了!」
與此同時,也有人提出要重視「同行評審」的參與。