170多萬篇論文打包下載,1.1 TB,Kaggle上線arXiv完整數據集

2021-01-11 酷扯兒

本文轉載自【微信公眾號:機器之心】,經微信公眾號授權轉載,如需轉載原文作者聯繫

現在,用戶可以在 Kaggle 平臺上獲取 arXiv 論文了!

眾所周知,arXiv 是我們搜索、瀏覽和下載學術論文的重要工具。近 30 年來,arXiv 為公眾和研究社區提供了開放獲取學術論文的服務。這些論文涉及物理學的龐大分支和計算機科學的眾多子學科,如數學、統計學、電氣工程、定量生物學和經濟學等等。

arXiv 上研究論文數量之多有利也有弊。一方面,對於在自身研究領域迅速成長的研究生,以及致力於用科研為公眾提供服務的研究者而言,這一豐富的信息庫可以提供極有效的助力。另一方面,arXiv 有時在搜索時也有不便。

與此同時,Kaggle 通常是數據科學家和機器學習工程師尋求有趣數據集、公開筆記和賽題的重要平臺。研究者可以利用 Kaggle 上廣泛的數據探索工具,輕鬆地與他人共享相關腳本和輸出。

所以,是不是可以將 arXiv 上的巨量學術論文打包放在 Kaggle 上呢?

近期,為了讓 arXiv 可用度更高,康奈爾大學和其他一些開發者在 kaggle 上創建了一個免費、開放的 arXiv 數據集。該數據集是一個含有 170 多萬篇學術論文的存儲庫,用戶可以獲取論文的標題、作者、類別、摘要、全文 pdf 等。

arXiv 執行董事 Eleonora Presani 表示:「在 Kaggle 上放置完整的 arXiv 語料庫,可以極大地增強 arXiv 論文的閱讀潛力。並且,通過在 Kaggle 上提供該數據集,我們能夠獲取比通讀這些文章更多的知識,並且能夠以機器可讀的格式將 arXiv 背後的數據和信息向公眾開放。」

此外,她還表示:「arXiv 不僅是一個論文資源庫,它還是一個知識共享平臺。這就要求我們在展示和解釋可用知識的方式上不斷創新,Kaggle 用戶能夠幫助突破這種創新的局限,並且能夠成為社區協作的新渠道。」

開發者希望啟用能夠探索出更豐富機器學習技術的新用例。這些技術還將結合面向如趨勢分析、論文推薦器引擎、類別預測、共引網絡、知識圖譜構造、語義搜索接口等諸多應用的多模態功能。

Kaggle 上的 arXiv 數據集是什麼樣的

這是一個包含 170 多萬篇理工科(STEM)學術論文的 arXiv 數據集和元數據。目前,開發者已經更新了 5 個版本,從第一版的 arXiv 元數據集(arXiv metadata)到最新版本的 arXiv 數據集,包含的論文數量越來越多,範圍也更廣。該數據集將每周更新一次。

第一版的 arXiv 元數據。

該數據集是原始 arXiv 數據的鏡像,存儲量高達 1.1TB,並且還會繼續增加。數據集僅提供了 json 格式的元數據文件,它包含每篇論文的相關條目,具體如下:

id:arXiv ID,可用於訪問論文;submitter:論文提交者;authors:論文作者;title:論文標題;comments:論文頁數和圖表等其他信息;journal-ref:論文發表的期刊;doi:數字對象標識符;abstract:論文摘要;categories:論文在 arXiv 系統的所屬類別或標籤;versions:論文版本。

批量訪問

用戶可以在谷歌雲存儲(Google Cloud Storage, GCS)bucket gs://arxiv-dataset 上免費獲取全部 PDF 論文,或通過谷歌 API json documentation 和 xml documentation 也可以獲取。

PDF 論文被分組到 tarpdfs 文件夾的幾個. tar.gz 文件中,具體如下所示:

tarpdfs/arXivpdf1001001.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001001.tar.gz)tarpdfs/arXivpdf1001002.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001002.tar.gz)tarpdfs/arXivpdf1001003.tar.gz (gs://arxiv-dataset/tarpdfs/arXivpdf1001003.tar.gz)Which are chunks 1, 2 and 3 for month 1001 (2010-01).

此外,用戶可以使用 gsutil 工具將數據下載到本地計算機中。

arXiv 將 170 多萬篇論文打包放在 Kaggle 上,更方便了用戶獲取和下載論文。有網友表示:「此舉棒極了!」

與此同時,也有人提出要重視「同行評審」的參與。

相關焦點

  • 170多萬篇論文,存儲量達1.1 TB,Kaggle上線arXiv完整數據集
    近期,為了讓 arXiv 可用度更高,康奈爾大學和其他一些開發者在 kaggle 上創建了一個免費、開放的 arXiv 數據集。該數據集是一個含有 170 多萬篇學術論文的存儲庫,用戶可以獲取論文的標題、作者、類別、摘要、全文 pdf 等。
  • Kaggle上線arXiv完整數據集,以促進機器學習領域的發展
    近日,康奈爾大學的研究人員在 Kaggle 上創建了一個免費、開放的 arXiv 數據集,該數據集含有 170 多萬篇學術論文,用戶可以從中獲取論文標題、作者、類別、摘要和 PDF 版全文等。(來源:Kaggle)「將完整的 arXiv 數據集放在 Kaggle 上,可以在很大程度上增加 arXiv 上論文的閱讀可及性,」 arXiv 執行董事奧諾拉·普裡薩尼(Eleonora Presani)在 arXiv.org 官方博客上表示,「公眾也可以獲取這些論文之外更多的知識,這些論文也將以機器可讀的格式將 arXiv 背後的數據和信息向公眾開放。」
  • arXiv無償捐贈170萬篇論文給Kaggle,BERT版審稿人要來了!
    萬篇「純淨」的論文,供廣大機器學習愛好者進行深入挖掘,國外網友表示,這些數據訓練下就能出一個BERT版審稿人了! 近日,arXiv向Kaggle開放了170萬篇論文的原始數據。
  • arXiv 每日論文集 190 篇 02.19 更新
    今日 arXiv 論文集「今日 arXiv 論文集」是 AI 研習社論文板塊推出的全新欄目,每日為你自動抓取arXiv上更新的論文並且按照不同領域分類打包成集,方便社區用戶以最快的速度,最便捷的方式一件打包下載學術成果,獲取知識養分。
  • arXiv 每日論文集 134 篇 02.21 更新
    今日 arXiv 論文集「今日 arXiv 論文集」是 AI 研習社論文板塊推出的全新欄目,每日為你自動抓取arXiv上更新的論文並且按照不同領域分類打包成集,方便社區用戶以最快的速度,最便捷的方式一件打包下載學術成果,獲取知識養分。
  • 年度最精彩研究,CVPR 2017六篇最佳論文介紹(附打包下載)| CVPR...
    結果表明,經過模型美化後的生成圖像可以為模型表現帶來顯著提升,在 MGIIGaze 數據集中不依靠任何有標註的真實數據就可以取得超過以往的表現。論文詳解:上周時候蘋果開放了自己的機器學習博客「蘋果機器學習日記」,其中第一篇就是對這篇獲獎論文的詳解,雷鋒網 AI 科技評論編譯文章在這裡,歡迎感興趣的讀者詳細了解。
  • 大數據趨勢預測靠譜嗎?德國研究者用1.7萬篇arXiv論文預測機器學習...
    近日,來自德國達姆施塔特工業大學和法蘭克福金融管理學院的研究者在 arXiv 上發表論文,試圖基於兩個 arXiv 論文數據集預測相關領域的研究趨勢。研究者使用的數據集來自 arXiv 上機器學習 (cs.LG) 和自然語言生成問題,cs.LG 領域的主導研究方向是強化學習和對抗學習。
  • 2018年最具影響力的20篇數據科學研究論文,盤它!
    吳恩達提到,他經常隨身攜帶一個裝滿研究論文的文件夾,利用搭車的空閒時間研究論文。Daniel Gutierrez因此建議,不管是數據科學從業者還是研究者,都可以準備一個論文文件夾來裝一些論文,就像吳恩達建議的:如果你每周閱讀幾篇論文(部分論文可以泛讀),一年後你就閱讀了100多篇論文,足夠比較深入地了解一個新領域。
  • Python學習120課 pandas簡介kaggle下載數據及pandas讀取外部數據
    推薦一個數據平臺:www.kaggle.com數據科學的很多數據是來源於kaggle,這個平臺上有很多公開的數據,而且這些數據都是真實的數據,因此我們後面通過pandas去處理的數據都是從kaggle上下載的數據。●註冊並激活kaggle帳號首先你需要在kaggle註冊一個帳號,才能下載它的數據。
  • Arxiv網絡科學論文摘要17篇(2020-08-28)
    使用這種表示,我們表明:(1)關係圖的「最佳點」導致神經網絡的預測性能大大提高; (2)神經網絡的性能大約是其關係圖的聚類係數和平均路徑長度的平滑函數; (3)我們的發現在許多不同的任務和數據集上是一致的; (4)可以有效地識別最佳點; (5)表現最佳的神經網絡具有令人驚訝的類似於真實生物神經網絡的圖結構。我們的工作為神經體系結構的設計和對神經網絡的一般理解開闢了新的方向。
  • Arxiv網絡科學論文摘要17篇(2020-10-06)
    Rabiee摘要: 在大型網絡中訪問完整數據通常是不可行的。因此,數據丟失的問題是現實世界社會網絡的分析和建模中至關重要且不可避免的問題。但是,關於社會網絡不同方面的大多數研究都沒有考慮到這一限制。解決此問題的一種有效方法是恢復丟失的數據,作為預處理步驟。
  • Arxiv網絡科學論文摘要18篇(2020-07-28)
    它還使用本地人口普查和健康數據為每個人創建健康和風險因素配置文件。所提出的模型依賴於靈活的時間戳規模來優化計算速度和細節水平。在我們的框架中,每個主體都代表一個與周圍空間以及同一空間內其他相鄰主體交互的人。此外,制定家庭隨機的日常任務,以便由相應的家庭成員進行跟蹤。該模型還規定了友誼和親戚的每個子集開會的可能性。
  • Kaggle比賽入門——房價預測
    我們可以在房價預測比賽的網頁上了解比賽信息和參賽者成績,也可以下載數據集並提交自己的預測結果。該比賽的網頁地址是https://www.kaggle.com/c/house-prices-advanced-regression-techniques。獲取和讀取數據集比賽數據分為訓練數據集和測試數據集。
  • Arxiv網絡科學論文摘要19篇(2020-07-09)
    我們還提供了完整的貝葉斯反演方案進行校準。熵率的時間演化,系統熵的絕對變化和瞬時繁殖率是該框架的自然而透明的輸出。該框架具有可適用於任何隔間流行模型的吸引人的特性。作為說明,我們將建議的方法應用於「易感暴露感染清除」(SEIR)模型的簡單修改。將模型應用於湖北地區,韓國,義大利,西班牙,德國和法國的COVID-19數據集,我們發現熵的絕對變化存在顯著差異,但熵演化和瞬時繁殖的趨勢卻非常規律比。
  • Arxiv網絡科學論文摘要15篇(2020-08-17)
    我們使用跨地區日常人員流動的數據,並應用貝葉斯框架來估計建議的模型。結果表明,該疾病在中國的傳播主要是由區域內的社區傳播所驅動,而地方政府採取的封鎖政策遏制了大流行的蔓延。此外,我們證明湖北只是流行初期的震中。到2020年1月下旬,已經建立了北京和廣東等次生震中,該病蔓延到了相連地區。在跨地區實行人員流動限制之後,來自這些震中的傳播大大減少。
  • Arxiv網絡科學論文摘要6篇(2021-01-13)
    /abs/2101.04611作者: Tiandong Wang, Panpan Zhang摘要: 由於網絡數據的複雜性,我們提出了一種有向混合隨機網絡,該網絡將優先連接(PA)規則與統一附件(UA)規則混合在一起。
  • Arxiv網絡科學論文摘要16篇(2020-08-18)
    在使用三種不同規模,解析度和模式的移動性數據集(在七個不同城市的值機,大學中的WiFi連接事件以及電動自行車的GPS軌跡)的多智能體模擬中,普遍觀察到了這種趨勢。利用網絡在人類流動中的作用的策略在疾病控制和正常社交活動之間提供了更好的平衡。
  • Arxiv網絡科學論文摘要13篇(2020-10-26)
    通過全球班輪運輸網絡估算國家的國際貿易狀況;超圖的可控性;使用卷積神經網絡和模擬研究基本圖中的文化方面;用於社交視覺問答的表徵數據集和新的TinySocial數據集;可公開獲得的新聞和信息轉移到金融市場的影響;不斷演化的共同作者復形中的同質滲流轉變;d+1維的隨機雙曲圖;
  • Arxiv網絡科學論文摘要20篇(2020-11-12)
    但是,測試既不完整(由於未測試的無症狀病例),也很晚(由於與初始接觸事件之間的滯後,症狀惡化和測試結果)。社交媒體可以通過更快,更高的覆蓋率來補充物理測試數據,但它們卻面臨著另一個挑戰:大量的噪音,錯誤信息和虛假信息。我們相信,只要滿足兩個條件,社交媒體就可以成為大流行的良好指標。第一個(真正的新穎性)是從無法預測的情況中刻畫新的,以前未知的信息。
  • Arxiv網絡科學論文摘要17篇(2020-12-01)
    此外,我們提出了一種近似方案,該方案可顯著降低計算成本,並提供有關數據集的更多見解。為了提高該方法的可擴展性,我們提出了一種隨機抽樣的分批訓練方法,並使用自表達原理來生成強節點相似度/相異度值的子集。這些值用於規範化從自監督圖神經網絡獲得的節點社區。我們的解決方案以端到端的方式進行培訓。我們能夠在多個公開可用的數據集上獲得最新的社區檢測結果。