格式機器可讀、Kaggle 上免費使用,arXiv 發布集成170萬篇論文資料庫

2020-12-09 雷鋒網

茫茫滄海尋一粟——想必這是許多學者在使用arXiv網站搜索論文時的痛苦心聲。

不過現在arXiv給大家帶來了一個好消息:他們將 170萬篇arXiv論文集成為一個格式機器可讀的資料庫,並將該資料庫託管到了Kaggle上供用戶免費使用。資料庫包括論文標題、作者、類別、摘要、全文pdf等論文相關信息。

arXiv 論文資料庫Kaggle地址:https://www.kaggle.com/Cornell-University/arxiv

1

arXiv:從一個論文存儲庫轉變為一個知識共享平臺

近30年來,arXiv網站為公眾和研究人員提供了獲取學術論文的可靠途徑。論文類型多樣,從物理學到計算機科學、再到介於兩者之間的各類學術內容,涵蓋數學、統計學、電氣工程、定量生物學和經濟學等熱門學科。無論是鑽研單一領域的學生、尋求跨學科研究的教授還是服務公共事業的社會研究者,都能在arXiv上搜集到有利的信息。

然而,arXiv網站所收錄的論文數量十分龐大,為用戶的閱讀帶來明顯的壓力。另一方面,arXiv 本身也由於過分依賴 LaTex 而出現一系列缺陷,包括:1)使用 LaTeX 進行排版的方式局限於單個社區,其界面、語言、使用方式對不會編程或者只用過 WYSIWYG 編輯器的人來說比較陌生;2)網站上的論文一直以pdf格式交換、閱讀,但大多數pdf文檔不支持在線編輯,以致許多論文無論在網頁上閱讀、討論與共享;3)論文所承載的信息可發現率低;4)arXiv的論文與數據獨立存在,論文數據無法共享。雷鋒網

其中第三點缺陷所造成的不利影響,正如arXiv 科技總監Steinn Sigurdsson所指出的,由於數據集的龐大,讀者很可能會忽略一些重要的發現、關聯知識、創新工具或視角。這些被忽略的信息也許能幫助研究人員產生一些關於原有研究主題與跨學科領域的新的見解,有更多新發現與創造力。雷鋒網

而 Kaggle 作為數據科學家和機器學習工程師搜集數據集、閱讀公開筆記和進行競賽的平臺,可以讓研究人員利用該平臺上豐富的數據探索工具,輕鬆地與他人共享相關論文文本和輸出。雷鋒網

arXiv的執行董事 Presani 指出,將arXiv 論文資料庫託管到Kaggle上供用戶自由訪問,將放大這些論文本身的價值,因為這不僅僅給讀者提供了一個通過閱讀論文學習的平臺,更是讓論文本身承載的數據和信息以機器可讀的方式在研究者之間共享、傳播和交流。

他進一步表示,arXiv 要想從一個論文存儲庫轉變為一個知識共享平臺,就要求他們不斷創新展示知識與解釋知識的方式。而Kaggle的用戶可以幫助突破創新的局限性,為科研界相互協作提出一種新途徑。

2

arXiv 發布 Kaggle 論文資料庫的初衷

arXiv 方面表示,此舉的初衷是希望能推動新用例的產生,幫助研究人員探索更多結合面向應用的多模態特徵的機器學習技術,包括趨勢分析法、論文推薦引擎、類別預測、同被引網絡、知識圖譜構建和語義搜索接口等。

Google 的COVID-19 Research Explorer就是這樣一個基於特定語料庫進行語義搜索的用例。這個工具可幫助研究人員精讀擁有190,000+篇關於COVID-19的研究論文的資料庫——COVID-19數據集。基於此類數據集的接口使用了先進的自然語言理解(NLU)技術來了解用戶查詢的目的。這個數據集能為複雜的科學問題提供更多相關數據和證據,大大提高了研究效率。

而他們發布這個機器可讀的arXiv數據集,就是希望其能推動該領域的研究者開發出能夠處理此類新的語料庫的相似的自然語言理解工具。

相關焦點

  • 170多萬篇論文,存儲量達1.1 TB,Kaggle上線arXiv完整數據集
    研究者可以利用 Kaggle 上廣泛的數據探索工具,輕鬆地與他人共享相關腳本和輸出。所以,是不是可以將 arXiv 上的巨量學術論文打包放在 Kaggle 上呢?近期,為了讓 arXiv 可用度更高,康奈爾大學和其他一些開發者在 kaggle 上創建了一個免費、開放的 arXiv 數據集。
  • 消除偏見,從機器學習系統開始,谷歌發布ML-fairness-gym
    原文:https://arxiv.org/abs/2002.01862v1人臉防偽的大規模多模型基準在這篇論文裡,研究人員介紹了一個大規模多模型的資料庫CASIASURF,這個資料庫是目前人臉防偽方面最大的開源資料庫。
  • 全網最全的論文下載渠道(含免費)!
    3.2萬篇期刊論文、6600多位專家、750個學術機構、4萬多張圖片等數據信息的收集、加工和入庫。02網站設50個欄目,將準確、及時報導國內外重大新聞,深度解析社會熱點、難點問題,全面反映國內外學術動態。
  • 國際著名論文資料庫免費開放!
    國際著名出版方愛思維爾(Elsevier,其資料庫涵蓋自然科學、技術、醫學、社會科學、藝術與人文等各學科)對部分學者免費開放論文資料庫,各位訪問學者博士後申請者快來看看自己是否符合條件吧!Free tools for scholars!
  • 論文千千萬,如何發現和綜述新研究?這裡有個利用AI技術的熱門開源...
    機器之心報導作者:魔王paperai 利用 AI 技術發現和綜述醫療 / 科學論文。在研究領域,每天都會湧現大量論文,如何發現優秀論文並快速獲取信息是一個難題。paperai 背後的 AI 技術paperai 使用 Python 構建,並使用 FastText + BM25 創建句子嵌入索引。
  • Chicago essay論文寫作引用格式解析 英文論文引用格式—MLA格式
    Chicago essay論文寫作引用格式要點解析目前被學術界廣泛接受的論文格式主要由三種,美國心理學會論文格式(American Psychological Association,APA),現代語言學會論文格式(Modern Language Association,MLA),以及芝加哥論文格式(Chicago Manual
  • 武漢大學|讀完這篇「搜神記」,畢業論文有救了
    文獻類型包括中外文期刊、會議錄、學位論文、權威報導等,面向中國大陸用戶提供全文。Pub Med Central ( PMC )是美國國立衛生研究院下屬的美國國立醫學圖書館開發的生物醫學文獻資料庫。PMC提供部分免費及付費全文連結服務, 如免費的MEDLINE及其他相關資料庫接入服務。
  • Hinton、Bengio、何愷明等經典論文貢獻:機器學習必讀TOP100論文
    ,再配合使用一些經典分類器(SVM等),是否可以在其他的問題B,C上也得到比較好的結果?Fergushttp://arxiv.org/pdf/1311.2901這篇論文的目的,就是通過特徵可視化,查看精度變化,從而知道CNN學習到的特徵如何。這篇論文闡述了CNN的每一層到底學習到了什麼特徵,然後作者通過可視化進行調整網絡。
  • 畢業論文查重攻略-學校篇
    合作院校學校篇:一般情況下學校都和論文檢測機構有合作,可提供一到兩次免費檢測次數。一般帳號格式為:學校id+學生學號密碼為:身份證後八位(或123456)! 當然具體帳號和密碼還是以學校通知為主啦~贈送兩次免費檢測機會,一次論文初檢,一次論文復檢,使用初檢後才會顯示復檢贈送的免費使用次數。
  • 最全論文引用格式詳解!
    英文學術寫作有很多種引用格式,有的學校或者學院會指定首選的引用格式。然而無論哪種格式,對於留學小夥伴們來說都是比較陌生的。今天小編就為大家獻上,史上最全英文論文引用格式詳解!還有模板供大家參考哦!多篇文獻,同一作者若一作者有多篇你想引用的文獻,只需用逗號來區隔作品的發表年份(最早到最晚依序排列)。若多篇文獻在同一年內發表,請在年份後面加上a、b、c……等標註。(按:abc的使用需與參考文獻部分有所對應,而這些文獻的編排以標題名稱的字母來決定。)
  • 來自一位Kaggle比賽失敗者的含淚總結
    每場比賽,參加的隊伍至少上千人,也並非每次都次都能脫引而出,一不小心就要陪跑。一位剛剛參加了kaggle孟加拉語手寫字位分類比賽的小哥就剛剛「陪跑」了一場,但是從這次的失敗經歷中,他總結了一套「失敗方法論」。文摘菌編譯了這篇文章,希望各位也能從這位Kaggle失敗者的經驗裡,就像梯度下降模型一樣,不斷從錯誤中學習如何更正。
  • Atman 劉昌芳:醫學機器翻譯與機器寫作
    2016 年 1 月在北京成立,早於 2016 年 9 月谷歌發布的神經機器翻譯(GNMT),Atman 完成了機器翻譯系統首秀。2017 年 7 月,Atman 與強生籤約,同年 12 月我們開始研發醫學領域的機器寫作。▼ 醫學機器翻譯有人問「百度、谷歌都有機器翻譯,你們為什麼還要做機器翻譯?」
  • 中國知網論文|免費下載方法分享
    在學校圖書館可以免費使用中國知網,憑圖書借閱證可以進電子閱覽室上網下載資料,就可以登錄中國知網,免費在中國知網下載論文。但是生活中我們可能會發生不在學校、校園網下載慢等一系列問題。有什麼方法能解決這個問題呢?
  • AAAI 2020 提前看 | 三篇論文解讀問答系統最新研究進展
    今年 AAAI 共接受了 8800 篇提交論文,其中評審了 7737 篇,接收 1591 篇,接收率為 20.6%。為了向讀者們介紹更多 AAAI2020 的優質論文,機器之心組織策劃了 AAAI 2020 論文分享,邀請國內外著名大學、研究機構以及工業界的研究人員詳細介紹他們發布在 AAAI 2020 的文章,歡迎大家持續關注。
  • 2020最佳AI論文,都在這裡了
    這篇論文最大的進步來自於研究者採用的數據增強方法,叫做"Mosaic and Self-adversarial training"(馬賽克和自我對抗訓練),使得 YOLOv4 的實時物體識別速度依然驚人,並且這一次在識別準確率上也有了非常大的提升。YOLOv4 在很多需要物體識別的場景都能排上用場,對於那些需要實時、高精度識別的場景更是十分關鍵。
  • 102個模型、40個數據集,這是你需要了解的機器翻譯SOTA論文
    在這篇文章中,我們將一探機器翻譯 102 個模型、40 個數據集,從中找找 SOTA 模型到底都有什麼。機器之心 SOTA 項目以前我們找 SOTA 模型,基本上只能靠背景知識與各種 Benchmark,頂多也是 Follow 一些收集頂尖模型的 GitHub 項目。
  • 劍橋研究者梳理了99篇相關研究
    論文地址:https://arxiv.org/pdf/2011.09926.pdf該調查表明,機器學習從業者在部署模型的每一個階段都面臨挑戰。該論文的意義是制定研究議程,以探索解決這些挑戰的方法。該調查主要考慮了三種類型的論文:用例研究型論文:這類論文提供單個機器學習部署項目的經過,通常會深入討論作者面臨的每個挑戰以及克服方式。綜述文章:這類文章描述了機器學習在特定領域或行業中的應用,通常總結了在所涉及領域中部署機器學習解決方案最常遇到的挑戰。
  • 如何設置畢業論文的格式
    2020年真是多災多難啊,不僅國家面臨著各種各樣的困難,作為即將畢業的我們面對畢業論文的撰寫也是非常的困難,即使每天在家無憂無慮,但是只要一想到要交稿畢業論文,心情瞬間一落千丈,打開電腦第一步就非常難邁出去,根本就不知道應該從哪裡開始下手,這不好不容易撰寫完內容,每天又在為論文格式和排版發愁
  • 論文寫作時哪些英文資料庫的論文不能抄襲
    只要對論文審查知識不多的大學生知道,論文資料庫在論文審查系統中是最重要和最重要的,就像一個人的心是整個論文審查系統的核心一樣。學術家論文查重:www.xueshujia.com自然,哪些英語資料庫將與碩士論文審查相關聯?