書籍類文獻檢索及數據挖掘工具分享

2021-02-14 中研小學生


在文獻源流考證中,最重要的是參考資料的準確性及全面性。就準確性而言,需要自行判斷。而完整性上,需要包含論文資料和書籍資料。但論文資料都是現在人的研究成果,可以作為是否已經有人做過自己需要整理內容的工作及進度參考。但如果要做原創源流考證,就需要依靠大量的第一手資料——古籍及現代書籍。而對書籍的檢索考證,是及其需要經驗、耐心、時間的。這也就形成了,能做好源流考證的多是年齡較大的研究學者。在此,本文試圖通過以現代的手段,實現快速源流考證,以便節省大量時間和人力。

在此以書籍搜集,數據提取,數據挖掘分析三個方面進行探討。

一,書籍搜集

書籍分為古籍和現代出版書籍。

古籍搜集,可以參考:中國古籍保護網(http://www.nlc.cn/pcab/),其中的中華古籍書目資料庫,進行檢索查詢。

現代書籍搜集,可以參考:全國圖書館參考諮詢聯盟(http://www.ucdrs.superlib.net/)。

另外可以關注響書網站(www.chinaxiangshu.com)在底部的連結集合了國內外主流圖書館連結,可以下載專有資源(歷史原因導致國內古籍外流)。

二,數據提取

書籍數據提取分為兩種,一是:PDF文本的OCR識別,轉換成可編輯文本(主要是doc,txt);二是,可以找到現有的已經處理好的文本數據(各類資料庫)。

對古籍的數據提取,以資料庫為主,OCR識別為輔。原因有二:一:目前已經建成的各類資料庫基本可以涵蓋大部分古籍內容;二,OCR對古籍文本尤其是古籍抄本的識別並不理想。

例如:中醫古籍文獻,可以用中華醫典。

對現代書籍的數據提取,以OCR為主,資料庫為輔。原因有二:一,現代書籍數量巨大,排版質量較高,OCR識別準確率相對較高;二,現代書目每年都會更新,且受版權影響,相應資料庫較少。

集結現代書目最全面的便是讀秀(https://www.duxiu.com/?lsu=shr),其含有可檢索書目600餘萬冊,其中電子化文本有430餘萬冊,佔1949年以來出版書籍的95%以上,並且以每年10萬冊的速度在增長。

其下載有三種方法:一,高校帳號擁有下載權限(不同高校權限不同,從幾萬到20多萬種不等的下載權限);二,在淘寶購買讀秀帳號(權限不等);三,目前市面上已經流通讀秀的數據資源,約410萬冊,約200T,淘寶的代找書商家多是從這個途徑尋找(違法)。

目前國內OCR識別準確率相對較高的便是ABBYY FineReader 15。可以對多國語言及繁體,豎排文本的快速準確檢索,並實現PDF文本質量的二次編輯提升。

三:數據挖掘分析

Mythicsoft公司開發的filelocator pro可以實現對批量文本內容的快速檢索,並支持AND,NOT,NEAR,OR等檢索語句,及外部算法的導入。

張華平科研團隊代領研究的NLPIR自然語言處理與信息檢索共享平臺(http://www.nlpir.org/wordpress/),是國內自然語言處理較為優秀的平臺,可以實現分詞,詞性標註,詞頻統計,情感分析,實體抽取,文本摘要等功能。

王選研究室構建的gstore(http://www.gstore.cn/pcsite/index.html)平臺可以實現知識圖譜的快速構建及多層次檢索。

另外微軟為Excel打造的數據挖掘模塊,可以快速實現數據挖掘分析,雖然沒有SPSS的功能強大,但其可視化操作可以快速實現數據簡單分析。

更多數據挖掘分析技巧,歡迎大家添加微信號17862969297,有需要可以建立群聊共同分享。

相關焦點

  • 技術分享|文獻檢索2.0
    ,在大家的支持下,我們製作了第二期「技術分享|文獻檢索2.0」。https://www.bilibili.com/video/BV1c64y1u7pD2 文獻檢索2.02.1 更新介紹距離上一篇文獻檢索教程已經過去了近9個月,文章完成後,陸續有同學找到我,提出了一些實操上的困難
  • 國內外大數據工具學術論文比較研究 ——基於文獻計量方法
    思科發布的「2014-2019全球行動網路用戶白皮書」顯示,2014年產生的移動端網絡數據達到300億GB。未來5年,移動端網絡數據可能達到300艾字節。大數據時代引爆生活和商業的革命性顛覆,大數據是「未來的新石油」,這對未來的科技與經濟發展必將帶來深遠影響。為了挖掘大數據的價值,我們需要工具和平臺來感知、獲取、處理、分析大數據。
  • 分享幾個文獻檢索網站,還能一鍵將外文文獻翻譯成中文!
    我們寫論文的時候,都會先去看一些文獻,其中大部分還都是外文的。今天,小編就來分享幾個常用的文獻檢索平臺,不僅有漢化版的,而且還能在線把外文文獻翻譯成中文!Pubmed——生物醫學方面的論文檢索PubMed 擁有超過3000萬的生物醫學文獻引文,其引用和摘要涵蓋了生命科學、行為科學、化學科學和生物工程學等各個部分。此外,它還提供對其它相關網站的訪問以,及與其它NCBI分子生物學資源的連結,資源豐富。
  • 文獻信息檢索與利用爾雅答案
    答案:類名A、指南B、類名C、題名D、類號2【單選題】按照文獻出版形式,文獻大致可分為三大類:圖書、期刊和()。>B、分類檢索、主題檢索C、數據檢索、事實檢索、文獻檢索D、計算機檢索、手工檢索9【單選題】信息道德規範信息行為,不包括以下哪一項()。
  • 一些好用的工具分享(1)—文獻管理,文件檢索,屏幕錄製
    今天主要分享的內容是我平時會用到的一些工具。
  • 數據挖掘工具主要有哪幾種?
    在較淺的層次上,它利用現有資料庫管理系統的查詢、檢索及報表功能,與多維分析、統計分析方法相結合,進行聯機分析處理(O乙心),從而得出可供決策參考的統計分析數據;在深層次上,則從資料庫中發現前所未有的、隱含的信息。
  • 全世界最權威的文獻檢索工具,這6個檢索技巧必須要掌握
    WOS-著名的科學引文索引資料庫,歷來被公認為世界範圍最權威的科學技術文獻的索引工具,能夠提供科學技術領域最重要的研究成果。SCI引文檢索的體系更是獨一無二,不僅可以從文獻引證的角度評估文章的學術價值,還可以迅速方便地組建研究課題的參考文獻網絡。
  • 數據挖掘是怎樣動腦的?以一篇文獻為例
    大家好,這次白介素2同學分享一篇文獻,講一講一篇數據挖掘文獻是怎樣動腦的。
  • 論文選題前必做的文獻檢索
    目次一、選題渠道推薦(一)閱讀最新核心期刊目錄,通過目錄尋找熱點主題(二)閱讀同領域專家學者文章(三)通過國家級社科項目申報,尋找熱點選題(四)知網大數據研究平臺熱點檢索二、檢索順序推薦(「A>B」中「&
  • 大數據信息資料採集:中國知網文獻資料網站數據信息資料爬取
    大數據信息資料採集:中國知網文獻資料網站數據信息資料爬取-------------數據採集滿足多種業務場景:適合產品、運營、銷售、數據分析、政府機關、電商從業者、學術研究等多種身份職業助您在數據中快速挖掘新客戶;透視競爭對手的業務數據,分析客戶行為拓展新業務,精準營銷降低風險和預算。
  • 法學外文文獻檢索
    谷歌學術大部分時候都是我在做廣泛文獻檢索的第一步。它自稱是全國最大的法律文獻供應商,美國的法學院都有訂購這個資料庫,不知道真假,但內容確實很全。涵蓋了期刊、案例和專著多種形式,刑事法、環境法、農業法、知產、醫療法等等等反正就是幾乎所有領域的法都有,文獻大部分以PDF格式形式的,下載下來也好做閱讀筆記。具體的操作是:打開這個數據可呈現的頁面是
  • 乾貨滿滿 | 十大類教學科研實用工具與利器全面匯總!
    、輸出工具、效率工具、創意工具、管理工具、學術管理、學術資源、論文期刊十大類教學工作生活工具與利器!新上線的國家哲學社會科學文獻中心主要開設有資訊、資源、專題、服務四個欄目,資源包括中文、外文學術期刊7000多種,還有外文圖書、古籍等四類,上線文獻數據超過1000萬條,與國內60多家社會科學研究機構網站導航連結,初步形成國家哲學社會科學學術期刊資料庫,外文學術期刊資料庫,中國社會科學院科研成果資料庫等特色資源資料庫。
  • 易智編譯:科技文獻檢索系統的詳細分類介紹
    SCl《SCI》(科學引文索引,Science Citation Index)創刊於1963年,是美國科學情報研究所(ISI)出版的一部世界著名的期刊文獻檢索工具。SCI收錄全世界出版的數、理、化、農、林、醫、生命科學、天文、地理、環境、材料、工程技術等自然科學各學科的核心期刊約3500種;擴展版收錄期刊5800餘種。
  • 【文獻檢索】42種網絡學術搜尋引擎大全
    它集文獻搜索、試讀、文獻傳遞、參考諮詢等多種功能為一體,以海量的資料庫資源為基礎,為用戶提供切入目錄和全文的深度檢索,以及部分文獻的全文試讀,讀者通過閱讀文獻的某個章節或通過文獻傳遞來獲取他們想要的文獻資源,是一個真正意義上的知識搜索及文獻服務平臺。連結:http://www.chemblink.com/ 【以下的,好多咱們用不到吧?
  • 基於真實用戶評論的14本最佳數據挖掘書籍
    :實用的機器學習工具和技術,第四版」提供了機器學習概念的全面基礎,並提供了在實際數據挖掘情況下應用這些工具和技術的實用建議。具體來說,它解釋了數據挖掘以及用於從收集的數據中發現知識的工具。本書被稱為數據發現知識(KDD)。它著重於大數據集技術的可行性,有用性,有效性和可擴展性。在描述了數據挖掘之後,該版本介紹了了解,預處理,處理和倉儲數據的方法。然後,它提供有關數據倉庫,在線分析處理(OLAP)和數據立方體技術的信息。然後,描述了針對大型數據集挖掘頻繁模式,關聯和相關性的方法。
  • 6750種雜誌參考文獻格式文件在此,趕快收藏!
    實驗視頻 | 生信挖掘 | 雅思託福 | 醫學考博論文寫作作圖 | 論文投稿 | GRE/GMAT | 國自然臨近年底,各位回家了是不是下不了文獻?是不是還在為文章、標書發愁?學霸資源寶庫此次一次性解決寫作難的問題,文獻下載、SCI寫作、綜述寫作、Meta分析、生信分析、基金標書、實驗操作視頻等等統統搞定,助您快速實現科研通關!
  • 檢索中英文文獻
    我渣:師兄,為什麼非得檢索文獻?◎ 我們為什麼需要檢索文獻呢? 首先,電子資料庫為我們提供了豐富的資源和便利的途徑。整個這一系列過程都需要通過檢索文獻,來獲得對研究項目的宏觀認識和微觀把握。◎ 那麼文獻的類型又可以分為哪些呢?
  • 教育文獻的檢索的過程
    查閱文獻只有遵循一定的檢索過程和檢索規範才能使查閱的結果真實有效,教育文獻的檢索一般要經歷以下幾個過程:一、確定與研究相關的主題和關鍵詞確定研究的主題與關鍵詞是查閱文獻的第一步驟,準確地確定關鍵詞可以提高文獻檢索的準確性和效率。
  • 臨床醫生如何規劃一篇數據挖掘文章?
    「數據挖掘還能做嗎?還有期刊收嗎?」「我還要不要學數據挖掘啊,會不會像 meta 分析一樣單位不承認了?」嚇得我立馬打開 pubmed,看看最近數據挖掘文章的發表情況:檢索第一個關鍵詞是:WGCNA,這是一種常用的數據挖掘分析方法,結果顯示,用 WGCNA 發論文,發文量呈現指數增長,2020 年剛過去一半,發文量都快追上 2019 年了。
  • 醫學文獻怎麼找?檢索+翻譯,用它提高效率!
    它提供生物醫學方面的論文檢索,其核心主題為醫學,但同時包括一些和醫學相關的領域,比如護理學等。它的檢索功能十分強大,支持作者、日期、語言、主題詞、主副標題、摘要、出版類型等多種檢索,檢索結果不包含期刊全文,但是會提供相關連結,有需要的可以自行查閱下載。