在文獻源流考證中,最重要的是參考資料的準確性及全面性。就準確性而言,需要自行判斷。而完整性上,需要包含論文資料和書籍資料。但論文資料都是現在人的研究成果,可以作為是否已經有人做過自己需要整理內容的工作及進度參考。但如果要做原創源流考證,就需要依靠大量的第一手資料——古籍及現代書籍。而對書籍的檢索考證,是及其需要經驗、耐心、時間的。這也就形成了,能做好源流考證的多是年齡較大的研究學者。在此,本文試圖通過以現代的手段,實現快速源流考證,以便節省大量時間和人力。
在此以書籍搜集,數據提取,數據挖掘分析三個方面進行探討。
一,書籍搜集
書籍分為古籍和現代出版書籍。
古籍搜集,可以參考:中國古籍保護網(http://www.nlc.cn/pcab/),其中的中華古籍書目資料庫,進行檢索查詢。
現代書籍搜集,可以參考:全國圖書館參考諮詢聯盟(http://www.ucdrs.superlib.net/)。
另外可以關注響書網站(www.chinaxiangshu.com)在底部的連結集合了國內外主流圖書館連結,可以下載專有資源(歷史原因導致國內古籍外流)。
二,數據提取
書籍數據提取分為兩種,一是:PDF文本的OCR識別,轉換成可編輯文本(主要是doc,txt);二是,可以找到現有的已經處理好的文本數據(各類資料庫)。
對古籍的數據提取,以資料庫為主,OCR識別為輔。原因有二:一:目前已經建成的各類資料庫基本可以涵蓋大部分古籍內容;二,OCR對古籍文本尤其是古籍抄本的識別並不理想。
例如:中醫古籍文獻,可以用中華醫典。
對現代書籍的數據提取,以OCR為主,資料庫為輔。原因有二:一,現代書籍數量巨大,排版質量較高,OCR識別準確率相對較高;二,現代書目每年都會更新,且受版權影響,相應資料庫較少。
集結現代書目最全面的便是讀秀(https://www.duxiu.com/?lsu=shr),其含有可檢索書目600餘萬冊,其中電子化文本有430餘萬冊,佔1949年以來出版書籍的95%以上,並且以每年10萬冊的速度在增長。
其下載有三種方法:一,高校帳號擁有下載權限(不同高校權限不同,從幾萬到20多萬種不等的下載權限);二,在淘寶購買讀秀帳號(權限不等);三,目前市面上已經流通讀秀的數據資源,約410萬冊,約200T,淘寶的代找書商家多是從這個途徑尋找(違法)。
目前國內OCR識別準確率相對較高的便是ABBYY FineReader 15。可以對多國語言及繁體,豎排文本的快速準確檢索,並實現PDF文本質量的二次編輯提升。
三:數據挖掘分析
Mythicsoft公司開發的filelocator pro可以實現對批量文本內容的快速檢索,並支持AND,NOT,NEAR,OR等檢索語句,及外部算法的導入。
張華平科研團隊代領研究的NLPIR自然語言處理與信息檢索共享平臺(http://www.nlpir.org/wordpress/),是國內自然語言處理較為優秀的平臺,可以實現分詞,詞性標註,詞頻統計,情感分析,實體抽取,文本摘要等功能。
王選研究室構建的gstore(http://www.gstore.cn/pcsite/index.html)平臺可以實現知識圖譜的快速構建及多層次檢索。
另外微軟為Excel打造的數據挖掘模塊,可以快速實現數據挖掘分析,雖然沒有SPSS的功能強大,但其可視化操作可以快速實現數據簡單分析。
更多數據挖掘分析技巧,歡迎大家添加微信號17862969297,有需要可以建立群聊共同分享。