中國歷代人物資料庫(CBDB),是由哈佛大學費正清中國研究中心、臺灣中央研究院歷史語言研究所、以及北京大學中國古代史研究中心合作開發的一個資料庫。通過收錄人物傳記,並對其中的語句進行分析,可以為歷史學者提供人物資料的查詢。
近日,CBDB 項目的負責人之一、哈佛大學副教務長包弼德(Peter Bol)來到中國,與一家中國公司中文在線籤約合作,希望藉助後者的技術來提升中國歷代人物資料庫的處理歷史資料的效率和準確度,提高用戶體驗,並且能夠將其推廣到更大眾的用戶群體當中。
CBDB 的前身是由美國學者郝若貝 (Robert M. Hartwell)於 1970 年代創立的歷史人物資料庫。利用早期 MS-DOS 系統下的資料庫軟體 dBase,郝若貝將大量的中文文獻數位化,使得研究者可以通過輸入關鍵詞,對文獻進行檢索,從而節省查找資料所需要的時間。
郝若貝自己從 CBDB 中收益良多。作為研究唐朝中期到元朝歷史的學者,他的研究成果以極其豐富的文獻引證而出名。這就得益於他大量搜集文獻,並將其製作成為資料庫的便利。他相信,由於中國歷史文獻極其豐富,包括龐大官僚機構炮製出的各類文件,也包括中國人的通信、祭文等多種日常應用文體,因此建立一個完備的、便於查閱的對於中國古代的歷史研究大有裨益。
在接受了郝若貝教授的捐贈之後,哈佛大學在這一資料庫的基礎之上建立了 CBDB。期間,技術更新換代,CBDB 也從原本的 dBase 換成了更新的資料庫系統 Access。同時,資料庫中的文獻也得到了大量擴充。截至 2017 年 4 月,CBDB 一共收錄了 37 萬份人物傳記資料。
近年來,CBDB 的兩個重大更新在於,首先對詞彙的含義進行了識別和篩選。例如,母親這個含義在漢語中可以表達為「母」,「媽」,「娘」等,而含有「母」這個字的「後母」,「養母」等詞卻不一定表達母親的含義,傳統的檢索功能因此效率會受到影響。CBDB 通過對這些詞彙進行編碼,從而使得一個查詢母親含義的人,能夠避開幹擾,獲得更精準的信息。
其次,CBDB 也和復旦大學的地理信息系統合作,以地圖的方式呈現相關信息。下圖就表示了 CBDB 收錄的 67000 人在中國地理上的分布。從中,歷史學家可以研究地理或者城市分布對於中國歷史的影響。
此次 CBDB 和中文在線籤約,其中強調的一點就是利用人工智慧技術,提高處理歷史資料的效率和準確度。這似乎就將利用人工智慧對於自然語言的處理技術,像 Siri 這樣的人工智慧技術能夠對用戶的呼叫作出回應,就是基於這樣的技術。
包弼德還提及的一點是,希望藉助中文在線將 CBDB 大眾化。 兩年前,在接受澎湃新聞採訪時,包弼德在被問及 CBDB 能否讓更多歷史愛好者接觸、研究歷史時回答:「關於降低門檻,如果這是真的,我會非常樂意見到;雖然至少到現在,這種情況還沒有出現,但如果出現了,也會是 CBDB 的一大貢獻。」
「除了在學術上應用以外,也把它推向公眾,使普通人也能夠更方便的了解中國歷史,尤其是歷史上的這些人物——他們的事跡、著作、生平等等一系列的貢獻。」在此次的發布會上,北京大學中文古代史研究中心史睿表示。
不過,包弼德對於 CBDB 在歷史研究中的作用表現得非常謹慎。「歷史研究永遠不止一種研究方式……前提是,你要有發現問題的能力,和清晰知道哪種方式,哪種工具能有助於你解決問題。」而 CBDB 未來的目標「就是將中國每一個有史可載的個人都錄入進這個系統裡」。