在數位人文終極的烏託邦裡,人人都是歷史學家嗎?還需要歷史學家嗎?蘇軾所說的「博觀而約取,厚積而薄發」會變為「約觀而博取,薄積而厚發」嗎?在數位紀元裡,歷史學家需要有什麼新的專業?
2020年6月8日,由北京大學數字人文中心聯合北京大學人文社會科學研究院、歷史學系和北京論壇共同主辦的「數字人文視角下的中國歷史研究」研討會在線上進行。本次研討會是「北京論壇雲端國際論壇系列」的首場活動,根據現場統計,至少有5000人在線參與了這次研討會。
本次論壇邀請了北京大學歷史學系鄧小南教授、哈佛大學東亞語言與文明系包弼德(Peter K. Bo)教授、德國馬克斯普朗克科學史研究所的薛鳳(Dagmar Schfer)教授、荷蘭萊頓大學區域研究所的魏希德(Hilde De Weerdt)教授,以及臺灣「中研院」歷史語言研究所研究員陳熙遠博士五位重量級學者。論壇召集人為北京大學信息管理學院王軍教授,由北京大學歷史學系何晉教授、南京大學歷史學院梁晨教授及北京大學中國古代史研究中心的史睿研究員共同主持。
鄧小南:「數字人文視角下的中國歷史研究:點滴想法」
北京大學人文社會科學研究院院長、北京大學鄧小南教授帶領北大歷史系的一批研究生長期參與與哈佛大學合作的CBDB項目,在她主持的北大人文社會研究院的工作中,也有諸多涉及數字人文研究的內容。本次研討會中,她首先以「數字人文視角下的中國歷史研究:點滴想法」為題展開探討。
鄧小南教授談到,進入20世紀以後,學術界一直面臨著學術創新的壓力,數字人文即為一種重要的嘗試路徑。「面向歷史,也面向未來」的歷史學研究者不斷在尋求新的歷史學發展路徑。數字人文是一種新的學術導向,其產生和推進都是基於數字和人文的雙向需求和動力。數字人文是一種理論開放、成就最顯著的跨學科研究,提供了多學科交流的平臺,提供了新的研究工具,激發了新的研究方法、研究範式和研究活力。人文學科一直是需要積累和傳承的,特別需要拓寬學術空間和激活學術潛力,這樣的內在需求,其實是發展數字人文的根本性動力。北京大學近十年來一直在推進數字人文的建設,各學院、圖書館等,都在積極進行相關嘗試。歷史學成就的基礎,來自「材料」和「議題」的結合,數字人文技術的介入,嘗試突破的首先是歷史學的材料佔有問題。在實踐的過程中,透過不斷的追問,即使是字面上的「檢索」,也可能支持並且引導學者的深度研究。現在,數字人文已有長足的發展,從過去的檢索,到現在的超越檢索,數字人文對歷史學科的介入方式也是在不斷推進的。現在,不僅有Markus這樣個性化、定製化的資料庫,也出現了一些經過深層開發的關係型、分析型的資料庫,這使學者們有機會開始處理材料背後的一些結構化的內容。
除此之外,鄧小南教授還談到了一些新的互聯嘗試。網際網路的關鍵在於「互聯」。現在對於「互聯」,已經有許多新的努力和實踐。數字和人文是不同的學科,也具有不同的學科特點,但不管怎樣,二者都有拓寬天地的要求。這二者的連結,延展了觀察歷史的平臺,深化了學術內涵,也使學術境界有可能獲得根本性的提升。如CBDB、CHGIS這樣的互聯嘗試,就用可視的、能看得到的方式呈現時空的感覺,呈現時空裡活動的相互關聯的人。這樣就可能刺激出一些新的研究題目,形成一些新的研究契機。同樣,也是因為議題的互聯和學者的互聯,使研究交流的方式發生了根本性的改變。不僅是收藏在世界各地的不同資料能夠讓世界各地的學者廣泛利用,而且針對一些全球性的問題,交換意見和合力研究的渠道也變得非常迅捷、豐富。在歷史上,筆和紙的出現以及印刷術的出現,都曾為知識和學術思想的生成和傳布創造了新的條件。如今數字人文技術的出現,也促成了新的記載、閱讀和研究的方式。
最後,鄧教授還談及一些關於數字人文的新期待,特別是對於「融通」的期待。世界文明的發展,對於文明的研究,其實都是跨時代、跨地域、跨學科的。今天的數字人文領域,也正是這樣一種跨越和互通的典範。數字人文出現以後,歷史學者開始有了新的工作方式、面對新的議題,也開始進行學術機制的重組和重構,有了大跨度的文理交叉實踐過程。對未來的新期待,一方面包括量化研究和質性研究的對話,另一方面也包括數字人文和傳統考證方式的融通。人文學科有一些特有的屬性,這些屬性對於數字人文的功能實際上提出了很高的要求,同時也對歷史學者的素質提出了更高的要求。現在歷史學者不能僅靠對材料的熟悉奪得研究中的先機,所以辨析和追問的能力高低就會特別凸顯出來,就這些問題,學界已經有許多聚焦式的集中討論。
數字人文領域新的「互聯」嘗試
最後,鄧教授也談到數字人文研究方式的廣泛應用,應該是人文學科得以深化的路徑。作為歷史學者,要特別警惕急功近利導致的「表淺化」可能。系統可以協助學者抓取文本、觀察文本間的關聯,但有一些非字面的體悟,只能靠學者對各類史籍、對田野、對歷史遺蹟的「觸摸」,靠內心的感觸、靠閱讀實踐與思考來摸索形成。數字人文的深度發展,是和歷史學科的深度發展相伴相隨的,加強問題的提煉、材料的閱讀和辨析的訓練,仍然是我們不能忽視的基礎和責任。
魏希德(Hilde De Weerdt):「數字歷史需要什麼?想像力、評測、合作」
荷蘭萊頓大學魏希德教授是Markus古籍半自動標記平臺的主持開發者,曾在2016年的世界數字大會上贏得「最佳數字人文工具」獎。本次研討會中,魏希德教授以「數字歷史需要什麼?想像力、評測、合作」為題,介紹了她心目中數字歷史、特別是東亞和中國的數字歷史研究最需要重視的原則。
魏希德教授首先介紹了她所主持的Markus中文文本標記、分析、可視化平臺項目的最新進展。2019年,Markus 項目新開發了文本對比服務和韓文版本。同時,團隊已與中文在線公司進行合作,預計在未來三年的時間裡在中國大陸開發Markus,這將為大陸用戶的使用提供便利。
魏希德教授主持的Marcus項目
接下來,魏希德教授探討了她對「數字歷史最需要什麼」這個問題的看法。在她看來,這個問題的答案是「想像力」。想像力不僅是數字歷史,也是歷史學本身的一種發展動力。著名的歐洲中世紀歷史學家馬克·布洛赫(Marc Bloch)在著作《歷史學家的技藝》中曾說:「歷史研究的特殊對象,是人類的所動所作。比起其他學科,歷史學是為了引誘想像力而設計的。」有趣的是,布洛赫先生雖然如此強調想像力,他對在學術界很有影響力的實證主義(positivism)也表示了尊重,認為實證主義教我們深入地分析問題、固定地把握問題,甚至使我們的思想沒有那麼粗劣。現在許多學者都認為數位人文就是以前的實證主義,若以布洛赫的視角來看,數位人文的研究不意味著歷史學家要成為數學家,而意味著歷史學家要對數字人文的技藝有所把握,將來數字人文也會成為歷史學家「本行」的一部分。魏希德教授自己,也堅信這樣的觀點。
在魏希德教授看來,數位化給歷史學家帶來了新的挑戰,也帶來了新的機會。她接下來,她著重就「問題的開發」這一問題展開了探討。她認為,比較成功的研究項目通常有三個特點:第一要從有想像力的問題出發;第二要確定好合適的研究範圍;第三點,也是最重要的一點,要設計好研究程序以及研究方法。她過去召開過許多Markus工作坊,發現有一些學生和同行只是在沒有達到這三點的情況下盲目地嘗試工具,這樣一來就無法產生有價值的研究。
最後,魏希德教授以Markus平臺的實際開發過程為例,來說明想像力在設計研究方法與學術發表方面的意義。Markus平臺開發的每一步,都反映了她本人或是同學、同行們的研究興趣,以求靈活地設計人文學者需要的平臺。
Markus平臺的開發是從自動標記開始的,這與她當時正在從事社會網絡,特別是宋代筆記反映的社會網絡研究有關。後來,平臺加上了各種功能,比如手動標記、關鍵詞標記、段落篩選等。團隊不斷在功能和參考材料方面對平臺進行改進,如由於對標籤之間的關係感興趣,添加了關係標註的功能;為了適應清史研究者的需要,添加了滿文材料;因為有一位學生要從事中韓關係的研究,又添加了韓文實體標記功能等。為了實現可視化功能,平臺連結到Palladio,後來又添加了連結到Docusky的大型數據功能。因為歷史學研究常常需要回到原文,平臺特別設計了能從每個標記點回到原文中的功能。最近,因為對《貞觀政要》裡引用的書籍感興趣,平臺新開發了文本對比的功能;除此之外,還開發了版本對比的功能。這些功能,都是通過跨領域長期深入的協作開發完成,許多學者都曾在其中發揮貢獻。
包弼德(Peter K. Bol):「從軼事到數據:傳記數據的網絡和空間分布」
哈佛大學包弼德教授是哈佛大學中國歷史地理信息系統項目(CHGIS)、中國歷代人物傳記資料庫(CBDB)項目的負責人。在本次的研討會中,他就「從軼事到數據:傳記數據的網絡和空間分布」這一主題展開了介紹。
包弼德教授首先介紹了一批數字人文領域的中國歷史研究文獻,其中,他特別提到了兩位年輕學者——伯克利大學的譚凱和巴克內爾大學的陳松,他認為,這兩位學者用數字人文的方法,對中國歷史有新的發現。包弼德教授提到,正如魏希德教授所言,數字人文領域的許多研究是合作研究,需要有其他領域的專家、尤其是技術人員參與。除此之外,他還介紹了一批對中國歷史數字人文研究最有價值的資料庫、工具和平臺,包括中國哲學書電子化計劃(Ctext)、明清數據著作資料庫(MQWW)、中國歷代人物傳記資料庫(CBDB)、中國歷史地理信息系統(CHGIS)、Markus、《史記》研究資料庫、10,000 Rooms、LoGaRT、Philologic、Docusky等。
接下來,包弼德教授對中國歷史地理系系統(CHGIS)和中國歷代人物傳記資料庫(CBDB)的情況進行了介紹。中國歷史地理系系統(CHGIS)項目始於2001年,由哈佛大學與復旦大學合作,旨在建立適用於中國歷史的歷史GIS通用標準。CHGIS目前已經更新至第六版,包含由秦代到辛亥革命的行政區劃數據。中國歷代人物傳記資料庫(CBDB)項目則始於2005年,由哈佛大學與北京大學、臺灣「中研院」歷史語言研究所合作開發,在即將更新的最新版本中已經包含了47萬人的數據,旨在讓學者能夠通過個人與群體的角度研究中國歷史問題。目前,使用CHGIS和CBDB進行中國歷史研究的研究者分布在世界各地。CHGIS和CBDB的數據特點是「三言」的——同時有漢字、拼音和英文翻譯三種形式。建設資料庫的過程中所用的各類文本,是為了供給學者做不同的研究和分析,如統計分析、群體傳記學、社會網絡分析和空間分析等。
包弼德教授介紹到,所謂「從軼事到數據」,可以通過南宋史學家、經濟學家呂祖謙的傳記案例進行說明。學者們在這一傳記中,標出了不同的人名、字號、官名、地名、社會關係。接下來對這些標記出的片段進行編碼並放入關係型資料庫中,即可成為可供計算機檢索的資料。
據包弼德教授介紹,目前,CBDB最新版本中的大部分數據來自唐、宋、元、明、清代,而五代、遼、金的材料則較少,目前已有一些來自民國的材料但數量也較少。在未來,會進一步將材料的時間範圍向前推廣到秦漢,且希望能盡力向後推廣到現在為止。CBDB的資料庫支持在線檢索,並提供了可下載的access資料庫版本。包弼德教授以明代進士數據的查詢統計為例,向大家講解了CBDB的使用過程。隨後,他也向大家展示了一個使用明中葉七十二個學者的數據進行社會網絡分析和GIS分析,研究學者間學術關係、學者籍貫和明朝驛站地點關係、學者聚集地點特徵等的案例。目前,若想要在中國大陸使用CBDB資料庫,可以從「中文在線引得數字人文資源平臺」進入,十分便利。
薛鳳(Dagmar Schfer):「看待史料的新視角——利用數字人文進行歷史研究」
德國馬克斯·普朗克科學史研究所所長,柏林工業大學教授薛鳳教授2020年榮獲德國最高學術屆最高榮譽——「萊布尼茨獎」。她主持有關中國地方志的資料庫項目,並推出了自己的數字人文研究工具LoGarRT(Local Gazetteers Research Tools)。
在本次研討會中,薛鳳教授基於馬克斯·普朗克科學史研究所(以下簡稱馬普科學研究所)在構建地方志研究工具LoGarRT方面的相關經驗,以「看待史料的新視角——利用數字人文進行歷史研究」為題進行了探討。
薛鳳教授指出,儘管「對問題的回答」一直是許多數字人文研究方法和發展的前沿,但她建議未來可以將「提出新的研究問題和產生新的研究方法」作為下一代的數字人文學術前沿。
薛鳳教授認為,數字人文的創新有兩個方向上的發展,一是方法創新,二是技術創新。方法創新和技術創新不同,也和計算機科學領域的創新不同。數字人文學科長久以來注重計算機科技方面的創新,即歷史學通過數字人文重組和呈現。從文本中提取數據、以新的方法排列並識讀數據,這些重組和展示工具定義了新興的「New Database Construction」時代。但是,正是這些必要的工作,比如剔除和處理數據,使歷史學家非常苦惱,也使他們對使用數字人文方法猶豫不決。因為把信息提取出來以後,內容被以表格和資料庫的形式組織呈現,會造成語境等很多內容的丟失。一個問題是:數字科學專家的重要目標是發展技術,而歷史學家的目標是分析內容、增進對歷史的了解。兩方專家的目標不同,方法也不同,不易配合,所以簡單來說數字人文面臨的最大挑戰是把兩方面的專家結合起來。
接下來,薛鳳教授闡述了她對「轉換數字人文科學的視角」的看法,探討了如何從使用數字工具進行信息提取,轉換和分析,也即如何把史料資源由息源轉化成針對研究問題的資料庫的話題。作為一個科學史學家,她研究的最基本問題是什麼是科學,以及科學是如何發展起來的。要了解科學的發展,就要了解科學的來源,而科學的一個重要來源就是地方性知識,所以她本人對中國地方志很感興趣,也因此開始了LoGarRT這個項目。在這個項目中,她不將地方志當作資料庫,而將其當成研究課題,試圖通過這些地方志材料了解中國地方性知識的發展過程。關於地方志如何影響當地的知識、形成地方性的知識和認識,薛鳳教授給出了「地方志和災害」研究的例子,這個例子同時也說明了用LoGarRT提出新的研究問題,從信息源回到問題研究的方向,再到形成研究問題的資料庫的研究過程。
薛鳳教授關於「地方志和災害」的數字人文研究
這項研究的研究問題是使用地方志了解地方災害的出現和政治信息,從而分析地方性知識的性質、發展、變化、政治等等。和傳統「利用地方志了解災害何時出現」的材料使用方式比起來,這項研究需要了解地方志本身的發展過程。使用LoGarRT系統中的數據,可以發現很多問題,例如各地方對自然災害的記錄情況和朝代有關。薛鳳教授指出,這個例子也可以說明數字人文的研究中,可能產生更多的問題,但同時並不意味著一定產生更多的答案。
薛鳳教授認為,數據本身還不是信息,信息是一種無法從數據中直接提取的結構。在LoGarRT的例子中,這樣的結構就是地方志。數據本身還不是信息,即是說,將數據轉換成一個新的結構,例如做成一個資料庫的時候,數據本身具有了新的意義,我們也會對數據產生新的了解。另一方面,如果我們用數字人文方法進行研究,但仍然對數據本身的信息感興趣,就需要保留原來的結構、分析原來的結構和原來的資料庫,這樣的做法則會對材料原來的意義產生新的了解。這二者之間,存在很大的區別,對數字人文研究的創新很重要。通過分析數據,分析結構,和同時分析數據與結構,就能夠更深入理解原始材料。
如果我們將注意力轉到史料資源本身的問題上來,材料是如何被解釋的?它是關於什麼,又是為什麼被採用?或者原始語境中是怎麼利用這條材料的?魏希德教授認為,數字人文是探討這些問題的完美工具。它幫助我們重新思考我們本認為理所當然的事情,讓我們對原本認為理解的東西產生新的認識。
陳熙遠:「探索人文研究的數位轉向:挑戰與前景的若干思考」
臺灣「中研院」歷史語言研究所(以下簡稱史語所)研究員陳熙遠博士是臺灣「中研院」數位文化中心召集人。該中心一直致力於推動跨學科的數位人文研究,在上個世紀八十年代就開始了數位典藏與數位文化的建設。陳熙遠博士以「探索人文研究的數位轉向:挑戰與前景的若干思考」為題進行了報告。
陳熙遠博士首先引述了臺灣「中研院」史語所成立時,所長傅斯年先生的名言:「我們不是讀書的人,我們只是上窮碧落下黃泉,動手動腳找東西」、「中國古來新學問大都由於新發現」。在二十世紀中國學界的五大發現中,包括殷墟甲骨、漢晉簡牘等,都成為史語所在後來發展中很重要的助力。
陳博士認為,如果說史學資料庫的建置可以作為數位人文研究的發展開端的話,數位人文研究其實可以說對史學研究者具有十分深遠的影響。例如說,史語所從1984年就開始做「漢籍自動化」的工作,九十年代開始「內閣大庫」的整理,這些資料庫提供了材料檢索和使用的便利。這些資料庫還僅僅停留在「Big Data(大數據)」而不是結構化的「Smart Data(智慧數據)」層面,但對它們的使用,使得史學界從研究選題、到史料援引、再到成果展現,都已經和過去的歷史學研究有所不同。在使用材料時,從私人藏書樓,到公共圖書館,再到現在的雲端資料庫,尋找材料時,我們已經基本已經不必再從故紙堆裡「眾裡尋他千百度」,在彈指之間,現在研究中的「海底撈針」已經全憑「翻雲覆雨手」。學者已經不再「上窮碧落下黃泉,動手動腳找東西」,而可能是在「東西」上動手腳,將這些「東西」轉化成資料庫,讓「東西」自己長出「手腳」。數字人文方法的出現,在大勢方面重新覆案歷史發展的宏觀全局,在細節方面則挖掘藏在歷史夾縫的微觀細節。
作為歷史研究者,陳博士提出了若干在一個美麗新「數」界出現之後,歷史學將如何發展的問題。在數位人文終極的烏託邦裡,人人都是歷史學家嗎?還需要歷史學家嗎?蘇軾所說的「博觀而約取,厚積而薄發」會變為「約觀而博取,薄積而厚發」嗎?在數位紀元裡,歷史學家需要有什麼新的專業?這些都是值得學者們深入思考的問題。通過這些問題,陳博士引出了自己和臺灣「中研院」數位文化中心(以下簡稱數位文化中心)對「人文研究的數位轉向」的看法對和對數位人文研究的規劃。
臺灣「中研院」數位人文研究中心開發的研究平臺
數位文化中心希望能夠通過四個核心課題來規劃數位人文發展。在數位人文知識庫建立上,延續過去的資料庫建置,並和其它資料庫進行關聯;在數位研究研究工具的開發方面,通過核心技術與系統的研發,萃取並分析文本;鼓勵數位人文創新計劃的發展;在出版與推廣環節,通過數位展示和虛擬出版來完成。數位文化中心已經與臺灣「中研院」民族學研究所、臺灣史研究所、地理資訊科學研究專題中心、近代史研究所等機構合作,開展了多項課題研究。陳博士特別強調,這些項目的成果都是「linked data(關聯數據)」,而不僅僅是資料庫。這些結構性的數據,能夠更有意義地協助研究者們今後的探尋工作。他指出,對於人文研究者來說,文本分析和圖像分析是兩個重要的研究問題,目前數位文化中心也針對這兩個問題開發了文本分析研究平臺和圖像分析研究平臺,可實現文本標引、語義標記、詞頻統計、文本對比、圖像比對研究、影像文字辨識等功能。平臺同樣注重數據的開放互聯,也建立了自己的自己的研究材料檢索系統。在人文學者對數據資料庫的使用方面,史語所每年都會通過「申請-審查」的方式鼓勵所有的人文科學研究者參與到項目中來。在出版環節,數位文化中心正在考慮成立一個院級的出版社,實現實體出版,並在未來將其和所有的數位展示連結起來。同時,正所謂「致廣大而而盡精微,極高明而道中庸」,數位文化中心也希望能夠通過這些平臺,讓一般人也可以參與到項目中來。目前已經在進行「開放博物館」的展示平臺規劃,旨在實現研究者學術成果的數位展示、研究歷程的記錄、研究素材和數據的保留、分享甚至進一步修訂等。除此之外,也希望從美術館、圖書館、檔案館、博物館乃至普通人,都可以通過公眾授權的模式,進行藏品的收集、展示、轉譯與再創作。陳博士認為,這是「從學者一個人的武林到全天下人共享的江湖」,目前已經設計的展示模組、展覽模式和分析工具,都服務於這個構想。
在五位學者的精彩介紹過後,由北京大學中國古代史研究中心的史睿研究員和南京大學歷史學院梁晨教授兩位主持人收集了一些來自聽眾們的問題,並向學者們提問。
Q1:想請問包弼德教授,數位人文的研究方法比較依賴於數據的搜集,那麼這樣的一種新方法是否意味著它在某一類史料上比較有效,而在某些領域內不太能展現其功能?這種方法的局限性在哪裡,未來的前景怎樣?
A(包弼德):
這個問題提得很好。我想從另一個角度來回答,不是從材料、問題、研究題目或研究問題意識的角度來講,而是舉一個例子。我個人是研究中國思想史、特別是宋、元、明、清思想史的。如果我需要了解朱熹的哲學思想,那麼我一定要讀朱熹的幾篇比較重要的文章和註解。舉例而言,他在《中庸章句集注》中引用著名的十六字——「人心惟危,道心惟微,惟情惟一,允執厥中」,對「人心」、「私慾」、「道心」和「天理」進行了新的定義。除了我現在所看的文本都是數位化的文本之外,這個問題原本和數字人文不太有關係。但是如果我現在有另一個問題:我想看到朱熹提出這個講法以後,誰開始接受「人心」就是「私慾」,而「道心」就是「天理」這個新的定義?要回答這個問題,我可以閱讀每一篇朱熹所在時代寫成的文章,或者《四書》經解等等,看這些文章是怎樣講的。可是,最有效的方法是一個數字人文的挖掘文本方法。看從哪些文章中,開始同時提到「人心」和「道心」,同時,也提到「天理」和「私慾」。例如,從朱熹去世之後,到元朝開科舉制度以前的約115年之間,「誰接受了這個新的講法,誰又持另外的講法?」這是一項數字人文的研究,但這和我自己想問的問題有關。如果我對這樣的問題沒有興趣,就沒必要進行這樣的研究。所以說,不是資料在限制我,而是我提出的問題最重要。剛才魏希德教授也提到,我們要先看到自己的興趣、想法和問題,然後選擇最適用的方法去研究。有時候可能是詳細地閱讀一篇文章,有時候則可能採用挖掘文本的方法。所以說,我覺得自己不是專門要做數字人文的研究,而是要研究中國歷史的一些關於思想史、思想價值變遷的問題,這需要利用最合適的方法,而不是必須用數字人文的方法。或者說,如果我是要研究社會史的一些問題,研究社會史意識和社會科學相關的內容,可能要用群體傳記學的方法。通過群體傳記學的方法,我們可以找到非常多關於人的生活資料,如從墓志銘、《宋書》、《宋詩》等等,都可以搜集資料。我們對非常多各類的資料進行標記,並放在一個關係型資料庫中,才可以用社會科學的方法進行研究。可是我們研究中國文學,並不一定要用這樣的方法,而要根據興趣。所以說,我認為回答這個提問不應該從資料來講,而應該從問題意識來講。
在線提問環節
Q2:想問薛鳳教授,現在這些新的方法和工具,為學者的研究開闢了新的天地,使得學者能夠提出新的問題。但是這些研究因為具有很大的開放性,甚至很多個人自我的材料也能夠成為一種新的研究材料,這是否能使得普通人也能夠有機會從新的視角看待自己的歷史,甚至自己去做一些分析?
A(薛鳳):
這是一個很大的問題,所以我也不知道能夠怎樣回答。我覺得有各種各樣的方法,但正如剛才包弼德教授所說,應該從問題和興趣開始,由興趣決定要用什麼方法。在中國歷史的研究中,因為材料很多很豐富,有一個好處是可以試試很多的研究方向,但也有一個壞處,因為全部這些材料已經被從各種各樣的方向和觀點研究過,有時候我們可能過分固執,覺得「只能這樣看」,不能用新的方法分析,因為我們已經特別了解所用的原始材料。不過,很多材料其實也是很大、很豐富的,所以還是應該從一個新的問題開始,從自己的興趣開始,發揮想像力,一方面非常的了解材料,一方面擁有新的興趣,將二者聯合起來,肯定會有新的方法出現。另外還有一個點可以補充,我們的研究所中,目也有研究者和數學家一起合作,來研究歐洲方面的材料。我認為歷史學家和數學家合作研究歷史方面的問題,是一個有挑戰性但很有希望的方向。我們需要這樣的有機體(organisms),但這個有機體有時候會逼迫我們做一些我們不願意做的事情。為了發展歷史學研究,這方面的合作有機體該如何發展,是一個新的領域。
Q3:想問魏希德教授,數字人文這樣的研究方法需要人文學者和工程師的合作,像這樣跨越領域的合作以前是很少的,請問有哪些經驗可以借鑑?據我總結,在數字人文方面,應該說人文學者對於新的技術提出了最高的要求,但他們同時又是一批數量最少的用戶,然而他們的研究內容又有最高的文化、文明價值。數字人文研究中數據的建設也非常難,建成的資料庫和研究結果在學術界取得學術信任的過程也比較長。在這樣一個非常複雜的狀態下,人文學者應該如何尋求合作?合作中有哪些經驗可以分享給大家?
A(魏希德):
其實合作是一個挺複雜的問題,我先來談談自己在這方面的經驗。我自己在讀研究生和剛開始教書時,總是自己一個人做研究,自己一個人讀書、寫文章。開始開發Markus的時候,我開始和計算機科學家一起工作。後來,在機器學模型開發和文本對比系統開發的過程中,也分別和不同的計算機科學家合作過。研究方面,剛才演講中提到的有關黨爭、社會網絡比較分析這篇文章,也是和數學家、歷史學家以及計算機學家一起合作的,可以說這真的是一個跨領域的合作。這種合作當然充滿了挑戰,有的時候開展起來很困難,特別是作為歷史學家,和計算機科學家以及數學家一起工作,常常不太順利,因為大家可能互相都不了解彼此要解釋的問題。根據我個人的經驗以及對其它一些項目的觀察,我覺得一件非常重要的事是大家要非常頻繁地相處,學者之間的合作應該是非常深入的。一般來講,項目都是幾年的工作,在這段時間裡大家應該頻繁相處,一起討論問題。作為歷史學家,不僅要講到自己比較感興趣的問題,也要講到自己在所用資料的特徵在哪裡。因為和你一起做研究的計算機科學家可能也對這個問題感興趣,甚至不僅僅是感興趣,還可能會提出一些新問題、新批評或新建議。我認為這一點非常重要。我看到一些學者開始做數字人文的研究時,是自己做自己的,然後僱用一個技術員來工作,這種做法有時候也是成功的,但通常不是最成功的。因為在合作中大家會互相學習,這種互相學習非常重要。當然這存在挑戰,正如提問中提到的那樣,這意味著歷史學家要自己培養自己,或是自己學習一些新的技術、理論。這需要時間,但我認為這樣做非常值得。這樣的做法可能有一個現實的原因,就是如果自己不了解的話,計算機學家可能會認為某些問題提供模版化的解決方式,但這常常不適合我們想做的研究。計算機學家常常會用到其他人已經做出來的案例和程序,這本身不算是問題,但我們自己在做研究的時候,需要注意到這種「數位人文」是不是真的反映了自己的研究和自己想要解釋的問題?另外一點也非常重要,我們在寫文章的時候,也是一起寫作,主要還是我來寫,但是例如說做社會網絡分析的研究時,需要請到數學家來為歷史學家解釋為什麼會用到這樣的方法。這樣,歷史學家也可以學到一些新的知識,並且對計算機科學家來說,這可能也非常有趣。很重要的一點是,我們常常會覺得數學家可能會有比較特定的看法,覺得他們比較相信客觀的事實,但是事實上並不一定是這樣,他們對「未盡性」也有非常深的了解。我覺得和他們合作可能會讓我們發現,我們這個學術界可能並不一定那麼割裂,他們的興趣也可能和我們非常相似。最後一點是,合作時一定要找到合適的人,找到願意和你長期合作的人。對人文科學感興趣的計算機科學家和數學家不容易找到,但還是要努力尋找。除此之外再補充一點,我覺得看我自己或者其他人已經做過的研究,其實總覺得不滿意,還有進步的餘地。做這樣的工作確實很不容易,需要我們慢慢來做,慢慢來進步,這樣才會慢慢做出我們將來可能見到的那些數字歷史研究項目。
Q4:剛剛陳熙遠教授在介紹臺灣「中研院」的資料時,網上有非常多的聽眾在問一個同樣的問題,希望能請陳先生解答一下。目前,史語所的典藏資料庫,對於中國史研究而言,在材料和內容上有什麼樣的特點?目前的開發情況是什麼?
A(陳熙遠):
其實我也剛好可以借這個機會向大家報告。其實最近由於COVID-19的關係,很多全國、全世界各地的高校都暫時在授課和研究方面受到較大衝擊。所以史語所在上個月其實已經正式向全世界開放關於「漢籍資料庫」以及「內閣大庫」資料庫的使用,預計開放到九月底。非常歡迎在線上的朋友們試試看我們的資料庫,也希望能獲得大家的一些反饋。剛才我們也談到了關於資料庫的建置,從研究者的立場補充我們過去「上窮碧落下黃泉」所收集的各種材料,也包括我們圖書館的典藏。很多很重要的東西事實上的確需要人文學者和專業的科技人員通過算法、通過電腦程式等提供更好的字形解決、錯別字辨正、字節標註等功能。現在大家如果使用史語所的漢籍資料庫,可以看到在某種程度之下,我們也希望能夠實現由大數據到智慧數據的建置。我們重要的標識——人名、地名,甚至可以和「人名權威檔」、GIS聯繫起來,還可以重找其中的關聯字並進行收取。我們每年都希望能夠開放資料庫,並獲得使用學者的回饋,這種回饋機制是非常重要的。剛才幾位前輩都談到一個很有趣的問題,即一個資料庫如何能夠真正為人所用,研究者和技術開發人員能夠怎樣搭配起來?這就像過去所講「體用」還有「道器」的問題。有一些比較單純的資料庫,像我所負責的「內閣大庫」,現在還沒有到達全文辨識的階段,但我們基本上會做一個透視資料庫,通過做元數據的建置,讓大家能夠進一步檢索,做圖像的閱讀、瀏覽,這將來還有很多不同的開發可能。在這個過程中,技術人員能否了解使用研究者的需求,或者反過來講研究者的需求是不是能夠很精準地把想像中的需求納入到程序開發者考慮的項目中來,是非常重要的。每年我們都會組織一些開發廠商和研究人員的商討,以求進一步優化資料庫。這是一個漫長的道路,需要前僕後繼的努力。
Q5(北京大學信息管理學院王軍教授):剛才陳老師介紹的臺灣「中研院「數位化的項目非常多,而且涉及了「中研院」下屬的多個機構,包括史語所、近史所等等,而且在新技術的應用方面,也非常前沿。陳先生展示的內容,包括通過關聯數據將「中研院「各方面的數據、哈佛的數據和歷史圖庫方面的數據都關聯在一起。因為我自己是資訊科學的背景,所以我特別感興趣這些技術、項目開發、工程建設的問題是如何解決的?是否每一個所內都有資訊科學家和歷史學家合作?還是有一些商業的同輩和「中研院」方方面面的研究人員在一起工作?
A(陳熙遠):
王軍教授的這個問題非常重要。其實嚴格來講,雖然我們由中心通過審核制度網資助各個人文單位來進行相關成品、典藏、檔案或文獻的數位化工作,希望能夠建立最基本的資料庫,但我們也希望它們能夠開放關聯,因為這對研究者來講是很方便的。這牽扯到一個很重要的問題,雖然我們中心的團隊也有專業的圖書資訊人才和相關科技工程師,但個中也包括了和相關的信息專業的教授合作。其實在早期推動數位典藏的計劃時,就有很多重要的資訊方面的學者參與這個計劃,從圖像、文字、到影音,這三方面都有相關學者能夠予以投入。因為很顯然,這並不是一個簡單的「數位」加「人文」的架構問題,而事實上有很多內在的、嵌合的考量。現在,當然不可能資助的所有人文社會科學項目在建資料庫時都能有相關技術資源支持,但我們希望通過每年的成果展示以及相關的課題研討,包括數字人文會議等媒介,和中心更密切地合作,這其實也還在摸索當中。王軍教授剛才講得沒有錯,我們想要以此產生學術的成果和成績,不只是人文學者,包括參與項目的科技人才,這個問題嚴格來講在「中研院」還沒有完全解決。但至少很重要的一點是,「中研院」對這個問題是相當重視的,也希望能夠通過數位中心這樣一個平臺,使這些人文研究獲得更好的發展。各所面臨的問題,接下來可能會想辦法在經費上來處理。我們所知的大部分資料庫,其實是商業的,但「中研院」的這些資料庫,原則上實際上是由「中研院」來進一步維建、管理、甚至可以說經營的,每一年可能從海外和國內申請經費,但並沒有一個真正的商業公司來做統籌工作。這和其他資料庫,像我們熟悉的方志庫、古籍庫相比有很大不同。這個問題要如何解決,如何用一個更好的方式來進行資料庫開放,在本次資料庫開放的過程中,也是納入到我們的議程來探討的。
Q6:很多聽眾有這樣一個問題:在今天的技術環境之下,諸位專家都是做中國歷史,特別是中國古代史研究的。大家覺得現在中國歷史研究在數字人文的幫扶之下會對我們的全球文明產生什麼的價值和貢獻?怎麼樣看待中國歷史研究對全球文明建設的推進?
A(包弼德):
這個問題確實非常大。我們總是在給不是專門學中國歷史的人講,中國歷史的文獻,是兩千五百年以來一直有積蓄性的,是很廣大、很詳細的。中國歷史一定是世界史中非常重要的一部分,未來也是我們學界一個全世界共同的資源。我們可以的確這樣講,但我們應該怎樣證明?我們在做一些資料庫,比如CBDB的時候,也有一個目的,就是讓中國史學領域以外的人,能夠看到中國史料和數據的豐富。歐洲史和中國史有一點很有趣的不同,如果我們看歐洲中葉的歷史,他們地方的資料非常豐富,比中國豐富得多。例如義大利的佛羅倫斯,他們關於書信的檔案,比全中國中古史的地方書信檔案還要多。中國的文獻,有很多是全國性的,可是到了宋朝、特別是南宋以來,地方志的資料也是很重要的。到17、18世紀,中國的地方史的材料,還是比歐洲更豐富。所以從資料來看,中國史和其他世界史分支有一些非常重要的不同,可是從問題意識來講,又有許多問題可以做新的研究。這個問題的確不太好回答,我想說的就是這些。
A(魏希德):
這個問題其實討論到中國史如何為全球史作出貢獻。我覺得這個問題有幾個方面可以探討。中國歷史有很多數據,這是一方面的貢獻。20世紀,中國人文科學家也出了很多參考書,這些參考書其實很值得我們注意,我們可以利用這些材料來做一些先進的平臺,這方面其實CBDB只是其中一個例子。講到歷史經驗的話,我自己的看法是其實我們應該把中國歷史的經驗連接到其他全球史。這是件很困難的事情,但我覺得我們現在應該開始做這件事情。數字人文剛開始成為研究熱點的時候,每個國家都單獨地做每個國家的項目,東亞、歐洲、美國都是這樣。這當然有好處,就是我們現在已經有很多資料庫;但也有一個缺點,就是這些資料庫常常沒辦法互用。將來,希望我們可以進一步把中國和整個東亞的歷史經驗、數據、平臺連接到其他文明的材料中,這可以讓我們做新的歷史研究。從19世紀開始,我們所寫的歷史都是一些國家性的歷史,當我們把全時間、全人類的歷史放在一起,可能會發現,通常這些去國家性的歷史可能產生一些比較大的誤會,所以我希望我們能彌補不足,做這項工作。
A(薛鳳):
我稍微補充兩點。我認為包教授和魏教授已經說了最重要的事情,他們的視野也是國際化的。我還是要強調自己是一個科學歷史家,我覺得如果應用中國歷史的長期的材料,最大的好處是可以看到長期的認識和發展。這方面我認為中國的材料還是有特點的。這和多樣性有關,因為各種各樣的地方都有不同的材料,對數字人文的應用方式也不同。中國有這麼多的文獻材料,同又有很多文物方面的材料,對此開展數字人文研究,既存在挑戰,也存在機遇。我希望中國在這個方向也能繼續發展起來,據我估計,中國史學界在數字人文研究方面的能力還是很強的。
最後,何晉教授對本次研討會進行了總結。何晉教授指出,數字人文未來可能會對史學研究產生非常大的影響,也對歷史學家的工作方式產生了影響。希望這次的研討會能夠對未來的歷史學研究者帶來啟發,也希望未來史學界也能夠有科班出身的數字人文研究人才。同時,也希望未來能夠有一個更好的、便於使用的數字人文研究資源整合平臺出現。
藉此機會,王軍教授向大家公布了北京大學數字人文中心「『數字人文創新作品展』暨數字人文國際論壇2020」即將舉辦的消息,並發布了展會徵稿啟事。此次論壇預計於2020年11月召開,於9月底截止徵稿,徵稿內容內容包括學術論文、設計作品、系統研發等,通過初審的前二百份作品的作者,屆時將受邀參加此次數字人文論壇。
(本文來自澎湃新聞,更多原創資訊請下載「澎湃新聞」APP)