歷史學研究的量化趨勢已經越來越明顯。這種量化趨勢,不僅體現在經濟史、社會史等涉及統計學知識和數據語言的領域中,而且已經滲透進傳統的制度史、軍事史、政治史研究。在這種滲透中,量化史學一方面以其實證性和數據挖掘的大樣本優勢,取得了優勢地位;另一方面,它在定性問題上的局限性和計算機深度學習的未知,受到了不少質疑指摘。
近日,筆者受澎湃新聞「私家歷史」頻道所邀,前往美國哈佛大學的量化社會科學學院,參觀了由哈佛大學費正清中國研究中心和東亞燕京學社運營維護的中國歷代人物傳記資料庫(China Biographical Database,下文簡稱CBDB)辦公室,向負責CBDB的項目經理王宏甦先生,牛津大學博士、CBDB項目博士後徐力恆先生了解資料庫的運營情況,並就相關議題採訪了哈佛大學東亞系包弼徳(Peter K.Bol)教授。
哈佛大學CBDB資料庫日常運營中心辦公室可視化技術展示歷史人物關係網絡CBDB資料庫由哈佛大學費正清研究中心、北京大學中國古代史研究中心、臺灣「中研院」史語所合作開發。它以單一人物的生平紀錄為核心,並通過字號、親屬關係、生卒年份等項目,展開個人與其他人物的關係網絡,形成所謂的「關係型」資料庫。雖然CBDB通過個體檢索實現,但這種個體不是獨立存在的,資料庫通過搜索搭建了這些歷史人物之間的關係網絡。正如資料庫負責經理王宏甦先生所言,「我們資料庫展現的人,是群體的人,是大數據系統下的人,而不是每一個單一個人的資料。個體的呈現,通過整個關係網絡實現,體現的也就是『群體下的個體』。」
這種網絡結構,顯然需要通過可視化展示才能呈現。為此CBDB嘗試了多平臺合作,比如通過和北京大學中國古代史研究中心的合作,藉助北大歷史系師生紮實的學術訓練,進行CBDB的文本分析校對檢驗工作。這種合作絕無僅有:藉助北大師生的歷史學功底,對資料庫的每一個記錄都進行了歷史學家的考訂,可謂史無前例;另外,CBDB和GIS(地理信息系統)等平臺實現了數據對接,對於CBDB得出的數據,可以藉助地理信息系統實現真正的可視化。這種可視化帶來的衝擊,無論是視覺還是範式上,都是相當可觀的。
同為歷史檔案資料庫,哈佛大學CBDB資料庫專注於歷史人物傳記的梳理工作。那麼,這和大陸的萬方、知網等資料庫相比,具有什麼特殊優勢?它為何能比一般全文錄入(或全文掃描)資料庫更易於維護和更新?換句話說,CBDB資料庫最大的特色是什麼?
從採訪中得知,CBDB的差異化優勢大致有以下三點:
(1)能識別相同含義的不同詞彙CBDB最初由哈佛大學教授郝若貝( Robert M. Hartwell)和其夫人在1970年代建立。其性質和當今大多數歷史數據資料庫相仿,即以全文未分析的形式錄入資料,並通過關鍵詞的方式來進行搜索。這種資料庫最大的弊端在於無法識別許多同一漢語名詞的不同表述。舉一個不成熟的例子,比如在搜索王安石之「母」時,便有可能因為史料某些詞條記載中用了「娘」、「媽」等等其他詞彙而無法顯示出來。因此,對於這些不同文本進行編碼化,避開漢語言文字的多樣化表達,完整呈現史料信息,就是資料庫持續發展的必然趨勢。
而CBDB,正好處於這一趨勢的最前沿。相比於其他資料庫,它的最大優勢,也是對郝若貝版資料庫最大的提升,便在於其實現了文本的編碼化:將一個個單獨的詞條,通過編程的方式,形成了所謂的
「關係型」資料庫(relation database)。
關於這一點,王宏甦進行了詳細的闡釋:「別的資料庫是一種純粹的文本展示,我們會對文本進行簡化解讀,把很多意思相同,但中文表達不一樣的詞彙編成同一數據代碼,尤其是對親屬關係的梳理。比如像『後母』、『養母』、『庶母』、『嫡母』這幾個詞,差異很多,包括『嫡母』,也可以代表不同的人。我們就需要把整理成同一編碼結構,才能方便閱讀。這些細節,在其他資料庫裡我基本沒發現到這一點。」
哈佛CBDB資料庫負責人王宏甦解讀文本的數據編碼問題。(2)通過多方爭吵、相互攻擊實現創新除了通過編碼的方式,實現了歷史文本的初步挖掘和分析外,CBDB相比於其他資料庫,還特別看重相互間的不斷攻擊。事實上,在許多軟體開發的大企業裡,通常會設置開發組和市場組,前者負責軟體生產和開發工作,而後者主要從事市場調研和用戶體驗反饋工作。好的產品最終得以形成,需要企業的這兩個組別不斷互動和攻擊。市場組根據市場經驗不斷給開發組提意見,開發組也會就自己的開發難度對市場組提出質疑。但只有在這種雙方不斷相互攻擊的前提下,產品才能不斷創新,提升其質量和用戶體驗。
而CBDB顯然吸收了這一經驗,在日常運營維護中,CBDB強調多方爭吵,一方是加州大學爾灣分校的傅君勱(Micheal Fuller)教授帶領的歷史學家、社會學家團隊,第二方是真正在一線做數據的工作人員,第三方就是設計數據架構的設計者。三方會代表各自群體的一個視角進行討論,以達成數據的最優化呈現。王宏甦舉了一個例子:「比如做一個數據表,歷史學家會說,我要加20個表,我這邊就會說加20個表難度太大,做數據結構的就會說我熟悉這個結構,我們可以通過壓縮合併把這20個表縮小到一半不到的規模,滿足雙方的需求。這種良性的爭吵,會使得資料庫不斷在變。」
(3)對量化和質性研究同等看重CBDB作為純歷史文本領域的數據化和量化嘗試,在政治制度史、軍事史等領域帶來的範式衝擊是前所未有的。這些舊有領域過去強調純粹的質性研究,並不存在數據分析和挖掘的空間。而CBDB帶來的量化的可能,也自然而然出現了非常多以往質性研究中所無法觸及的成果。
徐力恆博士重點提到了文欣的學術成果。在研究中,他創新使用《唐折衝府匯考》和地理信息系統來觀察府兵制下的籍貫分布。按照徐的說法,「文欣僅僅將數據放在地圖上,就已經能直觀地看到了衛士產生和地域、地理環境等變量的相關性。他通過可視化,就打破了原有唐史研究中,認為軍事分布位於長安、洛陽兩個點的說法,發現其實它是在全國呈現三角分布。如果沒有可視化和圖形分析,我們基本很難發現這一結論。」
CBDB資料庫和復旦大學歷史地理信息系統合作,使得文本數據的可視化成為一種可能。需要注意到,這種創新不應被過度解讀。它並沒有因此得出「量化研究比質性研究更加優越」的結論。事實上,文本挖掘的創新性意義和傳統史學研究並沒有什麼差異。因為在史料學研究中,創新點就是能看到別人看不到的東西。而文本挖掘和可視化看到了新的東西,並不代表比前人更加聰明或者厲害,兩者不過各有千秋。
反思:人才缺口和機器思考的局限性在文本編碼轉化和多方互動的基礎上,CBDB的可持續更新得到了保障,這使得它超過了絕大多數的資料庫,獲得了不斷的生命力。但這是否就真的就預示CBDB在歷史學科研究未來的一片坦途?
並不見得。雖然有著種種令人羨慕的先天優勢和創新思維,但CBDB的發展還存有很多障礙。有些是暫時性的,隨著時間的推移和時代的發展,最終能得到妥善解決;也有一些深層次、更為宏觀的障礙,甚至涉及到整個人工智慧、機器學習以及量化研究領域的局限性,需要得到重新認識。
最直觀的障礙是人才。CBDB學科要求橫跨文理,目前進行資料庫正常運營工作的王宏甦和徐力恆都有歷史學科訓練背景且精通編程和數據操作,但像他們這樣具備雙重背景的人才少之又少。徐力恆直言「人才缺口非常大,國內幾乎沒有任何學科專門做歷史學文本的數據化研究。兩種才能兼備的人才太少了」。
但徐力恆認為這不是一個學術範式滯後的問題,「而是超前的問題」。因為歷史文本挖掘,在全球範圍內都是一個全新的學科,遠遠沒有達到成熟的階段。如王宏甦所言,「即使大家都知道,這是歷史學未來發展的趨勢之一;但也正因為其處於史學研究的最前沿,沒有先例可循,所以大家都很難預測這一學科未來的走向。」
既然領先,沒有經驗可考,相關人才出現短暫的缺口也就不難理解。可預計的是,隨著這一學科的逐步成熟和學術界對此重視程度的加深,人才的缺口遲早會得到填補。但另一種障礙,似乎在更為宏觀的層面上,暗示著機器思考的某種先天不足。
機器思考真的是無所不能的嗎?電腦真的就比人腦更好用?
事實上,這一問題早已被廣泛討論。因為它涉及到了人腦和電腦的極限,在大數據時代,人思維固有的局限性在計算機下尤為突出,人們都在思考,人腦在未來,是否會被機器思考所取代?
兩位青年學者對此均表示否定。徐力恆認為,「人力的作用在於深度,而電腦的作用在於廣度。兩者本來就是各有優勢並互補的,我們應該去避免兩者的衝突,盡力將他們的長處都發揮出來。」而王宏甦則舉出一例:「比如有人之前埋怨資料庫中關於鄭和的數據不足,但我們資料庫建立在關係鏈的基礎上,所要展示的是一種廣度,而他要求鄭和個體的數據豐富度,這不是我們資料庫所要提供的,CBDB是一個工具,工具就有局限性,挖掘深度的工作應該交由人力完成,而不應該埋怨一個數據系統。」
雖然機器思考存在固有的弊端,但一定程度上的人工智慧是否有可能?未來的CBDB資料庫,是否有望實現自主學習、自主分析數據的功能,甚至最終懂得對數據自主發問,繼續壓縮著質性研究的空間?
王宏甦對此持保留意見,「我不排除這種可能。但,我們需要非常謹慎,計算機在做歷史分析上充滿未知。況且人工智慧是為了解決問題,而不是為了製造問題。」
徐力恆的回答則更直接:「這恐怕還不是可能性,而更多是必要性的問題」。在他看來,大量數據堆砌下形成的計算機分析,雖然可能出現少量創新成果,但效率實在太低,根本無法和具備靈活性(reflexibility)的人腦相比。至少在可以預見的將來,對大量歷史數據的計算機自主分析並沒有必要。
為了佐證自己的觀點,王宏甦提到了一個很有意思的反例:「哈佛商學院之前做了一個很有意思的內部測試,就是想去試著在資料庫測試計算機自主提問和自主分析的可能。當然結果是非常荒謬的。你可以看看這個網站的表格,做的是一個無關關係的分析。計算機通過所謂的數據分析,展示兩個沒有關聯的變量間因為變化趨勢相似而放在一起分析的圖,看上去很有道理,比如這張:雞肉的消耗和美國石油進口數量的分析,變化都是一樣的,數據相關性達到了89.99%,但這說明什麼問題呢?如果數據全讓計算機來資助提問,就很有可能得雞肉和美國石油進口有關係這樣荒謬的結論了」。
哈佛商學院的荒謬實驗圖面對CBDB的優勢和局限性,徐力恆給出了自己的總結,「我們還是要認識到定性和定量各自的限制,誰也不能否定誰,同時誰都應該努力去做到相輔相成。因此,CBDB最讓我們自豪的,就是這一點,兩者並重,人文和數位,都在其中發揮了重要作用,這是別的資料庫做不到的,也是我們相信我們資料庫能繼續很好發展最重要的一個原因。」
專訪包弼徳:將中國每一個有史可載的個人都錄入這個系統對於資料庫和量化史學研究的宏觀解讀,筆者有幸邀請到了哈佛大學東亞系著名的包弼徳教授,為我們在一個更為廣闊的層面認識CBDB資料庫。
哈佛大學在網上公開課網站Coursera的課程《ChinaX》邀請兩名資深教授包弼徳(Peter. K. Bol)和柯偉林(William C Kirby)講授,在全球範圍內引發極大關注。澎湃新聞:您作為一名研究宋朝思想史的教授,按理說應該更接近傳統人文研究的套路。可從您之前在網絡公開課平臺coursera開設中國歷史課《ChinaX》開始,我就發現您對於網際網路、技術與內容傳播敏感度要超出了絕大多數學者。當然,也是在您的《ChinaX》課上,我第一次知道了CBDB資料庫。我的問題是,您為何對於新技術那麼感興趣?這和您的研究有什麼關聯?
包弼德:很難說。一開始,當郝若貝先生將他自己的資料庫捐給哈佛大學時,當時我就承擔了維護和升級這一資料庫的義務。但後來,當我看到如此數量龐大的資料庫時,尤其這些數據可以通過空間的方式展現出來時,比如一些歷史上的數據可以通過地理信息系統(GIS)可視化展現,並因此發現很多以往研究無法呈現的要素:比如地質、氣候分布等等對於歷史的影響。要知道,當我們有機會通過大數據來挖掘大多數民眾的歷史時,它會呈現一種和過去局限在「極少數掌控權力的精英群體研究」完全不同的視角。統計學的一個常識就是,大量的數據會比少量數據更有利於回歸分析。所以,我相信這個資料庫會對拓寬我的研究領域有用。
但需要說明的是,這個資料庫並非獨立服務於我的興趣。這是一個對很多研究有參考與引用價值的資料庫,它能發展起來,也不是源於我個人的學術興趣,大家都在努力著。你可以把我對資料庫的工作看成是「基礎設施建設」。(Infrastructure Building)
哈佛大學東亞系終身教授包弼徳先生澎湃新聞:回到這個CBDB系統本身,您覺得這個系統和其他資料庫相比,最大的優勢在什麼地方?
包弼德:很簡單,這個系統是獨一無二的。這個世界上,還沒有第二個歷史資料庫像CBDB一樣獨特。首先,其他資料庫也許會做部分的圖表展示和分析,但大多還是最基礎的全文錄入,比如像Google Scholar, 包括中國的知網,都是全文的基礎上,用關鍵詞搜索的方式來展示,沒有任何進一步解讀和分析,但像CBDB這樣的關係型資料庫,通過對一些變化詞語的編程,使其變得更簡化,也因為這種簡化,CBDB可以很方便地和其他系統互動,比如地理信息系統,從而很快實現可視化的效果。第二,其他的資料庫會有登錄權限,很多文件都是付費的,但CBDB完全免費,所有內容,包括整個資料庫都可以免費下載。我們不以盈利為目的,完全以推動歷史學量化研究這樣純粹的學術目標進行資料庫運營,別的資料庫基本做不到這一點。
CBDB資料庫對所有人免費開放,所有數據都可以免費下載澎湃新聞:依託於CBDB資料庫,現在有什麼最新的成果展示嗎?
包弼德:自然有很多,但我無法一一解答出來。因為對於我們而言,重點在於維護這套系統而不是關注這套系統帶來多少新的成果。但當然,依託於大數據,我們肯定能發現非常多過去無法得出的成果,這不僅僅是數量差異,更多的是維度差別。
澎湃新聞:如此說來,這種維度差別是否說明歷史學研究將要進入一個更加新的維度?或者換句話說,量化研究開始進入政治史、思想史領域,是否說明其將在未來成為歷史學研究的主流?
包弼德:這種說法需要警惕。因為歷史未來的面向是多元的,量化自然是其中一個,但並不是唯一的趨勢。對我而言,量化於歷史學研究的最大意義,在於其豐富了歷史學的研究方法。它作為一種研究工具出現,大大擴展了舊有歷史學研究的領域。但這並不能因此推斷出,歷史學未來的趨勢就是量化研究,至少我希望不會出現量化研究一家獨大的情況。
量化為歷史學研究提供一個新的角度,但這並不代表需要對舊有研究方式進行取代。每種研究方式都有自己的優勢和限制,量化也不例外。因此,我相信傳統的大部頭歷史原著閱讀,還是能發揮其展現觀點的連續性優勢,而資料庫則在發掘新觀點上提升了速度,兩者其實不矛盾,反而能互補和共同促進。
要知道,量化研究的出現從來不是為了去擠壓任何其他歷史研究的空間,即使客觀出現了某種空間的擠壓,那也不是有意為之。量化的目的,是開闢新領域,而不是擠壓舊有領域。
澎湃新聞:談談門檻問題吧。CBDB資料庫的出現,似乎在一方面降低了對歷史愛好者進入研究領域的門檻,更多人可以在不接受,或者不完全接受嚴格的學術訓練下研究歷史;但在另一方面,這對於很多沒接受過數據分析或計算機培訓的傳統的歷史人文研究學者來說,這種資料庫的出現似乎又增加了不少門檻難度?
包弼德:首先,關於降低門檻,如果這是真的,我會非常樂意見到;雖然至少到現在,這種情況還沒有出現,但如果出現了,也會是CBDB的一大貢獻;其次,關於提高傳統學者的門檻,我覺得這只是短暫的。現在確實很多學者不會用資料庫,但我覺得未來會改變的。因為資料庫的優勢就擺在那裡,如果你想發現新的角度,你就會努力去學。當然我也不否認,很多學者其實並不願意去學資料庫,就個人而言,這完全沒有問題。我也覺得,當這個問題對於他們研究而言不那麼重要時,他們自然不會去挖掘,人之常情。但就整個歷史學研究而言,一種開放式的態度還是很重要的。對我來說,歷史研究永遠不止一種研究方式,用任何你覺得有用的方式來完成研究,只要有助於你理解歷史,這就足夠了。前提是,你要有發現問題的能力,和清晰知道哪種方式,哪種工具能有助於你解決問題。
澎湃新聞:現在CBDB,包括許多歷史資料庫均停留在簡單的歷史數據展示階段,但根據以往其他領域大數據挖掘的經驗來看,這種數據的關係式挖掘和展示的現狀,很可能會往更深一步的智能分析甚至機器學習取代。您覺得未來CBDB會有真正的深度挖掘甚至機器自主學習分析嗎?
包弼德:就目前而言,CBDB已經可以通過其他分析工具的輔助,比如地理信息系統,來實現數據分析的工作。我覺得在CBDB系統內部建立自主分析可能不是一個好主意,不僅因為它很貴,很困難,更因為我們現在的工作是做到資料庫的進一步龐大和精細。現在CBDB資料庫內容還不是特別豐富,而可以藉助的分析工具已經很多,所以我們的工作更多在於可以導出足夠多的數據用來分析。現在就考慮自主分析可能有些過早。
至於CBDB未來會有什麼的走向,我覺得最宏大的願景,就是將中國每一個有史可載的個人都錄入進這個系統裡。當然我知道這是一個幾乎不可能短期完成的任務,但我們至少可以不斷接近它。至於最近可以用到的資源,我們會儘量搜集各地的地方志資料,因為它比較詳實齊全,對我們擴充資料庫意義重大。
(本文來自澎湃新聞,更多原創資訊請下載「澎湃新聞」APP)