方廣錩:古籍數位化視野中的《大正藏》與佛典整理

2021-03-02 漢語史與文獻學微刊
原載《上海師範大學學報(哲學社會科學版)》 2015年第4期第17-25頁古籍數位化視野中的《大正藏》與佛典整理

方廣錩

(上海師範大學 哲學學院,上海 200234)

摘 要: 以當代古籍數位化的視野,重新評價《大正藏》。在充分肯定《大正藏》歷史功績的前提下,提出佛教文獻研究者需要應對信息化時代的機遇與挑戰,吸收《大正藏》的經驗與教訓,開拓佛教典籍數位化的新道路。並提出關於佛教典籍數位化的四個基本原則及若干具體思路。

關鍵詞: 大正藏;信息技術;佛典數位化

一、《大正藏》功勳著史、流澤深遠

《大正新修大藏經》(以下簡稱《大正藏》),全藏100卷:計正藏55卷、續藏30卷、圖像部12卷、昭和法寶總目錄3卷。高楠順次郎在《大正新修大藏經全百卷完成之獻詞》中總結說:《大正藏》編輯工作從大正十一年(1922)開始,到昭和九年(1934)完成,歷時13年,總計約4500天。參與者共約300人,關聯人員約達45萬人。耗資280萬日元。全藏收錄各種典籍、圖像3493部,13520卷。高楠順次郎是《大正藏》的重要發起人與實際主持人之一,他在文中提到:《大正藏》的編纂經歷諸多困難,甚至有幾次接近「艱苦崩壞之命運」,以致撫今追昔,不勝感慨。在文中,高楠順次郎還總結了《大正藏》的十大特點。①至今讀這篇文章,依然感人。

《大正藏》完成以後,嘉惠學林,功德無量。正如長井真琴所說,《大正藏》是「東方文化的金字塔」。我也曾經撰文指出:「這部大藏經對世界佛教研究的普及與深入貢獻之大,實在無與倫比。堪稱佛教文獻學史上一座前所未有的裡程碑。」②可以說,《大正藏》編成以後,世界上沒有一個佛教研究者未曾直接或間接承受其學恩。

作為佛教文獻研究者,我曾經在兩篇文章中評論過《大正藏》。第一篇是《〈大正新修大藏經〉評述》,原文是20世紀90年代中期,參加中國佛教文化研究所召開的一個學術會議遞交的會議論文,1997年發表在《聞思》第一輯;第二篇為《略談漢文大藏經的編藏理路及其演變》,原文是2009年參加第二屆世界佛教論壇遞交的會議論文,2012年發表在《世界宗教研究》第1期。

第一篇文章專門評論《大正藏》。在文章中,我把《大正藏》的優點歸納為七個方面:(1)精選優秀底本;(2)確定科學體例;(3)進行認真校勘;(4)加以斷句訓點;(5)實用的版本目錄與索引;(6)現代印刷與裝幀;(7)編纂配套的詞語索引。當然,《大正藏索引》實際是《大正藏》完成以後另行開展的,但它是在《大正藏》基礎上開展的後續工作,故不妨將它與《大正藏》看作一個整體。文章也指出《大正藏》存在著如下不足:(1)選篇標準問題;(2)結構與分類問題;(3)對敦煌文獻的整理問題;(4)校勘問題;(5)錯版及擅加文字問題。

第二篇文章主要探討漢文大藏經的「內在編藏理路」。文章提出:

任何時代、任何人,花費如此巨大的人力、物力、財力來編纂大藏經,必然有他的目的。為了達成這一目的,必然有一個與這一目的相適應的甄別、選取佛典的入藏標準,有一系列與這一目的相配套的編纂藏經的方法。我認為,編藏目的、入藏標準、編藏方法三者,構成了大藏經編纂的內在理路。從歷史上看,大藏經的編纂者,一般很少公開宣示自己編纂藏經的目的、標準與方法。但無論哪一部藏經,實際都存在這三者,它們貫穿於該藏經籌備與編纂的整個過程,並體現在最終完成的這部大藏經中,所以稱之為「內在」理路。我們可以通過分析一部一部的藏經,來探討它們各自的內在編藏理路。當然,就某一部具體的藏經而言,還有一個它的預設編藏理路能否從始至終貫徹到底的問題。本文對此不予討論,僅從宏觀的角度,探討古今編藏理路的表現形態及其演變軌跡。③

在這篇文章中,我從分類結構、多語種校勘、編纂版本目錄、增列「外教部」與「疑偽部」等四個方面指出:在高楠順次郎等學者的心目中,「大藏經固然是佛教的宗教聖典,同時也是重要的學術研究資料」,「古代編藏主要出於宗教目的。日本《大正藏》的編纂,體現了大藏經從宗教性向學術性的演變」。④至今我依然認為,在具體的編藏實踐中,對佛教大藏經這一宗教聖典加入學術因素,使之完成從宗教性到學術性的演變,是以高楠順次郎為代表的日本佛教研究者對漢文大藏經的歷史性貢獻。

今年距《大正藏》編輯完成已經整整81年。81年來,佛教研究、佛教文獻研究都取得了無與倫比的長足進展,大藏經研究與編纂也成果迭出,可以稱之為進入新的階段。那麼,新的階段的特點是什麼?僅僅是新研究成果的不斷湧現與疊加嗎?我認為層出不窮的新成果固然體現了佛教文獻學的蓬勃發展與強大生命力,並為佛教研究奠定了更為堅實的基礎,但與81年前高楠順次郎等編纂《大正藏》的時代相比,新階段的最大變化是世界已經踏入數位化的門坎,人類社會已經不可逆轉地進入信息化時代。

數位化對佛教大藏經的發展提出了前所未有的挑戰,也提供了前所未有的機遇。我們能否面對挑戰,抓住機遇,把佛教大藏經的發展推向歷史的更高點呢?今天是昨天的繼續,明天是今天的發展。我們只有認真回顧前輩走過的足跡,才能選對方向,更加堅定地前進。我想,這就是我們在今天研究、評論《大正藏》的意義所在。

二、古籍數位化視野中的佛典整理

數位化是信息技術的基本形態,也是現代信息技術的生存方式。⑤目前,現代信息技術對社會各個領域都產生著巨大的影響,並為現代社會的發展提供了無限的可能。縱觀當今世界,我們甚至可以這樣說,數位化已經是現代社會得以存在與發展的基礎。

由於數位化已經逐漸滲透到社會的各個領域,佛教大藏經自然也不例外。實際上,幾十年來,數位化技術已經與佛教大藏經緊密結合。與近代圖書具有各種不同的形態相應,數位化大藏經也具有不同的形態。如近代有影印本大藏經,其對應的數位化形態則有掃描本大藏經;近代有逐字排版鉛印本大藏經,對應的數位化形態則有逐字錄入的電子文本大藏經。掃描本大藏經可反映古代大藏經的原貌;電子本大藏經則可提供全文檢索、複製乃至標點等各種功能,更加方便與實用。總的來說,兩種大藏經各有優勢,不可偏廢。毫無疑問,由於使用方便,所以電子本大藏經流通更廣。然而,電子本大藏經如何取得公信力,又是一個不容迴避的問題。

本文提到,數位化對佛教大藏經的發展提出了前所未有的挑戰,也提供了前所未有的機遇。那麼,數位化到底為佛教大藏經提供了什麼樣的挑戰與機遇呢?我認為,所謂挑戰與機遇表現在如下三個方面:

1.規模性

佛教是社會文化形態之一,古往今來,影響著無數的人們並還會持續發揮其影響,擴展到更多的人群中。所以,佛教自然而然成為我們學術研究的重要對象。學術研究靠資料,資料越完整越好,越全面越好。在古代,大藏經僅僅是宗教聖典;在今天,它還是學術研究的重要對象。不言而喻,一部大藏經,容納的資料越多,它的研究價值就越大。我曾經撰文指出,衡量一個圖書館的基本指標是看它的藏書量的多少。同理,衡量一部大藏經的基本指標,就是看它收經數量的多少。⑥

《大正藏》共收經律論及漢文佛教撰著、圖像3497部,13520卷,共100冊。按照每冊平均150萬字計算,總計約達1億5000萬字。若干年前,我曾經做過一個粗略的估計,漢文佛教典籍總數大約在4億字左右。⑦這些年在調查佛教典籍的過程中,發現上面的統計有點保守,世界上實際保存的佛教典籍數量更多。比如,當年統計沒有計入日本、朝鮮半島收藏的各種古代寫本、刻本之未入藏佛教文獻;沒有計入越南古代撰寫的漢文佛教文獻;也沒有計入現在依然在中國民間流傳的各種法事文本。這些年,僅中國民間的各種法事文本我們就搜集到1500多種。也就是說,至今為止,雖然《大正藏》依然是世界上收入佛典最多的大藏經,但其所收典籍大約不足存世漢文佛教典籍總數的三分之一。

自然,由於受現實條件的限制和宗教立場的框限,以往人們編藏從來不可能把所有的佛教典籍全部收入。要有所選擇、有所甄別。但今天,從理論上講,數位化技術已經可以處理海量數據,已經可以無限擴展大藏經的容量,從而允許我們編纂出一部資料更加豐富、內容更加詳實的大藏經,甚至允許我們把所有的佛教典籍統統收納進來,使大藏經真正容納八萬四千法門,成就八萬四千海藏,更好地發揮大藏經的佛教聖典功能、研究資料功能以及資料備查功能。

應該說,佛教界、佛教研究界已經在實踐中逐步認識到這個問題。

從佛教大藏經數位化的歷史看,1986年《中華大藏經》率先進行數位化試驗,並得到初步成功。這一工作當時由我具體負責。《中華大藏經》中現有的幾種計算機排版的經典,就是當年數位化試驗的成果。可惜由於某些原因,這一工作後來中止,未能全面開展。20世紀90年代,韓國高麗大藏經研究所推出電子版《再刻高麗藏》,首次將整部大藏經的電子文本推向世界。以此為契機,大藏經數位化的熱潮在全球掀起。由於《大正藏》擁有無可撼動的學術地位,所以除了一些例外,全球的漢文大藏經電子文本都以《大正藏》為目標,各種《大正藏》的電子版不斷湧現。經過近20年的整合,現《大正藏》(第1卷到第55卷、第85卷)電子本主要整合在由中華電子佛典協會主持的《電子佛典集成》中,而由日本漢字文獻情報處理研究會主持的「東洋學古典電子文獻檢索資料庫」則收錄了全部《大正藏》電子文本。此外,網上可以看到各種各樣表現形態的《大正藏》電子本。

《電子佛典集成》以綜合、集成漢文佛教典籍為己任。其最近發布的2014年版,已經收入《大正藏》、《卍字新纂續藏經》、《嘉興大藏經》、歷代藏經補輯(含《趙城金藏》、《中華藏》、《房山石經》、《佛教大藏經》、《高麗藏》、《乾隆藏》、《卍字正藏》、《永樂北藏》、《宋藏遺珍》、《洪武南藏》)、原「中央圖書館」善本佛典等,總計16927卷;此外還收入元亨寺版《漢譯南傳大藏經》70冊,《藏外佛教文獻》1至9輯,《正史佛教資料類編》、《北朝佛教石刻拓片百品》等。據介紹,《電子佛典集成》收納的總字數已達1億9000萬字,加上在日本電子化的《大正藏》的其餘部分,則電子化佛典的總字數已經超過2億5000萬字,比《大正藏》超出1億字。與當年《開元釋教錄》所謂1076部,5048卷相比,簡直不可同日而語。人們在今天取得的成果,的確是前人所不能想像的。

成果雖然巨大,但必須指出,與現存的4億多字的佛教典籍相比,我們面前還有很長的路要走。

如前所說,收集所有的漢文佛教典籍,編纂一部電子化的八萬四千海藏,在理論上已經可以實現,這是數位化時代的信息技術為我們提供的巨大機遇。作為佛教文獻工作者,能夠生活在信息化時代,能夠利用信息化技術來整理、研究佛教典籍,是我們的幸運。然而,理論上可以實現的事情,現實中是否真的可以做到?這又是當今信息社會對我們佛教文獻工作者提出的重大挑戰。面對機遇與挑戰,我們需要做出自己的回答。

2.準確性

無論是宗教聖典還是學術資料,文本的準確性都是第一位的。但在古代寫本時期,由於寫本本身「唯一性」與「流變性」的雙重作用⑧,某種文獻在流傳過程中非常難以保持文本的一致性。從歷代僧人為校勘經典、編纂目錄所付出的艱巨勞動,從《開元釋教錄廣品歷章》到《一切經源品次錄》的不斷編撰與內容細化,從敦煌遺書中的相關目錄與文獻,我們可以看到古代僧人為保持佛教典籍文本一致性做出的不懈努力。即便如此,從敦煌遺書佛教典籍所反映的異本、異卷、異文等諸多情況,可知人們對佛典文本一致性所作的努力費工雖大,收效卻依然有限。寫本佛典的文本歧異,直接影響到刻本,由此形成刻本大藏經的三個系統。其實,三個系統只是對刻本大藏經的大致描述,如果仔細研究,則每個系統內部,各種不同的藏經又有各自的特點。此外,值得注意的是,在我們的以往觀念中,後代藏經都是承襲前代藏經,續補新的內容編纂、刊刻而成。但新的資料表明,這一觀點並不完全正確。比如《嘉興藏》中的有些文字,與歷代大藏經所收同一經典的文字均不相同,而與敦煌遺書中的相關寫本文字一致。這說明《嘉興藏》的原始文本來源並非前代的某一部藏經,而最早源於某部古代寫經的某一民間傳本。

總之,不同系統的藏經、同一系統的不同藏經存在著不少異同,來源於不同的傳承。作為文獻工作者,我們應該如何面對與處理這一問題?

《大正藏》在此為我們樹立了一個範例。《大正藏》的方法是對各種能收集到的藏經及相關佛典進行認真的校勘,只指異,不辨正。所謂「指異」,是指同時將各種藏經或相關文本中的異文統統羅列在校勘記中,供研究者參考,供讀者判定整理者的工作並做出讀者自己的選擇與判定。所謂「辨正」,是指在不同的異文中,整理者按照自己的理解,選擇某種相對最為正確的文字,列入正文。隋彥琮「八備」稱:「襟抱平恕,器量虛融,不好專執。」⑨我認為《大正藏》編纂者的做法符合彥琮的上述標準。當然,作為佛教文獻工作者,應該儘量為研究者掃除閱讀的障礙。從這一點看,《大正藏》的「只指異,不辨正」就不夠了。這當然也與《大正藏》編纂時缺乏大量高水平的校勘人員有關。所以我主編的《藏外佛教文獻》採取「既指異,又辨正」。當然,我們的水平有限,不敢說所做的「辨正」全部正確無誤,所以同時將各種異文全部列入校記,供研究者自行勘定正確文本,以補救我們可能產生的疏漏。

雖然《大正藏》當年對文本校勘花費大量精力、做出極大努力、也得到很大的成果,但現在看來存在的問題也相當多,有些問題甚至相當嚴重。比如我在《〈大正新修大藏經〉評述》中提出:《大正藏》所收二卷本《那先比丘經》卷下因錯版而擅加文字,且不出校記,這是文獻工作者絕對不可以犯的低級錯誤。但在《大正藏》中,這種錯誤畢竟是個案,大量的錯誤表現為校勘疏漏。這一點我們在編輯《中華大藏經》(上編)的過程中已經發現。最近中國某寺院對《大正藏》的校勘質量做了複查,發現僅就某四卷經文及其所用的兩種校本而言,校勘錯誤率為13.6%,錯誤類型包括誤校、漏校等。如果追究原因,姑且不考慮資料不足,有些校本中存有後代抄補故其本身未必正確等客觀因素,僅從主觀上追究,則自然可以歸諸校勘工作者精審不足。

西漢劉向《別錄》曾將傳統的校勘方式歸納為「校讎」。《別錄》後來亡佚,僅留後人的引文。雖然後人引文的表述略有差異,但劉向「校讎」的原意是清楚的,亦即在劉向時代,所謂「校」,指某人對某一文本進行閱讀,如依據上下文理發現該本有誤,則予以改正。看來這就是我們現在所謂的「理校」。所謂「讎」,則由兩人合作進行,其中一人執一本宣讀,另一人對另一本逐字進行核對;因為由兩個人面對面開展這一工作,故「讎」又有「對讎」之說。⑩

《中華藏》最初也採用「一人持本,一人讀書」這種方式。由於《中華藏》共有八個校本,故實際上出現「一人讀書,八人持本」,形成九人會校的局面。但我們在實踐中發現這種方式弊病極大。1986年起,改為一人同時對勘底、校兩本,這也是目前古籍整理最通用的方法。為了保證校勘質量,《中華大藏經》採用一個校本由兩個人背對背分別予以校勘,即每個校本校勘兩遍、然後予以匯總的方法。這樣,大部分經典都產生十六個校草。看起來這種方式已經很嚴格、很認真了,但現在回過頭來看,《中華藏》的校勘依然存在不少問題。

因此,問題就不僅僅在於是否有足夠的「精審」精神。人畢竟是人,人力有時而窮。無論如何小心謹慎、一絲不苟,難免有頭昏眼花、精神疏忽的時候。我本人常年從事佛教典籍整理,我主編的《藏外佛教文獻》用「以精益求精之心,求盡善盡美之境」來勉勵自己與同事。但每輯出版以後,總會發現依然存在各種各樣的錯誤,有的錯誤實在讓人感到無地自容。我曾在一篇文章中自嘲:盡善盡美之境只存在於彼岸世界。在此岸世界,我們總要不斷犯錯誤,只不過是錯誤的大與小、多與少的問題。2011年《藏外佛教文獻》出版第十六輯之後,至今已經停頓多年。實際上,我們已經整理好的文稿足夠出版五輯。之所以積壓未出,問題就在於對已經整理好的這些文稿,我心中依然沒底,不知道其中還會有多少錯誤,但又沒有足夠的時間再去一遍又一遍地審核。問題還在於即使再審核,能否把所有的錯誤都消滅掉?自己心中也沒有底,由此拖延至今。所以,《大正藏》的校勘準確率能夠達到86.4%,已經難能可貴。但應該講,這一比例距離理想境界還有較大的差距。

此外,必須指出的另一個問題是,現在的古籍整理的出版物,一般均會在文本整理結束以後,提供給讀者一個校勘本、一份校勘記。讀者固然可以按照校勘記來覆核校勘本,但如果校勘工作本身有疏漏,即校勘本的錯誤沒有反映在校勘記中,或校勘記不能反映底、校本的真實情況,那讀者就無可奈何了。如前所述,經過複查,發現《大正藏》中四卷經文對兩種校本的校勘錯誤率為13.6%。對一般的研究者來說,不可能去做那樣的複查工作,也就不可能發現那些錯誤,就可能被《大正藏》的錯誤文本所誤導,乃至影響自己的研究成果。

面對這一現實,我們應該怎麼辦?

在此應該先介紹中華電子佛典協會主持的《電子佛典集成》的工作。目前,《電子佛典集成》已經對《大正藏》中的若干錯誤進行校訂。《電子佛典集成》的上述校訂可見於網上電子本。這一校訂僅用紅色標註,如「[舍>含]」,表示《大正藏》本此處之「舍」實際應為「含」。但《電子佛典集成》沒有說明如此校訂的理由。如果不是逐一查核《高麗藏》、《大正藏》的原文,我們也難以確知錯誤的原因。不知道上述標註是《電子佛典集成》的理校,是《再刻高麗藏》本身的錯誤,還是《大正藏》的植字錯誤。

也就是說,《大正藏》採用的傳統校勘方法缺少讓讀者追溯原始資料的手段,《電子佛典集成》雖然已經採用數位化,依然沒有納入這一手段,故而讀者難以發現校勘本的錯誤,或即使發現錯誤也無法知道錯誤產生的原因。傳統校勘方法的這一缺陷,同樣體現在其他古籍整理文本中。如中華書局出版的標點本二十四史,雖然當時集中了一批一流學者完成,但至今學術界對它們依然不滿意。雖然不滿意,但由於難以追溯原始資料,校改起來非常困難。

其實,信息化技術已經為我們提供了解決此類問題的方案。我認為,可以按照如下四個基本原則,利用信息化技術解決上面的問題:

第一,起於最底層。古籍整理,要從最基礎的原始資料的圖形文字、書寫符號的切割開始。

第二,信息全覆蓋。信息採集要覆蓋全部原始資料,亦即保留原始資料中全部可研究信息。

第三,過程可追溯。每一步工作都有記錄,每一個環節均可追溯。

第四,功能可擴展。程序開放,界面友好,可隨時根據不同情況擴展新的功能。

我們設想的具體的工作流程,可參見圖1:

圖1 利用信息化技術的工作流程示意圖

按照圖1,我們設想的佛典整理工作,將按照如下步驟開展:

(1)文字切割與識別,製備基礎工作文本

佛典數位化,必須有一個準確的基礎工作文本。這一工作文本的製備,必須建立在對原始資料中文字的準確辨認、錄文基礎上。正因為如此,錄文一直是佛教文獻工作者的入門功夫。但以往的錄文全靠研究者手工完成,無論研究者如何謹慎小心,錄文中的錯誤總是難免的。如有疏忽,則錄文可能難以卒讀。現代信息技術使我們可以利用計算機更好地完成這一枯燥、繁瑣的工作,提高準確率。

我們的設想是:從最基礎的文字與書寫符號的切割、辨認開始,建立基礎工作文本。

所謂「最基礎的文字與書寫符號的切割、辨認」,就是將需要錄文的原始資料上的每一個文字、每一個符號都切割下來,並將它們全部轉換成計算機可以識別的具有計算機內碼的文字與符號。我們面對的原始資料有寫本、刻本、現代印刷本。現代印刷本的問題比較好辦,但目前的計算機技術尚不足以支持敦煌遺書之類寫本及古代刻本中圖形文字的識別。所以我們開發了一套「人機互動」的電腦程式,設計出相應的工作流程,避難就易,以充分發揮計算機、研究者各自的優勢,完成上述圖形文字與符號的識別任務。

通過上述流程,可將每一號原始資料圖版中的文字、符號切成為單獨的圖像字符,並將它們辨識、轉化為相應的計算機字符。其間有幾個相應的「人機互動」的環節,一般工作人員及佛教文獻研究專業人員將在不同環節、採用不同的方式進行「人機互動」,以最大程度地減少專業工作人員的工作量及保證從圖版文字到電子文本的轉換質量。

通過上述工作,計算機將產生兩個成果:

第一,產生圖像字符與計算機字符一一對應的字符表。計算機將該字符表收入字庫。凡收入字庫的字符,均記錄其原始身份。研究者隨時可以從圖像字符或計算機字符調閱其所在原始圖版。為醒目起見,圖版將用色標對該字符予以標示。凡收入字庫的字符,可按照不同檢索要求或複合檢索要求進行檢索。可羅列某單字的所有圖版字符,可按照要求排序、進行字頻統計等。

目前,利用計算機技術自動識別中文圖像字符,仍是信息自動化未能解決的技術難點。我們希望通過上述工作,讓計算機不斷積累原始素材,探索最終由計算機自動識別中文圖像字符的道路。

第二,產生與某原始資料完全對應的電子文本文獻。入庫的電子文本文獻,實際是一個與相應圖版文字完全一致的電子本錄文。與人工錄文相比,它的每一個字符都與原始資料圖版字符乃至原始數據圖版一一對應並連結,隨時可以進行覆核。

由於我們採用雙重辨認、計算機合校、人工幹預等多重保障,從理論上講,圖像文本轉換為電子文本的文字辨識準確率可以達到100%。當然,在實踐中,由於各種原因,還會不斷出現新的問題。但我們的設計是每一步工作都有記錄,都可以反向追溯,可以一直追溯到最原始的工作環節、基本資料。這樣,不僅我們,任何一個讀者都可以通過這一程序追溯、覆核每一個工作環節,包括覆核每一個環節使用的原始資料。如有錯誤,就可以發現該錯誤產生在哪一個環節與具體原因,從而解決上文提到的難以發現校勘本錯誤,以及雖然發現校勘本錯誤卻無法追溯、無法檢討其原因的問題。

數位化電子本不同於紙本的優點之一在於,可以隨時改正錯誤,不斷升級版本。我們可以在不斷發現錯誤、改正錯誤的過程中,不斷完善數位化的佛教典籍文本,在實踐中逐步達到準確率為100%的文本轉換。上述不斷升級的過程也適用於以下「區別異本」、「文獻校勘」等工作環節。

(2)區別異本

想把某文獻的異本一一予以區別,其前提是必須將該文獻的各種原始資料收集完整,然後一一予以比對。按照上述思路,只要我們將原始資料中該文獻的所有圖像文本都按照上述方式製備成電子文本,亦即達到該文獻的信息全覆蓋,就可以利用現成的計算機軟體程序進行文本比對,從而鑑定與區別異本。

以我目前正在從事的敦煌遺書整理而言,從理論上講,只要我們具備60000多號漢文敦煌遺書的圖版資源,投入必要的人力物力,我們就可以將這60000多號遺書、70000多號文獻、總計約1億字敦煌漢文遺書全部轉化為相應的電子文本,然後進行異本的比對與鑑別。

在60000多號敦煌遺書中,約包括數千種各類文獻。有的文獻重複率極高,如《妙法蓮華經》多達7000多號,編號數量超過敦煌遺書總號數的10%。有些文獻僅有1號。就7000多號《妙法蓮華經》而言,包括了二卷本、七卷本、八卷本、九卷本、十卷本、乃至卷本待考的異卷等多種卷本,包括了鳩摩羅什早期譯本、後代修訂本,還混雜了若干《添品法華經》。時代最早者為東晉南北朝寫本,最晚的為五代宋初寫本。與傳統大藏經本對照,敦煌遺書中有些《妙法蓮華經》文本的文字有脫訛,但也有些文本的文字優於傳統大藏經本。個別文本中甚至有中國人添筆增加的偈頌。以前,僅憑個人之力,想對這7000多號《妙法蓮華經》進行全面的異本區分,可以說是痴心妄想。現在,則完全可以藉助敦煌遺書數位化之力,對中國佛教史上這一重要經典做一番徹底的清理,理清它不同時期的文本演變、表現形態,清理混雜在其中的《添品法華經》。

佛教典籍的數位化與上述敦煌遺書的數位化道理相通,無非工作量更大而已。比較而言,整理佛教文獻時,我們面對的大量是刻本,工作難度相對較小。

(3)文獻校勘

典籍在流傳中出現傳抄的錯訛,乃屬正常情況。故文本整理的一大任務是進行文獻校勘,最終整理出一個相對更為優秀的文本。文獻的標點可以體現出整理者對文獻的解讀,也是文獻整理的重要內容。

就校勘而言,凡是做過這一工作的研究者都知道,校勘中付出的勞動幾乎有90%以上都屬於無用功,因為用來對校的兩個文本中文字的差異程度不可能達到90%以上。但校勘者必須耐下性子,一個字一個字去校,唯恐有所疏漏。即便如此,正如古人所說「校書如掃落葉,旋掃旋生」,還是難免發生錯誤。但現在我們可以在上述製備文本、區別異本的基礎上,由計算機自動進行文本校勘,亦即由計算機自動比對兩個文本的文字,如果相應的文字相同,計算機會自動忽略,而僅將不同的文字以色標顯示,提示研究者去進行勘校。這樣,研究者固然還需要通讀全文,但只要針對紅色的文字進行校勘。就校勘環節而言,工作量可以減輕90%左右。

不僅如此,系統針對不同情況設計了規範的校勘記表述格式,研究者只要根據具體情況選擇不同格式,系統即自動生成規範的校勘記。在進行校勘時,研究者還可以利用該系統同時對文本進行標點。

整理本文字固然由整理者確定,但系統將自動把各校本中該文獻的所有異文逐一羅列在校勘記中,並通過連結提供所有異文的原始圖版,便於讀者、研究者根據需要反向追溯、自行檢索圖版,並對整理本中的文字做出自己的選擇與解讀。

這一「計算機校勘標點系統」依然是一個「人機互動」的系統。利用這一系統,某種文獻無論存世多少個傳本,只要我們投入必要的人力物力,均可以進行全面、徹底的整理。這種整理固然不可能一次性達到盡善盡美的境地,但如前所述,信息化技術提供了一條不斷積累成果、不斷修訂錯誤的道路。沿著這條道路走下去,每個人都可以在他人成果的基礎上將某文獻的整理推向前進,最終臻於至善。這樣,每個人的古籍整理工作都成為歷史長河中的學術積累,而不是像傳統方法那樣,不同的研究者不斷地對同一部典籍或同一種文獻進行反覆校勘,一次又一次地推倒重來,出現大量重複勞動。即使不同的研究者對同一段文字有不同的理解,信息化技術也允許同時保留與顯示多種不同意見,留待研究者深入思考。

按照上述思路,傳統古籍整理中的「底本」、「校本」等概念也將完全被顛覆。

由於每個人的精力有限,按照傳統方式進行古籍整理時,一般不可能「逢異必校」。所以,傳統進行古籍整理,必須先尋找一個相對錯誤較少,文字較優的本子,稱之為「底本」。然後以「底本」為依據,參校各種「校本」。校勘時,凡屬底本正確者,一般不出校記;凡底本文字依據校本校正或理校者,方出校記。這種方式大大減輕了校勘者的工作量,但也存在如果校勘者漏校、誤校,便會誤導讀者。《藏外佛教文獻》摒棄上述方式,在校勘中對諸本一視同仁,按照「逢異必校」的原則,將所有的異文一律納入校記。不過在表述時,為了循俗,依然保留了「底本」、「校本」的名稱。採用數位化整理之後,被整理的各種文本地位平等、作用相同,也就完全沒有必要、也不應該再來區分底本、校本。

3.方便性

數位化文本可以從各個方面為讀者的閱讀與研究提供極大的方便。在這一方面,中華電子佛典協會的《電子佛典集成》已經做了很好的示範與各種各樣的嘗試。本文上述第四個原則實際也是為「方便性」預留各種可能。限於篇幅,不擬展開。

三、結語

若干年前,我曾經發表一篇題為《資訊時代的佛教目錄學》的文章,對信息化時代佛教目錄學將怎樣發展做了一番暢想。本文則介紹我對佛教典籍數位化的設想。

目前,我們已經按照這一方案開始起步,計劃通過實實在在的工作,檢驗我們的設想,改進我們的電腦程式,完善我們的工作流程。可以肯定,目前的設想還有很多不足之處,複雜的現實生活永遠超過我們的想像,一定會有許多我們還沒有預料到的困難在前面等待我們。但是,筆者在從事古籍整理與數位化的過程中,深深感到信息技術將原本只能在平面進行的工作拓展到立體空間,從而給我們的古籍整理工作提供了無限的可能性。所以,問題轉化為,我們是否能夠想到,是否願意去做。如前所說,現代信息技術的一個重大優勢在於它能夠不斷積累成果,不斷改正錯誤,不斷進行升級,最終臻於至善。所以,只要我們加強調查、做好規劃,協調一切可以協調的力量、相互配合、相互支持,不怕困難、不怕挫折、鍥而不捨地堅持下去,發揚古代為編纂大藏經連續幾代人前赴後繼的傳統,最終一定可以達成將佛教漢文佛教典籍全部電子化這一宏偉的目標。

注釋:

①高楠順次郎:《大正新修大藏經全百卷完成の辭》,載《ビタカ》,昭和十年(1935)一月號。

②方廣錩:《〈大正新修大藏經〉評述》,載《聞思》(第一輯),華文出版社,1997年3月;《隨緣做去,直道行之》,國家圖書館出版社,2011年。

③方廣錩:《略談漢文大藏經的編藏理路及其演變》,《世界宗教研究》,2012年第1期;中國人民大學資料《宗教》2012年第2期轉載。

④同上。

⑤按照「搜狗百科」(http://baike.sogou.com/v353423.htm)的解釋:數位化就是將許多複雜多變的信息轉變為可以度量的數字、數據,再以這些數字、數據建立起適當的數位化模型,把它們轉變為一系列二進位代碼,引入計算機內部,進行統一處理。筆者把現代信息技術看作一個「生命體」,這個生命體能夠在現代社會產生、生存、發展,靠的就是「數位化」這一基本方式,所以稱「數位化是現代信息技術的生存方式」。

⑥方廣錩:《論大藏經的三種功能形態》,載臺灣《宗教哲學》,第3卷第2期,1997年4月。

⑦這一數字包括已經收入各種藏經的古代日本、朝鮮半島僧人撰寫的佛教著作。《中華大藏經》(上編)已經收入約1億600萬字。下編計劃主要收入中華佛教撰著,故擬收2億6千萬字。

⑧關於寫本的「唯一性」與「流變性」,請參見拙作《中國寫本大藏經研究》(上海古籍出版社,2006年)之代導言《關於漢文大藏經的幾個問題》中的論述。

⑨參見《續高僧傳》卷二。CBETA,T50,no.2060,p.439A25-26。

⑩《風俗通》曰:「按劉向《別錄》,『校讎』:一人讀書,校其上下,得繆誤,為校;一人持本,一人讀書,若怨家相對。」參見[南朝梁]蕭統選:《昭明文選》卷六,韓放主校點,京華出版社,2000年,第180頁。標點有修訂。劉向《別傳》曰:「讎校者,一人持本,一人讀析,若怨家相對,故曰『讎』也。」參見《太平御覽》卷618,中華書局影印本,第2776頁上欄。

所謂「人機互動」是筆者在利用計算機整理敦煌遺書時採用的基本工作方法。其基本思路是:凡是計算機能夠完成的工作,一律交給計算機去做;凡因目前技術水平的限制,計算機無法承擔的工作,一律由研究者完成;通過上述計算機與研究者的互動,不斷提高計算機的自動化水平。

筆者認為,讓計算機識別中文的圖像字符,猶如教小孩認字,是一個知識積累的過程。目前我們已經試驗切字100多萬,其中出現頻率最高的單字,出現次數為幾萬次,亦即某一個單字共有幾萬個略有不同的字形。筆者相信,如果以這幾萬個字形為基礎,讓計算機進行圖像文字自動識別,則我們有望突破計算機識別中文的圖像字符這一難關。固然,有些字頻小的文字,計算機識別依然會有困難;然而字頻小的文字在文獻中出現的次數少,對這些文字即使依然採用人工識別也是可以接受的。

參見方廣錩:《資訊時代的佛教目錄學》,載臺灣《佛教圖書館館訊》第29輯,2002年3月。

The Digitalization of Dazhengjing and Cataloging of BuddhistScripture

FANG Guangchang

(College of Philosophy, Shanghai Normal University, Shanghai, 200234, China)

Abstract: From the perspective of digitalization, the paper fully affirms the historical contributions of Dazhengjingand advocates that scholars of the Buddhist classics should face the challenges and chances at the age of digitalization, and explores the new approaches of digitalization of the Buddhist classics. The paper also puts forward four basic principles and some concrete ideas of digitalization of the Buddhist classics.

Key words: Dazhengjing, information technology, digitalization of the Buddhist classics

(責任編輯:江雨橋)

中圖分類號:G256

文獻標識碼:A

文章編號:1004-8634(2015)04-0017-(09)

DOI:10.13852/J.CNKI.JSHNU.2015.04.003

收稿日期:2015-04-01

作者簡介:方廣錩,江蘇邗江人,上海師範大學哲學學院教授,博士生導師,主要從事敦煌學、佛教研究。

相關焦點

  • 方廣錩說|為什麼我主張敦煌遺書「廢棄說」
    方廣錩: 大藏經是按照一定標準加以取捨、按照一定結構加以編纂,並具有一定外部標誌的佛教大叢書。佛教傳入以後,歷代都有人編輯佛教經典。到了隋代,不但在實踐中,而且在理論上,大藏經已經正式的形成。此後,歷朝歷代都編纂大藏經。早期是寫本,後來是刻本,近代出現鉛印本,目前已經進入數位化大藏經的時代。在唐朝,一部標準的藏經是1076部,5048卷。
  • 再談佛教發展中的文化匯流_方廣錩
    這「七世父母」,可能是人,也可能是六道中的任何一類有情,但中國人往往把「七世父母」理解為血統上的七代祖先,諸如父親、祖父、曾祖、高祖之類(10)。    有研究者對我的上述觀點提出質疑:方廣錩先生在《佛教典籍百問》中說,印度佛教沒有「孝」這個詞彙,只有「報恩」的說法,而且不以某個特定的眾生為報恩對象。
  • 數位化技術讓「沉睡古籍」甦醒過來
    如今,曾在這座圖書館裡「沉睡」了數十年的2萬多冊古籍特藏,正在被數位化技術輕輕「喚醒」。走過頗具年代感的門廳和樓道,三臺現代化智能書籍掃描儀映入眼帘。天津外國語大學圖書館特藏部的老師王雨卉和另外兩位年輕老師正將一本本珍貴古籍進行數位化掃描。8月31日,在天津外國語大學,工作人員正在進行古籍數位化。
  • 編制書目 影印出版 數位化回歸 海外中文古籍加速回流
    資料圖片近代以來,大批古籍流散海外,不少珍本、善本、孤本為國內罕見。近年來,在海內外有識之士的攜手努力下,海外中文古籍的情況日漸清晰,大批海外中文古籍正以影印出版或數位化等方式回流中國,為促進中外文化交流、推動學術研究發揮了重要作用。
  • 幾種佛經文獻等古籍(約1000G+)
    幾種佛經文獻等古籍(約1000G+)無心齋搜集整理【轉載請註明「無心齋整理」字樣
  • 欽哲基金會正式啟動 「圓滿法藏 • 佛典漢譯」
    「圓滿法藏」 是繼 [八萬四千 · 佛典傳譯] 成功開展後,宗薩欽哲仁波切發起的另一項譯經計劃,由欽哲基金會負責執行,旨在將所有未收錄於漢文大藏經中的藏文大藏經完整地漢譯,使後者得以中文完整保存延續。漢譯所有傳承佛典中尚未收錄於漢文大藏經的典籍Making all Buddhist Texts Available in Chinese"圓滿法藏 • 佛典漢譯"是繼"【八萬四千 • 佛典傳譯】成功開展後,宗薩欽哲仁波切發起的另一項譯經計劃,由欽哲基金會負責執行。
  • 讓「沉睡古籍」甦醒過來
    如今,在圖書館裡已經「沉睡」了數十年的2萬多冊古籍特藏,正在被數位化的技術輕輕「喚醒」。走過頗具年代感的門廳和樓道,三臺現代化智能書籍掃描儀映入眼帘。天津外國語大學圖書館特藏部教師王雨卉和另外兩位年輕教師正將一本本珍貴古籍進行數位化掃描。8月31日,天津外國語大學的工作人員正在進行古籍數位化。
  • 歐美所藏吐魯番文獻新知見
    德藏吐魯番出土文獻數量巨大,內容豐富,自從被帶回柏林之日起,就有各科專家分別加以整理,迄今未曾中斷。我們這裡只涉及漢語文獻。  2005年,百濟康義所編《柏林藏吐魯番收集品中的漢文佛教文獻》第3卷得以刊行③。
  • 150部珍貴古籍原書亮相重慶市藏國家珍貴古籍特展
    周毅 攝圖為珍貴古籍原書亮相吸引參觀者駐足。 周毅 攝圖為市民參觀古籍展。 周毅 攝圖為市民參觀古籍展。 周毅 攝圖為鈐有明代皇后印章的《大明仁孝皇后勸善書》亮相重慶市藏國家珍貴古籍特展。 周毅 攝圖為150部珍貴古籍原書亮相重慶市藏國家珍貴古籍特展,吸引市民參觀。 周毅 攝圖為清?
  • 海南名老中醫霍列五上百卷中醫古籍入藏省圖書館
    從上個世紀初,專注於中醫研究的海南名老中醫——霍列五就四處收藏醫書古籍。霍列五去世後,這些古籍被放置在霍毅家裡的三個大書櫃中,成摞堆在數張書桌上,足有上千種數萬卷。  「你聽,它們是有生命的,有聲音的。」戴著白色棉質手套,霍毅小心翼翼地向記者展示著這些珍藏多年的中醫古籍。書頁譁啦啦地響,在陽光中飄散出墨香。
  • 全國古籍普查進入尾聲,北京的中學裡藏著不少珍本
    在這本書中,作者留下的身份信息是他的一個「號」——「東海褰冥氏」。東海褰冥氏是誰呢?工作人員拿出了普查工作中最常用到的工具書之一——《清人室名別稱字號索引》進行查詢。按照書中的記錄,原來「東海褰冥氏」是清末時期譚嗣同的別號。為了印證這個結論,工作人員再次拿出《中國現代人物大辭典》找出譚嗣同的詞條。
  • 古籍新書·2020年冬季|五禮通考
    該書以黃丕烈槧姚氏本為底本,參以鮑注吳校本及雅雨堂本,廣羅前人校注成果,校同異,辨真偽,加注釋,為之編年。多有新見,頗受治先秦史學者的推崇和關注。然而由於出版時間較早,存在一些玉中之瑕,很有必要將其增補、修正,使其更加完善。鑑於此,郭人民先生的生前好友孫順霖先生對其進行了補正,是為《戰國策校注系年補正》,由中州古籍出版社於2020年11月出版發行。
  • 南江濤《螺螄殼中的曼陀羅:古籍影印蠡探》出版
    影印古籍忠實於文獻原貌,使文獻的真實性、完整性、原生態性得到高效、充分的揭示,並且有可操作性強和速度快的優勢,對整理出版傳統文化典籍有著不可替代的作用,是對古籍進行再生性保護的最好方式之一。回首70年來的歷次古籍整理規劃,每次都非常重視「古籍影印」,專家們明白,不是所有的古籍都需要點校注釋,有些比較專業的資料,只有相關學者研究才看,影印成為最佳方式;再者,影印能夠反映底本原貌,使用文獻比較放心。
  • 內蒙古社科院圖書館入選全國古籍重點保護單位
    其中,蒙古文《大藏經》是至今保存的蒙古族各種文獻中篇幅最大的一部,也是蒙古佛教典籍的總集、蒙古文化的百科全書。該書在2004年開始籌備,2014年完成400卷正編,前後共用了10年時間。數位化:化解古籍文獻「藏」與「用」的矛盾古籍數位化是保護和傳承古籍文獻最有效的形式,也是古籍整理工作的必然趨勢。隨著網絡信息技術的快速發展,內蒙古社會科學院圖書館目前的發展方向就是儘快建立數字圖書館,實現網上查詢、借閱、諮詢、下載等服務。
  • ...批校本——以加拿大不列顛哥倫比亞大學所藏中文古籍批校本為中心
    圖書館、藏書家與批校本——以加拿大不列顛哥倫比亞大學所藏中文古籍批校本為中心韋胤宗韋胤宗,陝西臨潼人,亞洲學博士。武漢大學文學院古籍整理研究所特聘副研究員。主要研究方向為中國古代書籍史、明清思想史、史學理論與史學史。
  • 讓海外古籍回流國內 是全球化背景下中華文化傳播的進一步深化
    作為中華文化的載體,中國古籍雖然其體量巨大,但歷經戰亂,尤其是近代以來,大量中國古籍因各種原因散佚流失海外,其中不乏珍本、善本和孤本。近年來,隨著中國綜合國力增強,國家層面以及學術、出版、收藏界的日益重視,大量流播海外的中文古籍正以數位化、影印出版、購買等形式「回家」。
  • 冊府千華——重慶市藏國家珍貴古籍特展在重慶圖書館開幕
    12月15日,由國家圖書館(國家古籍保護中心)、重慶市文化和旅遊發展委員會主辦,重慶圖書館(重慶市古籍保護中心)承辦的「冊府千華——重慶市藏國家珍貴古籍特展」在重慶圖書館隆重開幕,展覽為期一個月。12月15日,由國家圖書館(國家古籍保護中心)、重慶市文化和旅遊發展委員會主辦,重慶圖書館(重慶市古籍保護中心)承辦的「冊府千華——重慶市藏國家珍貴古籍特展」在重慶圖書館隆重開幕。鄧蕊 攝據了解,本次展覽是重慶市目前為止最高規格的古籍展覽。