河北大學中華字庫工程探訪
他們給漢字填寫「身份」信息
■閱讀提示
在河北大學,一間300平方米的工作室內,多名專家學者以及學生,正在參與進行一項規模浩大的漢字整理與考釋工作——中華字庫工程。這是一項國家重大文化建設工程,河北大學獨立承擔著明清圖書用字的整理與考釋工作。
什麼是中華字庫?我們已有《漢語大字典》《中華字海》這些大部頭的字書,為什麼還要對中華文字進行全面的搜集整理?
近日,筆者走進河北大學中華字庫工程工作室,試圖揭開中華字庫工程的神秘面紗,同時也走近這群人,聽他們講如何讓一個個沉寂在古舊書籍上的漢字,在數字媒體中找到新的安身之所,擁有新的「身份」信息。
幫生僻字尋找「身份」信息
圖為清光緒刻本《蠕範》,其中「鼠佔」「鼠靈」皆為「鼠突」字訛變。 河北大學供圖
「這兩個字念什麼?你知道嗎?」4月9日,窗外細雨濛濛,在河北大學中華字庫工程工作室,負責人楊寶忠寫下的兩個字令筆者一頭霧水。
只見紙上的這兩個字,左邊都有一個「鼠」字,不過「鼠」字右邊還各有一個「佔」字和「靈」字,寫作「鼠佔 鼠靈」。
見筆者搖頭,楊寶忠笑著解釋,在被奉為「辭書之祖」的《爾雅》中,有一篇《釋鳥》曾詳細講過「鳥鼠同穴」的自然現象,「鳥鼠同穴,其鳥為鳥餘,其鼠為鼠突」。然而,在歷代傳抄轉錄過程中,由於抄寫錯誤,「鼠突」被一再誤寫,最終在清代李元所著《蠕範》中出現了「鼠佔 鼠靈」二字。
第一個字,雖在《康熙字典》《漢語大字典》《中華字海》這樣的大型字書中有收錄,但被作為雙音節詞用字處理,至於讀音,書中卻未給出。第二個字大型字書都沒有收錄。
與這些令普通人直皺眉頭,甚至大型字書中都未給出答案或沒有收錄的疑難字打交道,對它們追根溯源,辨析淵源流變,是河北大學文學院漢語言文字學教授楊寶忠多年來的主要工作。
人們的印象中,漢語言文字學這門學科,可能更多的是在「故紙堆」中埋頭考究,而現在,楊寶忠正帶領30多位老師和學生,參與一項解決中國目前在信息化、數位化中所碰到的瓶頸問題的重大工程。
走進工作室,只見大家伏案於一排排電腦桌前,全神貫注地盯著屏幕,電腦屏幕上是電子掃描版的豎排文字古文獻,不少還紙張斑駁,字跡模糊。工作室忙碌而安靜,只聽見計算機的嗡嗡聲。
「擬認同字、康熙部首、康熙附形部首等屬性,以及讀音、釋義、字際關係等,這些都是一個字的『身份信息』,我們的工作就是為這些從明清圖書上找出來的生僻字填寫一張完整的『身份證』。」工作室成員、河北大學文學院徐世權博士,一邊向筆者展示中華字庫工作平臺界面,一邊向筆者解釋他們的主要工作內容。
「我國現有的計算機字符集僅有7萬多個,已無法滿足時代需求。因此,國家啟動了中華字庫工程,將利用先進的信息技術手段,收集和匯總歷代文獻資源中出現過的漢字和少數民族文字,辨析源流衍變,確定每個字形的歷史地位,建立漢字及少數民族文字的編碼和主要字體字符庫。」中華字庫工程第15包項目管理辦公室主任楊清臣介紹。
中華字庫工程於2011年啟動,完成之後的中華字庫預計可編碼字符數在50萬左右。工程共有28個工作包,河北大學以獨立承擔的方式,獲得第15包明清圖書用字搜集與整理之三·文字整理與考釋的分包任務,對約100萬字形(楷體漢字)的疑難字進行辨識、整理和考釋。
不久前,工作室剛剛向中華字庫項目總體組提交了第四個節點——14萬個字的整理與考釋成果,當前正在為下一節點的工作進行緊鑼密鼓的籌備。
而他們考釋的生僻字「身份信息」,最終將被收進「中華字庫」,然後提交給國際標準化組織,在電腦區位中給每個字編碼,廠商再據此做出宋體、黑體、隸書等字體,最終進入計算機。
在這項國家重大文化建設工程中,河北大學能獨立承擔第15包的任務,得益於其在近代漢字研究方面的學術優勢。
河北大學不僅發起舉辦了全國首屆近代漢字學術研討會,而且2018年成立的中國文字學會近代漢字研究會,就落戶河北大學,楊寶忠和梁春勝分別任學會執行會長和秘書長。他們還創辦了近代漢字研究的專業刊物——《近代漢字研究》。
「我們每天的工作就是研究生僻字。很多人並不覺得生僻字對我們的現實生活有何影響,但有的人就因為生僻字,連一張信息準確的身份證都無法得到。」在行唐縣獨羊崗鄉公式村進行的一次實地考察,令楊清臣深有感觸。
公式村的歷史可以追溯到南宋時期,距今已有近千年歷史。但苦於計算機打不出這個村名,當地村民的第一代身份證上的村名信息只能靠手工填寫,而現在使用的第二代身份證,只能用「差取」二字來代表。
最難的是疑難字考釋
從某種意義上說,在信息化、數位化時代大潮之下,不論是常用字還是生僻字,只有被納入字庫當中,才算找到了「家」。
在中華字庫工程的計算機操作平臺上,每個從上一環節遞交過來的文字,都設有一個專屬的號碼,就像一個人的身份證號。工作室成員要做的,就是把這些漢字有名有姓地帶回家,以便它們能信息完整地「居住」在字庫這個虛構的網格式大廈裡。
然而,這條尋「家」之路並不容易。
按照工作室的流程安排,一審主要是碩、博研究生對填寫的內容進行互審,二審則是由教師對一審內容進行檢查,二審解決不了的問題,則要進一步提交給楊寶忠、梁春勝二人「坐鎮」的三級審核。
一般衝破重重關卡來到楊寶忠和梁春勝面前的,都是幾輪考釋仍啃不下來的硬骨頭——疑難字。
楊寶忠解釋,疑難字是個相對概念,指一般人不認識或認錯的字,在普通人看來,它們的結構都複雜得令人咂舌。在大型字書裡,有些字音義不全,標為「音未詳」「義未詳」或「音義未詳」。有些字雖然音義俱全,很可能也存在注音、釋義、字際關係整理等諸多錯誤。
因此,疑難字的考釋,是中華字庫工程最難也最見功底的領域。
當初,清代李元所著《蠕範》中出現的「鼠佔 鼠靈」二字的考釋,曾令楊寶忠頗費周折。
「鼠佔 鼠靈?怎麼念?什麼意思?」憑藉多年疑難字考釋的經驗,利用自己總結的疑難字考釋方法和自己發現的近代漢字「異體部件替換」規律,楊寶忠聯想到「鼠佔鼠靈」很有可能就是「鳥鼠同穴」中的鼠名「鼠突」字?
循著這個思路,楊寶忠多方求證,最終弄清了「鼠佔 鼠靈」二字的來歷。
「在歷代傳抄轉錄過程中,很容易出現各種書寫錯誤,這就需要我們根據漢字書寫習慣和變異規律,結合上下文意思,順藤摸瓜,追根溯源,考釋出一個字的準確讀音和含義。」楊寶忠解釋,「鼠佔 鼠靈」二字就是在傳抄過程中,一錯再錯錯出來的。
《山海經》郭璞註:「鼠名曰鼠突。鼠突如人家鼠而短尾……」一誤作「鼠名曰鼠戾。鼠戾如人家鼠而短尾……」(中華書局影印本《太平御覽》),再誤作「鼠名曰鼠佔。鼠戾如人家鼠而短尾……」(文淵閣、文津閣本《太平御覽》),三誤作「鼠名鼠佔鼠靈」(《禹貢合注》),四又誤改作「鼠佔 鼠靈」,此《蠕範》「鼠佔 鼠靈」所由生。
「《字彙補》以下大型字書收錄『鼠佔』『鼠靈』二字,既不能與『鼠突』字加以溝通,又皆處理為雙音節用字,均欠妥當。」楊寶忠最後得出結論。
考釋,不僅要搞清楚一個字的音義,還意味著要抽絲剝繭,通過一個字形考釋出一系列的疑難字,並建立字際關係。
正是通過這一系列的研究,楊寶忠最終構建了一個以「鼠突」為中心的矩形聯繫圖,古籍中出現的「鼠戾」「鼠佔」「鼠靈」「 鼠靈」「鼠錄」「鼠災」「鼠空」「鼠炎」「鼠犬」「鼠吾」「鼠奚」「突鳥」等都是「鼠突」變來的。
從1990年至今,楊寶忠一直從事大型字書的疑難字考釋,近30年裡,他考釋的疑難字將近4000字。
近30個年頭,不到4000字,兩個數字對比,文字考釋的箇中艱辛不言自明。
考驗學識和學養的積累
河北大學中華字庫工程工作室主要成員,前排中間為工作室負責人楊寶忠教授。 河北大學供圖
河北大學中華字庫工程工作室以玻璃為隔斷,闢出一間小型閱覽室,佔據工作室三分之一的空間。別看面積不大,卻滿滿當當碼放了整整13排、100多個大書架。
文津閣本《四庫全書》《續修四庫全書》《百部叢書集成》《域外漢籍珍本文庫》《高麗大藏經》……在這裡,幾乎能查閱到項目研發所需要的各種古籍。
作為補充,閱覽室一旁的電腦上,還裝有一個文獻檢索包,收錄著書架上沒有的電子書,足有10多T。
這些都是為方便大家考釋文字時查閱古籍準備的。
每天從早上8時到晚上10時教學樓關門,除上課外,工作室的成員幾乎全都泡在這裡,即使節假日和周末,也基本是這樣,可謂名副其實地埋首「故紙堆」。
這樣的工作節奏,很容易讓人聯想到「枯燥」這個詞。
「表面看,我們一直是在做重複性工作,但實際上每天都是新的。」對此,楊清臣卻自得其樂。
作為工作平臺中的二級審核老師,楊清臣所謂的樂趣和成就感就在於,能在很多習焉不察的一審結果中尋獲到「漏網之魚」。
有一次,一級審核提交上來一個「氵艾 」字。對這個字,一級審核並未發覺有何問題,而是根據正常流程,對其各項屬性進行了標註,但楊清臣看到這個字卻頗為眼生。
這個字出現在明嘉靖刻本《皇明疏議輯略》卷三十一《處置夷情疏》一文中:「又有一路從草坡出氵艾 州,一路從氵僚 澤壩出灌縣,一路從清溪口出崇慶。」
「氵艾 州?從來沒有聽說過還有這個地方啊!」經過一番仔細查閱,最終,楊清臣的懷疑在文淵閣四庫本《忠肅集》中得到了印證,「氵艾 」應為「汶」。另外,「氵僚 」即「僚」之加旁俗字。
「類似這樣的錯誤,很多都是習焉不察的,在這種地方能產生懷疑的,就是高手。」徐世權說。而能像導師楊寶忠一樣,由「鼠佔 鼠靈」找到一個系列的字形,構成矩形系聯,形成宏觀觀察,則令徐世權神往,「這就是我們搞語言文字學追求的最高境界。」
在長期疑難字考釋實踐中,楊寶忠在前人「形音義三者互相求」的考字方法基礎上,提出「形用義音序五者互相求」「五者之中,形最重要」的考釋方法,使疑難字考釋成為有規律可循、有方法指導的科學。從一堆「故紙」中理出頭緒、解決問題,考驗的是能力。能從中有所懷疑,更考驗學識和學養的積累。
觸發懷疑的機關,要建立在大量閱讀基礎之上形成的「語感」。
1982年,楊寶忠本科畢業留校後,宿舍和中文系資料室在一層樓,楊寶忠曾以一天一本古書的速度,在六年多的時間裡差不多讀完了資料室所藏的先秦兩漢古書。
在近30年的大型字書疑難字考釋中,楊寶忠把《漢語大字典》(八卷本)第一版通讀3遍,《漢語大字典》(九卷本)第二版通讀一遍,《中華字海》通讀4遍,而且是將兩本大型字書一個字一個字對照著讀。
苦行僧式的閱讀經歷,使楊寶忠儼然一本「活字典」,很多字的源流衍變信口拈來,如數家珍。
相比老一輩主要靠翻閱紙本古書,楊清臣和徐世權以及他們的學生們更多地是利用電子文獻,有了更便捷的閱讀手段。
雖然由於字庫不全,目前的古籍信息搜索還有頗多不便,但工作室還是通過購買和自主研發兩種渠道,建立了專門的古籍信息資料庫,藉助搜索技術,輸入相關搜索內容,幾秒內便能把相關文獻搜索完畢。
不過,不論哪種模式,都需要堅持。
雖然楊寶忠平時不苟言笑,要求非常嚴格,但打心眼兒裡,他對這些青年學者們嚴謹踏實的學術態度深感欣慰。在他辦公室一旁的角落裡,放著幾副羽毛球拍和桌球拍,對於學習,楊寶忠從不多言,反而總是趕著大家多運動。
「搞學術在外人看來很辛苦,但做出來特別有成就感。就像在海邊撿貝殼,在那麼多好認的字裡找著一個難認的,就像撿著一個特別漂亮的貝殼。」說著,本略顯拘謹的楊清臣舉起雙臂,嘴角揚笑,「那種如獲至寶的心情,就想手舞足蹈地跳起來!」 (記者 周聰聰 通訊員 於冬偉)
■相關
數字時代的中華字庫
由於字庫不全,行唐縣獨羊崗鄉更差更取村村民的第一代身份證上的村名信息只能靠手工填寫。 河北大學供圖
你知道嗎?電腦屏幕上顯現的每個字符,都對應著一個被國際標準化組織正式認證的區位編碼。字符編碼匯聚的地方,被稱為字庫。
我國現有的計算機字符集僅有7萬多個,已無法滿足時代需求。著眼這個問題,我國啟動了中華字庫工程。
對很多人來說,「中華字庫」還是一個陌生的名詞。
據了解,我國當前有很多大型字書,2010年版《漢語大字典》共收入60370字;《中華字海》是當前大陸收入漢字最多的,1994年版收入85568字。
雖然聽起來這個數量已經足夠龐大,但對於我國卷帙浩繁的文獻資料中的實際用字,對於不同時代不同地域社會生活中的實際用字,它們仍不能滿足需求。
此外,這些字書對甲骨文、金文、小篆和隸書等古代文字形體,以及許多少數民族文字,並未全面整理或涉及。
與之前已有的文字整理工作相比,中華字庫工程的優勢還在於,其文字整理將面向出版及網絡數位化需求。
其實,這也是古老漢字遇到的新問題。
在過去,很多資料都通過手寫,並不會對生活造成太大困擾,但近年來,隨著計算機的普及,絕大多數資料都需要電子化錄入。
小到自然資源、地名、人口等清理普查,大至國家的經濟、地理空間等戰略性、基礎性的信息庫建設,還有公安、民政、金融、保險、海關、民航等行業的信息服務與監管存在很大的用字缺口。
中華字庫研發的目的是建立全部漢字及少數民族文字的編碼和主要字體字符庫。重點研發漢字的編碼體系、輸入、輸出、存儲、傳輸以及兼容等關鍵技術。完成後的「中華字庫」,預計可編碼字符數在50萬左右(漢字古文字約10萬、楷書漢字約30萬、各少數民族文字約10萬),力爭達到能對我國所有的出土、傳世文獻和當代文字作品進行數位化處理,全面打通信息化的發展瓶頸,使中華各民族文字的使用、中華文明的普及與傳播,更加方便和高效。
而與中華字庫工程類似的工作,世界各國非常重視。
歐美一些國家甚至把當地的土著文字、古代表意文字等一些極為罕用甚至早已「死亡」的文字,都加入了國際編碼,使本國本民族的歷史文化得以在網絡上流傳,展示國家的文化實力。
因此,中華字庫工程對引領中華文化步入信息化、數位化時代,提高中國文化「軟實力」,有著非同尋常的意義。
文/記者 周聰聰