1月11日,教育部「奮進之筆」行動、國家語委重大基礎資源建設項目「通用漢字全息資料庫建設」的標誌性成果「漢字全息資源應用系統」發布會在北京師範大學舉行。
項目由北京師範大學中國文字整理與規範研究中心、漢字研究與現代應用實驗室負責實施。教育部語言文字信息管理司副司長劉宏、北京師範大學副校長郝芳華出席發布會。北京師範大學教授、博導、著名訓詁學家王寧,該項目主持人、北京師範大學文學院教授王立軍與著名文化學者、北京師範大學教授康震共同啟動系統上線儀式。
王寧教授代表設計和製作團隊介紹了「漢字全息資源應用系統」的三個理念。
首先是屬性的分解。她說,項目以推進語言文字信息化建設為主要目的,運用現代中文信息處理技術來構建一個多角度關係的漢字實用資料庫。從上世紀90年代開始,王寧就和團隊一起總結漢字的屬性,不僅有傳統的形、音、義三方面屬性,還增加了碼和用。由於漢字的簡化,簡繁體之間存在「一對多」的情況,「用」就成為漢字不可不關注的屬性;漢字進入計算機後以「內碼」的形式存儲,又以「交換碼」調用,所以「碼」也成為人機對話不可或缺的屬性。確立5大屬性後,王寧和團隊做了大量的屬性細化研究,將籠統的漢字個體資源庫,改造為漢字的屬性庫,解決了關聯的多角度問題。
其次是層次的確立。在《通用規範漢字表》的研製中,王寧和團隊採用了兩個大型語料庫,證實了周有光先生提出的「漢字效用遞減率」,也就是說,漢字字頻逐步降低,對漢語語料的覆蓋率越小,應用的效用也就越小。之後,這個原理被用在《古籍印刷通用字字形規範》項目中,以確定古籍印刷通用字的字數和字集。漢字的UNICO編碼儘管已經擴充到8萬多字,但其中有實用價值的字不超過36000個。所以,在這個項目中,團隊將漢字分為常用、通用、適用、罕用和無用5個層次,把無限的關聯變成可以操作的有限關聯。
第三是中介的尋求。項目要求既有現代漢字,也要關聯古文字和多種字體。漢字是表意文字,形制相同又共時的漢字各自成為系統,無法完全對應。比如,甲骨文記錄的是卜筮語言、金文和戰國文字多為應用器皿的銘文,並非自然語言的現實,而現代漢字是現代漢語的書寫載體,與古文字的對應更是難以全然實現。為此,團隊繼承了傳統語言學的研究成果,以《說文解字》的9353小篆和10516字樣為中介,不論何種聯繫,凡是不能直接實現的,都以《說文解字》小篆為中介來關聯。
「漢字全息資源應用系統」結構分為深層結構和表層結構兩級模式,並建立有機系聯。在深層結構層面充分考慮《說文》、古文字、繁體字、簡化字、傳承字之間的複雜關聯關係;在表層結構以常用字集、通用規範字集、古籍印刷通用字集等不同級別的字集作為呈現模塊,解決了不同發展階段漢字之間的對接問題。
「國家語委給了傳統語言學文字學的研究隊伍一個隊傳統創造性轉化的嘗試機會,學校也給了我們一個交叉學科的研究和應用平臺。」王寧說。
開展通用漢字全息資料庫建設,不但服務了文化強國建設,更好地展示漢字的發展及其文化內涵,促進漢字文化發揚光大;也服務了教育現代化,提高漢字教育質量,促進民族地區國家通用語言文字教育;服務了語言文字事業發展,促進語言文字的規範化、標準化和信息化。
上線後,系統已經可以正常使用,並提供單字檢索、綜合檢索、專書檢索、歷代字形和幫助等五大功能,在主頁直接可以進行單字檢索。
系統建設採用了先進的資料庫技術、信息挖掘技術、圖形處理技術、可視化技術等手段,從應用角度出發構建科學、系統、高效、實用的漢字全息資源應用平臺,以滿足不同領域漢字應用的多元化需求。既可作為基礎教育及漢語國際教育領域的教學平臺,也可作為文字學及相關專業領域專家學者的科研平臺,還可作為國內外文化愛好者的學習平臺。
(經濟日報 記者:陳瑩瑩 見習編輯:覃皓珺)