「全息字典」正式上線:古今漢字任你查

2020-12-13 新華網客戶端

來源:光明日報

「全息字典」:古今漢字任你查

快捷、權威、形象——準確查找一個難檢字的相關信息再不用跑遍古籍閱覽室,翻便「大部頭」,只需輕點滑鼠——登錄漢字全息資源應用系統,點擊現代通用字集,搜索要查找的字,不僅能夠顯示其現代字形、字音、字義信息,還可以查到該字從甲骨文、金文到篆書、楷書的歷史字形演變過程,從《說文》《爾雅》《方言》《釋名》一直到《康熙字典》等歷代辭書對該字的釋義,及其在一些常用古籍文獻中被使用的情況。

日前,國家語委重大基礎資源建設項目「通用漢字全息資料庫建設」的標誌性成果「漢字全息資源應用系統」正式啟動上線。該項目旨在運用現代中文信息處理技術,構建一個具有多維關聯關係、科學系統、高效實用的漢字全息資料庫。

「無論是初學漢字的小學生,還是研究漢字的學者,系統都可以提供相應的幫助。」項目主持人、北京師範大學教授王立軍介紹,系統採用的多層級字集設計模式,包括常用字集、現代通用字集、古籍印刷通用字集、全字符集等。常用字集可以滿足中小學基礎教育領域的一般需要;現代通用字集可以滿足社會文化領域一般漢字使用者的需要;古籍印刷通用字集面向具備一定古漢語知識、閱讀一般古籍文獻的用戶;全字符集則可以滿足漢字研究的專業人士需求,為專業研究提供支撐。

藉助資源庫,給漢字家族繪家譜

作為一名古文字愛好者和研究者,張華的書桌上擺滿了各種字典、工具書——查找一個字在不同時期形、音、義的演變經常要翻閱多部「大部頭」才能找到相對準確、權威的答案,而線上的一些漢字資料庫很多又存在收錄不全、權威性差等諸多問題。如今,「漢字全息資源應用系統」的正式上線可能讓他再不用犯難——藉助資源庫,「古今漢字任你查」已不再是夢想。

本期上線的系統涵蓋字符集4種,其中常用字集3500字,通用規範字8105字,古籍印刷字16490字,全字符集81722字;還有辭書20種,古籍文獻60種,歷代字形圖415675個。其中包括大量的圖形信息資源和文本信息資源,分別來自古文字拓片、文字編、規範字表、編碼字符集、歷代辭書、經典文獻、中小學語文教材等,涵蓋了古今各個時期文字的形、音、義、用、碼五大方面的重要信息。

這一資料庫,可以說是「海量」。如此龐大的信息量,是如何做到相互對應、關聯的呢?

如果說建立資料庫是給漢字家族繪製一張家譜,那麼建立關聯則是搞清譜系、輩分等關係。「首先是漢字屬性的分解。構建一個具有多角度關係的漢字實用資料庫,必須以漢字的屬性作為基本的依託。」北京師範大學教授王寧指出,團隊從20世紀90年代開始總結漢字的屬性,除形、音、義之外,還增加碼、用兩個部分。碼是漢字在計算機中的編碼,用是漢字的使用,而且做了大量的屬性細化研究,這樣就有條件將籠統的漢字個體的資源庫,改造為漢字的屬性庫,解決關聯的多角度問題。

王寧解釋:「其次是層次的確立,根據『漢字效用遞減率』,我們將漢字分為常用-通用-適用-罕用-無用5個層。第一、二層次涵蓋36000字,以外的字只存記憶,不做深度開發,這樣一方面可以在應用中擴大有用信息的使用度,另一方面將垃圾信息、無用信息退出關聯,不幹擾有效信息的集合和調用。」

「再次就是中介的尋求,我們繼承傳統語言學的研究成果,以《說文解字》的9353個小篆及其重文為中介來關聯。古文字的確切識讀,絕大部分是從《說文》開始的,這樣就保證了不同形制、不同字體、不同時代漢字的最大限度關聯。」王寧補充道,正是依靠《說文》小篆這些「核心家族成員」作聯繫,漢字家族內部不同族群的譜系才得以繪製在一起。

溝通古今,提供漢字準確屬性信息

實現讓通用規範漢字溝通古文字、繁體字,是該資源庫的又一重要特徵。據介紹,系統的主體字集是國家語委2013年公布的《通用規範漢字表》的8105個規範漢字及其關聯字形。《通用規範漢字表》屬於簡化字系統,分為一級字表(即常用字表,3500字)、二級字表(3000字)、三級字表(1605字)。《通用規範漢字表》作為資料庫子庫的B庫,直接和A庫(傳承字、繁體字和隸定字)關聯,進而與小篆等古文字(C庫)關聯,從而實現了古今、簡繁漢字的有效貫通。

如何保證對收錄的每個漢字形、音、義解釋的權威性?

王立軍介紹,系統的處理方法是:選取歷代具有代表性的辭書,並選擇最優的版本作為搭建框架的基礎素材,以此為基礎建構數據之間的深度關聯。選擇的辭書包括從《爾雅》《說文》《釋名》《方言》《廣韻》《集韻》《康熙字典》《漢語大字典》《新華字典》和《通用規範漢字字典》等。在字形方面,簡化字的部首採用2009年國家語委發布的《漢字部首表》,即201個主形部首和99個附形部首,非簡化字採用214部首體系,來源於《康熙字典》。簡化字和繁體字的筆畫數屬性參考《通用規範漢字字典》等。結構類型(六書)屬性參考《說文解字》。字音方面,現代漢語拼音和注音字母主要參考《通用規範漢字字典》和民國時期《國語辭典》等;近代音來源於《中原音韻》;中古音來源於《廣韻》。字義方面,常用義項來源於《通用規範漢字字典》,並給出歷代辭書的釋義內容。

多種屬性的綜合呈現,可以加深人們對每個漢字的理解。比如「既然」的「既」和「即使」的「即」,在使用過程中容易混淆,但參考小篆字形就不會了——「既」是一個人背對著飯桌,表示吃完了,這個字就是表示已經發生了;而「即」是一個人正對著飯桌,靠近它,還沒吃飯,所以是表示即將進行的。了解了這一層面,理解就加深了,也就很難出錯了。

漢字不是一個個「孤零零」的符號,漢語文獻正像軀體的血肉,豐富著漢字殿堂的內容。在每個字的「用例」一欄,系統選取具有代表性的傳世文獻作為古籍用例的來源,包括十三經、二十五史、二十二子等三大典籍系統,提取漢字在這些文獻中的使用例句,供研究者參考使用。

多種檢索,滿足不同用戶需求

與查字典類似,方便檢索也是系統的一大特徵。為方便使用者更便捷地輸入需要檢索的字,系統提供了單字、拼音、部首、部件、筆畫等五種可輸入的檢索方式,使用者可以根據自己的喜好和需求,選取適合自己的方式。除單字檢索外,還可以滿足綜合檢索、專書檢索和歷代字形檢索。

「你看,『典』字是兩隻手捧著書卷,這多麼形象,對於文史研究者來說用於研究也太方便了,我現在就想擁有。」剛剛演示完動畫,現場主持人、北京師範大學文學院教授康震興奮地說。

「資源庫可作為文字和文化愛好者提高文化知識和綜合素養的學習平臺,為傳統文化愛好者提供權威的學習內容;可以作為基礎教育及漢語國際教育領域的教學平臺,為學生學習、教師備課提供豐富的教學資源,從而更好地服務我國基礎教育;可作為文字學及相關專業領域專家學者的科研平臺,為專家學者提供對數據資源進行深度挖掘的工具,彌補傳統手工獲取資源、聯繫資源方式的局限;可作為漢字類數位化產品的開發平臺,為開發者提供海量的經過專業學術加工的可靠漢字屬性資源。」王立軍指出。(記者 周世祥 靳曉燕)

相關焦點

  • 「全息字典」:古今漢字任你查
    日前,國家語委重大基礎資源建設項目「通用漢字全息資料庫建設」的標誌性成果「漢字全息資源應用系統」正式啟動上線。該項目旨在運用現代中文信息處理技術,構建一個具有多維關聯關係、科學系統、高效實用的漢字全息資料庫。    「無論是初學漢字的小學生,還是研究漢字的學者,系統都可以提供相應的幫助。」
  • 古今漢字任你查 「漢字全息資源應用系統」上線
    小張是一名古文字愛好者和研究者,他的書桌上擺滿了各種字典、工具書——查找一個字形、音、義在不同時期的演變經常要翻閱多部「大部頭」才能找到相對準確、權威的答案,而線上的漢字資料庫很多又存在收錄不全、權威性差等諸多問題。
  • 全息字典正式上線 是新華字典的超級升級版
    《新華字典》等工具書想必是伴隨許多人學習成長的老朋友。如今隨著手機、電腦等工具的普及,字典、詞典等工具用書已經轉向了電子化、數位化。 據消息,國家語委推出的重大基礎資源建設項目「通用漢字全息資料庫建設」已經正式上線,號稱「全息字典」。
  • 「全息字典」正式上線:可查漢字演變過程
    日前,國家語委重大基礎資源建設項目「通用漢字全息資料庫建設」的標誌性成果「漢字全息資源應用系統」正式啟動上線。作為漢字全息資料庫,它不僅能夠顯示其現代字形、字音、字義信息,還可以查到該字從甲骨文、金文到篆書、楷書的歷史字形演變過程,從《說文》《爾雅》《方言》《釋名》一直到《康熙字典》等歷代辭書對該字的釋義,及其在一些常用古籍文獻中被使用的情況。
  • 「漢字全息資源應用系統」正式上線
    1月11日,教育部「奮進之筆」行動、國家語委重大基礎資源建設項目「通用漢字全息資料庫建設」的標誌性成果「漢字全息資源應用系統」發布會在北京師範大學舉行。項目由北京師範大學中國文字整理與規範研究中心、漢字研究與現代應用實驗室負責實施。
  • 學會自己查《書法字典》
    初學者在試著搞創作時,要學會自己查字典,百度上有名目繁多的「書法字典」,可以選擇其中較好、較適合自己習慣的,用來幫助你進行創作練習
  • 漢字全息資源應用系統上線 涵蓋多方面漢字屬性信息
    漢字全息資源應用系統上線 涵蓋多方面漢字屬性信息 2019-01-作者:${中新記者姓名}責任編輯:郭澤華   中新網客戶端北京1月11日電(記者 宋宇晟)「漢字全息資源應用系統
  • 象形字典
    象形字典簡介 象形字典:象形一下,你就明白!
  • 《新華字典》APP每天免費查兩個字?
    據介紹,該APP提供數字版紙版對照、原《新聞聯播》播音員李瑞英播讀、漢字規範筆順動畫等增值服務。但《新華字典》APP的免費版每天只能查2個字的情況引發爭議,APP的開發方表示,因涉及版權及軟體開發等問題,所以需要付費。  只能每日免費查2字  昨天,中國出版集團官方微博發布消息稱,《新華字典》官方APP發布。
  • 如何快速查字典?掌握「猜查法」,讓查字典的速度「飛」起來!
    如果不認識漢字,課文怎麼讀?小說怎麼看?怎麼寫作和交流?所有的文章,都是由一個個漢字組合而成的。不認識漢字,一切都無從學起。從幼兒園開始,到小學、初中、高中、大學,語文學習的過程,也是不斷認識、積累漢字的過程。即使是出社會了,上班了,也會遇到生僻字,還是要查字典。從小,語文老師就開始教我們查字典。
  • 辰星作文 ▏小升初專項複習(漢字查字典)
    小升初漢字查字典1、查字典。詞語音序音節第三畫部首去掉部首剩幾畫選擇正確解釋親戚1.姓。2.憂愁;悲哀。「奪」用部首查字法,應查(     )部,用音序查字法應先查字母(     ),再找音節(     ),組詞(     )。9、 字義我知道。查字典解釋下列加點的字。
  • 《新華字典》APP每天只能免費查兩個字?
    近日,由商務印書館官方出版,中國社科院語言所修訂的《新華字典》APP上線。該APP完整收錄《新華字典》第11版紙書內容,再現線下紙書查字方式,數字版、紙版對照,兩版可以一鍵切換。
  • 《漢字部首表》有了新國標查字典要改一下習慣了
    浙江在線03月04日訊「『秉』字是什麼部首,你知道嗎?我以前也一直沒弄明白,後來才知道是『禾』字旁。」日前,市區秋濱小學一位語文老師告訴記者,由於一些漢字偏旁和部首比較難以區分,不僅學生不知道如何查字典,有時候連語文老師都被難住了。不過以後,這個困擾將不再是難題。日前,教育部和國家語委為漢字部首制定了《漢字部首表》新規範,並將於5月1日發行。
  • 網站選舉"最難漢字"21個字候選 專家查字典識別
    中新網10月22日電 身為中國人,就應該懂中文字,你又認得幾多個?據香港明報報導,有網民在網上搞「最難漢字」評選活動,選出21個一般人不認識的生字候選,個個令人摸不著頭腦。  發起評選的英文網站「Hardest Chinese Ever」選了21個字供網友投票,其中解「驅魔」的字,暫時得票最多。
  • 《新華字典》APP每天免費查兩個字 網友質疑價格高
    近日,由商務印書館官方出版,中國社科院語言所修訂的《新華字典》APP上線。據介紹,該APP提供數字版紙版對照、原《新聞聯播》播音員李瑞英播讀、漢字規範筆順動畫等增值服務。但《新華字典》APP的免費版每天只能查2個字的情況引發爭議,APP的開發方表示,因涉及版權及軟體開發等問題,所以需要付費。
  • 新華字典App上線,每日僅可免費查詢兩個字
    多知網6月12日消息,市場唯一正版《新華字典》App已於近日正式上線,定價40元,由新聞聯播原播音員李瑞英提供原聲播讀,每日可免費查詢兩個字,現iOS以及Android版本已可下載。  目前新華字典查詢方法主要分為四種。  輸入框查詢:輸入法主要包含鍵盤輸入法、手寫識別輸入、語音識別輸入三種方法,其中手寫和語音識別為雲識別,需要網絡在線支持;檢索方法主要可通過關鍵字、拼音、注音、部首、筆畫總數和四角號碼進行關鍵字搜索。
  • 免費只能查兩個字!40元的新華字典App值不值
    那當屬教會我們陌生字詞的《新華字典》了。查讀音、查釋義,遇到不認識的字兒就靠它了。這不,小編還在家裡找到一本,書架上放著呢。不知道現在的小學還是不是必備《新華字典》呢?不過,現在可比以前方便多了,拿出手機就能查字,方式方法可多著呢。
  • 《新華字典》推手機APP 免費版一天只能查2個漢字
    中新網北京6月12日電(記者 張曦)近日,由商務印書館出版、中國社科院語言所修訂的《新華字典》APP上線。記者下載後發現,免費版一天只能查2個字,想要完整體驗需花費40元購買。因此也有網友吐槽說:「比紙質版還貴。」
  • 商務印書館回應《新華字典》APP每天只能免費查兩個字
    近日,由商務印書館官方出版,中國社科院語言所修訂的《新華字典》APP上線。據介紹,該APP提供數字版紙版對照、原《新聞聯播》播音員李瑞英播讀、漢字規範筆順動畫等增值服務。但《新華字典》APP的免費版每天只能查2個字的情況引發爭議,APP的開發方表示,因涉及版權及軟體開發等問題,所以需要付費。
  • 《新華字典》APP每天僅免費查倆字 "字典"也不能亂翻了
    付款   6月11日,由商務印書館出版、中國社科院語言所修訂的新華字典APP上線。《新華字典》自從上世紀50年代出版以來,伴隨了幾代人的啟蒙教育,身上附著了不少的時代痕跡和文化意義,該APP一上線便贏得了網友的關注。可網友發現,免費版一天只能查兩個字,想要繼續使用,就得付費40塊。而一本紙質版的新華字典售價在20元左右。由此,質疑聲四起。