漢字簡繁體轉換,不能單靠電腦

2021-02-14 語言文字周報

小編按:據教育部官方微博「微言教育」11月19日發布的消息稱:

《漢字簡繁文本智能轉換系統》發布 準確率達99.99%

據悉,該系統由廈門大學 、教育部語言文字應用研究所、北京師範大學聯合承擔,

能進行面向中國臺灣用字和古籍用字兩種簡繁轉換,還可進行網站頁面整體轉換。

⇧如果覺得文章不錯,記得分享給朋友們哦~

本文內容選自第1408號《語言文字周報》

或能為漢字繁簡轉換問題,提供一些有益的思考

全文如下:

最近我讀到了文化藝術出版社2010年10月出版的《〈說文解字敘〉王友誼篆書寫本》,這本書內包括《說文解字敘》、《許衝上〈說文解字〉表》和《漢安帝詔》三篇文章的楷書繁體和篆書兩種文本。篆書的書法很顯功力,給讀者以愉悅的享受,但美中不足的是無論楷書還是篆書都有一些錯字,據我的統計共有18處之多。例如(為便於印製,把篆書也楷化了):


「萬國鹹寜,神人以和」誤為「萬國鹹寜,神人以和」(楷書);
「萬物鹹覩,靡不兼載」誤為「萬物鹹覩,靡不兼載」(楷書);


「許沖」誤為「許衝」(篆書);


「人持十為鬥」誤為「人持十為鬥」(楷書、篆書);


「徵禮等百餘人,令説文字未央廷中」誤為「徵禮等百餘人,令説文字未央廷中」(楷書、篆書);


「召陵萬歲裡」誤為「召陵萬歲裡」(楷書、篆書)。


這些錯字是怎麼造成的,我們並不清楚。

該書的《後記》裡說,書法家在進行篆書創作前,請電腦公司將這三篇文章裡的字用電腦先做成篆書小樣,供書法家參考。從錯字本身來分析,這幾個字都錯在簡繁體轉換上。

例如,「鬥」本來是升鬥的鬥,讀dǒu,漢字簡化時用它來代替鬥爭的「鬥」,讀dòu。在由簡體轉換為繁體時,不是所有的「鬥」字都要轉換為「鬥」,而要加以區分:讀dòu時轉換為「鬥」;讀dǒu時仍舊要用「鬥」,不能轉換為「鬥」。《說文敘》裡的「人持十為鬥」說的是在許慎生活的漢代,有的人胡亂解說文字,把升鬥的「鬥」解釋為「人」拿著「十」。這裡的「鬥」不能轉換為「鬥」。

又如,在繁體字裡,徵討的「徵」和徵召的「徵」寫法不同,而且這兩個字的上古音和中古音也不相同,只是到了近代才變為同音,都讀zhēnɡ。漢字簡化時,用徵討的「徵」代替徵召的「徵」。在由簡體轉換為繁體時,在表示徵討義時仍用「徵」,在表示徵召義時「徵」要改為「徵」。《說文敘》裡的「徵禮等百餘人」是皇帝徵召爰禮等一百多人,在繁體字裡要用「徵禮等百餘人」,不能改為「徵禮等百餘人」。


在《簡化字總表》裡,多數字是一個簡體對應一個繁體,例如「書」對應「書」,「龍」對應「龍」。對這樣的字進行簡繁或繁簡轉換時不容易出錯。可是《簡化字總表》裡也有幾十組字是一簡對多繁,例如「鬱」對應「鬱」和「鬱」,「澱」對應「澱」和「澱」。對這樣的字,進行轉換時要特別留意,必須明確要轉換為對應的哪個繁體。


目前進行簡繁體轉換有人工轉換和機器轉換兩種方式。人工轉換時,從事轉換工作的人必須熟悉簡繁兩種字體間的對應關係,特別要熟悉其中的一簡對多繁。如果讓不具備這種能力的人從事轉換工作,就要出錯。

同樣用電腦進行轉換時,使用的軟體必須具備區分一簡對多繁的能力。如果不具備這種功能,轉換時就會出錯。就筆者的有限見聞說,目前上市的轉換軟體,多數只能用來進行一對一的轉換,而不能完全正確地進行一對多的轉換。軟體的智能化程度還不夠。使用不具備一對多轉換能力的軟體進行轉換,結果就會出錯。

這樣說來,我們就不能用電腦進行漢字簡繁體轉換了嗎?也不盡然,可以用電腦進行轉換,但是轉換之後一定要用人工幹預,把轉換錯了的改正過來。如果不做人工幹預,當然就會出問題。

本文開頭說的《〈說文解字敘〉王友誼篆書寫本》裡的錯,就是在用電腦進行轉換時,沒有進行人工幹預,所以我說「漢字簡繁體轉換不能單靠電腦」。當然以後如果研製出了智能化程度更高的軟體,具備了完全的簡繁轉換能力,人工幹預就可以省去了。我們期待著早一點能用上這樣的軟體。

點擊「閱讀原文」,可以在線使用繁簡文本智能轉換系統。在語言文字周報微信頁面,回復關鍵字「繁簡字」,收取微信內容:簡繁轉換易錯字43例。

網頁地址:http://jf.cloudtranslation.cc/;

該轉換系統還有「專門詞彙轉換」功能,專門詞彙門類涉及:計算機、物理、生物、電子電機工程、化學、工程學。

花絮:

甲骨文實現圖文編輯
在電腦上輸入一個漢字是很容易的事情,可是,你能夠在電腦上輸入一個甲骨文字嗎?

如今,《甲骨文圖文編輯系統》能幫你實現在一個編輯平臺中無障礙輸入所有的甲骨文字、進行甲骨文拓片的視頻輸入和甲骨文字形的動態編輯等功能。


據了解,由安陽師範學院教師慄青生組織開發的《甲骨文圖文編輯系統》,近期通過河南省科技廳組織的科技成果鑑定。來自中國科學院、廈門大學、北京語言大學、鄭州大學等5所高等院校和研究所的7位專家組成的項目鑑定委員會在聽取項目組的匯報、審查相關資料、觀看演示、質疑與討論後,對成果表示了認同。


《甲骨文圖文編輯系統》是一個集通用文字編輯和甲骨文字編輯於一體的圖文編排系統,具有甲骨文字輸入、甲骨文拓片視頻輸入、甲骨文字形編輯等功能,實現了所見即所得的圖文混排和印刷效果,為甲骨文編輯印刷研究提供了技術手段。該系統提供了一種描述甲骨文字形的方法,並在此基礎上實現了一碼多字的動態編碼;該系統設計合理,技術先進,在甲骨文字形描述方面有創新,達到國內同類研究領先水平。通過用戶使用表明,系統運行穩定,操作簡便,提高了甲骨文編輯出版的工作效率,具有廣闊的推廣和應用前景。(選自《教育時報》) 

相關焦點

  • 漢字簡繁體之爭--陝西頻道--人民網
    中國的現代新文化建設,從1919年算起,剛好經歷了三個30年:這三個30年,漢字問題都是中國新文化建設的重要問題。    我們把第一個30年稱作漢字改革的醞釀時期,第二個30年稱作漢字改革的實施時期,第三個30年稱作漢字改革的轉型時期……【詳細】    1932年國民政府教育部公布了出版國語籌備委員會編訂的《國音常用字彙》,委員會認為簡體字的推行,將使書寫更容易。
  • 看門狗2簡體怎麼切換繁體 看門狗2中文簡繁體轉換方法
    今天小編就為大家帶來看門狗2中文簡繁體轉換方法,讓我們來一起看看吧! SteamLibrary\steamapps\common\Watch_Dogs2\data_win6... 看門狗2簡體怎麼切換繁體?今天小編就為大家帶來看門狗2中文簡繁體轉換方法,讓我們來一起看看吧!
  • 不要再折騰簡繁體字!
    而近日全國政協委員潘慶林建議「全國用10年時間,分批廢除簡體漢字,恢復使用繁體字」。  筆者來美十多年,剛來美國時,紐約所有的華文報章都是繁體字,有關中文的電腦軟體大都來自港臺,華人使用的電腦視窗不是英文就是繁體中文,漢字輸入用的就是繁體字。繁體字看著認識,電腦輸入亦準確無誤,但若要書寫,又有多少人能寫?
  • 愛站SEO工具包之簡繁體互換
    簡繁體互換可以認為是從簡體中文向繁體中文的轉換,又稱為繁體字轉換、簡繁體轉換、簡繁翻譯等。而相反方向的轉換則是繁簡轉換、繁簡體轉換、繁簡翻譯。  下面我就向大家介紹一款「 愛站 SEO工具包」中的簡繁體互換,它能夠幫您處理簡繁體互換的相關問題,使用方法非常簡單。通過本工具可以把文字在簡體、繁體、火星文之間互相轉換。
  • 【1.27每日推薦】 - 電子書簡繁體轉換網頁
    大家好~我是今天認真學習的yuki醬今天yuki醬給大家分享一個好用的簡繁體轉換網頁
  • 浙江麗水醫生花16年編字典 漢字都有簡繁體對照
    拿出自考的倔勁編字典  趙理強的職業雖然是醫生,卻非常喜歡漢字文化。1992年,他在電視裡看到香港的繁體字,想到現在流行的字典和香港、臺灣的都有差別,兩岸三地的文化交流越來越頻繁,能不能研究出一本簡繁體都通用的字典呢?  初中畢業的趙理強,把自考大學的倔強勁再次拿了出來,開始琢磨「中國字典」怎麼編寫。
  • 臺籍教師「登陸」教學安家:從簡繁體轉換開始
    臺籍教師「登陸」教學安家:從簡繁體轉換開始 2019-12-26 10:16:13   在用慣了繁體字的黃英明看來,字體的繁簡轉換不僅方便了學生,也幫自己看懂簡體字教材,從文字開始更好更快地適應「登陸」生活。  現年57歲的黃英明生於臺灣彰化,2006年取得博士學位,從事醫學影像技術專業30年,臨床工作資歷及教學經驗豐富。  今年6月,第十一屆海峽論壇在福建舉辦。
  • 開發一個文章簡繁體轉化的小工具(附python代碼)
    今天給大家安利一款簡體繁體轉換的一個工具包,非常好用。普通人的操作一般,我們會用WPS進行簡繁體轉換。選中文本,點擊「審閱」,就可以選擇「繁轉簡」或者「簡轉繁」。如果老闆給你一百篇文章,甚至給你一千篇文章,需要簡繁體轉化,該怎麼做?會編程的人參照以往項目的風格,大家一定會知道,可以用編程實現批量處理。哪怕是一百萬篇文章,只要一份代碼就能輕鬆鬆搞定。
  • iPhone 2.0內置簡繁體中文手寫輸入法
    我們已經知道,之前的iPhone 2.0測試版固件已經加入了簡繁體中文語言界面的支持,僅僅是缺少適用的中文輸入法。而從臺灣某測試者博客中傳出的消息,最新的5A258f測試版已經加入了中文輸入功能,並且包括拼音輸入和手寫!iPhone新增的中文輸入法包括簡繁體中文手寫和簡體拼音,並支持聯想。
  • 一個簡單的筆順顯示(簡繁體)小工具
    顯示筆順(簡繁體)-(要聯網)  zeq.cn由hanziwriter.org處理加工而來。注意,其實你不用下載也OK,只是需要時打開網址 hanziwriter.org輸入你要的漢字,是免費的。這個小軟體的優點是,你可以下載放在桌面上,急用時打開,給學生演示筆順。本篇完。
  • 學者批《通用規範漢字表》徵求意見:只是走過場
    時間回溯到2009年8月25日,正值教育部就《通用規範漢字表》徵求社會意見期間,中國社會科學院舉辦了一個研討會。當天的與會者很多都是漢字信息化技術方面的資深專家,許壽椿也位列其中。  「現在漢字普遍信息化了,我們看到的印刷漢字基本都出自計算機,所以最好別造新字,因為增加一個新字就得增加一個新編碼。」
  • 王永民:漢字不能輸入電腦?他曾用五筆破解難題……
    ,漢字無法輸入,有人提出用漢語拼音代替漢字,炎黃子孫面臨不識漢字的局面!「一介書生,半個農民」的他,用橫、豎、撇、捺、折,把漢字輸入電腦,王永民用中國式表達,把中國帶入信息新時代。   自述 | 王永民
  • 專家談「簡繁體之爭」:歷史上繁體字也是簡化結果
    這本不能稱作「書」的書,有真書的嚴密邏輯和結構,冊序、頁碼、題目、跋文、注釋等應有盡有,甚至可以按目錄上的頁碼,查找到分冊中對應的章節題目。這些嚴密的層次,讓看書人獲得與翻閱經驗吻合的生理節奏感。  費時耗力,徐冰做了本不能讓人讀懂的書。但《天書》在世界各地展出,廣受好評,還被編入多本國際藝術史教科書。在這些漂亮的「漢字」前,有觀眾感嘆:「我看到了文字的尊嚴。」
  • 韓國一機構開發韓文漢字轉換軟體
    經過軟體轉換的韓國新聞網站截圖 人民網首爾2月16日電(記者 萬宇)韓國傳統文化研究會下設的東洋古典數位化研究所近日發布了名為「漢字路」的轉換韓文中漢字的軟體。 該軟體可以通過網絡和文字處理系統的插件將韓文句子和文章中的漢字自動轉換並顯示出來,可以處理韓國新聞等各種韓文文本,便於同屬漢字文化圈的外國人更加準確快捷地理解韓文文獻。 韓國語中有大量的漢字詞,雖然各種統計結果不同,但最少的資料也認為韓文中有50%以上的詞彙都是漢字詞。而根據2002年韓國國立國語研究院的統計,韓國人日常生活中使用頻率最高的詞彙中漢字詞佔到了35%。
  • 魔獸爭霸3:跟大神學操作,單靠一個劍聖,砍翻瘋狂電腦
    相信很多玩家,在魔獸爭霸3中都有跟瘋狂電腦對戰的經歷,下面介紹一下大神玩家單靠一個劍聖,就能打贏瘋狂電腦的過程。首先,要做好探路,用農民進行探路,但是要保證農民不死,在電腦的家門口放一個商店。另外除了回音島之外,都是要賣回城捲軸,買頭環,然後直接去電腦的老家。
  • IT之家學院:Win10 SC 與 TC ,不只是簡繁體之分
    1.文字編碼簡繁體的文字編碼應該是這些"細節"中最"知名"的一個了,尤其是對一些老玩家,曾經辛辛苦苦搞來的遊戲顯示出來卻是亂碼,這當中就是文字編碼在作祟。由於兩岸使用的計算機中文漢字文字編碼並不能通用,所以簡體中文版本默認使用內地標準,繁體中文版自然是使用港臺標準。雖然文字編碼的統一與系統兼容性的技術都在逐步前進,但在程序的眼裡仍存在不少的障礙。在系統語言區域設置中,你可以找到非Unicode程序語言設定,調整此設置可能會對亂碼問題有幫助。
  • 小僑胞10分鐘學會電腦輸入漢字
    本報北京8月5日電50餘名來自美國、德國、俄羅斯、西班牙、澳大利亞、日本等22個國家的小僑胞在短短的時間內學會了在電腦上輸入漢字,並激發起對漢字和祖國文化的濃厚興趣,也給他們的中國之旅增添了一次難忘的記憶。
  • 教育部有關人士稱"5000漢字要改繁體"報導不實
    8日,新浪網首頁掛出了《5000漢字要改繁體?》一文,稱第八屆國際漢字研討會日前在中國傳媒大學召開,中日韓三國學者決定推出5000至6000個統一字形的「常用標準漢字」,這些漢字將以繁體字為主。「今天很多媒體都打電話來詢問這個事。」
  • 你我皆「鍵人」 漢字會死嗎?
    《漢字聽寫大會》的主旨是為了「保留手寫漢字之美、傳承漢字文化」,它確實讓人們開始重視我們面臨的漢字書寫危機,但其實我們也知道,靠幾檔節目,遠遠不夠。去年全國兩會時,全國人大代表、杭州市人大副主任陳振濂說,網際網路時代漢字「缺氧」,建議設立漢字書寫日。拯救漢字書寫危機我同意,但是,動不動就設立一個節日來拯救,我反對。節日遠遠也拯救不了危機。強制推行的,向來都是應該被警惕。
  • 繁簡轉換?So Easy ! 丨語言學午餐
    4.專有名詞存在問題党項 黨項 党項可見Word雖然已經很強大,但仍然是存在一些小問題的,那麼有沒有更好的簡繁轉換工具呢?但現有系統往往存在準確率不高,用字錯誤等情況,難以實現可靠的自動轉換。造成這些問題的主要原因是簡繁兩套漢字系統之間的複雜對應關係,不少常用簡體字都同時對應不只一個繁體字。要正確處理這些漢字的轉換,轉換程序必須如人一樣能正確「運用」上下文信息。為有效解決這一問題,系統研發者將先進的機器翻譯模型應用於漢字簡繁文本轉換,極大提高了轉換準確率。