《漢字簡繁文本智能轉換系統》(第二期)通過鑑定

2020-12-13 中華人民共和國教育部

《漢字簡繁文本智能轉換系統》(第二期)通過鑑定

2016-06-27 來源:語信司

  6月24日,《漢字簡繁文本智能轉換系統》(第二期)在京通過專家鑑定。教育部語言文字信息管理司、國臺辦交流局和廈門大學有關工作人員出席了鑑定會。該項目二期的研究目標是在一期基礎上,進一步完善面向臺灣和面向古籍的簡繁轉換系統,並增加面向香港的簡繁轉換系統和粵方言到普通話的機器翻譯系統。

  鑑定專家組由國家語委原副主任傅永和、語文出版社原社長李行健、社科院語言所研究員董琨、中國中文信息學會秘書長孫樂、清華大學教授孫茂松等專家組成。專家組聽取了項目組的研究報告,審閱了相關技術資料,觀看了系統演示,並進行了認真質詢。專家組認為,面向古籍的漢字簡繁文本轉換系統,經第三方測試字級別轉換準確率為99.122%,轉換準確率有較大提升;面向臺灣的轉換系統,字級別轉換準確率和詞彙轉換準確率有進一步提升;面向香港的轉換系統,字級別轉換性能達到了面向臺灣的轉換系統的水平。此外,項目組建立的23億字的繁體語料庫,為古籍整理數位化和語言文字學相關研究提供了良好基礎;研發的粵方言到普通話的機器翻譯系統性能良好。專家組一致認為,該項目研究成果處於國際領先水平,建議進一步完善成果,同時在國家有關部門指導和支持下做好推廣應用工作。

  《漢字簡繁文本智能轉換系統》是教育部、國家語委為落實《第五屆兩岸經貿文化論壇共同建議》設立的專項項目,對海峽兩岸暨港澳地區民眾溝通、信息交流和經濟文化教育等各領域發展都具有重要意義。系統研發分為兩期,一期成果於2014年7月通過專家鑑定,並於2014年11月發布,免費向社會公眾提供在線文本轉換和網頁轉換服務,同時也逐步在一些高校、企業的官方網站上應用,得到社會和業界認可。在二期研發中,廈門大學研發團隊加強了與臺灣以及港澳地區業界同行的交流合作,重點是豐富系統功能和提高轉換準確率。2016年5月,經中國中文信息學會評測,項目二期成果在轉換功能、規範性、準確率等幾項指標上均表現出色,研究成果處於國際領先水平。

(責任編輯:李娜)

相關焦點

  • 資訊 《漢字簡繁文本智能轉換系統》發布 準確率達99.99%
    近日,《漢字簡繁文本智能轉換系統》第二期成果在京通過專家鑑定。該項目是教育部、國家語委為落實《第五屆兩岸經貿文化論壇共同建議》設立的專項項目,是兩岸語言文字交流合作的又一重要成果。項目由廈門大學、教育部語言文字應用研究所、北京師範大學聯合承擔,第一期成果於2014年11月發布,已免費提供社會使用。
  • 國家語委漢字簡繁文本智能轉換系統準確率近100%
    新華社北京6月30日電(記者 劉奕湛)記者30日從教育部獲悉,《漢字簡繁文本智能轉換系統》第二期成果在京通過專家鑑定。經中國中文信息學會評測,該系統在轉換功能、規範性、準確率等幾項指標上均表現出色,其中字級別簡體到繁體轉換準確率達到99.994%,面向古籍的簡體到繁體轉換準確率達到99.122%,與國內外同類系統相比均有較大提高。
  • 國家語委漢字簡繁文本智能轉換系統準確率近100%-新華網
    新華社北京6月30日電(記者劉奕湛)記者30日從教育部獲悉,《漢字簡繁文本智能轉換系統》第二期成果在京通過專家鑑定。經中國中文信息學會評測,該系統在轉換功能、規範性、準確率等幾項指標上均表現出色,其中字級別簡體到繁體轉換準確率達到99.994%,面向古籍的簡體到繁體轉換準確率達到99.122%,與國內外同類系統相比均有較大提高。  據了解,該項目是教育部、國家語委為落實《第五屆兩岸經貿文化論壇共同建議》設立的專項項目,是兩岸語言文字交流合作的又一重要成果。
  • 央美資訊《漢字簡繁文本智能轉換系統》發布
    《漢字簡繁文本智能轉換系統》在北京發布。本次發布活動由兩岸語言文字交流與合作協調小組主辦。教育部副部長、國家語委主任李衛紅出席活動並講話。兩岸使用的漢字雖屬同一系統,但在兩岸語言生活中還存在一些差異,這給兩岸民眾的日常生活和文化深度交流帶來了不便。從技術層面上解決這一問題,既是兩岸語言文字交流發展的客觀需要,也是解決目前存在差異最可行的方式。她強調,對推進兩岸語言文字交流合作要重視並加強兩岸語言文字交流合作的頂層設計,要完善兩岸語言文字交流合作協調機制,要加強溝通,坦誠交流,循序漸進,講求實效。
  • 漢字簡繁體轉換,不能單靠電腦
    小編按:據教育部官方微博「微言教育」11月19日發布的消息稱:《漢字簡繁文本智能轉換系統》發布 準確率達99.99%
  • 繁簡轉換?So Easy ! 丨語言學午餐
    4.專有名詞存在問題党項 黨項 党項可見Word雖然已經很強大,但仍然是存在一些小問題的,那麼有沒有更好的簡繁轉換工具呢?但現有系統往往存在準確率不高,用字錯誤等情況,難以實現可靠的自動轉換。造成這些問題的主要原因是簡繁兩套漢字系統之間的複雜對應關係,不少常用簡體字都同時對應不只一個繁體字。要正確處理這些漢字的轉換,轉換程序必須如人一樣能正確「運用」上下文信息。為有效解決這一問題,系統研發者將先進的機器翻譯模型應用於漢字簡繁文本轉換,極大提高了轉換準確率。
  • 漢字雙筆碼輸入法通過國家鑑定
    27日,以漢字書寫筆畫為基礎的輸入方法——漢字雙筆碼輸入法通過國家鑑定。  在信息產業部委託福建省信息產業廳召開的技術鑑定會上,以倪光南院士為首的鑑定委員會認為,這種輸入法軟體「具有自主智慧財產權,在小鍵盤編碼設計和多信息輔助功能方面達到國內外領先水平,對促進中文信息產業發展具有重要意義。」
  • 漢語言處理工具pyhanlp的簡繁轉換
    繁簡轉換HanLP幾乎實現了所有我們需要的繁簡轉換方式,並且已經封裝到了HanLP中,使得我們可以輕鬆的使用,而分詞器中已經默認支持多種繁簡格式或者混合。這裡我們不再做過多描述。說明:·HanLP能夠識別簡繁分歧詞,比如印表機=印表機。許多簡繁轉換工具不能區分「以後」「皇后」中的兩個「後」字,HanLP可以。
  • NLP: 基於文本語義的智能問答系統
    (最後,通過醫療數據提供FAQ智能問答: aiwen2100)用途:任務型、問答型、閒聊型對話系統;場景:封閉域、開放域對話系統;使用方法:檢索式、生成式對話系統1-1-1 不同對話任務對比用戶希望得到某個問題的答案,機器人回復來自於特定知識庫,以特定的回覆回答用戶用戶希望完成特定任務,機器人通過語義執行後臺已對接能力,幫用戶完成指定任務
  • 韓國一機構開發韓文漢字轉換軟體
    經過軟體轉換的韓國新聞網站截圖 人民網首爾2月16日電(記者 萬宇)韓國傳統文化研究會下設的東洋古典數位化研究所近日發布了名為「漢字路」的轉換韓文中漢字的軟體。 該軟體可以通過網絡和文字處理系統的插件將韓文句子和文章中的漢字自動轉換並顯示出來,可以處理韓國新聞等各種韓文文本,便於同屬漢字文化圈的外國人更加準確快捷地理解韓文文獻。 韓國語中有大量的漢字詞,雖然各種統計結果不同,但最少的資料也認為韓文中有50%以上的詞彙都是漢字詞。而根據2002年韓國國立國語研究院的統計,韓國人日常生活中使用頻率最高的詞彙中漢字詞佔到了35%。
  • 乾貨 | 簡繁轉換易錯字梳理
    在1986年公布的《簡化字總表》中,有兩百個左右的簡體字是分別對應兩個或多個繁體字,這無疑造成簡繁轉換的難度。鑑於簡繁轉換的複雜性和各個字在轉換過程中存在的特殊性,筆者作了一些梳理,現將書法作品中簡繁轉換容易出的字分類列舉如下:第一類:簡化字本就是一個具有獨特涵義的單字,它與繁體字是完全不同的字,漢字簡化時用它去代了筆畫複雜的字,這類字數量比較多。
  • TH-OCR文字識別系統介紹
    TH-OCR  TH-OCR是英文Optical Character Recognition的縮寫,意思為光學字符識別,通稱為文字識別,它的工作原理為通過掃描儀或數位相機等光學輸入設備獲取紙張上的文字圖片信息,利用各種模式識別算法分析文字形態特徵,判斷出漢字的標準編碼,並按通用格式存儲在文本文件中,由此可以看出,OCR實際上是讓計算機認字
  • Word中的簡繁轉換功能竟然可以這樣用
    當我們用簡體字編輯好文檔之後,按Ctrl+A鍵全選所有文字,然後點擊【審閱】-【中文簡繁轉換】-【簡轉繁】按鈕,就可以將簡體字全部轉成繁體了。但需要注意的是,在對文字進行簡繁相互轉換時,對於極少數特殊詞彙或新詞彙,由於雙方叫法不同,比如,「紙牌」對方稱為「接龍」、「盒飯」稱為「便當」、「光標」稱為「遊標」、「數碼」稱為「數位」等等.Word自身對它們還不能進行辨認,因此還需要我們手動來進行替換。當一篇文檔中需要替換的內容較多時,如果一一手動替換,無疑耗時耗力。
  • 簡繁轉換易錯字梳理
    在1986年公布的《簡化字總表》中,有兩百個左右的簡體字是分別對應兩個或多個繁體字,這無疑造成簡繁轉換的難度。鑑於簡繁轉換的複雜性和各個字在轉換過程中存在的特殊性,筆者作了一些梳理,現將書法作品中簡繁轉換容易出的字分類列舉如下:第一類:簡化字本就是一個具有獨特涵義的單字,它與繁體字是完全不同的字,漢字簡化時用它去代了筆畫複雜的字,這類字數量比較多。
  • 書法作品《簡繁轉換易錯字》(建議收藏)
    在1986年公布的《簡化字總表》中,有兩百個左右的簡體字是分別對應兩個或多個繁體字,這無疑造成簡繁轉換的難度。鑑於簡繁轉換的複雜性和各個字在轉換過程中存在的特殊性,筆者作了一些梳理,現將書法作品中簡繁轉換容易出的字分類列舉如下:第一類:簡化字本就是一個具有獨特涵義的單字,它與繁體字是完全不同的字,漢字簡化時用它去代了筆畫複雜的字,這類字數量比較多。
  • ​書法創作中簡繁轉換易錯字梳理
    在1986年公布的《簡化字總表》中,有兩百個左右的簡體字是分別對應兩個或多個繁體字,這無疑造成簡繁轉換的難度。鑑於簡繁轉換的複雜性和各個字在轉換過程中存在的特殊性,筆者作了一些梳理,現將書法作品中簡繁轉換容易出的字分類列舉如下:第一類:簡化字本就是一個具有獨特涵義的單字,它與繁體字是完全不同的字,漢字簡化時用它去代了筆畫複雜的字,這類字數量比較多。
  • 中國建築商業智能分析系統(BI系統)第二期主題功能上線
    中國建築商業智能分析系統(BI系統)第二期主題功能上線 2020-09-01 19:23 來源:澎湃新聞·澎湃號·政務
  • Word繁體簡體怎麼相互轉換
    下面介紹Word繁體簡體怎麼相互轉換。(本篇圖文底部可查看步驟操作視頻)Word繁體簡體相互轉換Word文檔功能強大,可以直接進行繁體簡體的相互轉換,還可以自定義詞典,一起來操作試試吧。第一步,選中要進行轉換的文本內容。
  • 使用Word Embedding構造簡潔有效的文本摘要系統
    這裡介紹我們做的其中兩種方法,一種是非常簡單的根據字Word Embedding直接疊加方式做摘要系統,另外一種是對HITS經過Word Embedding改造的文本摘要思路。|基於字Word Embedding疊加的簡潔文本摘要系統首先,我們可以使用Word2Vec等工具獲得漢字的Word Embedding。