網際網路拉丁維吾爾文轉現行維吾爾文方法

2020-12-09 騰訊網

網際網路拉丁維吾爾文轉現行維吾爾文方法

艾孜麥提·艾尼瓦爾1,2,3,董 軍1,3,李 曉1,3,曾文蕭1,3

(1.中國科學院新疆理化技術研究所,新疆 烏魯木齊 830011;2.中國科學院大學,北京 100049;3.中國科學院新疆理化技術研究所 新疆民族語音語言信息處理實驗室,新疆 烏魯木齊 830011)

摘 要:為有效降低非規範本文對網絡數據處理的影響,分析網際網路拉丁維吾爾文的起因及常見的錯誤類型,研究網際網路拉丁維吾爾文與現行維吾爾文的字母對應關係和單詞對應關係,以這些對應關係為基礎提出規則和統計相結合的網際網路拉丁維吾爾文轉換為現行維吾爾文的方法。實驗結果表明,該轉換方法的準確率達到了83.84%,有效提高了網絡數據處理能力。對實驗結果進行了分析並提出後續改進對策。

關鍵詞:維吾爾文;現行維吾爾文;網際網路拉丁維吾爾文;文字轉換;規則庫

0 引 言

隨著網際網路的廣泛應用,新疆維吾爾族群眾為了享受網際網路帶來的便利,自發的開始使用鍵盤上能直接輸入的拉丁字母(英文字母)表示現行維吾爾文字母,從而產生了拉丁維吾爾文,並且在微信、QQ、論壇和微博等交互性強的網際網路應用中,拉丁維吾爾文佔主導地位。

為了便於閱讀者正確理解含義,拉丁維吾爾文的書寫者常用發音相似法選擇表示現行維吾爾文字母的拉丁字母,例如現行維吾爾文

(去了)用網際網路拉丁文表示為bardim,badim,badm等多種形式。我國計算機系統大多使用英文鍵盤,英文字母有26個,現行維吾爾文字母有32個。因此,拉丁維吾爾文中普遍存在一個拉丁字母表示多個現行維吾爾文字母,或者兩個連續的拉丁字母表示一個現行維吾爾文字母的現象,例如拉丁字母g常常被用來表示現行維吾爾文字母

中的任何一個,連續的兩個拉丁字母ng常常被用來表示現行維吾爾文字母

等。

為了規範拉丁維吾爾文的使用,新疆民語委於2008年組織新疆大學等單位制定並發布了《維吾爾文拉丁化方案》[1],為了與方案規定的拉丁維吾爾文相區別,本文將網際網路上實際使用的拉丁維吾爾文統稱為「網際網路拉丁維吾爾文」。有調查研究表明網際網路拉丁維吾爾文是即時通訊中信息交流的主要文字,遠超於現行維吾爾文[2],對網絡內容規範化、監管等方面造成巨大影響。國內外對網際網路內容監管,以及現行維吾爾文網際網路內容監管已經有很多研究,並形成了一些可用的產品[3-6]。然而,網際網路拉丁維吾爾文使用不規範的特點使得對它的監管成為當前維吾爾文網際網路內容監管的難點之一。

如果能將網際網路拉丁維吾爾文轉換為現行維吾爾文,則可以藉助現有網際網路內容監管技術和產品實現對網際網路拉丁維吾爾文內容的監管。目前相關研究工作開展的並不多,新疆民語委做過基於維吾爾文拉丁化方案的拉丁維吾爾文轉換現行維吾爾文的研究[7],新疆大學做了網際網路拉丁維吾爾文轉換研究,但該研究並沒有涉及網際網路拉丁維吾爾文中普遍存在的漏字母、多字母、單詞拆分等問題的處理[8]。因此,找到更好的,具有實用價值的網際網路拉丁維吾爾文轉換為現行維吾爾文方法的具有重要意義。

1 網際網路拉丁維吾爾文的特點

網際網路拉丁維吾爾文與現行維吾爾文是一種文字的兩種拼寫方式。因此,網際網路拉丁維吾爾文單詞中的字母與對應的現行維吾爾文單詞中的字母具有對應關係,網際網路拉丁維吾爾文語句中的單詞與對應的現行維吾爾文語句中的單詞也具有對應的關係。理清這些對應關係是實現轉換的基礎。通過實例分析,我們發現網際網路拉丁維吾爾文與現行維吾爾文字母和單詞的對應關係有如下特點。

1.1 字母對應關係

在字母對應方面,拉丁維吾爾文字母與現行維吾爾文字母之間的對應關係以字母替換為主,此外還存在漏字母、多字母和不對應3種情況[9],如圖1所示。字母替換,即拉丁維吾爾文單詞中的字母與對應的現行維吾爾文單詞中的字母有對應關係;漏字母,即網際網路拉丁維吾爾文單詞與對應的現行維吾爾文單詞相比存在遺漏的字母;多字母,即網際網路拉丁維吾爾文單詞與對應的現行維吾爾文單詞相比,存在多餘的字母;不對應,即網際網路拉丁維吾爾文單詞沒有對應的現行維吾爾文單詞。上述字母對應關係都有多種產生原因,理清這些原因有助於我們設計出更好的轉換方法。各種字母對應關係有如下產生原因:

圖1 字母對應關係及其產生原因

字母替換:有4種原因可以產生字母替換的對應關係,除了發音相似外,還有維吾爾文拉丁化方案、維吾爾新文字,以及書寫習慣。需要注意的是發音相似中拉丁字母的發音即可以是其代表的漢語拼音的發音,也可以是其代表的英文字母的發音,例如拉丁字母e代表的漢語拼音的發音與現行維吾爾文字母

的發音相似,而其代表的英文字母的發音則與現行維吾爾文字母

的發音相似。發音相似中現行維吾爾文字母的發音即可以是字母的標準發音,也可以是字母的方言發音,還可以是字母在單詞中發生音系變化後的發音,例如維吾爾文單詞

(還好)中的字母

在和田地區方言中發字母

的音;根據維吾爾文音系變化規律,單詞

(你的學校)中字母

在口語中會發生語音濁化現象從而發字母

的音。這些都會影響到字母替換的結果。

維吾爾新文字,即用維吾爾新文字中規定的拉丁字母表示對應的現行維吾爾文字母,例如用拉丁字母q表示現行維吾爾文字母

;拉丁化方案,即用《維吾爾文拉丁化方案》中規定的拉丁字母表示對應的現行維吾爾文字母,例如用拉丁字母ё表示現行維吾爾文字母

;書寫習慣指對發音相似等其它字母替換方法進行簡化或調整,使得字母輸入更方便,且不影響理解的字母替換方法,例如省略連續兩個拉丁字母gh中的h,僅用拉丁字母g表示現行維吾爾文字母

漏字母:產生遺漏字母的原因有兩種,分別是發音習慣和縮寫。發音習慣導致的漏字母可以進一步細分為音系變化、方言兩類。音系變化,即有些維吾爾文字母在特定上下文環境中不發音或發音很弱,導致拼寫過程中被省略,例如維吾爾文單詞

(朋友們)中的字母

不發音;方言指有些字母在特定方言的特定上下文環境中不發音或發音很弱,導致拼寫過程中被省略,例如在和田方言中維吾爾文單詞

(我會去)後面的字母

經常被省略。縮寫,即有些維吾爾文單詞省略部分字母基本不影響對單詞的理解,例如維吾爾文單詞

(朋友)中的字母

常被省略,拼寫為

,其中的字母

也常被省略,拼寫為

多字母:多字母一般是重複拼寫單詞中的某個字母,以強調單詞含義,例如重複拼寫單詞

(表示驚訝的語氣)中的字

形成

不對應:不對應的產生原因有很多種,典型的包括網絡詞、漢語拼音、外語單詞、無意義詞等。網絡詞,即網際網路中使用頻繁,但詞典中不存在的單詞,例如VIP、PK等;漢語拼音,即直接用漢語拼音拼寫漢語單詞,例如taobao、baidu等;外語單詞,即直接使用漢字或英語等外語單詞;無意義詞,即人結合上下文環境也無法識別含義的單詞。

1.2 單詞對應關係

在單詞對應關係方面,以空格和標點符號作為單詞之間的分割符,則網際網路拉丁維吾爾文單詞與現行維吾爾文單詞之間的對應關係以一對一為主,此外,還存在一對多和多對一的情況[10],如圖2所示。所謂一對一,即一個網際網路拉丁維吾爾文單詞與一個現行維吾爾文單詞對應;一對多,即一個網際網路拉丁維吾爾文單詞與連續多個現行維吾爾文單詞對應;多對一,即連續多個網際網路拉丁維吾爾文單詞與一個現行維吾爾文單詞對應。一對多單詞對應關係一般由筆誤導致。多對一單詞對應關係主要由3種原因導致,分別是詞綴分割、合成詞分割、長單詞分割。詞綴分割即將單詞中的詞幹和詞綴用空格分開,例如單詞

(朋友們)拼寫為

(朋友)+空格+

(複數詞綴);合成詞分割即將兩個單詞合成的維吾爾文單詞用空格分開,例如將單詞

(阿娜爾姑麗)拼寫為

(石榴,阿娜爾)+空格+

(花,姑麗);長單詞分割即用空格將字母較多的單詞分割為多個部分,例如單詞

(哪位)拼寫為

+空格+

+空格+

。有的長單詞分割具有按音節分割的特定,有的則沒有明顯規律。

圖2 單詞對應關係及其產生原因

2 轉換方法

通過網際網路拉丁維吾爾文與現行維吾爾文字母和單詞對應關係的分析,我們提出如圖3所示,包括8個步驟的轉換流程。

圖3 網際網路拉丁維吾爾文轉為現行維吾爾文的流程

2.1 預處理

預處理主要完成句子切分、單詞數字分割、特殊字符處理、詞幹詞綴合併等工作,為後續的轉換做準備。句子切分,即以逗號、句號等標點符號,以及回車、換行等控制符號為界限將輸入文本切分為短句,後續轉換操作都以句子切分獲得的短句為單位進行;數字分割,即對將數字和單詞連接在一起的情況,用空格將數字與單詞分開;特殊字符處理,即過濾掉文本中的不可見字符,例如用於標識txt文檔所使用的字符編碼的編碼為FFFE、EFFF、EFBB的字符;詞幹詞綴合併,書寫網際網路拉丁維吾爾時,用戶常常無意識的把詞幹和詞綴分割,產生大量的無意義詞,本文建立網際網路維吾爾文詞綴庫,用於匹配被分割詞綴並與詞幹合併。例如拉丁維吾爾文句子karigan da umid kalmap tu,匹配詞綴並與詞幹合併以後變成kariganda umid kalmaptu。

2.2 正誤對照表

網際網路拉丁維吾爾文中存在一些較常見,但沒有明顯規律的錯誤單詞。我們收集了這些常見錯誤單詞,並將其與正確拼寫形式對應,建立了正誤對照表,見表1。正誤對照表處理,即在正誤對照表中查找網際網路拉丁維吾爾文單詞,如果找到,則用正確的現行維吾爾文單詞替換,並將替換後的單詞標記為結果詞。

表1 網際網路拉丁維吾爾文與現行維吾爾文正誤對照

2.3 不對應詞

我們收集了網際網路拉丁維吾爾文中常見的網絡詞、漢語拼音、外語詞等建立了不對應詞庫,見表2。我們採用分析字符編碼和查不對應詞庫兩個步驟判斷單詞是否為不對應詞。分析字符編碼,即通過分析單詞中字符的編碼判斷單詞中字符是否為拉丁字母單詞。如果不是拉丁字母單詞則標識單詞為結果詞。結果詞不做後續處理,直接作為結果輸出。如果是拉丁字母單詞,則查詢不對應詞庫,如果詞庫中存在,則標識為結果詞。如果不對應詞庫中不存在,則進行後續的正誤對照表等處理。

2.4 模式匹配

字母重複和音系變化產生的漏字母等字母的對應關係很難用字母映射表體現。針對這些對應關係我們用模式匹配的方法處理。模式匹配,即用正則表達式或者單獨的程序代碼識別網際網路拉丁維吾爾文單詞中字母序列的特徵,如果特徵匹配預設的模式則用指定的現行維吾爾文字母或字母序列替換。我們建立了包含40萬常用詞彙的現行維吾爾文詞庫。模式匹配產生的現行維吾爾文單詞需要在現行維吾爾文詞庫中查詢,如果詞庫中存在,則保留並標記為候選詞。

表2 網際網路拉丁維吾爾文常見網絡詞

2.5 字母映射表

網際網路拉丁維吾爾文單詞中的字母與對應的現行維吾爾文單詞中的字母大多具有對應關係。這是網際網路拉丁維吾爾文能夠實際應用的基礎。我們建立了拉丁字母和現行維吾爾文字母映射表。映射表中不僅包括發音相似、維吾爾文拉丁化方案、維吾爾新文字和書寫習慣產生的各種字母映射,還包括部分發音習慣導致漏字母的字母映射。字母映射表處理,即將網際網路拉丁維吾爾文單詞中的每個字母或字母組合用字母映射表中對應的現行維吾爾文字母替換,產生對應的現行維吾爾文單詞。由於一個拉丁字母或字母序列可能對應多個現行維吾爾文字母或字母序列,所以一個拉丁維吾爾文單詞經過字母映射表處理後可以產生多個現行維吾爾文單詞。字母映射表處理產生的現行維吾爾文單詞也將在現行維吾爾文詞庫中查詢,如果詞庫中存在,則保留並標記為候選詞。

2.6 合併拆分

經過上述處理,大多數拉丁維吾爾文單詞都能生成一個或多個候選詞,比如拉丁維吾爾文單詞kaldim生成的現行維吾爾文為

(我來了),

(我留下了)等。但仍然有部分拉丁維吾爾文單詞無法產生候選詞,這樣的單詞被標記為未登錄詞。未登錄詞的產生主要有4種原因,分別單詞非一對一對應關係、筆誤、詞庫不完備、無意義單詞。單詞非一對一,即如前所述的一個網際網路拉丁維吾爾文單詞對應多個連續現行維吾爾文單詞,或者多個連續網際網路拉丁維吾爾文單詞對應一個現行維吾爾文單詞;筆誤即拉丁維吾爾文單詞中存在拼寫錯誤,無法用字母映射等方法產生對應的正確現行維吾爾文單詞;詞庫不完備,即字母映射表處理產生了正確的候選詞,但該詞在我們的現行維吾爾文詞庫中不存在;無意義詞,由於人結合上下文環境也無法確定其含義,自然無法產生正確的候選詞。

針對未登錄詞,我們首先進行單詞合併或單詞拆分處理。單詞合併,即將未登錄詞與前後相鄰的1個或多個單詞進行合併構成新詞,比如,har+空格+kay+空格+seg+空格+lar前後合併以後生成單詞harkaysiglar(

,各位);單詞拆分,即將未登錄單詞拆分成相鄰的兩個新詞。合併或拆分形成的新詞需要重新進行正誤對照表、不對應詞、模式匹配和字母映射處理,以生成現有詞庫中存在的詞,並將其作為候選詞。圖4演示了未登錄詞合併拆分的過程。網際網路拉丁維吾爾文單詞a、b、c、d是預處理獲得的一個短句,其中c是未登錄詞。經過合併與拆分,候選句1產生了候選句2和候選句3兩個新的候選句。

圖4 網際網路拉丁維吾爾文未登錄詞拆分合併過程

2.7 最短編輯距離

如果某個網際網路拉丁維吾爾文單詞合併拆分後依然不能生成現行維吾爾文詞庫中存在的候選詞,則進行最短編輯距離處理。最短編輯距離指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數。最短編輯處理,即針對網際網路拉丁維吾爾文單詞字母映射處理產生的每個現行維吾爾文單詞,在詞庫中查找與之編輯距離為1的單詞作為候選詞。通過實際測試,編輯距離為1已經能產生大量候選詞。設置更大的編輯距離不但大幅度增加計算量,而且會引入過多的候選詞,導致後續該類計算時選擇錯誤的詞作為最終結果。

2.8 概率計算

經過上述處理後,網際網路拉丁維吾爾文中切分出的每個短句都能生成一個或多個對應的候選句。每個候選句的每個單詞都會生成一個或多個對應的候選詞。每個候選句全部單的詞候選詞有多種組合方法來構成對應的現行維吾爾文短句,見表3。我們使用從網上採集的300 M現行維吾爾文文本語料訓練我們的語言模型。在研發過程中我們發現,網際網路拉丁維吾爾文以短句的形式出現比較多,因此,我們採用二元語言模型對每個候選句全部單詞的每種候選詞組合進行概率計算,將概率值最大的候選詞組合作為最終的轉換結果。

數學方法表示該概率計算過程,則一個短句S通過單詞合併、單詞拆分產生n個對應的候選句表示為S。包含m個單詞的候選句Si表示為Si=w1,w2,…,wn。單詞w1的候選詞集合表示為C1。則候選句Si的概率計算公式為

其中,P(cjcj+1)表示候選詞cj與cj+1連續出現在語料庫中的概率值。

3 測試分析

我們從微信群、QQ群、論壇和微博隨機選取了2000行,包含8082個單詞的網際網路拉丁維吾爾文文本進行轉換。轉換結果見表4,6776個單詞轉換正確,1306個單詞轉換錯誤,轉換正確率為83.84%。由於網際網路拉丁維吾爾文中存在較多的單詞拆分及少量的單詞合併現行,因此網際網路拉丁維吾爾文文本與對應的現行維吾爾文文本的單詞數量並不相同。如果以現行維吾爾文單詞數量進行計算,則單詞總數為7283個,1086個單詞轉換錯誤,轉換正確率為85.09%。

表3 網際網路拉丁維吾爾文轉現行維吾爾的實例

表4 轉換結果

導致轉換結果錯誤的原因主要以下3種:

概率計算,即在候選詞中正確候選詞的概率比錯誤候選詞概率低導致轉換錯誤。概率計算導致的轉換結果錯誤總計156個。有兩種方法可以減少概率計算導致的錯誤。第一種方法是增加訓練語料的量,並嘗試使用三元語言模型。這是因為理論上訓練語料的量足夠大的時候,三元語言模型比二元語言模型的效果更好。我們用於訓練的語料有300 M,用三元語言模型訓練時數據稀疏問題顯著,因此只能採用二元語言模型。即使仍然使用二元語言模型,增加語料的量一般也能改進轉換效果。第二種方法是使用微信群、QQ群、論壇和微博中的語料進行訓練。我們的訓練語料來源與政府網站等文本比較規範的網站。但這些網站文本的語言習慣與微信群、QQ群等交互性文本有明顯區別。但微信群等來源的文本必須經過人工轉換為現行維吾爾文文本才能用於語言模型的訓練,這需要大量的人工工作。

(三)經濟結構和貿易狀況持續改善。一是產業結構逐漸優化。從製造業方面看,德國勞動力實際工資水平已大幅降低,德國製造業成本顯著下降。此外,「雙元制」職業教育體系為德國製造業提供源源不斷的高素質技術工人,製造業已成為德國實體經濟支柱,德國製造品出口競爭力優勢明顯。從服務業方面看,服務業佔國民經濟比重保持穩定。2005年以來,除金融危機期間,德國服務業增加值佔GDP比重一直保持在69%左右。二是貿易狀況持續改善。自2005年默克爾上臺以來,除2009年外,德國商品和服務貿易順差不斷擴大。其中,2016年為2970億美元,創「二戰」以來最高水平,超越中國成為全球最大貿易順差國。

詞庫,即現行維吾爾文詞庫中沒有收錄正確的候選詞導致轉換錯誤。詞庫導致的轉換結果錯誤總計84個。我們現有詞庫的詞彙量約40萬條,基本涵蓋了90%-95%的現行維吾爾文常用單詞。維吾爾文屬於黏著語,通過在詞根後附加詞綴能產生上千萬詞彙,而實際能用到的詞彙只是其中的一小部分。因此,通過擴充詞庫的方法改進轉換效果,難度大,改進效果有限。

4 結束語

本文分析了網際網路拉丁維吾爾文語現行維吾爾文的單詞對應關係和字母對應關係,並以此為基礎提出了規則和統計相結合的網際網路拉丁維吾爾文轉換為現行維吾爾文的轉換方法,轉換正確率達到了83.84%。通過對轉換結果的分析可以發現,通過擴充語料庫或用微信群、QQ群、論壇和微博等來源的語料進行訓練可以提高轉換的正確率,通過擴充詞庫、完善規則也能提高轉換的正確率,但提高的空間有限,難度大。

參考文獻:

[1]MZ115-68.Uighur Latinization program[EB/OL].[2010-10-05].http://sina.com.cn/s/blog_5fe8b9000100dadl.html(in Chinese).[MZ115-68.維吾爾文拉丁化方案[EB/OL].[2010-10-05].http://sina.com.cn/s/blog_5fe8b9000100dadl.html.]

[2]XU Jiang,CHANG Hong.Analysis on the characteristics of Uyghur college students』 internet communication terms——taking QQ and Wechat content as texts[J].Language and Translation (Chinese Edition),2016(4):56-61(in Chinese).[徐江,常紅.維吾爾族大學生網絡交際用語特點分析——以QQ和微信內容為文本[J].語言與翻譯(漢文版),2016(4):56-61.]

[3]HU Jinhua.Xinjiang netcom DCN network security implementation and optimization[D].Xiamen:Xiamen University,2013(in Chinese).[胡金華.新疆網通DCN網絡安全的實現與優化[D].廈門:廈門大學,2013.]

[4]ZHU Haotian.Study on the Uyghur public opinion construction based on Translingual ontology transformation[D].Urumqi:Xinjiang University,2015(in Chinese).[朱昊天.基於

跨語本體轉換的維吾爾文輿情本體構建研究[D].烏魯木齊:新疆大學,2015.]

[5]NIAN Mei,LIU Ruolan,Malhaba Essetti,et al.Sentence propensity analysis of weighted Uyghur language[J].Application of Computer Systems,2016,25(7):171-175(in Chinese).[年梅,劉若蘭,瑪爾哈巴·艾賽提,等.加權維吾爾語句子傾向性分析[J].計算機系統應用,2016,25(7):171-175.]

[6]ZHAO Xudong,Yasen Ai Zezi.Filtering scheme of Uyghur bad document information based on mutual information and cosine similarity[J].Electronic Design Engineering,2016,24(16):109-112(in Chinese).[趙旭東,亞森·艾則孜.基於互信息和餘弦相似度的維吾爾文不良文檔信息過濾方案[J].電子設計工程,2016,24(16):109-112.]

[7]Bureau of Quality and Technical Supervision,Xinjiang Uygur Autonomous Region.DB 65/T 3690-2015 current Uyghur/Uyghur code conversion rules[S].Urumqi:Xinjiang Uygur Autonomous Region Standards Institute, 2015(in Chinese).[新疆維吾爾自治區質量技術監督局.DB 65/T 3690-2015現行維吾爾文與拉丁維吾爾文編碼字符轉換規則[S].烏魯木齊:新疆維吾爾自治區標準化研究院,2015.]

[8]Saiyan Hot·Imamu,Yu Siyin·Yu Supu,Al Sulamuda·Dawuti Latin.Latin Uyghur characters and rule-based regularization[J].Chinese Journal of Information,2016,30(3):60-67(in Chinese).[賽牙熱·依馬木,於斯音·於蘇普,阿不都薩拉木·達吾提.拉丁化維吾爾文字特徵及其基於規則的正規化[J].中文信息學報,2016,30(3):60-67.]

[9]YAN Qichao.Analysis of the characteristics of Uygur’s network language in Xinjiang[J].Chinese Construction,2014(7z):65-67(in Chinese).[剡啟超.新疆維吾爾族大學生網絡語言特點探析[J].語文建設,2014(7z):65-67.]

[10]MA Mei.Analysis of internet language life of Uygur students in Xinjiang[J].Chinese Language Education,2014(18):43-44(in Chinese).[馬梅.新疆維吾爾族大學生網絡語言生活淺析[J].語文學刊,2014(18):43-44.]

Method of converting NLU script to AU script

AINIWAER Aizimaiti1,2,3, DONG Jun1,3, LI Xiao1,3, ZENG Wen-xiao1,3

(1. Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Science, Urumqi 830011, China; 2. University of Chinese Academy of Sciences, Beijing 100049, China; 3. Xinjiang Laboratory of Minority Speech and Language Information Processing, Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Science, Urumqi 830011, China)

Abstract: To effectively reduce the impact of non-standard texts on network data processing, the causes of the network Latin Uyghur(NLU) script and the common types of errors were analyzed, the relationship between the alphabet and word correspondence between the NLU script and the Arabic Uyghur(AU) script was studied. Based on these correspondence, a method of converting the NLU script into the AU script based on the converting rules and statistics was proposed. Experimental results show that the accuracy of the conversion method reaches 83.84%, which effectively improves the network data processing capability. Experimental results were analyzed and the follow-up improvement measures were provided.

Key words: Uyghur; Arabic Uyghur script; network Latin Uyghur script; text conversion; rule sets

中圖法分類號:TP391

文獻標識號:A

文章編號:1000-7024(2019)02-0399-06

doi: 10.16208/j.issn1000-7024.2019.02.018

收稿日期:2017-12-11;

修訂日期:2018-07-12

基金項目:中國科學院關鍵技術人才基金項目(Y629431201);中科院西部之光基金項目(YBXM-2014-04);中科院儀器設備功能開發技術創新基金項目(YG2012114)

作者簡介:

艾孜麥提·艾尼瓦爾(1988-),男,新疆烏魯木齊人,博士研究生,助理研究員,研究方向為多語種信息處理;董軍(1975-),男,新疆烏魯木齊人,博士,副研究員,研究方向為多語種信息處理、軟體測試;李曉(1957-),男,新疆烏魯木齊人,研究員,博士生導師,研究方向為多語種信息處理;曾文瀟(1974-),男,新疆烏魯木齊人,碩士,副研究員,研究方向為軟體工程。

相關焦點

  • 清華大學丁曉青團隊「高性能維吾爾文識別和理解系統」通過專家鑑定
    清華大學丁曉青團隊「高性能維吾爾文識別和理解系統」通過專家鑑定  清華新聞網12月3日電 困擾業界多年的維吾爾文識別和維漢翻譯理解問題,被清華大學丁曉青教授所帶領的科研團隊攻克12月1日,由教育部組織在北京清華大學召開的 「高性能維吾爾文識別和理解系統」科技成果鑑定會上,鑑定委員會主任、中國工程院院士倪光南宣布:清華大學丁曉青教授科研團隊首次實現了維吾爾文無切分識別並創建了維漢識別理解一體化系統,總體達到國際領先水平。
  • 2018.05:我國第三產業發展與現行統計制度及核算方法研究(楊新洪)
    現行其他服務業調查方案中,規下採用抽樣調查方法採集數據。實際工作中存在城市一級代表性不足,樣本輪換不及時等諸多問題。二是現行統計方法存在不足。規上服務業全面調查和規下服務業抽樣調查的專業主管部門不同,報表周期不一致,缺少數據上的銜接應用和可比性,沒有有效結合起來。在進行核算時,如果僅根據規上服務業相關行業營業收入增長速度推算其他營利性服務業增加值,會使推算結果存在偏差。
  • 2017.01:「網際網路+」統計方法研究(北京市「網際網路+」統計研究課題...
    其次,通過「網際網路+」行動計劃與現有統計體系,分析開展「網際網路+」統計的難點,包括「網際網路+」核心含義難以測度、與現行行業統計不匹配。這就需要統計部門開展「網際網路+」統計方法研究,建立相應的統計指標體系,客觀、及時地對「網際網路+」重點領域進行監測預警、預測分析、宏觀研判等。
  • 機械設計類專業就業如何轉網際網路?
    並不是所有性格的人都符合轉行產品經理的要求,網際網路很多職位都可以轉,下面關於機械類專業轉行的一些參考建議。除了土木工程專業,機械類、電氣自動化類轉行產品經理這一職位的居多。有很多的人建議你去轉技術,或者建議你去轉產品,這些都不是靠譜的。你必須了解清楚你適合做什麼才可以。因為不是任何人都適合轉行這一職位。
  • 聯通老用戶轉網際網路套餐攻略 選哪款套餐最划算?
    近期,有關聯通老用戶轉網際網路套餐的話題,引起眾多網友關注。有媒體報導稱,聯通已經開放老用戶辦理騰訊王卡、螞蟻寶卡等網際網路套餐,且已有網友聲稱成功辦理。不過也有不少網友反映,不能夠順利辦理轉套餐業務。
  • 揭秘:網際網路賺錢最快速的方法
    一個80後的網際網路草根創業者。今天我將給大家揭秘網際網路賺錢最快速的方法。只要你掌握這個秘密,你可以快速的在網際網路上賺取屬於自己的第一桶金。不可否認網際網路創業的巨大優勢是傳統的行業無法比擬的。 但並不是誰都能在網際網路上賺到錢。
  • 漢字轉成拼音的方法
    嗯~ o(* ̄▽ ̄*)o 現在是網際網路時代自然是要用軟體來查就可以了。打開軟體,其主界面如下,一眼瞄去貌似有很多按鈕,但是別怕,都是蠻簡單的一些設置。接著看一個比較實用的功能設置那就是[編輯多音字],勾選上[編輯多音字]選項,在上面的顯示結果中如果有漢字變成紫色的啦,那就是次漢字是多音字,滑鼠移至紫色漢字上,漢字轉拼音軟體會主動顯示出次漢字其他聲調並且分別列出相應聲調的組詞。
  • 現行成本會計(current cost accounting)
    亦稱現行成本/名義貨幣會計,指以現行成本為計量屬性,名義貨幣計量單位的一種會計模式。  現行成本會計的著眼點是企業所持有特定資產的價格變動。各個企業所持有的資產各不相同,受到物價變動的的影響也各異除了罕見的巧合之外,按一般物價指數調整的資產價值很少會與資產的現行成本一致;由一般物價水準調整的會計報表所反映的財務狀況和經營成果,難免會與事實有所出入。它認為,企業所持有的資產應以它的現行成本計價,以營業收入與所耗生產要素的現行成本相比較來確定利潤。  現行成本會計的理論依據是成本的實物補償理論。
  • 聯通老用戶可以轉網際網路王卡套餐了,你轉了嗎?
    近日很多網友都在討論改網際網路套餐這個問題,越來越多老用戶通過聯通客服或者是工信部投訴,更換更加實惠的聯通網際網路套餐。聯通推出了很多網際網路套餐,這些套餐資費不一,那麼到底聯通網際網路套餐要如何申請更換,這些套餐對比起來到底有什麼不同,什麼套餐最值得選?今天就一起來看看聯通老用戶換網際網路套餐攻略吧!
  • 世界宗教研究所召開「網際網路宗教數據分析與統計方法」學術研討會
    世界宗教研究所召開「網際網路宗教數據分析與統計方法」學術研討會 網際網路宗教問題是我國宗教工作面臨的新情況新問題之一,也是宗教學界面臨的新的研究課題。為深入貫徹習近平總書記關於宗教工作的講話,加強網際網路宗教研究,中國社會科學院世界宗教研究所於2016年6月17日召開了「網際網路宗教數據分析與統計方法」學術研討會。
  • 如何將常規監控網絡攝像頭轉網際網路直播?
    隨著網絡直播應用生態的越發完善,你會發現,很多傳統監控升級為網際網路直播的應用越來越多。那麼,如何將常規監控攝像頭轉為網際網路直播?目前大多數的監控攝像機視頻傳輸採用的是RTSP協議,僅限於本地區域網內傳輸,主要用於企事業單位內部監看管理,而要想實現網際網路直播:一個是現場需具備網際網路網絡條件;二是視頻傳輸協議必須是RTMP或SRT等直播平臺支持的傳輸協議;
  • 我在自己記錄家鄉的方言,但發現很多讀音用現行的聲韻母表不能拼...
    X 我在自己記錄家鄉的方言,但發現很多讀音用現行的聲韻母表不能拼出來
  • pdf轉ppt怎麼轉?有哪些PDF轉成PPT免費方法?
    pdf轉ppt怎麼轉?在日常工作匯報中,大部分人都會選擇使用PPT幻燈片來進行展示。大家在製作PPT的時候也會需要引用很多PDF文件中的資料內容。為了方便編輯,大家都想要將PDF文件轉換成PPT。如何完成PDF轉PPT呢?下面分享兩個PDF轉PPT的方法。
  • mp4轉mp3怎麼轉?必備的視頻轉音頻方法分享
    大家在日常生活中有沒有遇到這種情況,寒冷的冬天在上下班的路上,卻想繼續了解電視劇的劇情,但是不想把手拿出來受凍,那麼這時候mp4轉mp3就成了剛性需求,但是轉格式卻不是說轉就轉的,需要有一定的工具才能實現。
  • PDF轉PPT怎麼轉?這些方法太有用了!
    PDF轉PPT怎麼轉?這些方法太有用了! 2020年07月30日 10:15作者:黃頁編輯:黃頁 PDF轉PPT怎麼轉?
  • PDF轉圖片怎麼轉?試試這些快速轉換方法!
    PDF轉圖片怎麼轉?試試這些快速轉換方法!今天小編想和大家一起了解一下PDF文件轉圖片文件是怎麼轉的,也一起試試一些快速轉換方法,希望會給大家帶來一定的收穫。 轉換方法一:使用專業的PDF工具——爍光PDF轉換器 1、打開爍光PDF轉換器,選擇主頁面中的【PDF轉圖片】進入功能頁面。
  • 母乳轉奶粉的正確方法
    2、選擇柔軟的奶嘴:奶嘴是轉奶成功的關鍵物品之一,因為寶寶含著它吸奶粉,如果太硬,不舒適,肯定會哭鬧。哭鬧時又很容易造成嗆奶。一旦嗆奶,寶寶出現不適,就會拒奶。這會引起一系列的連鎖反應,由此導致轉奶失敗。所以,選擇柔軟舒適的奶嘴很重要。
  • 圖片轉PDF怎麼轉?這些都是文件轉換的好方法!
    圖片轉PDF怎麼轉?PDF文件的閱讀性比較好。當我們需要閱覽很多圖片文件時,可以將圖片轉成PDF文件,這樣也會方便許多。我們今天的主要內容就是來學習圖片轉PDF的方法,這些方法都是怎麼操作的呢?一起來看看吧!
  • 【引流方法】網際網路精準引流的五大方法!
    引流是你在網際網路做生意的道路上必不可少的一個關鍵環節,它將決定你是否能夠多收米,無論你是賣產品還是服務,引流必將是你掌握的方法,除非你不想賺錢。現如今,中國網際網路的網民已經突破了十億,無數的企業商家和個人創業者都在想方設法的通過網際網路來做引流,找流量。