網際網路拉丁維吾爾文轉現行維吾爾文方法

2020-12-07 騰訊網

網際網路拉丁維吾爾文轉現行維吾爾文方法

艾孜麥提·艾尼瓦爾1,2,3,董 軍1,3,李 曉1,3,曾文蕭1,3

(1.中國科學院新疆理化技術研究所,新疆 烏魯木齊 830011;2.中國科學院大學,北京 100049;3.中國科學院新疆理化技術研究所 新疆民族語音語言信息處理實驗室,新疆 烏魯木齊 830011)

摘 要:為有效降低非規範本文對網絡數據處理的影響,分析網際網路拉丁維吾爾文的起因及常見的錯誤類型,研究網際網路拉丁維吾爾文與現行維吾爾文的字母對應關係和單詞對應關係,以這些對應關係為基礎提出規則和統計相結合的網際網路拉丁維吾爾文轉換為現行維吾爾文的方法。實驗結果表明,該轉換方法的準確率達到了83.84%,有效提高了網絡數據處理能力。對實驗結果進行了分析並提出後續改進對策。

關鍵詞:維吾爾文;現行維吾爾文;網際網路拉丁維吾爾文;文字轉換;規則庫

0 引 言

隨著網際網路的廣泛應用,新疆維吾爾族群眾為了享受網際網路帶來的便利,自發的開始使用鍵盤上能直接輸入的拉丁字母(英文字母)表示現行維吾爾文字母,從而產生了拉丁維吾爾文,並且在微信、QQ、論壇和微博等交互性強的網際網路應用中,拉丁維吾爾文佔主導地位。

為了便於閱讀者正確理解含義,拉丁維吾爾文的書寫者常用發音相似法選擇表示現行維吾爾文字母的拉丁字母,例如現行維吾爾文

(去了)用網際網路拉丁文表示為bardim,badim,badm等多種形式。我國計算機系統大多使用英文鍵盤,英文字母有26個,現行維吾爾文字母有32個。因此,拉丁維吾爾文中普遍存在一個拉丁字母表示多個現行維吾爾文字母,或者兩個連續的拉丁字母表示一個現行維吾爾文字母的現象,例如拉丁字母g常常被用來表示現行維吾爾文字母

中的任何一個,連續的兩個拉丁字母ng常常被用來表示現行維吾爾文字母

等。

為了規範拉丁維吾爾文的使用,新疆民語委於2008年組織新疆大學等單位制定並發布了《維吾爾文拉丁化方案》[1],為了與方案規定的拉丁維吾爾文相區別,本文將網際網路上實際使用的拉丁維吾爾文統稱為「網際網路拉丁維吾爾文」。有調查研究表明網際網路拉丁維吾爾文是即時通訊中信息交流的主要文字,遠超於現行維吾爾文[2],對網絡內容規範化、監管等方面造成巨大影響。國內外對網際網路內容監管,以及現行維吾爾文網際網路內容監管已經有很多研究,並形成了一些可用的產品[3-6]。然而,網際網路拉丁維吾爾文使用不規範的特點使得對它的監管成為當前維吾爾文網際網路內容監管的難點之一。

如果能將網際網路拉丁維吾爾文轉換為現行維吾爾文,則可以藉助現有網際網路內容監管技術和產品實現對網際網路拉丁維吾爾文內容的監管。目前相關研究工作開展的並不多,新疆民語委做過基於維吾爾文拉丁化方案的拉丁維吾爾文轉換現行維吾爾文的研究[7],新疆大學做了網際網路拉丁維吾爾文轉換研究,但該研究並沒有涉及網際網路拉丁維吾爾文中普遍存在的漏字母、多字母、單詞拆分等問題的處理[8]。因此,找到更好的,具有實用價值的網際網路拉丁維吾爾文轉換為現行維吾爾文方法的具有重要意義。

1 網際網路拉丁維吾爾文的特點

網際網路拉丁維吾爾文與現行維吾爾文是一種文字的兩種拼寫方式。因此,網際網路拉丁維吾爾文單詞中的字母與對應的現行維吾爾文單詞中的字母具有對應關係,網際網路拉丁維吾爾文語句中的單詞與對應的現行維吾爾文語句中的單詞也具有對應的關係。理清這些對應關係是實現轉換的基礎。通過實例分析,我們發現網際網路拉丁維吾爾文與現行維吾爾文字母和單詞的對應關係有如下特點。

1.1 字母對應關係

在字母對應方面,拉丁維吾爾文字母與現行維吾爾文字母之間的對應關係以字母替換為主,此外還存在漏字母、多字母和不對應3種情況[9],如圖1所示。字母替換,即拉丁維吾爾文單詞中的字母與對應的現行維吾爾文單詞中的字母有對應關係;漏字母,即網際網路拉丁維吾爾文單詞與對應的現行維吾爾文單詞相比存在遺漏的字母;多字母,即網際網路拉丁維吾爾文單詞與對應的現行維吾爾文單詞相比,存在多餘的字母;不對應,即網際網路拉丁維吾爾文單詞沒有對應的現行維吾爾文單詞。上述字母對應關係都有多種產生原因,理清這些原因有助於我們設計出更好的轉換方法。各種字母對應關係有如下產生原因:

圖1 字母對應關係及其產生原因

字母替換:有4種原因可以產生字母替換的對應關係,除了發音相似外,還有維吾爾文拉丁化方案、維吾爾新文字,以及書寫習慣。需要注意的是發音相似中拉丁字母的發音即可以是其代表的漢語拼音的發音,也可以是其代表的英文字母的發音,例如拉丁字母e代表的漢語拼音的發音與現行維吾爾文字母

的發音相似,而其代表的英文字母的發音則與現行維吾爾文字母

的發音相似。發音相似中現行維吾爾文字母的發音即可以是字母的標準發音,也可以是字母的方言發音,還可以是字母在單詞中發生音系變化後的發音,例如維吾爾文單詞

(還好)中的字母

在和田地區方言中發字母

的音;根據維吾爾文音系變化規律,單詞

(你的學校)中字母

在口語中會發生語音濁化現象從而發字母

的音。這些都會影響到字母替換的結果。

維吾爾新文字,即用維吾爾新文字中規定的拉丁字母表示對應的現行維吾爾文字母,例如用拉丁字母q表示現行維吾爾文字母

;拉丁化方案,即用《維吾爾文拉丁化方案》中規定的拉丁字母表示對應的現行維吾爾文字母,例如用拉丁字母ё表示現行維吾爾文字母

;書寫習慣指對發音相似等其它字母替換方法進行簡化或調整,使得字母輸入更方便,且不影響理解的字母替換方法,例如省略連續兩個拉丁字母gh中的h,僅用拉丁字母g表示現行維吾爾文字母

漏字母:產生遺漏字母的原因有兩種,分別是發音習慣和縮寫。發音習慣導致的漏字母可以進一步細分為音系變化、方言兩類。音系變化,即有些維吾爾文字母在特定上下文環境中不發音或發音很弱,導致拼寫過程中被省略,例如維吾爾文單詞

(朋友們)中的字母

不發音;方言指有些字母在特定方言的特定上下文環境中不發音或發音很弱,導致拼寫過程中被省略,例如在和田方言中維吾爾文單詞

(我會去)後面的字母

經常被省略。縮寫,即有些維吾爾文單詞省略部分字母基本不影響對單詞的理解,例如維吾爾文單詞

(朋友)中的字母

常被省略,拼寫為

,其中的字母

也常被省略,拼寫為

多字母:多字母一般是重複拼寫單詞中的某個字母,以強調單詞含義,例如重複拼寫單詞

(表示驚訝的語氣)中的字

形成

不對應:不對應的產生原因有很多種,典型的包括網絡詞、漢語拼音、外語單詞、無意義詞等。網絡詞,即網際網路中使用頻繁,但詞典中不存在的單詞,例如VIP、PK等;漢語拼音,即直接用漢語拼音拼寫漢語單詞,例如taobao、baidu等;外語單詞,即直接使用漢字或英語等外語單詞;無意義詞,即人結合上下文環境也無法識別含義的單詞。

1.2 單詞對應關係

在單詞對應關係方面,以空格和標點符號作為單詞之間的分割符,則網際網路拉丁維吾爾文單詞與現行維吾爾文單詞之間的對應關係以一對一為主,此外,還存在一對多和多對一的情況[10],如圖2所示。所謂一對一,即一個網際網路拉丁維吾爾文單詞與一個現行維吾爾文單詞對應;一對多,即一個網際網路拉丁維吾爾文單詞與連續多個現行維吾爾文單詞對應;多對一,即連續多個網際網路拉丁維吾爾文單詞與一個現行維吾爾文單詞對應。一對多單詞對應關係一般由筆誤導致。多對一單詞對應關係主要由3種原因導致,分別是詞綴分割、合成詞分割、長單詞分割。詞綴分割即將單詞中的詞幹和詞綴用空格分開,例如單詞

(朋友們)拼寫為

(朋友)+空格+

(複數詞綴);合成詞分割即將兩個單詞合成的維吾爾文單詞用空格分開,例如將單詞

(阿娜爾姑麗)拼寫為

(石榴,阿娜爾)+空格+

(花,姑麗);長單詞分割即用空格將字母較多的單詞分割為多個部分,例如單詞

(哪位)拼寫為

+空格+

+空格+

。有的長單詞分割具有按音節分割的特定,有的則沒有明顯規律。

圖2 單詞對應關係及其產生原因

2 轉換方法

通過網際網路拉丁維吾爾文與現行維吾爾文字母和單詞對應關係的分析,我們提出如圖3所示,包括8個步驟的轉換流程。

圖3 網際網路拉丁維吾爾文轉為現行維吾爾文的流程

2.1 預處理

預處理主要完成句子切分、單詞數字分割、特殊字符處理、詞幹詞綴合併等工作,為後續的轉換做準備。句子切分,即以逗號、句號等標點符號,以及回車、換行等控制符號為界限將輸入文本切分為短句,後續轉換操作都以句子切分獲得的短句為單位進行;數字分割,即對將數字和單詞連接在一起的情況,用空格將數字與單詞分開;特殊字符處理,即過濾掉文本中的不可見字符,例如用於標識txt文檔所使用的字符編碼的編碼為FFFE、EFFF、EFBB的字符;詞幹詞綴合併,書寫網際網路拉丁維吾爾時,用戶常常無意識的把詞幹和詞綴分割,產生大量的無意義詞,本文建立網際網路維吾爾文詞綴庫,用於匹配被分割詞綴並與詞幹合併。例如拉丁維吾爾文句子karigan da umid kalmap tu,匹配詞綴並與詞幹合併以後變成kariganda umid kalmaptu。

2.2 正誤對照表

網際網路拉丁維吾爾文中存在一些較常見,但沒有明顯規律的錯誤單詞。我們收集了這些常見錯誤單詞,並將其與正確拼寫形式對應,建立了正誤對照表,見表1。正誤對照表處理,即在正誤對照表中查找網際網路拉丁維吾爾文單詞,如果找到,則用正確的現行維吾爾文單詞替換,並將替換後的單詞標記為結果詞。

表1 網際網路拉丁維吾爾文與現行維吾爾文正誤對照

2.3 不對應詞

我們收集了網際網路拉丁維吾爾文中常見的網絡詞、漢語拼音、外語詞等建立了不對應詞庫,見表2。我們採用分析字符編碼和查不對應詞庫兩個步驟判斷單詞是否為不對應詞。分析字符編碼,即通過分析單詞中字符的編碼判斷單詞中字符是否為拉丁字母單詞。如果不是拉丁字母單詞則標識單詞為結果詞。結果詞不做後續處理,直接作為結果輸出。如果是拉丁字母單詞,則查詢不對應詞庫,如果詞庫中存在,則標識為結果詞。如果不對應詞庫中不存在,則進行後續的正誤對照表等處理。

2.4 模式匹配

字母重複和音系變化產生的漏字母等字母的對應關係很難用字母映射表體現。針對這些對應關係我們用模式匹配的方法處理。模式匹配,即用正則表達式或者單獨的程序代碼識別網際網路拉丁維吾爾文單詞中字母序列的特徵,如果特徵匹配預設的模式則用指定的現行維吾爾文字母或字母序列替換。我們建立了包含40萬常用詞彙的現行維吾爾文詞庫。模式匹配產生的現行維吾爾文單詞需要在現行維吾爾文詞庫中查詢,如果詞庫中存在,則保留並標記為候選詞。

表2 網際網路拉丁維吾爾文常見網絡詞

2.5 字母映射表

網際網路拉丁維吾爾文單詞中的字母與對應的現行維吾爾文單詞中的字母大多具有對應關係。這是網際網路拉丁維吾爾文能夠實際應用的基礎。我們建立了拉丁字母和現行維吾爾文字母映射表。映射表中不僅包括發音相似、維吾爾文拉丁化方案、維吾爾新文字和書寫習慣產生的各種字母映射,還包括部分發音習慣導致漏字母的字母映射。字母映射表處理,即將網際網路拉丁維吾爾文單詞中的每個字母或字母組合用字母映射表中對應的現行維吾爾文字母替換,產生對應的現行維吾爾文單詞。由於一個拉丁字母或字母序列可能對應多個現行維吾爾文字母或字母序列,所以一個拉丁維吾爾文單詞經過字母映射表處理後可以產生多個現行維吾爾文單詞。字母映射表處理產生的現行維吾爾文單詞也將在現行維吾爾文詞庫中查詢,如果詞庫中存在,則保留並標記為候選詞。

2.6 合併拆分

經過上述處理,大多數拉丁維吾爾文單詞都能生成一個或多個候選詞,比如拉丁維吾爾文單詞kaldim生成的現行維吾爾文為

(我來了),

(我留下了)等。但仍然有部分拉丁維吾爾文單詞無法產生候選詞,這樣的單詞被標記為未登錄詞。未登錄詞的產生主要有4種原因,分別單詞非一對一對應關係、筆誤、詞庫不完備、無意義單詞。單詞非一對一,即如前所述的一個網際網路拉丁維吾爾文單詞對應多個連續現行維吾爾文單詞,或者多個連續網際網路拉丁維吾爾文單詞對應一個現行維吾爾文單詞;筆誤即拉丁維吾爾文單詞中存在拼寫錯誤,無法用字母映射等方法產生對應的正確現行維吾爾文單詞;詞庫不完備,即字母映射表處理產生了正確的候選詞,但該詞在我們的現行維吾爾文詞庫中不存在;無意義詞,由於人結合上下文環境也無法確定其含義,自然無法產生正確的候選詞。

針對未登錄詞,我們首先進行單詞合併或單詞拆分處理。單詞合併,即將未登錄詞與前後相鄰的1個或多個單詞進行合併構成新詞,比如,har+空格+kay+空格+seg+空格+lar前後合併以後生成單詞harkaysiglar(

,各位);單詞拆分,即將未登錄單詞拆分成相鄰的兩個新詞。合併或拆分形成的新詞需要重新進行正誤對照表、不對應詞、模式匹配和字母映射處理,以生成現有詞庫中存在的詞,並將其作為候選詞。圖4演示了未登錄詞合併拆分的過程。網際網路拉丁維吾爾文單詞a、b、c、d是預處理獲得的一個短句,其中c是未登錄詞。經過合併與拆分,候選句1產生了候選句2和候選句3兩個新的候選句。

圖4 網際網路拉丁維吾爾文未登錄詞拆分合併過程

2.7 最短編輯距離

如果某個網際網路拉丁維吾爾文單詞合併拆分後依然不能生成現行維吾爾文詞庫中存在的候選詞,則進行最短編輯距離處理。最短編輯距離指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數。最短編輯處理,即針對網際網路拉丁維吾爾文單詞字母映射處理產生的每個現行維吾爾文單詞,在詞庫中查找與之編輯距離為1的單詞作為候選詞。通過實際測試,編輯距離為1已經能產生大量候選詞。設置更大的編輯距離不但大幅度增加計算量,而且會引入過多的候選詞,導致後續該類計算時選擇錯誤的詞作為最終結果。

2.8 概率計算

經過上述處理後,網際網路拉丁維吾爾文中切分出的每個短句都能生成一個或多個對應的候選句。每個候選句的每個單詞都會生成一個或多個對應的候選詞。每個候選句全部單的詞候選詞有多種組合方法來構成對應的現行維吾爾文短句,見表3。我們使用從網上採集的300 M現行維吾爾文文本語料訓練我們的語言模型。在研發過程中我們發現,網際網路拉丁維吾爾文以短句的形式出現比較多,因此,我們採用二元語言模型對每個候選句全部單詞的每種候選詞組合進行概率計算,將概率值最大的候選詞組合作為最終的轉換結果。

數學方法表示該概率計算過程,則一個短句S通過單詞合併、單詞拆分產生n個對應的候選句表示為S。包含m個單詞的候選句Si表示為Si=w1,w2,…,wn。單詞w1的候選詞集合表示為C1。則候選句Si的概率計算公式為

其中,P(cjcj+1)表示候選詞cj與cj+1連續出現在語料庫中的概率值。

3 測試分析

我們從微信群、QQ群、論壇和微博隨機選取了2000行,包含8082個單詞的網際網路拉丁維吾爾文文本進行轉換。轉換結果見表4,6776個單詞轉換正確,1306個單詞轉換錯誤,轉換正確率為83.84%。由於網際網路拉丁維吾爾文中存在較多的單詞拆分及少量的單詞合併現行,因此網際網路拉丁維吾爾文文本與對應的現行維吾爾文文本的單詞數量並不相同。如果以現行維吾爾文單詞數量進行計算,則單詞總數為7283個,1086個單詞轉換錯誤,轉換正確率為85.09%。

表3 網際網路拉丁維吾爾文轉現行維吾爾的實例

表4 轉換結果

導致轉換結果錯誤的原因主要以下3種:

概率計算,即在候選詞中正確候選詞的概率比錯誤候選詞概率低導致轉換錯誤。概率計算導致的轉換結果錯誤總計156個。有兩種方法可以減少概率計算導致的錯誤。第一種方法是增加訓練語料的量,並嘗試使用三元語言模型。這是因為理論上訓練語料的量足夠大的時候,三元語言模型比二元語言模型的效果更好。我們用於訓練的語料有300 M,用三元語言模型訓練時數據稀疏問題顯著,因此只能採用二元語言模型。即使仍然使用二元語言模型,增加語料的量一般也能改進轉換效果。第二種方法是使用微信群、QQ群、論壇和微博中的語料進行訓練。我們的訓練語料來源與政府網站等文本比較規範的網站。但這些網站文本的語言習慣與微信群、QQ群等交互性文本有明顯區別。但微信群等來源的文本必須經過人工轉換為現行維吾爾文文本才能用於語言模型的訓練,這需要大量的人工工作。

(三)經濟結構和貿易狀況持續改善。一是產業結構逐漸優化。從製造業方面看,德國勞動力實際工資水平已大幅降低,德國製造業成本顯著下降。此外,「雙元制」職業教育體系為德國製造業提供源源不斷的高素質技術工人,製造業已成為德國實體經濟支柱,德國製造品出口競爭力優勢明顯。從服務業方面看,服務業佔國民經濟比重保持穩定。2005年以來,除金融危機期間,德國服務業增加值佔GDP比重一直保持在69%左右。二是貿易狀況持續改善。自2005年默克爾上臺以來,除2009年外,德國商品和服務貿易順差不斷擴大。其中,2016年為2970億美元,創「二戰」以來最高水平,超越中國成為全球最大貿易順差國。

詞庫,即現行維吾爾文詞庫中沒有收錄正確的候選詞導致轉換錯誤。詞庫導致的轉換結果錯誤總計84個。我們現有詞庫的詞彙量約40萬條,基本涵蓋了90%-95%的現行維吾爾文常用單詞。維吾爾文屬於黏著語,通過在詞根後附加詞綴能產生上千萬詞彙,而實際能用到的詞彙只是其中的一小部分。因此,通過擴充詞庫的方法改進轉換效果,難度大,改進效果有限。

4 結束語

本文分析了網際網路拉丁維吾爾文語現行維吾爾文的單詞對應關係和字母對應關係,並以此為基礎提出了規則和統計相結合的網際網路拉丁維吾爾文轉換為現行維吾爾文的轉換方法,轉換正確率達到了83.84%。通過對轉換結果的分析可以發現,通過擴充語料庫或用微信群、QQ群、論壇和微博等來源的語料進行訓練可以提高轉換的正確率,通過擴充詞庫、完善規則也能提高轉換的正確率,但提高的空間有限,難度大。

參考文獻:

[1]MZ115-68.Uighur Latinization program[EB/OL].[2010-10-05].http://sina.com.cn/s/blog_5fe8b9000100dadl.html(in Chinese).[MZ115-68.維吾爾文拉丁化方案[EB/OL].[2010-10-05].http://sina.com.cn/s/blog_5fe8b9000100dadl.html.]

[2]XU Jiang,CHANG Hong.Analysis on the characteristics of Uyghur college students』 internet communication terms——taking QQ and Wechat content as texts[J].Language and Translation (Chinese Edition),2016(4):56-61(in Chinese).[徐江,常紅.維吾爾族大學生網絡交際用語特點分析——以QQ和微信內容為文本[J].語言與翻譯(漢文版),2016(4):56-61.]

[3]HU Jinhua.Xinjiang netcom DCN network security implementation and optimization[D].Xiamen:Xiamen University,2013(in Chinese).[胡金華.新疆網通DCN網絡安全的實現與優化[D].廈門:廈門大學,2013.]

[4]ZHU Haotian.Study on the Uyghur public opinion construction based on Translingual ontology transformation[D].Urumqi:Xinjiang University,2015(in Chinese).[朱昊天.基於

跨語本體轉換的維吾爾文輿情本體構建研究[D].烏魯木齊:新疆大學,2015.]

[5]NIAN Mei,LIU Ruolan,Malhaba Essetti,et al.Sentence propensity analysis of weighted Uyghur language[J].Application of Computer Systems,2016,25(7):171-175(in Chinese).[年梅,劉若蘭,瑪爾哈巴·艾賽提,等.加權維吾爾語句子傾向性分析[J].計算機系統應用,2016,25(7):171-175.]

[6]ZHAO Xudong,Yasen Ai Zezi.Filtering scheme of Uyghur bad document information based on mutual information and cosine similarity[J].Electronic Design Engineering,2016,24(16):109-112(in Chinese).[趙旭東,亞森·艾則孜.基於互信息和餘弦相似度的維吾爾文不良文檔信息過濾方案[J].電子設計工程,2016,24(16):109-112.]

[7]Bureau of Quality and Technical Supervision,Xinjiang Uygur Autonomous Region.DB 65/T 3690-2015 current Uyghur/Uyghur code conversion rules[S].Urumqi:Xinjiang Uygur Autonomous Region Standards Institute, 2015(in Chinese).[新疆維吾爾自治區質量技術監督局.DB 65/T 3690-2015現行維吾爾文與拉丁維吾爾文編碼字符轉換規則[S].烏魯木齊:新疆維吾爾自治區標準化研究院,2015.]

[8]Saiyan Hot·Imamu,Yu Siyin·Yu Supu,Al Sulamuda·Dawuti Latin.Latin Uyghur characters and rule-based regularization[J].Chinese Journal of Information,2016,30(3):60-67(in Chinese).[賽牙熱·依馬木,於斯音·於蘇普,阿不都薩拉木·達吾提.拉丁化維吾爾文字特徵及其基於規則的正規化[J].中文信息學報,2016,30(3):60-67.]

[9]YAN Qichao.Analysis of the characteristics of Uygur’s network language in Xinjiang[J].Chinese Construction,2014(7z):65-67(in Chinese).[剡啟超.新疆維吾爾族大學生網絡語言特點探析[J].語文建設,2014(7z):65-67.]

[10]MA Mei.Analysis of internet language life of Uygur students in Xinjiang[J].Chinese Language Education,2014(18):43-44(in Chinese).[馬梅.新疆維吾爾族大學生網絡語言生活淺析[J].語文學刊,2014(18):43-44.]

Method of converting NLU script to AU script

AINIWAER Aizimaiti1,2,3, DONG Jun1,3, LI Xiao1,3, ZENG Wen-xiao1,3

(1. Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Science, Urumqi 830011, China; 2. University of Chinese Academy of Sciences, Beijing 100049, China; 3. Xinjiang Laboratory of Minority Speech and Language Information Processing, Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Science, Urumqi 830011, China)

Abstract: To effectively reduce the impact of non-standard texts on network data processing, the causes of the network Latin Uyghur(NLU) script and the common types of errors were analyzed, the relationship between the alphabet and word correspondence between the NLU script and the Arabic Uyghur(AU) script was studied. Based on these correspondence, a method of converting the NLU script into the AU script based on the converting rules and statistics was proposed. Experimental results show that the accuracy of the conversion method reaches 83.84%, which effectively improves the network data processing capability. Experimental results were analyzed and the follow-up improvement measures were provided.

Key words: Uyghur; Arabic Uyghur script; network Latin Uyghur script; text conversion; rule sets

中圖法分類號:TP391

文獻標識號:A

文章編號:1000-7024(2019)02-0399-06

doi: 10.16208/j.issn1000-7024.2019.02.018

收稿日期:2017-12-11;

修訂日期:2018-07-12

基金項目:中國科學院關鍵技術人才基金項目(Y629431201);中科院西部之光基金項目(YBXM-2014-04);中科院儀器設備功能開發技術創新基金項目(YG2012114)

作者簡介:

艾孜麥提·艾尼瓦爾(1988-),男,新疆烏魯木齊人,博士研究生,助理研究員,研究方向為多語種信息處理;董軍(1975-),男,新疆烏魯木齊人,博士,副研究員,研究方向為多語種信息處理、軟體測試;李曉(1957-),男,新疆烏魯木齊人,研究員,博士生導師,研究方向為多語種信息處理;曾文瀟(1974-),男,新疆烏魯木齊人,碩士,副研究員,研究方向為軟體工程。

相關焦點

  • 2018.05:我國第三產業發展與現行統計制度及核算方法研究(楊新洪)
    現行其他服務業調查方案中,規下採用抽樣調查方法採集數據。實際工作中存在城市一級代表性不足,樣本輪換不及時等諸多問題。二是現行統計方法存在不足。規上服務業全面調查和規下服務業抽樣調查的專業主管部門不同,報表周期不一致,缺少數據上的銜接應用和可比性,沒有有效結合起來。在進行核算時,如果僅根據規上服務業相關行業營業收入增長速度推算其他營利性服務業增加值,會使推算結果存在偏差。
  • 2017.01:「網際網路+」統計方法研究(北京市「網際網路+」統計研究課題...
    其次,通過「網際網路+」行動計劃與現有統計體系,分析開展「網際網路+」統計的難點,包括「網際網路+」核心含義難以測度、與現行行業統計不匹配。這就需要統計部門開展「網際網路+」統計方法研究,建立相應的統計指標體系,客觀、及時地對「網際網路+」重點領域進行監測預警、預測分析、宏觀研判等。
  • 機械設計類專業就業如何轉網際網路?
    並不是所有性格的人都符合轉行產品經理的要求,網際網路很多職位都可以轉,下面關於機械類專業轉行的一些參考建議。除了土木工程專業,機械類、電氣自動化類轉行產品經理這一職位的居多。有很多的人建議你去轉技術,或者建議你去轉產品,這些都不是靠譜的。你必須了解清楚你適合做什麼才可以。因為不是任何人都適合轉行這一職位。
  • 漢字轉成拼音的方法
    嗯~ o(* ̄▽ ̄*)o 現在是網際網路時代自然是要用軟體來查就可以了。打開軟體,其主界面如下,一眼瞄去貌似有很多按鈕,但是別怕,都是蠻簡單的一些設置。接著看一個比較實用的功能設置那就是[編輯多音字],勾選上[編輯多音字]選項,在上面的顯示結果中如果有漢字變成紫色的啦,那就是次漢字是多音字,滑鼠移至紫色漢字上,漢字轉拼音軟體會主動顯示出次漢字其他聲調並且分別列出相應聲調的組詞。
  • 靈機文化助力2016廣東網際網路大會打造「網際網路+傳統文化」專場
    (iiMedia Research Group)承辦的2016年亞太地區規模最大規格最高的網際網路行業交流盛會——2016全球移動網際網路CEO峰會暨2016廣東網際網路大會(以下簡稱峰會)即將在廣州保利博覽館5-6號館盛大開幕。
  • PDF轉圖片怎麼轉?具體方法是什麼?
    今天我們今天就來一起看看常見的轉換實例之一:PDF轉圖片的具體方法。方法一:使用爍光PDF轉換器 爍光PDF轉換器是一款功能齊全的PDF文件格式轉換和處理工具,軟體內包含各種PDF格式轉換功能,可以支持多種不同格式的文件相互轉換,比如【PDF轉
  • Word轉PDF怎麼轉?這些方法必須要學會!
    Word轉PDF怎麼轉?這些方法必須要學會!如果你想快速且有效地解決這個問題,那麼這些方法必須要學會! 轉PDF】功能。 3、點擊創建後會進入PDF預覽界面,預覽後覺得沒有問題的話就可點擊保存,【Word轉PDF】就完成啦。
  • 如何認定網際網路壟斷資本巨頭的市場支配地位
    多邊市場構造及顯著動態跨界競爭等特徵放大了零定價商品市場上的商業模式的運行效果, 在很大程度上動搖了以價格要素為中心的相關市場界定測試方法的主導地位, 現行的市場份額標準很難準確反映經營者在某一相關市場上的市場地位。為此, 建議仍以相關商品的需求替代分析為主, 同時, 關注行業特徵與核心商品功能定位的結合, 融合橫向維度的其他經營者供給替代的因素來整體評估用戶轉向難易度。
  • 李克強:深化增值稅改革 今年將製造業等行業現行16%的稅率降至13%
    李克強在作政府工作報告時表示,深化增值稅改革,今年將製造業等行業現行16%的稅率降至13%,將交通運輸業、建築業等行業現行10%的稅率降至9%;保持6%一檔的稅率不變,但通過採取對生產、生活性服務業增加稅收抵扣等配套措施,確保所有行業稅負只減不增。
  • 環保部新規:新建企業顆粒物排放限值比現行嚴格85%
    環保部新規:新建企業顆粒物排放限值比現行嚴格85%   中新網9月18日電 據環境保護部網站消息,環境保護部日前會同國家質檢總局發布了《輕型汽車汙染物排放限值及測量方法(中國第五階段)》(GB 18352.5—2013)和《磚瓦工業大氣汙染物排放標準》(GB 29620—2013)兩項國家大氣汙染物排放標準。
  • 朋友圈瘋轉的倒背法,救不了溺水的孩子!請用科學的方法!
    德慶在線旗下有德慶在線網、德慶在線微信公眾號、德慶在線新浪微博、德慶在線騰訊微博及系列QQ群,是德慶領先移動網際網路服務平臺
  • word轉pdf的方法,word怎麼轉pdf,三種方法隨便您用哪種
    在線工具這個具體可以百度下:word轉pdf 在線,就可以搜到了。好了,就寫到這裡,word轉pdf的方法你都get了,其他問題請文後留言。
  • 怎麼把PDF轉成Excel?用這個方法就可以了!
    怎麼將PDF轉成Excel?辦公文檔格式的轉換是我們必備的一項技能,例如PDF轉Excel,PDF轉Word,圖片轉PDF等。今天我們來看看PDF轉Excel應該怎麼操作。
  • 科普解讀:轉基因到底「轉」的是什麼
    那麼,轉基因中所「轉」的基因來自何處?轉基因食品有沒有毒害?目前,人們對於基因「轉移」過程的科學依據缺乏了解,導致大眾對轉基因安全問題存在諸多疑惑。下面我們就為大家解讀轉基因到底「轉」的是什麼。 「在近20年裡,沒有任何可證實的證據表明轉基因作物有可能對健康產生不利影響。」
  • Word轉PDF的適用方法有哪些?這裡分享給大家
    Word轉PDF的適用方法有哪些呢?小編這裡分享給大家哦!方法一:使用爍光PDF轉換器 爍光PDF轉換器一款多功能的PDF轉換軟體,它不僅有【PDF轉Excel】【PDF轉PPT】【PDF轉圖片】【Word轉PDF】等PDF相關的格式轉換功能,還有【PDF合併】PDF拆分】【PDF壓縮】等PDF文件處理功能,批量文件轉換也可以輕鬆快速轉換完成。
  • 在線語音轉文字怎麼轉換?這裡有快速達成的絕妙方法
    不少老年人或者一些剛接觸網際網路的新手打字很慢,為了給大家減少打字慢的煩惱,體驗所說即所寫的便捷,起動信息科技研發出來錄音轉文字助手,真正做到所說即所寫,讓打字速度變得飛快。操作選用工具:應用市場或瀏覽器搜索【錄音轉文字助手】即可。
  • 山西地標《汙水綜合排放標準》(DB14/1928-2019)與現行排放限值的...
    山西地標《汙水綜合排放標準》(DB14/1928-2019)與現行排放限值的對比北極星水處理網訊:山西省市場監督管理局與山西省生態環境廳於2019年11月1日,以2019年第74號公告發布了6項山西省地方標準。
  • 兩個Excel轉PDF的簡單方法
    Excel轉PDF的方法有許多,今天分享兩個簡單的給大家。方法一:使用Excel轉PDF軟體我們使用的Excel轉PDF軟體是嗨格式PDF轉換器。使用這個軟體將Excel轉換為PDF文件非常簡單。下面大家跟著我來看一下操作步驟:首先我們打開嗨格式PDf轉換器,點擊界面的「文件轉PDF」。
  • 網際網路行業「打工人」的「囚徒困境」怎麼破?|時評
    「工作致死」正在成為困擾網際網路行業從業者的一個難題。上述兩起悲劇中的猝死者的區別在於,前者與網際網路平臺沒有勞動關係,後者與網際網路平臺存在勞動關係;二者的共性在於,都是網際網路平臺生態系統的一份子,都通過網際網路平臺勞動謀生,都因長時間、高強度的工作導致猝死。
  • 如何在線免費將pdf轉成word文檔?
    很多時候大家都有需要將pdf轉成word文檔的需求,怎奈又不想花錢去做這個事情,市面上確實有免費的軟體,但是,要麼只能轉一半,要麼就是轉換出來的word文檔丟東少西,作為一個經常需要用到pdf轉word文檔的網際網路人士來說,找到免費的軟體容易的很。下面給大家推薦一些。