網際網路拉丁維吾爾文轉現行維吾爾文方法
艾孜麥提·艾尼瓦爾1,2,3,董 軍1,3,李 曉1,3,曾文蕭1,3
(1.中國科學院新疆理化技術研究所,新疆 烏魯木齊 830011;2.中國科學院大學,北京 100049;3.中國科學院新疆理化技術研究所 新疆民族語音語言信息處理實驗室,新疆 烏魯木齊 830011)
摘 要:為有效降低非規範本文對網絡數據處理的影響,分析網際網路拉丁維吾爾文的起因及常見的錯誤類型,研究網際網路拉丁維吾爾文與現行維吾爾文的字母對應關係和單詞對應關係,以這些對應關係為基礎提出規則和統計相結合的網際網路拉丁維吾爾文轉換為現行維吾爾文的方法。實驗結果表明,該轉換方法的準確率達到了83.84%,有效提高了網絡數據處理能力。對實驗結果進行了分析並提出後續改進對策。
關鍵詞:維吾爾文;現行維吾爾文;網際網路拉丁維吾爾文;文字轉換;規則庫
0 引 言
隨著網際網路的廣泛應用,新疆維吾爾族群眾為了享受網際網路帶來的便利,自發的開始使用鍵盤上能直接輸入的拉丁字母(英文字母)表示現行維吾爾文字母,從而產生了拉丁維吾爾文,並且在微信、QQ、論壇和微博等交互性強的網際網路應用中,拉丁維吾爾文佔主導地位。
為了便於閱讀者正確理解含義,拉丁維吾爾文的書寫者常用發音相似法選擇表示現行維吾爾文字母的拉丁字母,例如現行維吾爾文
(去了)用網際網路拉丁文表示為bardim,badim,badm等多種形式。我國計算機系統大多使用英文鍵盤,英文字母有26個,現行維吾爾文字母有32個。因此,拉丁維吾爾文中普遍存在一個拉丁字母表示多個現行維吾爾文字母,或者兩個連續的拉丁字母表示一個現行維吾爾文字母的現象,例如拉丁字母g常常被用來表示現行維吾爾文字母
、
中的任何一個,連續的兩個拉丁字母ng常常被用來表示現行維吾爾文字母
等。
為了規範拉丁維吾爾文的使用,新疆民語委於2008年組織新疆大學等單位制定並發布了《維吾爾文拉丁化方案》[1],為了與方案規定的拉丁維吾爾文相區別,本文將網際網路上實際使用的拉丁維吾爾文統稱為「網際網路拉丁維吾爾文」。有調查研究表明網際網路拉丁維吾爾文是即時通訊中信息交流的主要文字,遠超於現行維吾爾文[2],對網絡內容規範化、監管等方面造成巨大影響。國內外對網際網路內容監管,以及現行維吾爾文網際網路內容監管已經有很多研究,並形成了一些可用的產品[3-6]。然而,網際網路拉丁維吾爾文使用不規範的特點使得對它的監管成為當前維吾爾文網際網路內容監管的難點之一。
如果能將網際網路拉丁維吾爾文轉換為現行維吾爾文,則可以藉助現有網際網路內容監管技術和產品實現對網際網路拉丁維吾爾文內容的監管。目前相關研究工作開展的並不多,新疆民語委做過基於維吾爾文拉丁化方案的拉丁維吾爾文轉換現行維吾爾文的研究[7],新疆大學做了網際網路拉丁維吾爾文轉換研究,但該研究並沒有涉及網際網路拉丁維吾爾文中普遍存在的漏字母、多字母、單詞拆分等問題的處理[8]。因此,找到更好的,具有實用價值的網際網路拉丁維吾爾文轉換為現行維吾爾文方法的具有重要意義。
1 網際網路拉丁維吾爾文的特點
網際網路拉丁維吾爾文與現行維吾爾文是一種文字的兩種拼寫方式。因此,網際網路拉丁維吾爾文單詞中的字母與對應的現行維吾爾文單詞中的字母具有對應關係,網際網路拉丁維吾爾文語句中的單詞與對應的現行維吾爾文語句中的單詞也具有對應的關係。理清這些對應關係是實現轉換的基礎。通過實例分析,我們發現網際網路拉丁維吾爾文與現行維吾爾文字母和單詞的對應關係有如下特點。
1.1 字母對應關係
在字母對應方面,拉丁維吾爾文字母與現行維吾爾文字母之間的對應關係以字母替換為主,此外還存在漏字母、多字母和不對應3種情況[9],如圖1所示。字母替換,即拉丁維吾爾文單詞中的字母與對應的現行維吾爾文單詞中的字母有對應關係;漏字母,即網際網路拉丁維吾爾文單詞與對應的現行維吾爾文單詞相比存在遺漏的字母;多字母,即網際網路拉丁維吾爾文單詞與對應的現行維吾爾文單詞相比,存在多餘的字母;不對應,即網際網路拉丁維吾爾文單詞沒有對應的現行維吾爾文單詞。上述字母對應關係都有多種產生原因,理清這些原因有助於我們設計出更好的轉換方法。各種字母對應關係有如下產生原因:
圖1 字母對應關係及其產生原因
字母替換:有4種原因可以產生字母替換的對應關係,除了發音相似外,還有維吾爾文拉丁化方案、維吾爾新文字,以及書寫習慣。需要注意的是發音相似中拉丁字母的發音即可以是其代表的漢語拼音的發音,也可以是其代表的英文字母的發音,例如拉丁字母e代表的漢語拼音的發音與現行維吾爾文字母
的發音相似,而其代表的英文字母的發音則與現行維吾爾文字母
的發音相似。發音相似中現行維吾爾文字母的發音即可以是字母的標準發音,也可以是字母的方言發音,還可以是字母在單詞中發生音系變化後的發音,例如維吾爾文單詞
(還好)中的字母
在和田地區方言中發字母
的音;根據維吾爾文音系變化規律,單詞
(你的學校)中字母
在口語中會發生語音濁化現象從而發字母
的音。這些都會影響到字母替換的結果。
維吾爾新文字,即用維吾爾新文字中規定的拉丁字母表示對應的現行維吾爾文字母,例如用拉丁字母q表示現行維吾爾文字母
;拉丁化方案,即用《維吾爾文拉丁化方案》中規定的拉丁字母表示對應的現行維吾爾文字母,例如用拉丁字母ё表示現行維吾爾文字母
;書寫習慣指對發音相似等其它字母替換方法進行簡化或調整,使得字母輸入更方便,且不影響理解的字母替換方法,例如省略連續兩個拉丁字母gh中的h,僅用拉丁字母g表示現行維吾爾文字母
。
漏字母:產生遺漏字母的原因有兩種,分別是發音習慣和縮寫。發音習慣導致的漏字母可以進一步細分為音系變化、方言兩類。音系變化,即有些維吾爾文字母在特定上下文環境中不發音或發音很弱,導致拼寫過程中被省略,例如維吾爾文單詞
(朋友們)中的字母
不發音;方言指有些字母在特定方言的特定上下文環境中不發音或發音很弱,導致拼寫過程中被省略,例如在和田方言中維吾爾文單詞
(我會去)後面的字母
經常被省略。縮寫,即有些維吾爾文單詞省略部分字母基本不影響對單詞的理解,例如維吾爾文單詞
(朋友)中的字母
常被省略,拼寫為
,其中的字母
也常被省略,拼寫為
。
多字母:多字母一般是重複拼寫單詞中的某個字母,以強調單詞含義,例如重複拼寫單詞
(表示驚訝的語氣)中的字
形成
。
不對應:不對應的產生原因有很多種,典型的包括網絡詞、漢語拼音、外語單詞、無意義詞等。網絡詞,即網際網路中使用頻繁,但詞典中不存在的單詞,例如VIP、PK等;漢語拼音,即直接用漢語拼音拼寫漢語單詞,例如taobao、baidu等;外語單詞,即直接使用漢字或英語等外語單詞;無意義詞,即人結合上下文環境也無法識別含義的單詞。
1.2 單詞對應關係
在單詞對應關係方面,以空格和標點符號作為單詞之間的分割符,則網際網路拉丁維吾爾文單詞與現行維吾爾文單詞之間的對應關係以一對一為主,此外,還存在一對多和多對一的情況[10],如圖2所示。所謂一對一,即一個網際網路拉丁維吾爾文單詞與一個現行維吾爾文單詞對應;一對多,即一個網際網路拉丁維吾爾文單詞與連續多個現行維吾爾文單詞對應;多對一,即連續多個網際網路拉丁維吾爾文單詞與一個現行維吾爾文單詞對應。一對多單詞對應關係一般由筆誤導致。多對一單詞對應關係主要由3種原因導致,分別是詞綴分割、合成詞分割、長單詞分割。詞綴分割即將單詞中的詞幹和詞綴用空格分開,例如單詞
(朋友們)拼寫為
(朋友)+空格+
(複數詞綴);合成詞分割即將兩個單詞合成的維吾爾文單詞用空格分開,例如將單詞
(阿娜爾姑麗)拼寫為
(石榴,阿娜爾)+空格+
(花,姑麗);長單詞分割即用空格將字母較多的單詞分割為多個部分,例如單詞
(哪位)拼寫為
+空格+
+空格+
。有的長單詞分割具有按音節分割的特定,有的則沒有明顯規律。
圖2 單詞對應關係及其產生原因
2 轉換方法
通過網際網路拉丁維吾爾文與現行維吾爾文字母和單詞對應關係的分析,我們提出如圖3所示,包括8個步驟的轉換流程。
圖3 網際網路拉丁維吾爾文轉為現行維吾爾文的流程
2.1 預處理
預處理主要完成句子切分、單詞數字分割、特殊字符處理、詞幹詞綴合併等工作,為後續的轉換做準備。句子切分,即以逗號、句號等標點符號,以及回車、換行等控制符號為界限將輸入文本切分為短句,後續轉換操作都以句子切分獲得的短句為單位進行;數字分割,即對將數字和單詞連接在一起的情況,用空格將數字與單詞分開;特殊字符處理,即過濾掉文本中的不可見字符,例如用於標識txt文檔所使用的字符編碼的編碼為FFFE、EFFF、EFBB的字符;詞幹詞綴合併,書寫網際網路拉丁維吾爾時,用戶常常無意識的把詞幹和詞綴分割,產生大量的無意義詞,本文建立網際網路維吾爾文詞綴庫,用於匹配被分割詞綴並與詞幹合併。例如拉丁維吾爾文句子karigan da umid kalmap tu,匹配詞綴並與詞幹合併以後變成kariganda umid kalmaptu。
2.2 正誤對照表
網際網路拉丁維吾爾文中存在一些較常見,但沒有明顯規律的錯誤單詞。我們收集了這些常見錯誤單詞,並將其與正確拼寫形式對應,建立了正誤對照表,見表1。正誤對照表處理,即在正誤對照表中查找網際網路拉丁維吾爾文單詞,如果找到,則用正確的現行維吾爾文單詞替換,並將替換後的單詞標記為結果詞。
表1 網際網路拉丁維吾爾文與現行維吾爾文正誤對照
2.3 不對應詞
我們收集了網際網路拉丁維吾爾文中常見的網絡詞、漢語拼音、外語詞等建立了不對應詞庫,見表2。我們採用分析字符編碼和查不對應詞庫兩個步驟判斷單詞是否為不對應詞。分析字符編碼,即通過分析單詞中字符的編碼判斷單詞中字符是否為拉丁字母單詞。如果不是拉丁字母單詞則標識單詞為結果詞。結果詞不做後續處理,直接作為結果輸出。如果是拉丁字母單詞,則查詢不對應詞庫,如果詞庫中存在,則標識為結果詞。如果不對應詞庫中不存在,則進行後續的正誤對照表等處理。
2.4 模式匹配
字母重複和音系變化產生的漏字母等字母的對應關係很難用字母映射表體現。針對這些對應關係我們用模式匹配的方法處理。模式匹配,即用正則表達式或者單獨的程序代碼識別網際網路拉丁維吾爾文單詞中字母序列的特徵,如果特徵匹配預設的模式則用指定的現行維吾爾文字母或字母序列替換。我們建立了包含40萬常用詞彙的現行維吾爾文詞庫。模式匹配產生的現行維吾爾文單詞需要在現行維吾爾文詞庫中查詢,如果詞庫中存在,則保留並標記為候選詞。
表2 網際網路拉丁維吾爾文常見網絡詞
2.5 字母映射表
網際網路拉丁維吾爾文單詞中的字母與對應的現行維吾爾文單詞中的字母大多具有對應關係。這是網際網路拉丁維吾爾文能夠實際應用的基礎。我們建立了拉丁字母和現行維吾爾文字母映射表。映射表中不僅包括發音相似、維吾爾文拉丁化方案、維吾爾新文字和書寫習慣產生的各種字母映射,還包括部分發音習慣導致漏字母的字母映射。字母映射表處理,即將網際網路拉丁維吾爾文單詞中的每個字母或字母組合用字母映射表中對應的現行維吾爾文字母替換,產生對應的現行維吾爾文單詞。由於一個拉丁字母或字母序列可能對應多個現行維吾爾文字母或字母序列,所以一個拉丁維吾爾文單詞經過字母映射表處理後可以產生多個現行維吾爾文單詞。字母映射表處理產生的現行維吾爾文單詞也將在現行維吾爾文詞庫中查詢,如果詞庫中存在,則保留並標記為候選詞。
2.6 合併拆分
經過上述處理,大多數拉丁維吾爾文單詞都能生成一個或多個候選詞,比如拉丁維吾爾文單詞kaldim生成的現行維吾爾文為
(我來了),
(我留下了)等。但仍然有部分拉丁維吾爾文單詞無法產生候選詞,這樣的單詞被標記為未登錄詞。未登錄詞的產生主要有4種原因,分別單詞非一對一對應關係、筆誤、詞庫不完備、無意義單詞。單詞非一對一,即如前所述的一個網際網路拉丁維吾爾文單詞對應多個連續現行維吾爾文單詞,或者多個連續網際網路拉丁維吾爾文單詞對應一個現行維吾爾文單詞;筆誤即拉丁維吾爾文單詞中存在拼寫錯誤,無法用字母映射等方法產生對應的正確現行維吾爾文單詞;詞庫不完備,即字母映射表處理產生了正確的候選詞,但該詞在我們的現行維吾爾文詞庫中不存在;無意義詞,由於人結合上下文環境也無法確定其含義,自然無法產生正確的候選詞。
針對未登錄詞,我們首先進行單詞合併或單詞拆分處理。單詞合併,即將未登錄詞與前後相鄰的1個或多個單詞進行合併構成新詞,比如,har+空格+kay+空格+seg+空格+lar前後合併以後生成單詞harkaysiglar(
,各位);單詞拆分,即將未登錄單詞拆分成相鄰的兩個新詞。合併或拆分形成的新詞需要重新進行正誤對照表、不對應詞、模式匹配和字母映射處理,以生成現有詞庫中存在的詞,並將其作為候選詞。圖4演示了未登錄詞合併拆分的過程。網際網路拉丁維吾爾文單詞a、b、c、d是預處理獲得的一個短句,其中c是未登錄詞。經過合併與拆分,候選句1產生了候選句2和候選句3兩個新的候選句。
圖4 網際網路拉丁維吾爾文未登錄詞拆分合併過程
2.7 最短編輯距離
如果某個網際網路拉丁維吾爾文單詞合併拆分後依然不能生成現行維吾爾文詞庫中存在的候選詞,則進行最短編輯距離處理。最短編輯距離指兩個字串之間,由一個轉成另一個所需的最少編輯操作次數。最短編輯處理,即針對網際網路拉丁維吾爾文單詞字母映射處理產生的每個現行維吾爾文單詞,在詞庫中查找與之編輯距離為1的單詞作為候選詞。通過實際測試,編輯距離為1已經能產生大量候選詞。設置更大的編輯距離不但大幅度增加計算量,而且會引入過多的候選詞,導致後續該類計算時選擇錯誤的詞作為最終結果。
2.8 概率計算
經過上述處理後,網際網路拉丁維吾爾文中切分出的每個短句都能生成一個或多個對應的候選句。每個候選句的每個單詞都會生成一個或多個對應的候選詞。每個候選句全部單的詞候選詞有多種組合方法來構成對應的現行維吾爾文短句,見表3。我們使用從網上採集的300 M現行維吾爾文文本語料訓練我們的語言模型。在研發過程中我們發現,網際網路拉丁維吾爾文以短句的形式出現比較多,因此,我們採用二元語言模型對每個候選句全部單詞的每種候選詞組合進行概率計算,將概率值最大的候選詞組合作為最終的轉換結果。
數學方法表示該概率計算過程,則一個短句S通過單詞合併、單詞拆分產生n個對應的候選句表示為S。包含m個單詞的候選句Si表示為Si=w1,w2,…,wn。單詞w1的候選詞集合表示為C1。則候選句Si的概率計算公式為
其中,P(cjcj+1)表示候選詞cj與cj+1連續出現在語料庫中的概率值。
3 測試分析
我們從微信群、QQ群、論壇和微博隨機選取了2000行,包含8082個單詞的網際網路拉丁維吾爾文文本進行轉換。轉換結果見表4,6776個單詞轉換正確,1306個單詞轉換錯誤,轉換正確率為83.84%。由於網際網路拉丁維吾爾文中存在較多的單詞拆分及少量的單詞合併現行,因此網際網路拉丁維吾爾文文本與對應的現行維吾爾文文本的單詞數量並不相同。如果以現行維吾爾文單詞數量進行計算,則單詞總數為7283個,1086個單詞轉換錯誤,轉換正確率為85.09%。
表3 網際網路拉丁維吾爾文轉現行維吾爾的實例
表4 轉換結果
導致轉換結果錯誤的原因主要以下3種:
概率計算,即在候選詞中正確候選詞的概率比錯誤候選詞概率低導致轉換錯誤。概率計算導致的轉換結果錯誤總計156個。有兩種方法可以減少概率計算導致的錯誤。第一種方法是增加訓練語料的量,並嘗試使用三元語言模型。這是因為理論上訓練語料的量足夠大的時候,三元語言模型比二元語言模型的效果更好。我們用於訓練的語料有300 M,用三元語言模型訓練時數據稀疏問題顯著,因此只能採用二元語言模型。即使仍然使用二元語言模型,增加語料的量一般也能改進轉換效果。第二種方法是使用微信群、QQ群、論壇和微博中的語料進行訓練。我們的訓練語料來源與政府網站等文本比較規範的網站。但這些網站文本的語言習慣與微信群、QQ群等交互性文本有明顯區別。但微信群等來源的文本必須經過人工轉換為現行維吾爾文文本才能用於語言模型的訓練,這需要大量的人工工作。
(三)經濟結構和貿易狀況持續改善。一是產業結構逐漸優化。從製造業方面看,德國勞動力實際工資水平已大幅降低,德國製造業成本顯著下降。此外,「雙元制」職業教育體系為德國製造業提供源源不斷的高素質技術工人,製造業已成為德國實體經濟支柱,德國製造品出口競爭力優勢明顯。從服務業方面看,服務業佔國民經濟比重保持穩定。2005年以來,除金融危機期間,德國服務業增加值佔GDP比重一直保持在69%左右。二是貿易狀況持續改善。自2005年默克爾上臺以來,除2009年外,德國商品和服務貿易順差不斷擴大。其中,2016年為2970億美元,創「二戰」以來最高水平,超越中國成為全球最大貿易順差國。
詞庫,即現行維吾爾文詞庫中沒有收錄正確的候選詞導致轉換錯誤。詞庫導致的轉換結果錯誤總計84個。我們現有詞庫的詞彙量約40萬條,基本涵蓋了90%-95%的現行維吾爾文常用單詞。維吾爾文屬於黏著語,通過在詞根後附加詞綴能產生上千萬詞彙,而實際能用到的詞彙只是其中的一小部分。因此,通過擴充詞庫的方法改進轉換效果,難度大,改進效果有限。
4 結束語
本文分析了網際網路拉丁維吾爾文語現行維吾爾文的單詞對應關係和字母對應關係,並以此為基礎提出了規則和統計相結合的網際網路拉丁維吾爾文轉換為現行維吾爾文的轉換方法,轉換正確率達到了83.84%。通過對轉換結果的分析可以發現,通過擴充語料庫或用微信群、QQ群、論壇和微博等來源的語料進行訓練可以提高轉換的正確率,通過擴充詞庫、完善規則也能提高轉換的正確率,但提高的空間有限,難度大。
參考文獻:
[1]MZ115-68.Uighur Latinization program[EB/OL].[2010-10-05].http://sina.com.cn/s/blog_5fe8b9000100dadl.html(in Chinese).[MZ115-68.維吾爾文拉丁化方案[EB/OL].[2010-10-05].http://sina.com.cn/s/blog_5fe8b9000100dadl.html.]
[2]XU Jiang,CHANG Hong.Analysis on the characteristics of Uyghur college students』 internet communication terms——taking QQ and Wechat content as texts[J].Language and Translation (Chinese Edition),2016(4):56-61(in Chinese).[徐江,常紅.維吾爾族大學生網絡交際用語特點分析——以QQ和微信內容為文本[J].語言與翻譯(漢文版),2016(4):56-61.]
[3]HU Jinhua.Xinjiang netcom DCN network security implementation and optimization[D].Xiamen:Xiamen University,2013(in Chinese).[胡金華.新疆網通DCN網絡安全的實現與優化[D].廈門:廈門大學,2013.]
[4]ZHU Haotian.Study on the Uyghur public opinion construction based on Translingual ontology transformation[D].Urumqi:Xinjiang University,2015(in Chinese).[朱昊天.基於
跨語本體轉換的維吾爾文輿情本體構建研究[D].烏魯木齊:新疆大學,2015.]
[5]NIAN Mei,LIU Ruolan,Malhaba Essetti,et al.Sentence propensity analysis of weighted Uyghur language[J].Application of Computer Systems,2016,25(7):171-175(in Chinese).[年梅,劉若蘭,瑪爾哈巴·艾賽提,等.加權維吾爾語句子傾向性分析[J].計算機系統應用,2016,25(7):171-175.]
[6]ZHAO Xudong,Yasen Ai Zezi.Filtering scheme of Uyghur bad document information based on mutual information and cosine similarity[J].Electronic Design Engineering,2016,24(16):109-112(in Chinese).[趙旭東,亞森·艾則孜.基於互信息和餘弦相似度的維吾爾文不良文檔信息過濾方案[J].電子設計工程,2016,24(16):109-112.]
[7]Bureau of Quality and Technical Supervision,Xinjiang Uygur Autonomous Region.DB 65/T 3690-2015 current Uyghur/Uyghur code conversion rules[S].Urumqi:Xinjiang Uygur Autonomous Region Standards Institute, 2015(in Chinese).[新疆維吾爾自治區質量技術監督局.DB 65/T 3690-2015現行維吾爾文與拉丁維吾爾文編碼字符轉換規則[S].烏魯木齊:新疆維吾爾自治區標準化研究院,2015.]
[8]Saiyan Hot·Imamu,Yu Siyin·Yu Supu,Al Sulamuda·Dawuti Latin.Latin Uyghur characters and rule-based regularization[J].Chinese Journal of Information,2016,30(3):60-67(in Chinese).[賽牙熱·依馬木,於斯音·於蘇普,阿不都薩拉木·達吾提.拉丁化維吾爾文字特徵及其基於規則的正規化[J].中文信息學報,2016,30(3):60-67.]
[9]YAN Qichao.Analysis of the characteristics of Uygur’s network language in Xinjiang[J].Chinese Construction,2014(7z):65-67(in Chinese).[剡啟超.新疆維吾爾族大學生網絡語言特點探析[J].語文建設,2014(7z):65-67.]
[10]MA Mei.Analysis of internet language life of Uygur students in Xinjiang[J].Chinese Language Education,2014(18):43-44(in Chinese).[馬梅.新疆維吾爾族大學生網絡語言生活淺析[J].語文學刊,2014(18):43-44.]
Method of converting NLU script to AU script
AINIWAER Aizimaiti1,2,3, DONG Jun1,3, LI Xiao1,3, ZENG Wen-xiao1,3
(1. Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Science, Urumqi 830011, China; 2. University of Chinese Academy of Sciences, Beijing 100049, China; 3. Xinjiang Laboratory of Minority Speech and Language Information Processing, Xinjiang Technical Institute of Physics and Chemistry, Chinese Academy of Science, Urumqi 830011, China)
Abstract: To effectively reduce the impact of non-standard texts on network data processing, the causes of the network Latin Uyghur(NLU) script and the common types of errors were analyzed, the relationship between the alphabet and word correspondence between the NLU script and the Arabic Uyghur(AU) script was studied. Based on these correspondence, a method of converting the NLU script into the AU script based on the converting rules and statistics was proposed. Experimental results show that the accuracy of the conversion method reaches 83.84%, which effectively improves the network data processing capability. Experimental results were analyzed and the follow-up improvement measures were provided.
Key words: Uyghur; Arabic Uyghur script; network Latin Uyghur script; text conversion; rule sets
中圖法分類號:TP391
文獻標識號:A
文章編號:1000-7024(2019)02-0399-06
doi: 10.16208/j.issn1000-7024.2019.02.018
收稿日期:2017-12-11;
修訂日期:2018-07-12
基金項目:中國科學院關鍵技術人才基金項目(Y629431201);中科院西部之光基金項目(YBXM-2014-04);中科院儀器設備功能開發技術創新基金項目(YG2012114)
作者簡介:
艾孜麥提·艾尼瓦爾(1988-),男,新疆烏魯木齊人,博士研究生,助理研究員,研究方向為多語種信息處理;董軍(1975-),男,新疆烏魯木齊人,博士,副研究員,研究方向為多語種信息處理、軟體測試;李曉(1957-),男,新疆烏魯木齊人,研究員,博士生導師,研究方向為多語種信息處理;曾文瀟(1974-),男,新疆烏魯木齊人,碩士,副研究員,研究方向為軟體工程。