✦ 基於雙語短語約束的交互式機器翻譯方法
作 者:徐 萍,葉 娜,吳 闖,張桂平
摘 要:交互式機器翻譯(Interactive Machine Translation,IMT)是一種通過機器翻譯系統與譯員之間的相互作用指導計算機解碼並改善輸出譯文質量的技術。目前主流的IMT方法使用譯員確定的前綴作為唯一約束指導解碼,交互方式受限,交互效率低。該文從交互方式和解碼算法兩個方面對IMT方法進行改進。在交互方式方面,允許譯員譯前從短語譯項列表中為源語言短語選擇正確譯項。該文還提出了基於短語表的多樣性排序算法,來提高短語候選譯項的多樣性,並根據譯員的翻譯認知過程設計交互界面,改善譯員在翻譯過程中的用戶體驗。在解碼算法方面,將雙語短語與前綴一同作為約束參與指導解碼過程,提高翻譯假設評價和過濾的準確性。在LDC漢英平行語料上進行了人工評測,實驗結果表明該方法較傳統的IMT方法能夠減輕譯員的認知負擔,減少翻譯時間,提升翻譯效率。
關鍵詞:交互式機器翻譯;雙語短語;短語譯項;多樣性;解碼
引用格式:徐萍,葉娜,吳闖,張桂平. 基於雙語短語約束的交互式機器翻譯方法[J]. 中文信息學報,2018,32(9): 1-10.
XU Ping,YE Na,WU Chuang,ZHANG Guiping. Interactive Machine Translation Based on Bilingual Phrase Constraints[J]. Journal of Chinese Information Processing,2018,32(9):1-10.
✦ 基於融合策略的機器翻譯自動評價方法
作 者:馬青松,張金超,劉 群
摘 要:機器翻譯自動評價發展至今,各種自動評價方法不斷湧現。不同的自動評價方法從不同的角度評價機器譯文的質量。該文提出了基於融合策略的自動評價方法,該方法可以融合多個自動評價方法,多角度地綜合評價機器譯文質量。該文主要在以下幾個方面探索進行:(1)對比分別使用相對排序(RR)和直接評估(DA)兩種人工評價方法指導訓練融合自動評價方法,實驗表明使用可靠性高的DA形成的融合自動評價方法(Blend)性能更好;(2)對比Blend分別使用支持向量機(SVM)和全連接神經網絡(FFNN)機器學習算法,實驗表明在當前數據集上,使用SVM效果更好;(3)進而在SVM基礎上,探索使用不同的評價方法對Blend的影響,為Blend尋找在性能和效率上的平衡;(4)把Blend推廣應用到其他語言對上,說明它的穩定性及通用性。在WMT16評測數據上的實驗,以及參加WMT17評測的結果均表明,Blend與人工評價的一致性達到領先水平。
關鍵詞:機器翻譯自動評價;融合;直接評估
引用格式:馬青松,張金超,劉群. 基於融合策略的機器翻譯自動評價方法[J]. 中文信息學報,2018,32(9): 11-19.
MA Qingsong,ZHANG Jinchao,LIU Qun. A Novel MT Metric Based on the Hybrid Strategy[J]. Journal of Chinese Information Processing,2018,32(9):11-19.
✦ 基於多編碼器多解碼器的大規模維漢神經網絡機器翻譯模型
作 者:張金超,艾山·吾買爾,買合木提·買買提,劉 群
摘 要:為提升維漢機器翻譯模型的翻譯能力,該文提出使用多編碼器多解碼器的結構,搭建大規模的維漢神經網絡機器翻譯模型。相比於單編碼器單解碼器的淺層的小模型,多編碼器多解碼器模型具有多個編碼器,可以對源語言進行多層次、多視角的壓縮表示;同時具有多個解碼器,可以增強目標語言的生成能力。實驗證明,在大規模的訓練數據上,使用該方法搭建的大規模維漢神經網絡機器翻譯模型,譯文質量可以大幅度地超過基於短語的統計機器翻譯模型和基本的神經網絡翻譯模型。該文還針對維漢翻譯源端語言和目標端語言的翻譯單元粒度進行了實驗,發現維吾爾語端使用字節對編碼單元、漢語端使用字單元,可以消除對漢語分詞器的依賴,做到和雙端都使用字節對編碼單元可比的效果。
關鍵詞:維漢機器翻譯;神經網絡;多編碼器多解碼器
引用格式:張金超,艾山·吾買爾,買合木提·買買提,劉群. 基於多編碼器多解碼器的大規模維漢神經網絡機器翻譯模型[J]. 中文信息學報,2018,32(9):20-27.
ZHANG Jinchao, Aishan Wumaier, Maihemuti Maimaiti, LIU Qun. A Large-scale Uyghur-Chinese Neural Machine Translation Model Based on Multiple Encoders and Decoders[J]. Journal of Chinese Information Processing,2018,32(9): 20-27.
✦ 基於TDNN-FSMN的蒙古語語音識別技術研究
作 者:王勇和,飛 龍,高光來
摘 要:為了提高蒙古語語音識別性能,該文首先將時延神經網絡融合前饋型序列記憶網絡應用於蒙古語語音識別任務中,通過對長序列語音幀建模來充分挖掘上下文相關信息;此外研究了前饋型序列記憶網絡「記憶」模塊中歷史信息和未來信息長度對模型的影響;最後分析了融合的網絡結構中隱藏層個數及隱藏層節點數對聲學模型性能的影響。實驗結果表明,時延神經網絡融合前饋型序列記憶網絡相比深度神經網絡、時延神經網絡和前饋型序列記憶網絡具有更好的性能,單詞錯誤率與基線深度神經網絡模型相比降低22.2%。
關鍵詞:蒙古語;語音識別;時延神經網絡;前饋型序列記憶網絡
引用格式:王勇和, 飛龍, 高光來. 基於TDNN-FSMN的蒙古語語音識別技術研究[J]. 中文信息學報,2018,32(9):28-34.
WANG Yonghe, BAO Feilong, GAO Guanglai. Mongolian Speech Recognition Based on TDNN-FSMN[J]. Journal of Chinese Information Processing,2018,32(9): 28-34.
✦ 基於多策略的烏孜別克語名詞詞幹識別研究
作 者:艾孜海爾江,祖力克爾江,艾孜爾古麗,玉素甫·艾白都拉
摘 要:烏孜別克語名詞詞幹識別是自然語言處理領域的基礎研究,主要方法是從句子中提取名詞詞幹,提高名詞標註效率和準確性。該文首先陳述形態分析、形態特徵對識別其詞性的作用,然後討論烏孜別克語的詞類劃分標準、名詞的形態特徵,烏孜別克語西爾裡文轉換拉丁文,烏孜別克語詞彙翻譯、標註技術,總結詞綴歧義及消解規則。該文提出利用形態規則、詞典、最大熵融合策略,設計現代烏孜別克語新詞中名詞詞幹識別算法,其中包括特徵選擇及參數估計、詞內部特徵、前後依存詞特徵等。最後以烏孜別克語網站文本作為驗證對象,對名詞詞幹進行統計與分析。
關鍵詞:烏孜別克語;形態分析;多策略;名詞詞幹識別
引用格式:艾孜海爾江,祖力克爾江,艾孜爾古麗,玉素甫·艾白都拉. 基於多策略的烏孜別克語名詞詞幹識別研究[J]. 中文信息學報,2018,32(9): 35-40.
Azhar, Zulkar, Azragul, Yusup Abaydula. Study on Recognition of Uzbek Noun Stems Based on Multi-strategy[J].Journal of Chinese Information Processing,2018,32(9): 35-40.
✦ 面向語言信息處理的藏語短語及其分類方法研究
作 者:才藏太,索南才讓,才讓加
摘 要: 短語作為語言分析的一個層次,佔有十分重要的位置。有效的短語分析對降低其後句法分析的難度,縮小句法分析器的搜索空間,提高機器翻譯的翻譯正確率是很有幫助的。而目前面向信息處理的藏語短語的研究剛剛起步,有待於進一步發展。 該文在藏語短語與藏語句子的界線研究的基礎上,根據藏語信息處理的特點和要求,按照語法功能和便於計算機自動分析和處理的原則對短語進行分類,並規定了信息處理中藏語短語類別單位的標記代碼。
關鍵詞:藏語;短語;分類;標記
引用格式:才藏太,索南才讓,才讓加. 面向語言信息處理的藏語短語及其分類方法研究[J]. 中文信息學報,2018,32(9): 41-46.
CAI Zangtai,SUOnan Cairang,CAI Rangjia. Classification of Tibetan Phrases for Natural Language Processing[J]. Journal of Chinese Information Processing,2018,32(9): 41-46.
✦ 一種基於向量模型的藏文字拼寫檢查方法
作 者:才智傑,孫茂松,才讓卓瑪
摘 要:自動拼寫檢查是自然語言處理領域一項極具挑戰性的研究課題,在語料庫建設、文本編輯、語音和文字識別等諸多方面具有廣闊的應用前景。藏文字是一種表音拼音文字,由1~7個基本構件橫向和縱向拼接而成。藏文文本中非真字出現的頻率很高,是藏文字拼寫檢查的基礎和重點。該文通過分析藏文文法中的構字規則,利用藏文字向量模型將藏文字用計算機易於操作的數字(向量)表示,建立基於規則約束的藏文字向量模型,進而設計該模型下的藏文字拼寫檢查模型及算法。算法簡單易實現,經測試算法拼寫檢查的平均準確率達99.995%,平均每秒檢查1 060個字。
關鍵詞:自然語言處理;向量模型;藏文字;拼寫檢查;非真字
引用格式:才智傑,孫茂松,才讓卓瑪. 一種基於向量模型的藏文字拼寫檢查方法[J]. 中文信息學報,2018,32(9): 47-55.
CAI Zhijie,SUN Maosong,CAIrang Zhuoma. Vector Based Spelling Check for Tibetan Characters[J].Journal of Chinese Information Processing,2018,32(9): 47-55.
✦ 基於文體和詞表的突發事件信息抽取研究
作 者:邱奇志,周三三,劉長發,陳 暉
摘 要:非結構化數據的結構化任務是大數據環境下管理信息系統面臨的新課題。該文從文體的角度研究自由文本的特性,提出了從Web新聞中抽取突發事件屬性的方法,該方法首先分析研究了Web文本和新聞文體的特徵,利用Google Word2Vec對領域專家構建的詞表進行擴展,針對突發事件的不同屬性制定了不同的抽取方法: 採用詞表實現事件分類,採用文體特徵進行時間、事件摘要的抽取,採用文體和詞表進行地點、傷亡情況和經濟損失屬性的抽取。實驗表明,採用基於文體和詞表方法在爬取的Web新聞語料庫和公開語料庫進行突發事件的屬性進行抽取時,平均準確率分別為87.89%、91.29%,平均召回率分別為81.76%、87.91%,能滿足應急管理需求。
關鍵詞:文體; 詞表;信息抽取;突發事件
引用格式:邱奇志,周三三,劉長發,陳暉. 基於文體和詞表的突發事件信息抽取研究[J]. 中文信息學報,2018,32(9): 56-65,74.
QIU Qizhi,ZHOU Sansan,LIU Changfa,CHEN Hui.Emergency Information Extraction Based on Style and Terminology[J]. Journal of Chinese Information Processing,2018,32(9): 56-65,74.
✦ 一種改進的實體關係抽取算法——OptMultiR
作 者:延浩然,靳小龍,賈巖濤,程學旗
摘 要:作為知識圖譜構建過程中的關鍵步驟,關係抽取這一從海量自然語言文本中抽取實體間關係的任務近年來得到了越來越廣泛的關注。如今,遠程監督(distant supervision)方法通過與已有知識庫(knowledge base)中的實體和關係進行對齊,可以直接使用源文本進行訓練從而省去了人工標記數據的過程。其中,使用了多實例多標籤(multi-instance multi-label)模型的MultiR算法取得了很好的抽取效果。但該算法存在兩個問題: 抽取過程中未考慮實體對之間可能已存在的關係,以及概率圖匹配計算中使用的貪心算法無法獲得最優解。該文針對上述問題進行了改進。首先,在關係抽取的打分過程中,考慮到同一實體對可能存在的多個關係之間具有一定關聯性,該文引入了關係權重矩陣,使其在抽取過程中將實體對已知的關係轉換為權重向量對打分進行幹預,以此減少個別文本特徵的幹擾,提高抽取準確率。其次,在概率圖匹配過程中,為了將圖的匹配從局部最優值提升為全局最優值,該文將原有的貪心算法替換為基於狀態壓縮的動態規划算法。實驗結果證明,優化後的MultiR模型,稱之為OptMultiR,其關係抽取性能得到了顯著提升。
關鍵詞:關係抽取;遠程監督;多實例多標籤學習
引用格式:延浩然,靳小龍,賈巖濤,程學旗. 一種改進的實體關係抽取算法——OptMultiR[J]. 中文信息學報,2018,32(9): 66-74.
YAN Haoran,JIN Xiaolong,JIA Yantao,CHENG Xueqi. An Improved Entity Relation Extraction Algorithm — OptMultiR[J]. Journal of Chinese Information Processing,2018,32(9): 66-74.
✦ 一種基於局部—全局主題關係的演化式摘要系統
作 者:吳仁守,劉 凱,王紅玲
摘 要:帶有時間標誌的演化式摘要是近年來提出的自然語言處理任務,其本質是多文檔自動文摘,它的研究對象是網際網路上連續報導的熱點新聞文檔。針對網際網路新聞事件報導的動態演化、動態關聯和信息重複等特點,該文提出了一種基於局部—全局主題關係的演化式摘要方法,該方法將新聞事件劃分為多個不同的子主題,在考慮時間演化的基礎上同時考慮子主題之間的主題演化,最後將新聞標題作為摘要輸出。實驗結果表明,該方法是有效的,並且在以新聞標題作為輸入輸出時,和當前主流的多文檔摘要和演化摘要方法相比,在Rouge評價指標上有顯著提高。
關鍵詞:主題關係;PageRank;演化式摘要;多文檔文摘
引用格式:吳仁守,劉凱,王紅玲. 一種基於局部—全局主題關係的演化式摘要系統[J]. 中文信息學報,2018,32(9): 75-83.
WU Renshou,LIU Kai,WANG Hongling. An Evolutionary Summarization System Based on Local-global Topic Relationship[J]. Journal of Chinese Information Processing,2018,32(9): 75-83.
✦ 跨數據源論文集成
作 者:張帆進,顧曉韜,姚沛然,唐 傑
摘 要:該文研究跨數據源的論文集成問題,旨在將不同數據源中的同一論文匹配起來。該文提出了兩個算法來解決論文匹配的問題,第一個算法(MHash)利用哈希算法來加速匹配,第二個算法(MCNN)利用卷積神經網絡(CNN)來提高匹配的準確率。實驗表明,結合論文的各種屬性,MHash能夠在快速得到匹配結果的同時,保持較高的準確率(93%+),而MCNN能夠達到非常高的準確率(98%+)。同時,設計了一個針對大規模論文匹配的異步搜索框架,在15天內得到了64 639 608對AMiner①和MAG②論文的匹配結果。論文匹配結果和AMiner、MAG的全部論文數據已作為公開數據集發布③。
關鍵詞:數據集成;卷積神經網絡;哈希學習;網絡爬蟲
引用格式:張帆進,顧曉韜,姚沛然,唐傑. 跨數據源論文集成[J]. 中文信息學報,2018,32(9): 84-92,131.
ZHANG Fanjin,GU Xiaotao,YAO Peiran,TANG Jie. Conflating Papers across Different Data Sources[J].Journal of Chinese Information Processing, 2018, 32(9): 84-92, 131.
✦利用準私密社交網絡文本數據檢測抑鬱用戶的可行性分析
作 者:劉德喜,邱家洪,萬常選,劉喜平,鍾敏娟,郭海峰,鄧 松
摘 要:社交媒體的發展為抑鬱用戶的檢測提供了一條新的途徑。已有的相關研究通常是利用用戶在Twitter、微博等社交網絡平臺上的用戶行為數據或公開發表的文本內容,較少有利用微信朋友圈、QQ空間這種相對比較私密的社交網絡數據。直觀地,這類準私密社交網絡數據更能反映用戶的心理健康狀況。該文主要討論利用準私密社交網絡文本數據檢測抑鬱用戶的可行性,包括訓練樣本的選擇、特徵量化方法、檢測模型選擇和不同文本特徵下的模型分類效果等。實驗表明,採用平衡高低分組的方法選擇樣本比非平衡高低分組樣本和離散化的高低分組樣本訓練的分類器要好;利用Z-score標準化的特徵量化方法比直接使用頻次或歸一化頻率要好;隨機梯度下降模型SGD較支持向量機SVM等其他用於對比的分類模型要好。實驗還發現,相對於詞袋、詞向量等文本特徵,主題特徵有較好的效果,可以使社交網絡用戶抑鬱檢測模型的F值達到0.753,而對抑鬱用戶的檢測精度達到0.813。
關鍵詞:準私密社交網絡文本;抑鬱用戶檢測;可行性分析
引用格式:劉德喜,邱家洪,萬常選,劉喜平,鍾敏娟,郭海峰,鄧松. 利用準私密社交網絡文本數據檢測抑鬱用戶的可行性分析[J]. 中文信息學報,2018,32(9):93-102.
LIU Dexi, QIU Jiahong, WAN Changxuan, LIU Xiping, ZHONG Minjuan, GUO Haifeng, DENG Song. Feasibility of Detecting Depressive Users Using Quasi-private Social Text[J]. Journal of Chinese Information Processing, 2018, 32(9): 93-102.
✦微博網絡用戶的活躍性判定方法
作 者:仲兆滿,戴紅偉,管 燕
摘 要:推薦系統的冷啟動問題是近期的研究熱點,而用戶的活躍性判定是冷啟動問題的基礎。已有方法在判定用戶的活躍性時,單純地考慮了用戶發表信息量,對社交媒體的社交關係及行為等特徵利用不夠。該文面向微博網絡,提出了系統的用戶活躍性判定方法,創新性主要體現在:(1)提出了微博網絡影響用戶活躍性的四類指標,包括用戶背景、社交關係、發表內容質量及社交行為,避免了僅僅使用用戶發表信息數量判定用戶是否活躍的粗糙方式;(2)提出了用戶活躍性判定流程,提出了基於四類指標的用戶與用戶集的差異度計算模型。以新浪微博為例,選取了學術研究、企業管理、教育、文化、軍事五個領域的900個用戶作為測試集,使用準確率P、召回率R及F值為評價指標,進行了實驗分析和比較。結果顯示,該文所提用戶活躍性判定方法的準確率P、召回率R、F值比傳統的判定方法分別提高了21%、13%和16%,將該文所提方法用於用戶推薦,得到的P、R和F值比最新的方法分別提高了5%、2%和3%,驗證了所提方法的有效性。
關鍵詞: 微博推薦系統;用戶活躍性判定;用戶背景;用戶社交關係;用戶發表內容質量;用戶社交行為
引用格式:仲兆滿,戴紅偉,管燕. 微博網絡用戶的活躍性判定方法[J]. 中文信息學報,2018,32(9):103-112.
ZHONG Zhaoman, DAI Hongwei, GUAN Yan. User Activeness Determination in Microblog[J]. Journal of Chinese Information Processing, 2018, 32(9): 103-112.
✦面向中文網絡評論情感分類的集成學習框架
作 者:黃佳鋒,薛 雲,盧 昕,劉志煌,吳 威,黃英仁,李萬理,陳 鑫
摘 要:該文針對中文網絡評論情感分類任務,提出了一種集成學習框架。首先針對中文網絡評論複雜多樣的特點,採用詞性組合模式、頻繁詞序列模式和保序子矩陣模式作為輸入特徵。然後採用基於信息增益的隨機子空間算法解決文本特徵繁多的問題,同時提高基分類器的分類性能。最後基於產品屬性構造基分類器算法綜合評論文本中每個屬性的情感信息,進而判別評論的句子級情感傾向。實驗結果表明了該框架在中文網絡評論情感分類任務上的有效性,特別是在Logistic Regression分類算法上準確率達到90.3%。
關鍵詞:網絡評論;情感分類;集成學習;特徵提取
引用格式:黃佳鋒,薛雲,盧昕,劉志煌,吳威,黃英仁,李萬理,陳鑫. 面向中文網絡評論情感分類的集成學習框架[J]. 中文信息學報,2018,32(9):113-122.
HUANG Jiafeng, XUE Yun, LU Xin, LIU Zhihuang, WU Wei, HUANG Yingren, LI Wanli, CHEN Xin. An Ensemble Learning Framework for Sentiment Classification of Chinese Online Reviews[J]. Journal of Chinese Information Processing, 2018, 32(9): 113-122.
✦基於詞注意力卷積神經網絡模型的情感分析研究
作 者:王盛玉,曾碧卿,商 齊,韓旭麗
摘 要:情感分類任務需要捕獲文本中的情感特徵,利用重要的局部特徵構建文本的特徵表示。卷積神經網絡(convolutional neural networks,CNN)已經被證明擁有出色的特徵學習能力,但是該模型無法判別輸入文本中特徵詞與情感的相關性,卷積層缺乏對單一詞特徵的提取。基於目前運用非常成功的注意力模型,該文提出一種基於詞注意力的卷積神經網絡模型(word attention-based convolutional neural networks,WACNN)。相比於卷積神經網絡,該模型以篇章的文本信息作為輸入,首先在詞嵌入層之後增加注意力機制層,獲取重要的局部特徵詞,使模型有選擇地進行特徵提取;然後在卷積層中增加大小為1的卷積核,提取單一詞的特徵;最後該方法對輸入文本進行適當的文本填充,保證每個詞都存在上下文信息,使模型有效提取到每個詞的n-grams局部特徵,避免卷積處理過程中局部信息的丟失。該模型在MR5K和CR數據集上進行驗證,較普通卷積神經網絡和傳統機器學習方法,在準確率上分別取得0.5%和2%的提升。
關鍵詞:卷積神經網絡;注意力模型;情感分類
引用格式:王盛玉,曾碧卿,商齊,韓旭麗. 基於詞注意力卷積神經網絡模型的情感分析研究[J]. 中文信息學報,2018,32(9):123-131.
WANG Shengyu, ZENG Biqing, SHANG Qi, HAN Xuli. Word Attention-based Convolutional Neural Networks for Sentiment Analysis[J]. Journal of Chinese Information Processing, 2018, 32(9):123-131.
✦異質信息網絡中基於元路徑的社團發現算法研究
作 者:鄭玉豔,王明省,石 川,王 銳
摘 要:實際的網絡化數據往往包含多種類型的對象和關係,採用異質信息網絡可以更好地對其建模,因此異質信息網絡分析逐漸成為數據挖掘的研究熱點。雖然同質信息網絡中的社團發現已經被深入研究,但是異質信息網絡中的社團發現還很少被研究。該文研究異質信息網絡中的社團發現問題,提出了一個新的社團發現算法框架HCD(heterogeneous community detection)。該框架由兩部分組成: 基於單條元路徑的社團發現算法HCD_sgl和融合多條元路徑的社團發現算法HCD_all。HCD_sgl首先確定在給定元路徑下所有節點的初始標籤,再利用改進的標籤傳遞算法進行最終的社團發現;HCD_all是在HCD_sgl的基礎上將基於多條元路徑的社團發現結果進行融合。通過在真實數據集和人工數據集上的實驗驗證了HCD算法的有效性。
關鍵詞:異質信息網絡;社團發現;元路徑;語義相似性度量
引用格式:鄭玉豔,王明省,石川,王銳. 異質信息網絡中基於元路徑的社團發現算法研究[J]. 中文信息學報,2018,32(9):132-142.
ZHENG Yuyan, WANG Mingsheng, SHI Chuan, WANG Rui. Research on Community Detection Algorithm Based on Meta Path in Heterogeneous Information Network[J]. Journal of Chinese Information Processing, 2018, 32(9): 132-142.