本文轉載自:中文信息學報
↑點開查看清晰大圖
✦ 基於LSTM的層次化篇章依存分析方法
作 者:賈延延,程學旗,馮 鍵
摘 要:在長距離依賴場景,篇章依存分析的效果欠佳,傳統分析方法通常設計大量特徵模板來緩解這一瓶頸問題。該文提出一種層次化篇章依存分析方法,減少了篇章分析器所需一次性處理的篇章分析單元的數量,從而縮短了分析器所處理的依存對之間的距離;並通過長短時記憶模型直接處理篇章分析單元中的序列信息,避免了特徵提取。在RST語料庫上進行實驗,結果表明,即使在不提取任何特徵的情況下,層次化篇章依存分析方法的分析效果依然優於同類深度學習模型在提取必要特徵後的實驗效果。
關鍵詞:篇章;依存分析;LSTM
引用格式:賈延延,程學旗,馮鍵. 基於LSTM的層次化篇章依存分析方法[J].中文信息學報, 2021, 35(1): 1-8.
JIA Yanyan, CHENG Xueqi, FENG Jian. A Hierarchical Discourse Dependency Parsing Method with Long Short-Term Memory[J]. Journal of Chinese Information Processing, 2020, 35(1): 1-8.
全文連結:點擊下載
✦ 基於樹形語義框架的神經語義解析方法
作 者:趙睿卓,高金華,孫曉茜,徐 力,沈華偉,程學旗
摘 要:語義解析的目標是將自然語言表達映射為機器可理解的邏輯表達,該任務的關鍵挑戰在於難以刻畫自然語言中蘊含的組合語義。目前,結合深度神經網絡模型的語義解析方法已經成為該領域的主流方法,該類方法通常採用編碼器—解碼器框架,通過設計樹形結構的解碼器或者在解碼器中添加語法限制,從語法層面上提升邏輯表達生成的準確率。與現有的神經語義解析方法不同,該文從語義建模角度出發,以語義框架作為中間形式,通過自頂向下的生成方式,顯式地建模自然語言表達中蘊含的層次化語義結構。模型先根據自然語言輸入,自頂向下地生成語義框架,再將語義框架表示融入到邏輯表達的生成過程中。三個數據集上的實驗結果表明,該文提出的模型能更準確地生成語義框架,並且在語義解析任務中取得更好的效果。
關鍵詞:神經語義解析;層次化語義結構;樹形語義框架
引用格式:趙睿卓,高金華,孫曉茜,徐力,沈華偉,程學旗. 基於樹形語義框架的神經語義解析方法[J]. 中文信息學報, 2021, 35(1): 9-16.
ZHAO Ruizhuo, GAO Jinhua, SUN Xiaoqian, XU Li, SHEN Huawei, CHENG Xueqi.Learning Tree-structured Sketch for Neural Semantic Parsing[J].Journal of Chinese Information Processing,2020,35(1): 9-16.
全文連結:點擊下載
✦ 中文詞彙增長研究
作 者:王 珊,王會珍
摘 要:詞彙增長研究能夠分析文本的TTR在不同時期的變化,該文選取1954—2018年的中國政府工作報告為語料,分析文本中詞例與詞種的曲線變化,挖掘政府工作報告中的詞彙豐富度與政策的相互關係。該文首先對語料進行了分詞,然後根據曲線擬合效果選擇擬合更好的Heaps模型進行預測。以中國的「五年計劃」作為基礎時間周期,對各周期模型預測值與現實觀測值的差值進行分析,並與隨機打亂後的文本計算結果進行對比,進一步驗證了實驗的結果。研究發現隨著時間變化,詞彙增長呈現出一定的傾向性:在深化改革、新政策出臺等時期,一般需要更多的詞語來描述,此時觀測值高於預測值,而在政策相對穩定的時期,對原有詞彙的使用較多,此時觀測值低於預測值。該文以中文語料作為研究對象,分析其歷時變化,能夠為中文詞彙增長研究提供借鑑。
關鍵詞:中文;詞彙增長;詞彙豐富度;TTR;Heaps模型
引用格式:王珊,王會珍. 中文詞彙增長研究[J]. 中文信息學報, 2021, 35(1): 17-24.
WANG Shan, WANG Huizhen. A Study of Chinese Vocabulary Growth[J].Journal of Chinese Information Processing,2020,35(1): 17-24.
全文連結:點擊下載
✦ 基於百科語料的中英文雙語詞典提取
作 者:王 星,單力秋,侯 磊,於濟凡,陳 吉,陶明陽
摘 要:隨雙語詞典是跨語言自然語言處理中一項非常重要的資源。目前提取雙語詞典的方法主要是基於平行語料庫和基於可比語料庫,但是這兩種方法在提取新詞或者某些技術術語時都存在雙語資源匱乏的問題。相比之下,基於部分雙語語料的方法由於利用的是新聞或者百科知識,故可以很好地解決這個問題,然而目前基於部分雙語語料的方法主要集中在對文本內容的提取上,缺乏對文本內容以外部分的提取。針對此不足,該文以中英文兩種語言為例,提出了一種基於百科語料的中英文雙語詞典的提取方法。該方法是在對文本內容提取的基礎上結合在線百科的結構特點,分別用五種不同的方法對百科語料進行提取,綜合查重後得到的雙語信息數量為969 308條。與以往的基於部分雙語語料的雙語詞典的提取方法相比,該方法在在線百科語料上的提取數量提高了170.75%。
關鍵詞:雙語詞典提取;跨語言自然語言處理;部分雙語語料
引用格式:王星,單力秋,侯磊,於濟凡,陳吉,陶明陽. 基於百科語料的中英文雙語詞典提取[J]. 中文信息學報, 2021, 35(1): 25-33.
WANG Xing, SHAN Liqiu, HOU Lei, YU Jifan, CHEN Ji, TAO Mingyang. Chinese English Bilingual Dictionary Extraction Based on Encyclopedia Corpus[J].Journal of Chinese Information Processing,2020,35(1): 25-33.
全文連結:點擊下載
✦ 基於大規模語料庫的現代漢語動賓搭配知識庫構建
作 者:王貴榮,饒高琦,荀恩東
摘 要:漢語缺乏詞形變化,語法信息需通過詞語搭配關係獲得,且在生活中詞語通常在搭配中發揮交際作用。因此無論是在語言學本體,還是在自然語言處理的各項任務中,詞語搭配知識都尤為重要。各種搭配中,動賓搭配能夠反映句子輪廓,並在數量和多樣性方面具有優勢地位,故該文聚焦於構建現代漢語動賓搭配知識庫,以期為自然語言處理提供基礎知識,同時也為語言本體研究、語言教學等提供大量實例。該文首先從語言本體的角度出發,總結了動賓搭配的知識體系,並根據該體系制定相應形式化檢索式140個,從BCC語料庫中抽取動賓搭配知識,並對抽取結果進行了初步消歧,最終獲得動賓搭配300萬對,形成動賓搭配知識庫。
關鍵詞:動賓搭配;知識抽取;知識庫;BCC語料庫
引用格式:王貴榮,饒高琦,荀恩東. 基於大規模語料庫的現代漢語動賓搭配知識庫構建[J]. 中文信息學報, 2021, 35(1): 34-42,53.
WANG Guirong, RAO Gaoqi, XUN Endong. Construction of Verb-object Knowledge Base from BCC Corpus[J].Journal of Chinese Information Processing,2020,35(1):34-42,53.
全文連結:點擊下載
✦ 一種融入實體描述的自適應知識表示模型
作 者:翟社平,王書桓,尚定蓉,董蘇蘇
摘 要:知識表示學習旨在在連續的低維向量空間中表示知識圖譜的實體和關係,但是現有的表示模型大多僅利用三元組的結構信息,而忽略了具有豐富語義的實體描述信息。為此,該文提出了一種基於實體描述的聯合表示模型(joint representation based on entity descriptions,JRED)。具體來說,模型引入位置向量和注意力機制設計了Attention_Bi-LSTM文本編碼器,可以根據不同的關係從文本描述中動態選擇最相關的信息。同時,採用一種自適應表示方法,為每個特徵維度區別地賦予權重,並以此方法為基礎通過門控機制共同學習文本和結構的聯合表示。該文在連結預測和三元組分類任務上評估該模型,實驗結果表明,模型在各項指標上均取得了很大的提升,尤其在Mean Rank指標上有明顯優勢。
關鍵詞:知識表示;實體描述;自適應表示
引用格式:翟社平,王書桓,尚定蓉,董蘇蘇. 一種融入實體描述的自適應知識表示模型[J]. 中文信息學報, 2021, 35(1): 43-53.
ZHAI Sheping, WANG Shuhuan, SHANG Dingrong, DONG Susu. An Adaptive Model for Knowledge Representation With Entity Description[J].Journal of Chinese Information Processing,2020,35(1): 43-53.
全文連結:點擊下載
✦ 結合平移關係嵌入和CNN的知識圖譜補全
作 者:陳新元,謝晟禕,陳慶強,劉 羽
摘 要:為解決基於翻譯機制的知識圖譜補全模型在處理複雜關係時的性能局限,該文提出一種ATREC(algorithm based on transitional relation embedding via CNN)算法,將三元組的實體和關係映射至低維向量空間,並將不同的關係特徵與頭/尾實體融合,將原始三元組和融合三元組的嵌入表示合併為6列k維矩陣,使用卷積神經網絡(CNN)降低參數規模,提取特徵後拼接、賦權並評分。鏈路預測和三元組分類的實驗結果表明,ATREC在較大規模數據集和複雜關係上相較主流算法有一定性能提升。
關鍵詞:知識圖譜補全;知識表示;CNN;翻譯機制;鏈路預測
引用格式:陳新元,謝晟禕,陳慶強,劉羽. 結合平移關係嵌入和CNN的知識圖譜補全[J]. 中文信息學報, 2021, 35(1): 54-63.
CHEN Xinyuan, XIE Shengyi, CHEN Qingqiang, LIU Yu. Knowledge Base Completion Based on Transitional Relation Embedding via CNN[J].Journal of Chinese Information Processing,2020,35(1): 54-63.
全文連結:點擊下載
✦基於序列模型的單文檔標題生成研究
作 者:焦利穎,郭 巖,劉 悅,俞曉明,程學旗
摘 要:針對中文金融文本領域的命名實體識別,該文從漢字自身特點出發,設計了結合字形特徵、迭代學習以及雙向長短時記憶網絡和條件隨機場的神經網絡模型。該模型是一種完全端到端且不涉及任何特徵工程的模型,其將漢字的五筆表示進行編碼以進行信息增強,同時利用迭代學習的策略不斷對模型整體預測結果進行改進。由於現有的命名實體識別研究在金融領域缺乏高質量的有標註的語料庫資源,所以該文構建了一個大規模的金融領域命名實體語料庫HITSZ-Finance,共計31 210個文本句,包含4類實體。該文在語料庫HITSZ-Finance上進行了一系列實驗,實驗結果均表明模型的有效性。
關鍵詞:單文檔;標題生成;序列模型
引用格式:焦利穎,郭巖,劉悅,俞曉明,程學旗. 基於序列模型的單文檔標題生成研究[J]. 中文信息學報, 2021, 35(1): 64-71.
JIAO Liying, GUO Yan, LIU Yue, YU Xiaoming, CHENG Xueqi. A Sequence Model for Single Document Headline Generation[J]. Journal of Chinese Information Processing, 2020, 35(1): 64-71.
全文連結:點擊下載
✦一種基於門控空洞卷積的高效中文命名實體識別方法
作 者:王笑月,李 茹,段 菲
摘 要:近年來,基於RNN的模型架構在命名實體識別任務中被廣泛採用,但其循環特性導致GPU的並行計算能力無法被充分利用。普通一維卷積雖可以並行處理輸入文本,顯著縮短模型訓練時長,但處理長文本時往往需要堆疊多個卷積層,進而增加梯度消失的風險。針對以上問題,該文採用可通過參數調節感受野範圍的空洞卷積,並引入了帶有殘差連接的門控機制,以強化有效信息,降低無效信息的影響,同時改善梯度消失問題;針對字向量表示能力有限的問題,該文還將字向量與其所屬詞的位置信息融合,以豐富文本特徵。為驗證所提出方法的有效性,在MSRA數據集以及Sina Resume數據集上進行了實驗,F1值分別達到了92.97%與94.98%。與傳統基於Bi-LSTM-CRF的命名實體識別模型相比,模型訓練速度提升5~6倍,且表現優於一般的RNN架構。
關鍵詞:空洞卷積;門控機制;中文命名實體識別
引用格式:王笑月,李茹,段菲. 一種基於門控空洞卷積的高效中文命名實體識別方法[J]. 中文信息學報, 2021, 35(1): 72-80.
WANG Xiaoyue, LI Ru, DUAN Fei. An Efficient Chinese Named Entity Recognition Method Based on Gated-Dilated Convolution[J]. Journal of Chinese Information Processing, 2020, 35(1): 72-80.
全文連結:點擊下載
✦基於詞性特徵的明喻識別及要素抽取方法
作 者:趙琳玲,王素格,陳 鑫,王 典,張兆濱
摘 要:比喻是一種利用事物之間的相似點建立關係的修辭方式。明喻是比喻中最常見的形式,具有明顯的喻詞,例如「像」,用於關聯本體和喻體。近年來高考語文散文類鑑賞題中多有考查明喻句的試題,為了解答此類鑑賞題,需要識別比喻句中的本體和喻體要素。該文提出了基於詞性特徵的明喻識別及要素抽取方法。首先將句子中詞向量化表示與詞性特徵向量化表示進行融合,將融合後的向量輸入到BiLSTM中進行訓練,然後利用CRF解碼出全局最優標註序列;最後得到明喻識別和要素抽取的結果。公開數據集上的實驗結果表明,該方法優於已有的單任務方法;同時也將該文方法應用於北京高考語文鑑賞題中比喻句的識別與要素抽取,驗證了方法的可行性。
關鍵詞:比喻;本體;喻體;BiLSTM;CRF
引用格式:趙琳玲,王素格,陳鑫,王典,張兆濱. 基於詞性特徵的明喻識別及要素抽取方法[J]. 中文信息學報, 2021, 35(1): 81-87.
ZHAO Linling, WANG Suge, CHEN Xin, WANG Dian, ZHANG Zhaobin. Part-of-Speech Based Simile Recognition and Component Extraction[J].Journal of Chinese Information Processing,2020,35(1): 81-87.
全文連結:點擊下載
✦融合主題模型及雙語詞向量的漢緬雙語可比文檔獲取方法
作 者:李訓宇,毛存禮,餘正濤,高盛祥,王振晗,張亞飛
摘 要:緬甸語屬於資源稀缺型語言,漢緬雙語可比文檔是獲取平行句對的重要數據資源。該文提出了一種融合主題模型及雙語詞向量的漢緬雙語可比文檔獲取方法,將跨語言文檔相似度計算轉化為跨語言主題相似度計算問題。首先,使用單語LDA主題模型分別抽取漢語、緬甸語的主題,得到對應的主題分布表示;其次,將抽取到的漢緬主題詞進行表徵得到單語的主題詞向量,利用漢緬雙語詞典將漢語、緬甸語單語主題詞向量映射到共享的語義空間,得到漢緬雙語主題詞向量,最後通過計算漢語、緬甸語主題相似度獲取漢緬雙語可比文檔。實驗結果表明,該文提出的方法得到的F1值比基於雙語詞向量方法提升了5.6%。
關鍵詞:主題模型;雙語詞向量;文檔相似度;漢語—緬甸語;雙語可比文檔
引用格式:李訓宇,毛存禮,餘正濤,高盛祥,王振晗,張亞飛. 融合主題模型及雙語詞向量的漢緬雙語可比文檔獲取方法[J]. 中文信息學報, 2021, 35(1): 88-95.
LI Xunyu, MAO Cunli, YU Zhengtao, GAO Shengxiang, WANG Zhenhan, ZHANG Yafei.Chinese-Burmese Comparable Document Acquisition Based on Topic Model and Bilingual Word Embedding[J]. Journal of Chinese Information Processing, 2020, 35(1):88-95.
全文連結:點擊下載
✦ 基於生活日誌的情緒識別
作 者:王鵬宇,張 敏,馬為之,劉奕群,馬少平
摘 要:抑鬱症日益成為影響現代人生活幸福程度的重要因素。實時有效地識別用戶情緒的方法對於抑鬱症潛在患者的發現和治療十分有意義。用戶情緒的狀態及變化會體現在其生活日誌數據上。該文從使用可穿戴設備收集的用戶生活日誌數據出發,對數據進行了特徵方面的分析;進一步地,使用以回歸樹為弱學習器的集成學習模型,設計了使用全部數據、僅用戶自身數據以及僅他人數據進行訓練的三組實驗構成的對比實驗框架,以比較使用不同用戶數據對識別結果的影響。實驗結果表明,基於生活日誌數據的集成學習模型可以有效地識別用戶的情緒狀態。同時,基於實驗結果提出了用戶認知不一致的猜想,對於心理學上的抑鬱分析也有一定的啟發作用。該工作是目前所知第一個利用用戶生活日誌信息進行情緒識別以及抑鬱症患者分析的工作,為後續進一步擴大實驗規模和改良實驗設計提供了思路。
關鍵詞:生活日誌數據;情緒識別;集成學習
引用格式:王鵬宇,張敏,馬為之,劉奕群,馬少平. 基於生活日誌的情緒識別[J]. 中文信息學報, 2021, 35(1): 96-103,112.
WANG Pengyu, ZHANG Min, MA Weizhi, LIU Yiqun, MA Shaoping. Emotion Recognition Based on Life Log Data[J]. Journal of Chinese Information Processing, 2020, 35(1):96-103,112.
全文連結:點擊下載
✦ 基於神經網絡融合標籤相關性的多標籤情感預測研究
作 者:陳 瑋,林雪健,尹 鍾
摘 要:近年來,多標籤分類任務(MLC)受到了廣泛關注。傳統的情感預測被視為一種單標籤的監督學習,而忽視了多種情感可能在同一實例中共存的問題。以往的多標籤情感預測方法沒有同時提取文本的局部特徵和全局語義信息,或未考慮標籤之間的相關性。基於此,該文提出了一種基於神經網絡融合標籤相關性的多標籤情感預測模型(Label-CNN_LSTM_Attention,L-CLA),利用Word2Vec方法訓練詞向量,將CNN和LSTM相結合,通過CNN層挖掘文本更深層次的詞語特徵,通過LSTM層學習詞語之間的長期依賴關係,利用Attention機制為情意詞特徵分配更高的權重。同時,用標籤相關矩陣將標籤特徵向量補全後與文本特徵共同作為分類器的輸入,考察了標籤之間的相關性。實驗結果表明,L-CLA模型在重新標註後的NLP&CC2013數據集上擁有較好的分類效果。
關鍵詞:多標籤分類;情感預測;神經網絡
引用格式:陳瑋,林雪健,尹鍾. 基於神經網絡融合標籤相關性的多標籤情感預測研究[J]. 中文信息學報, 2021, 35(1): 104-112.
CHEN Wei, LIN Xuejian, YIN Zhong. Neural Network Based Multi-label Sentiment Analysis via Tag Fusion[J].Journal of Chinese Information Processing,2020,35(1):104-112.
全文連結:點擊下載
✦ 基於命名實體敏感的分層新聞故事線生成方法
作 者:樊笑冰,饒 元,王 碩,李睿祥,劉旭輝
摘 要:社會網絡中海量、無序且碎片化的新聞數據,使得人們無法從細粒度感知新聞事件,更無法多視角把握事件發展脈絡。為了解決這個問題,該文提出基於命名實體敏感的分層新聞故事線生成方法,在無監督的情況下,充分利用新聞信息構造層次化、多視點的事件脈絡。該方法主要通過以下3個步驟實現:①基於事件主題信息與隱式語義信息相結合的方法檢測事件;②基於多維語義信息的社區檢測算法劃分主題事件的子事件;③基於多視點信息構造事件發展的脈絡。在真實數據集上的實驗結果表明,該方法在三個步驟比基線方法均有提高,其中在構造事件發展脈絡階段,該方法在理解性、概括性和準確性指標上分別高出0.44、0.11和0.50。
關鍵詞:事件演變;故事線;聚類;主題模型;社區發現
引用格式:樊笑冰,饒元,王碩,李睿祥,劉旭輝. 基於命名實體敏感的分層新聞故事線生成方法[J]. 中文信息學報, 2021, 35(1): 113-124.
FAN Xiaobing, RAO Yuan, WANG Shuo, LI Ruixiang, LIU Xuhui. Named Entity Sensitive Generation of Hierarchical News Storyline[J]. Journal of Chinese Information Processing, 2020, 35(1): 113-124.
全文連結:點擊下載
✦ 基於多源知識圖譜融合的智能導診算法
作 者:劉道文,阮 彤,張晨童,邱家輝,翟 潔,何 萍,葛小玲
摘 要:患者網上掛號時常有掛錯科室的現象,因此需要科室推薦應用,功能類似線下醫院的護士臺預診。然而,由於醫院科室設置不盡相同,患者各項特徵和科室之間的關係也不明確,給自動科室推薦帶來挑戰。因此,該文首先定義了帶權重的知識圖譜,用於描述症狀、疾病以及性別等特徵與科室和醫院之間複雜的量化關係。其次,利用區域信息平臺的電子健康檔案(electronic health records,EHR)數據,獲取多家醫院的疾病—科室信息。在融合國際疾病編碼(international classification of diseases,ICD)、醫療網站中的症狀—疾病數據後,用搜尋引擎結果補充權重關係,形成可用的知識圖譜。圖譜目前包含了38家醫院,6 110個科室,6 220個症狀,60 736個症狀相關疾病關係。當患者輸入基於自然語言描述的症狀與疾病後,通過該文設計的預濾噪的BERT實體識別模型與部位制導的醫療實體歸一化算法,識別並歸一化患者主訴中的症狀詞、疾病詞和部位詞。最後,基於該文設計的基於權重的聯合症狀預測疾病概率算法(weight-based disease prediction algorithm based on multiple symptoms,WBDPMS),聯合多個症狀預測可能的相關疾病,以此來實現通過主訴推薦最合適的醫院及科室。實驗結果表明,準確率達到0.88。
關鍵詞:知識圖譜;智能導診;實體識別;實體對齊;實體歸一化
引用格式:劉道文,阮彤,張晨童,邱家輝,翟潔,何萍,葛小玲. 基於多源知識圖譜融合的智能導診算法[J]. 中文信息學報, 2021, 35(1): 125-134.
LIU Daowen, RUAN Tong, ZHANG Chentong, QIU Jiahui, ZHAI Jie, HE Ping, GE Xiaoling. Clinical Departments Recommendation by Fusing Knowledge Graphs from Electronic Healthcare Records and Medical Websites[J]. Journal of Chinese Information Processing, 2020, 35(1): 125-134.
全文連結:點擊下載
✦ 基於Transformer網絡的中文單字詞檢錯方法研究
作 者:曹 陽,曹存根,王 石
摘 要:錯別字自動識別是自然語言處理中一項重要的研究任務, 在搜尋引擎、自動問答等應用中具有重要價值。儘管傳統方法在識別文本中多字詞錯誤方面的準確率較高,但由於中文單字詞錯誤具有特殊性,傳統方法對中文單字詞檢錯準確率較低。該文提出了一種基於Transformer網絡的中文單字詞檢錯方法。首先,該文通過充分利用漢字混淆集和Web網頁構建中文單字詞錯誤訓練語料庫。其次,在實際測試過程中,該文對實際的待識別語句採用滑動窗口方法,對每個滑動窗口中的句子片段分別進行單字詞檢錯,並且綜合考慮不同窗口的識別結果。實驗表明,該方法具有較好的實用性。在自動生成的測試集上,識別準確率和召回率分別達到83.6% 和65.7%;在真實測試集上,識別準確率和召回率分別達到82.8%和61.4%。
關鍵詞:單字詞檢錯;Transformer網絡; 滑動窗口
引用格式:曹陽,曹存根,王石. 基於Transformer網絡的中文單字詞檢錯方法研究[J]. 中文信息學報, 2021, 35(1): 135-142.
CAO Yang, CAO Cungen, WANG Shi. A Transformer Approach to Error Detection of Chinese Single-character Word[J]. Journal of Chinese Information Processing, 2020, 35(1): 135-142.
全文連結:點擊下載
↑點開查看清晰大圖
本期責編:公子小白