賽爾筆記|基於知識引入的情感分析

2021-01-11 雲孚科技北京

作者:哈工大SCIR 袁建華 袁明琛 盧延悅

1.引文

情感分析 知識

當training數據不足以覆蓋inference階段遇到的特徵時,是標註更多的數據還是利用現有外部知識充當監督信號?

基於機器學習、深度學習的情感分析方法,經常會遇到有標註數據不足,在實際應用過程中泛化能力差的局面。為了彌補這一缺點,學者們嘗試引入外部情感知識為模型提供監督信號,提高模型分析性能。本文從常見的外部情感知識類型出發,簡要介紹在情感分析中使用知識的一些代表性工作。

2.正文

我們為什麼要不斷嘗試在情感分析中融入知識呢?筆者以為有如下幾點原因:

1)一般的文本分類任務只提供句子或文檔級別的情感標籤,引入情感詞典等先驗情感知識可以給情感文本引入更細粒度監督信號,使得模型能學到更適合情感分析任務的特徵表示。

2)底層的詞性、句法等分析任務能給下遊的情感分類、抽取任務提供參考信息,如評價表達通常是形容詞或形容詞短語,而評價對象通常是名詞;不同情感分析任務本身存在相互促進作用,如評價對象和評價詞在句子中出現的距離通常比較近,聯合抽取能同時提高兩者的性能表現。

3)短文本評論通常略去了大量的背景常識知識,從文本本身通常難以推斷真實情感傾向性。例如一條有關大選的推文內容是「I am so grateful for Joe Biden. Vote for #JoeBiden!!」,文本中並未涉及任何有關Trump的描述,要判斷它關於Trump的立場傾向性時,需要了解的背景知識是,二者是這次大選的競爭對手,支持一個人就意味著反對另一個人。

那情感分析常用的知識又有哪些呢?

2.1 知識的類型及情感分析常用知識庫

依據對知識獲取途徑的劃分方式[1],我們簡單總結了情感分析中常用的知識類型:

顯性知識一般情感詞典(如MPQA,Bing Liu詞典等),情感表情符;否定詞(Negation)、強化詞(Intensification)、連接詞(Conjunction)等規則SentiWordNetConceptNet,SenticNet數據數據 (Twitter、微博表情符弱標註數據)領域數據集 (例如某一類別商品評論數據)學習算法詞法、句法、語義依存等模型多任務學習算法預訓練語言模型、詞向量學習算法其中,以情感詞典最為常用。情感分析數據通常結合語言模型算法,產生情感向量表示作為下遊任務輸入;詞法、句法分析模型一般直接為下遊情感分析任務提供特徵輸入或者以多任務學習的方式參與到下遊情感分析任務的訓練過程中;結構化的外部知識庫通常需要藉助圖算法進行特徵挖掘,為文本提供更豐富的常識、情感上下文信息。

2.2 知識的引入方式及在情感分析部分任務上的應用

下表展示了幾種常見的知識類型及其特點,我們將根據知識的獲取途徑及引入方式,結合具體論文闡述其使用方式。

知識類型優點缺點人工情感詞典質量高規模小,靜態,覆蓋低自動情感詞典規模大靜態、質量低語言學規則適用範圍廣不夠準確預訓練語言模型上下文建模能力強參數量大,訓練時間長,運行速度慢常識知識庫規模大、質量高、覆蓋全利用困難目前,相關的情感分析工作可以大致分為以下幾類:

引入情感詞典知識要說情感知識,大部分人首先會想到的就是人工編纂的情感詞典,它簡明直觀、質量高、極性明確,使用方便,廣泛應用在情感分類、情感元素抽取、情感原因發現、情感文本風格遷移等多種情感分析任務上。情感詞區別於非情感詞的地方在於,它們一般表徵一定的情感/情緒狀態,通常情感詞典中還會給出其強度打分。類似的,現在網絡上流行的部分表情符 (emoj,如:) 、:( 、、)也能表徵某些情感/情緒狀態。

圖1 人工編纂的情感詞典我們在這裡介紹一個同時使用情感詞典中詞的極性和打分的工作,看看前人們是如何在神經網絡中把情感詞的情感信息融入文本的情感表示中的。

給定一段評論文本,Teng等人[2]首先找出其中的情感相關詞彙(如情感詞、轉折詞、否定詞),並計算其對文本整體情感極性的貢獻程度,然後將每個詞的貢獻值乘上其情感得分作為局部的情感極性值,最終加上全局的情感極性預測值作為整個文本的情感得分。

圖2 同時使用情感詞典中詞的極性和打分雖然上述工作在計算情感得分時,考慮了not、very等否定詞、強化詞的得分信息,但是沒有顯式把這些詞對周圍詞的情感語義表示的影響刻畫出來,Qian等人[3]考慮到情感詞、否定詞、強化詞在情感語義組合過程中起到的不同作用,對文本建模過程中對不同位置詞的情感分布加以約束。例如,若一個詞的上文是not等否定詞,會帶來not處文本情感語義的翻轉。

圖3 對不同位置詞的情感分布加以約束總體來看,情感詞典作為一種易於獲取、極性準確的情感知識,能夠在標註語料之外,為情感分析提供額外的監督信號,既可以提升有監督模型的泛化能力,也能夠為半監督、無監督模型提供一定的指導。

引入大規模無標註語料語言建模作為一個典型的自監督學習任務,其語言模型產生的詞表示作為下遊任務網絡模型的輸入,表現出優越的性能,因而得到廣泛的應用。如果能將情感知識融入到語言模型中,其產生的詞表示必然對情感分析各子任務帶來性能提升。

我們接著介紹一個在詞向量中融入顯式情感詞典知識(實際使用的是表情符)的方法。

Tang等人[4]觀察到,一般的詞向量對於「good」和「bad」這種上下文相近但極性相反的詞,給出的向量表示沒有很強的區分性,不利於下遊的各情感分析任務。Twitter和微博中有海量包含表情符的文本,利用這些情感極性明確的表情符可以過濾得到大量弱標註的情感文本。Tang等人使用這些語料,他們在普通的C&W模型基礎上,引入情感得分相關的損失,將這些弱標註的情感信息融入詞向量表示中,使「good」和「bad」這種上下文相近但情感不同的詞的向量表示有明顯的差異。在情感分類任務上,他們驗證了融入情感表情符知識的有效性。在此基礎上,他們還進一步自動構建大規模情感詞典,該詞典被[2]應用到Twitter情感分類任務上。

圖4 將基於表情符過濾的弱標註情感信息融入詞向量表示中引入外部特徵提取算法除了準確的情感詞知識,詞法、句法、語義依存信息、評價詞和評價表達等情感信息在文本的情感語義建模過程中也發揮了重要作用,這些知識不是顯性存在於大規模的知識圖譜中,而是存在於對應的人工標註數據中。一般利用學習算法從這些數據中訓練用於提取特徵的模型。

Tian等人[5]在近期的預訓練BERT語言模型基礎上,將文本中的評價對象(屬性)、情感詞等情感元素引入Mask Language Model預訓練任務,進一步提高了BERT類模型在多個情感分類數據集上的性能。

圖5 將多種情感元素引入Mask Language Model預訓練任務同[3]類似,Ke等人[6]在預訓練語言模型中引入詞級別的情感、詞性知識。他們先給每個詞預測詞性信息,然後依據詞性信息從SentiWordNet中推斷其情感極性。基於獲得的詞性和情感信息,他們在一般的Masked Language Model基礎上同時預測這些語言學標籤,實現在預訓練語言模型中注入情感知識。該模型在主流的情感分類、細粒度情感分析數據集上取得了目前最好的結果,證明引入詞性和情感極性知識在預訓練任務中的有效性。

圖6 在預訓練語言模型中引入詞級別的情感、詞性知識Sun等人[7]提出在面向屬性的情感分類(ABSA)任務上,引入Stanford parser解析得到的依存樹信息輔助識別評價對象相關的評價詞。他們將GCN在依存樹上學習得到的表示與BLSTM學習到的特徵結合,判斷句子針對評價對象的情感極性。

圖7 將GCN在依存樹上學習得到的表示與BLSTM學習到的特徵結合在外部特徵引入方式上,目前方法以兩種方法為主:(1)直接作為特徵輸入模型(2)以多任務學習的方式,作為輔助任務與主任務一同訓練。這些方法的區別主要在引入特徵類別或者輔助任務的任務設計。

引入常識知識除了情感詞典、情感詞向量、情感預訓練語言模型、文本特徵抽取器外,結構化的外部知識也是很常見的一種情感知識來源。它的特點是規模大,覆蓋面廣,蘊含豐富的實體、事件或者常識概念間相關關係知識。結構化知識中具備高質量的關係類型,因而適用於需要推理、泛化的情感分析任務。

一個典型的需要泛化的任務是跨領域文本情感分類任務。源端和目標端的評價對象、評價詞等情感相關特徵差異較大,訓練時模型依賴的源端分類特徵未必會在目標端文本中出現,如何將這些情感特徵進行對齊是一個重要且富有挑戰性的問題。一類方法是使用通用情感詞典作為pivot信息,建立源端、目標端共享特徵的對齊,但這類方法只考慮共享的情感詞信息,且通過文本本身學習到的情感表達對齊也不充分、準確,同時無法捕獲到不同領域之間評價對象之間連結關係。

而結構化外部知識正好彌補了這些缺點,它蘊含情感詞到非情感詞、不同領域評價對象之間的關聯關係。近年由於圖表示算法的進步,學者們能夠更高效的對這些結構化外部知識加以利用。

在跨領域情感文檔情感分類任務上,Ghosal等人[8]在ACL2020上提出KinGDOM算法, 利用ConceptNet為所有領域構建一個小規模知識圖譜,然後找出每個文檔中獨有的名詞、形容詞、副詞集合,再依據從中抽取出一個文檔相關的子圖,進而提供一個由知識庫知識提取而來的特徵表示,與文檔本身的情感表示一起做最後的情感分類。

圖8 KinGDOM算法類似地,在跨目標立場分類任務上,Zhang等人[9]利用SenticNet和EmoLex構建學習帶情緒關係連接的語義-情緒圖譜(SE-graph),並使用圖卷積神經網絡(GCN)學習節點表示。給定一段文本,他們使用SE-graph為每個詞學習構建一個子圖並學習其表示,得到的外部特徵表示送入修改後的BLSTM隱層,與當前上下文特徵進行融合。

圖9 基於SE-graph 使用GCN學習節點表示這兩個工作都使用外部結構知識,擴展了輸入特徵空間,利用知識庫中的連接將源端和目標端的評價詞、評價對象等特徵進行對齊,極大地豐富了情感上下文信息。

3.總結

本文介紹了情感分析中引入外部知識的部分工作,簡要介紹了現階段情感分析常用的外部知識,從最常見的情感詞典入手,逐步介紹基於情感詞典的情感詞向量、預訓練語言模型,展示了使用多任務學習融合詞性、依存句法等文本底層特徵抽取器的工作,最後介紹了近期熱門的使用結構化外部知識的文本情感遷移學習工作。我們可以看出,情感詞典雖然最為簡單,卻是情感知識引入多種引入方式的基石,在情感分析算法中地位無出其右。

對於未來工作,一方面,由於目前的情感分析中知識引入的應用場景仍局限在情感分類任務中,有待擴展到情感抽取、情感(多樣性)生成等各個情感分析任務上;另一方面,在情感分析專用預訓練語言模型中融合結構化外部知識,增強預訓練語言模型對情感分析相關世界知識的理解仍有待探索。

參考資料

[1]劉挺,車萬翔. 自然語言處理中的知識獲取問題.

[2]Teng et al. Context-Sensitive Lexicon Features for Neural Sentiment Analysis.

[3]Qian et al. Linguistically Regularized LSTM for Sentiment Classication.

[4]Tang et al. Learning Sentiment-Specic Word Embedding for Twitter Sentiment Classication.

[5]Tian et al. SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis.

[6]Xu et al. SentiLARE: Sentiment-Aware Language Representation Learning with Linguistic Knowledge.

[7]Sun et al. Aspect-Level Sentiment Analysis Via Convolution over Dependency Tree.

[8]Ghosal et al. KinGDOM: Knowledge-Guided DOMain Adaptation for Sentiment Analysis.

[9]Zhang et al. Enhancing Cross-target Stance Detection with Transferable Semantic-Emotion Knowledge. #人工智慧#

相關焦點

  • 每日一讀:基於情感融合和多維自注意力機制的微博文本情感分析
    從今天開始,我會將每天的閱讀筆記上傳至公眾號,因本人水平有限,如存在錯誤之處,還請批評指正3.基於情感融合和多維自注意力機制的微博文本情感分析3.1論文信息中國民航大學電子信息與自動化學院,韓萍,孫佳慧,方 澄,賈雲飛計算機應用,2019年歸檔:WPS
  • 產品分析|你的第二大腦——印象筆記
    本文將從以下幾個方面進行分析:用戶分析用戶調研優化方案報告總結01 用戶分析1.1 用戶畫像02 用戶調研問題列表2.1 調研目的本次用戶調研目的是針對印象筆記作為「知識管理」的使用情況,探尋用戶出現「信息囤積」的情況及其原因分析,力求尋找解決「囤積問題」的辦法,主要通過收集用戶反饋、問卷調查、語音深度訪談進行
  • 每日一讀:基於雙重注意力模型的微博情感傾向性分析
    2.基於雙重注意力模型的微博情感傾向性分析2.1 論文信息太原理工大學信息與計算機學院,羅春春,郝曉燕南京大學學報(自然科學),2020年歸檔:WPS網盤\我的雲文檔\論文匯報\畢業論文\論文部分\短文本情感分析算法部分\參考文獻2.2 論文重點研究目的
  • 競品分析報告:有道雲筆記與印象筆記
    本文作者針對兩款產品——有道雲筆記和印象筆記,進行了對比分析,其中包括用戶分析、產品定位、互動設計、功能結構等方面,最後針對分析比較給出相關建議。本文選取產品定位同為辦公類應用,且知名度與活躍用戶量與有道雲筆記相當的印象筆記作為主要競品進行分析。作為一名產品初學者,我在本文中將試從主要競品的整體情況、用戶與產品定位、視覺設計、功能結構等層面進行分析,並重點討論創建筆記這一核心功能的產品交互特點。在文末,我將以提升用戶粘性、實現用戶增長為目標,提出四點改進建議。
  • 達觀數據乾貨分享丨情感分析架構演進
    本篇將著重講解情感分析在達觀的實現架構和經驗。情感分析可以看做一個二分分類問題,即將表達正面情感的文本作為類別「1」,以負面情感文本作為類別「0」。規則算法——樸素思路的啟示最樸素的情感分析實現方式是基於情感詞典和規則,大致分為三個步驟:1. 分詞:分詞是中文自然語言處理的基礎,即把一個句子精確切分成一個個詞語。
  • 百分點認知智能實驗室出品:情感分析在輿情中的研發實踐(上)
    基於此,潛在的用戶就可以通過瀏覽和分析這些主觀色彩的評論來了解大眾輿論對於某一事件或產品的看法。百分點認知智能實驗室基於前沿的自然語言處理技術和實際的算法落地實踐,真正實現了整體精度高、定製能力強的企業級情感分析架構。
  • 每日一讀:基於Self-Attention和Bi-LSTM的中文短文本情感分析
    4.基於Self-Attention和Bi-LSTM的中文短文本情感分析4.1論文信息西北大學 信息科學與技術學院,吳小華,陳 莉,魏甜甜,範婷婷中文信息學報,2019年>歸檔:WPS網盤\我的雲文檔\論文匯報\畢業論文\論文部分\短文本情感分析算法部分\參考文獻4.2論文重點研究目的:對於當前基於注意力機制和雙向LSTM依賴於分詞精度的問題,研究者認為,採用字向量的方法可以解決過度依賴分詞精度的問題,採用自注意力機制可以獲取文本內信息。
  • 極致體驗|最懂您的賽爾102S人機互動
    賽爾無人機為了實現高精度免像控,而對產品精益求精的技術追求。賽爾102S之所以在客戶應用中擁有良好的口碑,擁有的不僅是技術上的專研,還有緊跟市場需求,不斷改良與優化,最終給予客戶最完美的人機互動體驗。賽爾102S作為工業級的產品,卻擁有消費級的人機互動體驗,這就是賽爾無人機的「工匠精神」。
  • 不知道筆記系統構建方式,怎麼能選到對的筆記應用?
    編輯導讀:俗話說「好記性不如爛筆頭」,雖說現代人動筆寫字的機會越來越少了,但是筆記軟體的出現足以滿足他們的需求。常常看到網上有人詢問,什麼樣的筆記軟體最好?不同的筆記軟體,有著不一樣的構建方式。本文將以三個筆記軟體為例,分析它們的構建方式,希望對你有幫助。
  • 除了記筆記,印象筆記還想成為你的「第二大腦」|獨家對話CEO唐毅
    基於自2019年下半年開始,印象筆記團隊看到的三個大方向機會,圍繞終局思考,印象筆記接下來將從以下幾個方面發力。首先是C端,唐毅將尚未發布的「超級筆記」稱為「下一代的筆記、文檔、知識、信息平臺」,將在今年三季度左右在主APP與大家見面,不過,2019年12月上線的微信服務號速讀功能已經基於自然語義分析技術的應用,邁出了幫助用戶對信息進行加工和處理的第一步。
  • 從C端到B端 印象筆記如何做人類的「第二大腦」
    而對於未來的編輯器發展趨勢,印象筆記董事長兼CEO唐毅表示,印象筆記最新推出的「超級筆記」編輯器將筆記內容模塊化處理,而且支持各模塊的自由拖拽操作,是一個非結構化數據的多樣型的編輯器,且擁有具有處理的不同模式和靈活拖拽、靈活嵌套的能力。印象筆記董事長兼CEO唐毅目前印象筆記旗下的「超級筆記」就已經擁有了視頻、音頻等多模態的模塊,後續將會引入更為靈活的可智能嵌套的引擎。
  • 經緯M300&賽爾102S航測全流程解析
    經緯M300&賽爾102S航測全流程解析在這裡~一、 測試前準備1.航線高級設置可按需調整 航向/旁向重疊率(賽爾相機推薦使用值航向重疊率 80%旁向重疊率 70%)、主航線角度、邊距設置(為保證五相機數據採集效果,邊距需與飛行高度保持一致)。
  • 你會用印象筆記,打造「知識管理+行動系統」的第二大腦嗎?
    提取後的信息就是一個最小的知識單元,或者說知識模塊,這樣的模塊才算得上是知識資產。  我們需要做的,是將筆記加工成一個個模塊。別人儲存筆記,你提煉模塊,思考範式的轉移會帶來創造力的提升。  我自己習慣建立一個表格,對收集的課程、書籍做知識模塊的提煉,將提煉的知識模塊匯總在一張表格。
  • 樊登讀書會:慢熱型知識服務類產品分析
    和其它知識服務類用戶有哪些不同?它是如何把用戶從免費體驗轉化成付費成會員的?它接下來可能會往哪個方向發展?它對於其它知識付費類的APP有哪些啟示和借鑑?文章將從產品發展路徑、功能迭代、用戶與需求分析、產品功能、拉新流程來分析解答上面的問題。
  • 硬核知識分享大賽 心理諮詢師《心理評估》筆記總結思維導圖
    《心理學諮詢師》筆記總結分享《第六章 心理評估》思維導圖2020.5.15.需要考心理諮詢師的朋友,都是乾貨,直接拿走。初診接待:心理諮詢師與來訪者的第一次會面。攝入性會談:目的是收集資料。(一)確定會談內容和範圍所依據的參照點:求助者主動提出的求助內容。
  • 情感識別的國內外研究現狀之調研
    在視頻情感識別中,局部二值模式(Local Binary Pattern, LBP)、局部相位量化特徵(Local Phase Quantization, LPQ)、Gabor 特徵被廣泛應用於靜態圖像的情感識別工作中;時序信息為情感識別提供了關鍵信息,許多基於上述特徵的時空特徵, 如LBP-TOP(LBP from Three Orthogonal Planes)、 LPQ-TOP在基於視頻的情感識別中廣泛應用
  • 政治語篇的情感話語分析及對大學英語教學的啟示
    通過分析2017年李克強總理在十二屆全國人大五次會後回答中外記者提問的中英文語料,探討了政治語篇中通過隱喻間接表達情感的話語特點以及英文翻譯,從而揭示在大學英語教學中教師應該充分關注學習者語用理解能力和語用表達能力的培養。
  • 1500字《非理性繁榮》讀書筆記範文-讀書筆記摘抄
    新東方網高考頻道為您整理最新的讀書筆記大全,讀後感,讀書筆記摘抄,以下內容是1500字《非理性繁榮》讀書筆記範文-讀書筆記摘抄 ,更多讀書筆記範文請關注讀書筆記大全 點擊進入讀書筆記大全   讀書筆記怎麼寫?讀書筆記格式   讀者將自己在閱讀時獲得的資料或者心得體會記錄下來的一種文體。
  • :基於通路的GWAS數據網絡分析平臺開發成功
    課題組成功開發了基於通路(pathway)的GWAS數據網絡分析平臺——i-GSEA4GWAS。該平臺用於鑑別與疾病表型相關的通路/基因集,以進一步研究和揭示疾病致病機理。全基因組關聯學習(GWAS)是一種對全基因組範圍內的常見遺傳多態性(主要是單核苷酸多態性-single nucleotide polymorphisms, SNPs)進行總體關聯分析的方法,適用於包括精神疾病(mental disorder)在內的複雜疾病的研究。傳統GWAS數據分析方法對SNP/基因獨立的進行分析,忽略了複雜疾病的多基因聯合效應。
  • Nature通訊:基於先驗知識的網絡推斷
    圖2:基於先驗知識的網絡推斷工作流為了更好地判斷相關係數的顯著條件,即產生連邊的閾值,從而提升網絡推斷質量,研究者引入了先驗知識。研究者首先利用先驗知識,將已知的一定存在關聯的節點進行連接,構建了參考網絡(reference network)。