4.基於Self-Attention和Bi-LSTM的中文短文本情感分析
4.1論文信息
西北大學 信息科學與技術學院,吳小華,陳 莉,魏甜甜,範婷婷中文信息學報,2019年歸檔:WPS網盤\我的雲文檔\論文匯報\畢業論文\論文部分\短文本情感分析算法部分\參考文獻4.2論文重點
研究目的:對於當前基於注意力機制和雙向LSTM依賴於分詞精度的問題,研究者認為,採用字向量的方法可以解決過度依賴分詞精度的問題,採用自注意力機制可以獲取文本內信息。研究方法:通過字向量作為輸入,採用Bi-LSTM提取文本重要信息,採用Self-Attention方法進行權重調整,並最後按照Softmax函數進行分類研究結果:相對於其他方法具有一定的提升:
4.3模型分析
本研究提出一種基於Self-Attention的Bi-LSTM的模型character-SATT-BiLSTM,具體如下:
該模型分為四層,分別為字向量表示層、特徵學習層、權重調整層以及情感分類層。進一步進行探究 :
4.3.1 字向量表示層
依賴於詞向量的訓練方式需要有較高的分詞精度,為此作者在此處直接使用了語言單位更小的字向量。通過Skip-gram算法進行大規模訓練,每個字維度為300維。算法可以通過以下形式進行表示:
表示參數集合,算法目標是尋找最佳參數的集合。為字向量,為的語境,即:的前後各字構成的集合。因此,(原文公式應該採用豎線,表示條件,應該是排版錯誤導致)表示在條件下,語境出現的概率。表示所有字和字對應的語境集合,以及(原文公式應該是,而非,至少我到目前為止搞不清楚下標m所表示的具體含義,也沒有關於其是否為集合的表述,應該是公式弄錯了)分別表示和的向量。
4.3.2 特徵學習層
首先需要了解下LSTM,然後再對Bi-LSTM進行探究:
4.3.2.1 LSTM
【LSTM】中文名稱為:長短時記憶神經網絡,其網絡結構圖如下:
LSTM的核心在於頂部貫穿整個神經網絡的「傳送帶」,學術名稱為細胞狀態,該狀態由兩個關鍵的門組成,分別為遺忘門、輸入門。
4.3.2.1.1 細胞更新
如上圖所示,時刻的細胞狀態更新依賴於兩點,一個是上一時刻的細胞狀態(),和本時刻的輸入,其中上一時刻細胞狀態經過遺忘門後,選擇性的丟棄一部分信息,經經過輸入門將此時刻的部分信息加入進來。如下圖比較清晰的闡明了該過程:
因此,細胞更新狀態的方法可以表述為:
。接下來 將具體闡述以及和是如何計算的。
4.3.2.1.2 遺忘門
上圖為遺忘門的結構圖,其接受來自上一時刻隱層的信息以及此時刻的輸入信息,經過函數計算,輸出決定丟棄多少信息。這一過程可以理解為,比對上一時刻和此時刻輸入信息是否存在差異,如果差異比較大則認為上一時刻信息十分重要,應該保留,給與較大的通過權限;如果上一時刻和此時刻輸入信息差別不大,則需要將上一時刻信息做較大的丟失。舉例:對於圖像識別而言,上一幀畫面和現在這幀畫面差別不大,則我們直接用現在這幀畫面表示即可,而上一時刻畫面丟失掉(他的作用完全可以由現在這幀替代)。可以通過如下方式進行表示:
其中,和則是通過加權和的方式結合。
4.3.2.1.2 輸入門
上圖為輸入門的結構圖,使用函數判定在新的輸入值中保留哪些信息,使用層生成候選向量。分別通過如下方法表示:
到目前為止即可完成對細胞狀態的更新。但是對於時刻而言,還需要向外輸出一個時刻的值。
4.3.2.1.3 輸出門
其中
以及
4.3.2.2 Bi-LSTM
為一個經典的Bi-LSTM圖示,其中隱層輸出為。
4.3.3 權重調整層
該層採用了自注意力機制方法,其表示方法如下:
其中為句子向量,為調整因子,為了防止內積過大,導致輸出值非0即1的情況。
4.3.4 模型訓練
Loss函數為交叉熵損失函數:
4.4 模型參數