論文原文:Incorporating Graph Attention Mechanism into Knowledge Graph Reasoning Based on Deep Reinforcement Learning
出版:EMNLP 2019
關鍵詞:基於路徑的知識圖譜推理,深度強化學習,圖注意力機制,LSTM,知識圖譜補全
在本文中,我們提出了一個基於 AttnPath 的基於深度強化學習的模型,該模型將 LSTM 和圖注意力機製作為記憶組件。我們定義兩個指標,平均選擇率(MSR)和平均替換率(MRR),以定量地衡量學習查詢關係的難度,並在強化學習的框架下利用它們來微調模型。同時,提出了一種新的強化學習機制,即通過強制智能體每走一步來避免智能體不斷停滯在同一實體節點上。基於此操作,所提出的模型不僅可以擺脫預訓練過程,而且與其他模型相比也能達到最新的性能。
我們在具有不同任務的 FB15K-237 和 NELL995 數據集上測試了我們的模型。大量的實驗表明,我們的模型在許多當前最先進的方法中均有效且具有競爭力,並且在實踐中也表現良好。
主要有三種方式執行知識圖譜推理,基於規則、基於嵌入和基於路徑的方法。同時,知識圖譜推理提供了一種視角:將深度強化學習帶入到預測缺失連結到任務中。例如 DeepPath,一個基於路徑的方法,它是第一個將深度強化學習集成到知識圖譜推理任務中的工作。相比於 PRA,它仍然有一些缺陷:- 缺乏記憶組件,導致需要預訓練。預訓練要求提供許多已知的或存在的路徑用於模型訓練。這種暴力操作可能使模型在用於預訓練的路徑上過擬合。- 訓練過程中為知識圖譜中不同的關係設置同樣的超參數是不合理的,它忽略了實體之間連接的多樣性。- 當智能體選擇無效的路徑時,它將停止並重新選擇,可能導致不斷選擇無效的路徑並最終卡在一個結點上。
因此,在該文中,作者提出一種新的深度強化學習模型和一個算法,試圖解決上述問題。該方法屬於基於路徑的框架中。該文的貢獻主要是:
提出一種模型 AttnPath,集成 LSTM 和圖注意力作為記憶組件,並不再需要預訓練。
定義了兩個度量標準(MSR和MRR),以定量地度量學習關係的可替換路徑的難度。該度量用於微調模型。
提出了一種新的強化學習機制,通過強制智能體每走一步來避免智能體不斷停滯在同一實體節點上。
因為使用強化學習作為序列決策模型的訓練算法,作者首先介紹知識圖譜推理中的強化學習框架的基本元素。包括環境、狀態、行為和獎勵。
環境:在該任務中,環境指的是整個知識圖譜,排除查詢關係和逆關係。環境在整個訓練過程中保持不變。 狀態:智能體的狀態由三部分拼接而成,嵌入部分、LSTM 部分、圖注意力部分。不同於 DeepPath 使用 TransE 作為知識圖譜嵌入模型,AttnPath 使用 TransD 模型。狀態的嵌入部分可描述為:
狀態的 LSTM 部分和圖注意力部分在後文描述。
行為:對於知識圖譜推理任務,一個行為指的是一個智能體選擇關係路徑前進。基於深度強化學習的框架,它根據模型提供的概率選擇關係。行為可能是有效的或無效的。有效的行為表示有輸出關係是與當前實體相連的關係,而無效的關係表示該實體沒有對應的關係。
獎勵:獎勵是根據行為是否有效、或者一系列行為是否能在有限步驟內導向正確的尾實體,而給予智能體的反饋。
對於無效的行為,獎勵是 -1. 對於不引向真實實體的行為,作者選擇 ConvE 的輸出作為獎勵。因為 ConvE 輸出概率,在 (0, 1) 之間,作者使用對數操作將獎勵的擴大並提升可辨別性。
對於引向真實實體的行為,即成功的事件,獎勵是全局準確性、路徑高效性、路徑多樣性的加權和。按照慣例,將全局準確性設置為 1,並且路徑效率是路徑長度的倒數,因為我們鼓勵智能體儘可能少地走步。路徑多樣性定義為:
其中 |F| 是找到的路徑的數量,p 是路徑的嵌入,簡單地定義為路徑中所有關係嵌入的和。
上面的定義保證了有效動作的獎勵總是大於無效動作的獎勵,而成功的事件的獎勵總是大於不成功的事件的獎勵。
3.2 LSTM 和圖注意力作為記憶組件在模型中,作者使用三層 LSTM,使智能體能記憶並從記憶中學習之前執行過的行為。將第 t 步的隱藏狀態是記為 h_t,初始隱藏狀態為 h0,我們可得:
這就是狀態的 LSTM 部分。
通常而言,一個實體有多個方面,例如表示一個人的實體可能有職業和家庭成員兩種角色。對於不同的查詢關係,較好的方式是讓智能體關注於與查詢關係更加相關的關係與鄰居。
因此,作者引入了圖注意力機制。GAT 是在實體結點的自注意力。圖注意力機制部分的描述如下:
智能體選擇一個動作並獲得獎勵。在成功到達尾部實體或未達到指定的次數後,整個事件的獎勵將用於更新所有參數。使用 REINFORCE 算法完成優化,並使用以下隨機梯度更新θ:
上面圖 1 展示了強化學習框架,相比於 DeepPath 的關鍵創新是集成了 LSTM 和圖注意力機制。讀到這裡,請再讀一遍該論文原文的標題。
3.3 平均選擇/替換率對於不同的查詢關係,需要為每個查詢模型訓練不同的模型。實際上,每種關係的難度值都完全不同。某些關係可能具有更多的替換關係,這表明智能體可以輕鬆選擇從頭部實體到尾部的替換路徑。因此,我們在這裡發明了兩個指標,均值選擇率(MSR)和均值替換率(MRR),以定量地衡量每個關係的難度值。
較低的 MSR 表示更難學習給定的關係,因為與該關係相連的實體可能有更多的語義層面。
較高的 MRR 表示關係可能有更多的替代關係,所以它更容易學習因為智能體可以直接選擇替代關係來到達終點。
該模型中使用了三種方法來防止過擬合:L2 正則化、dropout、行為 dropout。但是,對於易於學習的關係(較高的MSR和MRR),我們希望施加更多的正規化以鼓勵智能體找到更多不同的路徑,而又不會過分適應即時的成功。另外,對於較難學習的關係(MSR和MRR較低),我們最好將重點放在尋找路徑的成功率上,因此應減少正則化。
為簡單起見,我們使用指數計算關係r的難度係數。它定義為 exp(MSR(r) + MRR(r)),並分別乘以三種正則化方法的基本速率。正則化方法的基本速率基於 KG,在同一 KG 中的所有關係之間共享。
3.4 整體訓練算法基於提出的模型,我們提出了一種新的訓練算法,如算法 1 所示。
作者對算法的貢獻之一是,當智能體選擇無效路徑時,模型不僅會對其進行懲罰,還會強制其選擇有效關係以向前邁進。來自神經網絡的概率在所有有效關係中均被歸一化,這反過來又影響了強制行為的概率。
初始化之後,第6行根據網絡的輸出對動作進行採樣。當智能體選擇無效動作時,將執行第7到10行,而第9到10行則迫使智能體向前移動。當智能體選擇有效動作時,將執行第12行。第19、22和25行使用獎勵-1,Rtotal和Rshaping分別更新無效動作,成功事件中的有效動作和不成功事件中的有效動作的參數。
作者使用關係預測和連結預測兩個任務對該模型做實驗,並比較了和 DeepPath 的表現差距。
在本文中,作者提出了 AttnPath,這是一種基於 DRL 的 KG 推理任務模型,該模型將 LSTM 和圖注意力機製作為記憶組件,以減輕模型的預訓練。
作者還發明了兩個指標 MSR 和 MRR 來衡量關係的學習難度,並將其用於更好地微調訓練超參數。
作者改進了訓練過程,以防止智能體陷入毫無意義的狀態。
定性實驗和定量分析表明,作者的方法明顯優於DeepPath和基於嵌入的方法,證明了其有效性。
在未來,作者有興趣於使用多任務學習,使模型能同時學習多個查詢關係。作者也感興趣於研究如何使用 GAT、MSR 和 MRR 於其他 KG 相關的任務,例如 KG 的表示、關係聚類和 KBQA。
地址:https://www.zhihu.com/people/dai-tu-zhe