摘要
隨著現有知識圖譜的增長,知識圖譜的完成已成為一個關鍵問題。在本文中,我們提出了一種基於描述的知識表示學習框架的新模型,該模型能夠同時利用事實三元組和實體描述。具體而言,關係投影與描述-符號表示學習相結合,學習實體和關係嵌入。採用卷積神經網絡和TransR分別得到實體和關係的描述表示和結構表示。我們使用從大知識圖譜自由基生成的FB15K數據集來評估所提出的模型的性能。實驗結果表明,我們提出的模型大大優於其他現有的基線模型。
關鍵詞:知識圖譜完成、實體描述、自然語言處理
1.引言
大規模的知識圖譜(KGS),如NELL、Freebase和WordNet對於自然語言處理領域的應用非常重要,如語言建模、Web搜索等。KGS以(頭實體、關係、尾實體)的形式存儲結構化的多關係數據,這些數據稱為事實。然而,儘管有大量的事實可以遏制,大多數KGS建立的半自動或協作仍然遠遠不完整,並且總是稀疏的。完成KGS已成為一項關鍵工作。
近年來,知識圖譜完成中的嵌入方法越來越受到人們的關注。傳統的嵌入模型將實體及其關係嵌入到潛在的低維空間中。其中,TransE認為這種關係是兩個實體之間的轉換,並且比大多數這些模型表現得更好。然而,TransE忽略了在不同實體中扮演的不同角色。TransH和TransR是TransE的變體,它通過為每個特定關係設置超平面或分別在不同空間中建模關係和實體來改進跨E。對於這些模型,一個缺點是它們只關注觀察到的結構化事實。除事實外,他們不考慮納入其他信息。關於實體文本描述,實體類型,規則甚至時間信息[13]的方法很多。方法合併文本信息,如簡單地初始化實體表示,通過平均單詞向量。
本文提出了一種將關係投影與描述元表示學習相結合的模型RDRL,用實體文本信息來增強TransR模型。該模型基於描述元知識表示學習(DKRL)。具體來說,我們為每個實體設置了一個特定於關係的投影,用於區分實體和關係空間。我們的模型的優點如下:1)可以通過結合實體描述來進一步改進經典模型,如TransR;2)可以保留原始嵌入模型的優點,並在某些場合表現得更好,例如處理數據稀疏問題。本文的其餘部分組織如下。第二節介紹了以往的相關工作。第三節描述了我們提出的模型。訓練細節見第四節。第五節介紹了實驗和結果。最後,第六節得出結論。
2.相關工作
知識圖嵌入的目的是將關係和實體嵌入到一個潛在的空間中。學習過程可分為三個步驟:(1)實體/關係表示;(2)評分函數定義;(3)參數估計。
1.TransEandDKRL
傳統模型TransE將實體和關係嵌入到相同的低維向量空間中。對於描述事實(頭實體、關係、尾實體)的任何三元組,TransE持有假設,並將三元組的能量定義如下:
嵌入和中取值,這是通過最小化以下秩準則來訓練的,這些秩準則有利於正確的三元組的能量低於損壞的三元組,即:
其中[x]表示x的正部分,S是正確的三元組,S『是被任何隨機實體替換的帶有頭部或尾部實體的損壞三元組。γ>0是用來分隔正確的三元組和損壞的三元組的邊距。(具體可參考原文)
2.其它模型
基於實體描述的知識圖嵌入還有其他嘗試。本文利用實體文本信息來推斷有用信息的缺乏,提高知識圖完成的性能。
3.所提出的方法
為了解決TransE的問題,如處理複雜關係時除一對一關係外的顯著性較低的問題,我們提出了一種將關係投影與描述符號表示學習相結合的RDRL模型,該模型採用TransR代替TransE。如果能夠有效地使用關係信息,則關係信息可能是有益的。由於連續詞袋模型忽略了文本中的詞序,在對實體描述的語義進行編碼時,更容易受到提取關鍵字質量的影響,因此我們使用卷積神經網絡來表示描述嵌入。(具體可參考原文)
4.訓練細節和實施細節
我們訓練我們的RDRL作為DKRL的過程,並採用隨機梯度下降,以最小化基於邊緣的最終邊緣目標函數。我們表示S=作為校正的三元組,是損壞的三元組,它被定義為:
其中的每個元素都是通過隨機替換一個實體或關係來構造的。請注意,我們的RDRL不限於實體表示的類型。
在我們的訓練過程中,卷積核是隨機初始化的。單詞的向量是由維基百科上的GloVe預先訓練的。CNN編碼器將單詞向量作為相應的基於實體描述的嵌入的輸入和輸出。我們使用多線程版本的CNN來學習表示,以獲得更好的效率。基於結構的實體和關係嵌入是用TransE的結果初始化的。
5.實驗
1.數據
我們採用FB15K,它是用一個常用的知識圖譜Freebase建立的,以評估所提出的方法。FB15K包含1345個關係和14951個實體,它們提供存儲在結構中的世界大量信息,例如/醫學/疾病/風險等。
沒有描述性單詞或短於3個單詞的實體不包括在內,以確保所有實體在測試期間都應該有描述。與DKRL不同,我們使用GloVe訓練的單詞嵌入作為實體的表示。表一顯示了我們使用的數據集的最終統計數據,其中關係類型、實體類型和三元組的數量已經被劃分為訓練、驗證和測試集。
表1 實驗中使用的數據集
2.知識圖譜完成
知識圖譜完成旨在預測具有或缺失的損壞三元組中缺失的實體或關係。
1)參數設置
我們將我們的RDRL與一些相關的現有模型進行了比較。我們的實驗配置如下:{20,50,100}中的實體/相關維數n,{0.001,0.002,0.01}之間的固定學習速率α,{0.5,1.0,1.5}之間的裕度γ}。對於CNN編碼器,窗口大小k在{1,2,3}之間,字嵌入維數w在{50,80,100}之間,特徵映射維數f在{50,100,150}之間}。有效集合上的最優配置為:n=100,α=0.001,γ為1.5,k=2,w=100,f為100。
2)評價措施
我們在兩個子任務上評估我們的模型:實體預測和關係預測。對於實體預測,我們將頭部實體替換為實體數據集中存在的每個實體,並使用分數函數計算其分數。後來我們把他們的分數按降序排列。對於尾部實體,我們重複與頭部實體相同的過程。對於關係預測,我們使用相同的方法來替換關係數據集中的每個關係。正如[8]中所使用的,我們使用了相同的度量:(1)預測等級的平均值;(2)實體的命中率@10和關係的命中率@1,這分別意味著排列在前10位的正確實體的比例和排列在前1位的正確關係的比例。在同一個不完整的三重體中存在許多實體,這肯定是不可信的。如果它們排名在被替換的實體或關係之前,它們將導致不理想的結果。因此,我們還遵循評估設置Raw和Filter。篩選器表示該方法刪除了下降排序中所有其他合理的實體或關係。生意味著該方法不考慮上述問題。
3)結果
我們在表2中列出了實體預測的評估結果,在表III中列出了關係預測。通過與列出的模型進行比較,從表Ⅱ可以看出,我們的RDRL大大優於原來的DKRL,並且在表3中的每個度量上,它對下面列出的所有模型都表現出一致和顯著的改進。TranE、TransH(unif)、TransH(bern)、TransR(unif)、DKRL(CBOW)和DKRL(CNN)代表了[6,7,7,8,8,11]的方法。DKRL(CNN)TransE(我們的)表示基於CNN和TransE的DKRL方法。RDRL代表了我們提出的模型。
表2 比較了實體預測的結果
表3 比較了關係預測的結果
3.三級分類
三級分類已經被探索,這是一個二元分類問題。該任務旨在判斷給定的三元組是否正確。在實驗中,我們在基準數據集上對我們的模型FB15K進行了評估。為了二進位分類的任務,我們需要負三元組。由於在釋放的FB15K數據集中不包括負三元,我們在中按照相同的過程產生負樣本。為了執行任務,我們為不同的關係設置了不同的閾值。給定一個三重,如果它的分數E低於閾值,我們將三重分類為正,否則為負。閾值δr是通過最大化驗證集上的分類精度來設置的。
表4 三重分類結果比較(%)
我們將我們的模型與現有的一些工作進行了比較,使用[8]中顯示的結果,並使用中發布的DKRL代碼來完成任務。我們採用分類的準確性作為評價指標。表4顯示了FB15K數據集上三重分類的結果。從表四中,我們可以看到RDRL在FB15K數據集上表現最好。具體來說,RDRL提高了TransR(Unif)的13.3%,提高了DKRL的13.1%。
表5 FB15K數據集的統計
4.討論
在第一節中指出,雖然FB15K可以包含大量的事實,但KG仍然存在數據稀疏的問題,因此一些關係可能無法正確地捕捉到。因此,為了進一步分析,我們根據頻率將關係劃分為五組,如表5所示。頻率是根據它們在測試集中發生的次數得到的。我們比較了DKRL和RDRL的平均秩(濾波器。表五報告了從DKRL到RDRL的結果和改進。從結果可以看出:(1)對於頻率為1到3的關係,從RDRL到DKRL的改進為9.48%,這表明在處理數據稀疏問題時,分離實體空間和關係空間做得更好;(2)當處理頻率大於300的關係時,最顯著的改進發生,這表明RDRL對KG中的大多數三元組表現更好。
6.結論
將KGS的嵌入與Multeta信息聯合學習已獲得越來越多的興趣。在本文中,我們提出了RDRL模型,通過結合關係投影和描述元表示學習,以獲得更好的性能。為了評價我們提出的模型的性能,對這三個任務進行了實驗。比較結果表明,我們提出的模型優於最先進的模型。