學習實體和關係嵌入與實體描述的知識圖譜完成

2021-02-19 數據挖掘與開源生態

摘要

隨著現有知識圖譜的增長,知識圖譜的完成已成為一個關鍵問題。在本文中,我們提出了一種基於描述的知識表示學習框架的新模型,該模型能夠同時利用事實三元組和實體描述。具體而言,關係投影與描述-符號表示學習相結合,學習實體和關係嵌入。採用卷積神經網絡和TransR分別得到實體和關係的描述表示和結構表示。我們使用從大知識圖譜自由基生成的FB15K數據集來評估所提出的模型的性能。實驗結果表明,我們提出的模型大大優於其他現有的基線模型。

 關鍵詞:知識圖譜完成、實體描述、自然語言處理

1.引言

大規模的知識圖譜(KGS),如NELL、Freebase和WordNet對於自然語言處理領域的應用非常重要,如語言建模、Web搜索等。KGS以(頭實體、關係、尾實體)的形式存儲結構化的多關係數據,這些數據稱為事實。然而,儘管有大量的事實可以遏制,大多數KGS建立的半自動或協作仍然遠遠不完整,並且總是稀疏的。完成KGS已成為一項關鍵工作。

近年來,知識圖譜完成中的嵌入方法越來越受到人們的關注。傳統的嵌入模型將實體及其關係嵌入到潛在的低維空間中。其中,TransE認為這種關係是兩個實體之間的轉換,並且比大多數這些模型表現得更好。然而,TransE忽略了在不同實體中扮演的不同角色。TransH和TransR是TransE的變體,它通過為每個特定關係設置超平面或分別在不同空間中建模關係和實體來改進跨E。對於這些模型,一個缺點是它們只關注觀察到的結構化事實。除事實外,他們不考慮納入其他信息。關於實體文本描述,實體類型,規則甚至時間信息[13]的方法很多。方法合併文本信息,如簡單地初始化實體表示,通過平均單詞向量。

本文提出了一種將關係投影與描述元表示學習相結合的模型RDRL,用實體文本信息來增強TransR模型。該模型基於描述元知識表示學習(DKRL)。具體來說,我們為每個實體設置了一個特定於關係的投影,用於區分實體和關係空間。我們的模型的優點如下:1)可以通過結合實體描述來進一步改進經典模型,如TransR;2)可以保留原始嵌入模型的優點,並在某些場合表現得更好,例如處理數據稀疏問題。本文的其餘部分組織如下。第二節介紹了以往的相關工作。第三節描述了我們提出的模型。訓練細節見第四節。第五節介紹了實驗和結果。最後,第六節得出結論。

2.相關工作

  知識圖嵌入的目的是將關係和實體嵌入到一個潛在的空間中。學習過程可分為三個步驟:(1)實體/關係表示;(2)評分函數定義;(3)參數估計。

1.TransEandDKRL

傳統模型TransE將實體和關係嵌入到相同的低維向量空間中。對於描述事實(頭實體、關係、尾實體)的任何三元組,TransE持有假設,並將三元組的能量定義如下:

嵌入中取值,這是通過最小化以下秩準則來訓練的,這些秩準則有利於正確的三元組的能量低於損壞的三元組,即:

其中[x]表示x的正部分,S是正確的三元組,S『是被任何隨機實體替換的帶有頭部或尾部實體的損壞三元組。γ>0是用來分隔正確的三元組和損壞的三元組的邊距。(具體可參考原文)

2.其它模型

基於實體描述的知識圖嵌入還有其他嘗試。本文利用實體文本信息來推斷有用信息的缺乏,提高知識圖完成的性能。

3.所提出的方法

為了解決TransE的問題,如處理複雜關係時除一對一關係外的顯著性較低的問題,我們提出了一種將關係投影與描述符號表示學習相結合的RDRL模型,該模型採用TransR代替TransE。如果能夠有效地使用關係信息,則關係信息可能是有益的。由於連續詞袋模型忽略了文本中的詞序,在對實體描述的語義進行編碼時,更容易受到提取關鍵字質量的影響,因此我們使用卷積神經網絡來表示描述嵌入。(具體可參考原文)

4.訓練細節和實施細節

我們訓練我們的RDRL作為DKRL的過程,並採用隨機梯度下降,以最小化基於邊緣的最終邊緣目標函數。我們表示S=作為校正的三元組,是損壞的三元組,它被定義為:

其中的每個元素都是通過隨機替換一個實體或關係來構造的。請注意,我們的RDRL不限於實體表示的類型。

在我們的訓練過程中,卷積核是隨機初始化的。單詞的向量是由維基百科上的GloVe預先訓練的。CNN編碼器將單詞向量作為相應的基於實體描述的嵌入的輸入和輸出。我們使用多線程版本的CNN來學習表示,以獲得更好的效率。基於結構的實體和關係嵌入是用TransE的結果初始化的。

5.實驗

1.數據

我們採用FB15K,它是用一個常用的知識圖譜Freebase建立的,以評估所提出的方法。FB15K包含1345個關係和14951個實體,它們提供存儲在結構中的世界大量信息,例如/醫學/疾病/風險等。

沒有描述性單詞或短於3個單詞的實體不包括在內,以確保所有實體在測試期間都應該有描述。與DKRL不同,我們使用GloVe訓練的單詞嵌入作為實體的表示。表一顯示了我們使用的數據集的最終統計數據,其中關係類型、實體類型和三元組的數量已經被劃分為訓練、驗證和測試集。

表1 實驗中使用的數據集

2.知識圖譜完成

知識圖譜完成旨在預測具有缺失的損壞三元組中缺失的實體或關係。

1)參數設置

我們將我們的RDRL與一些相關的現有模型進行了比較。我們的實驗配置如下:{20,50,100}中的實體/相關維數n,{0.001,0.002,0.01}之間的固定學習速率α,{0.5,1.0,1.5}之間的裕度γ}。對於CNN編碼器,窗口大小k在{1,2,3}之間,字嵌入維數w在{50,80,100}之間,特徵映射維數f在{50,100,150}之間}。有效集合上的最優配置為:n=100,α=0.001,γ為1.5,k=2,w=100,f為100。

2)評價措施

我們在兩個子任務上評估我們的模型:實體預測和關係預測。對於實體預測,我們將頭部實體替換為實體數據集中存在的每個實體,並使用分數函數計算其分數。後來我們把他們的分數按降序排列。對於尾部實體,我們重複與頭部實體相同的過程。對於關係預測,我們使用相同的方法來替換關係數據集中的每個關係。正如[8]中所使用的,我們使用了相同的度量:(1)預測等級的平均值;(2)實體的命中率@10和關係的命中率@1,這分別意味著排列在前10位的正確實體的比例和排列在前1位的正確關係的比例。在同一個不完整的三重體中存在許多實體,這肯定是不可信的。如果它們排名在被替換的實體或關係之前,它們將導致不理想的結果。因此,我們還遵循評估設置Raw和Filter。篩選器表示該方法刪除了下降排序中所有其他合理的實體或關係。生意味著該方法不考慮上述問題。

3)結果

我們在表2中列出了實體預測的評估結果,在表III中列出了關係預測。通過與列出的模型進行比較,從表Ⅱ可以看出,我們的RDRL大大優於原來的DKRL,並且在表3中的每個度量上,它對下面列出的所有模型都表現出一致和顯著的改進。TranE、TransH(unif)、TransH(bern)、TransR(unif)、DKRL(CBOW)和DKRL(CNN)代表了[6,7,7,8,8,11]的方法。DKRL(CNN)TransE(我們的)表示基於CNN和TransE的DKRL方法。RDRL代表了我們提出的模型。

表2 比較了實體預測的結果

表3 比較了關係預測的結果

3.三級分類

三級分類已經被探索,這是一個二元分類問題。該任務旨在判斷給定的三元組是否正確。在實驗中,我們在基準數據集上對我們的模型FB15K進行了評估。為了二進位分類的任務,我們需要負三元組。由於在釋放的FB15K數據集中不包括負三元,我們在中按照相同的過程產生負樣本。為了執行任務,我們為不同的關係設置了不同的閾值。給定一個三重,如果它的分數E低於閾值,我們將三重分類為正,否則為負。閾值δr是通過最大化驗證集上的分類精度來設置的。

表4 三重分類結果比較(%)

我們將我們的模型與現有的一些工作進行了比較,使用[8]中顯示的結果,並使用中發布的DKRL代碼來完成任務。我們採用分類的準確性作為評價指標。表4顯示了FB15K數據集上三重分類的結果。從表四中,我們可以看到RDRL在FB15K數據集上表現最好。具體來說,RDRL提高了TransR(Unif)的13.3%,提高了DKRL的13.1%。

表5 FB15K數據集的統計

4.討論

在第一節中指出,雖然FB15K可以包含大量的事實,但KG仍然存在數據稀疏的問題,因此一些關係可能無法正確地捕捉到。因此,為了進一步分析,我們根據頻率將關係劃分為五組,如表5所示。頻率是根據它們在測試集中發生的次數得到的。我們比較了DKRL和RDRL的平均秩(濾波器。表五報告了從DKRL到RDRL的結果和改進。從結果可以看出:(1)對於頻率為1到3的關係,從RDRL到DKRL的改進為9.48%,這表明在處理數據稀疏問題時,分離實體空間和關係空間做得更好;(2)當處理頻率大於300的關係時,最顯著的改進發生,這表明RDRL對KG中的大多數三元組表現更好。

6.結論

將KGS的嵌入與Multeta信息聯合學習已獲得越來越多的興趣。在本文中,我們提出了RDRL模型,通過結合關係投影和描述元表示學習,以獲得更好的性能。為了評價我們提出的模型的性能,對這三個任務進行了實驗。比較結果表明,我們提出的模型優於最先進的模型。

相關焦點

  • 【知識圖譜】知識圖譜嵌入模型簡介
    知識圖譜補全旨在根據知識圖譜中已有事實推斷出新的事實,從而使得知識圖譜更完整。知識圖譜嵌入 (Knowledge Graph Embedding) 是解決知識圖譜補全問題的重要方法之一,它通過將知識圖譜中的實體 (Entity) 和關係 (Relation) 嵌入到連續向量空間,從而在方便計算的同時保留知識圖譜中的結構信息。
  • 論文小綜 | 知識圖譜表示學習中的零樣本實體研究
    表示學習算法將知識圖譜中的實體和關係都映射到低維向量空間,獲取實體和關係的向量表示,同時保留圖譜中的結構信息和語義信息。然而,現有的表示學習算法只能對出現在訓練集中的實體及關係進行表示,對於測試時新出現的實體/關係,模型可能需要重新進行訓練。但知識圖譜的增長是快速的,隨時都會有一些新增的實體/關係,每次都重新訓練顯然是不現實的。
  • 阿里巴巴AAAI 18論文CoLink:知識圖譜實體連結無監督學習框架
    引言將不同子知識圖譜上的同一實體信息連結起來(也被稱為用戶身份連結(UIL)問題)通常能得到對該實體的更好和更深度的理解,這通常又能進一步得到更好的商業智能。儘管機器學習算法已經在實體連結問題上得到了廣泛的應用,但訓練數據的標註工作並不簡單。
  • 知識圖譜從哪裡來:實體關係抽取的現狀與未來
    總結來說,開放域關係抽取在前深度學習時代取得了一些成效,但如何在深度學習時代與神經網絡模型優勢相結合,有力拓展神經網絡關係抽取模型的泛化能力,值得更多深入探索。總結為了更及時地擴展知識圖譜,自動從海量數據中獲取新的世界知識已成為必由之路。
  • AttnPath | 將圖注意力機制融入基於深度強化學習的知識圖譜推理中
    ,深度強化學習,圖注意力機制,LSTM,知識圖譜補全知識圖譜(KG)推理旨在找到關係的推理路徑,以解決 KG中的不完整性問題。我們在具有不同任務的 FB15K-237 和 NELL995 數據集上測試了我們的模型。大量的實驗表明,我們的模型在許多當前最先進的方法中均有效且具有競爭力,並且在實踐中也表現良好。主要有三種方式執行知識圖譜推理,基於規則、基於嵌入和基於路徑的方法。同時,知識圖譜推理提供了一種視角:將深度強化學習帶入到預測缺失連結到任務中。
  • 從知識圖譜到認知圖譜:歷史、發展與展望
    2012年,谷歌發布的570億實體的大規模知識圖譜徹底改變了這一現狀1;同時,深度學習技術的發展也推波助瀾,掀起了知識圖譜領域研究的新熱潮,特別是以Trans[1]為代表的知識圖譜嵌入,以及使用大型知識圖譜增強其他應用,如推薦系統、情感分析等。然而,當知識圖譜在諸多應用中取得成功的同時,其方法論始終籠罩著幾朵「烏雲」,如歧義問題、連結困難、關係的冗餘與組合爆炸等。
  • 知識圖譜實體與關係抽取,這3篇新論文不要錯過
    針對句內噪聲的問題,本文採用子樹解析的方法,去除與表達關係不相關的詞彙;針對關係抽取器不健壯的問題,本文採用遷移學習的方法,用實體分類對模型的參數做預訓練。問題定義給定一個POS標註的語料庫D,一個知識庫Ψ,一個目標實體類型集合,一個目標關係類型集合,聯合抽取的目標就是:從語料庫D中識別出entity mentions M;利用知識庫Ψ生成訓練數據;利用和上下文,預測每一個relation mentions的關係類型,以及 entity mentions的實體類型
  • 多知識圖譜的融合算法探索
    所謂融合,可以理解存在以下三種操作:1)實體詞在新的上下級位置上進行插入;2)不同圖譜中的同義實體詞完成合併;3)三元組關係隨著實體詞位置變化而動態調整單看這些任務,類似的技術我們在《知識圖譜構建技術綜述與實踐》、《抽取獲得的知識圖譜三元組該如何質檢?》和《如何擴充知識圖譜中的同義詞》均有部分提及。本文我們來系統地看一下在不同階段,圖譜融合該採取什麼策略,以及相關的算法論文調研。
  • ACL 2019 知識圖譜的全方位總結
    文章則圍繞ACL大會上關於知識圖譜(KG)的研究進行了詳細且完整的探討的內容,共包含五個部分,分別為:1、基於知識圖譜的對話系統2、知識圖譜事實的自然語言生成3、基於知識圖譜的問答4、基於知識圖譜的NER和關係連結5、知識圖譜嵌入和圖表示一、基於知識圖譜的對話系統
  • 知識圖譜前沿跟進,看這篇就夠了,Philip S. Yu 團隊發布權威綜述...
    知識圖譜是一種對於事實的結構化表徵,它由實體、關係和語義描述組成。實體可以是真實世界中存在的對象,也可以是抽象的概念;關係則表示實體之間的關聯;實體及其關係的語義描述包含定義良好的類型和屬性。如今,屬性圖已經被廣泛使用,其中節點和關係都具有屬性。術語「知識圖譜」和「知識庫」幾乎是同義詞,只有很微小的差別。
  • 【綜述專欄】關於知識圖譜和語言模型的想法
    這個想法相當的直觀,知識圖譜中的屬性、關係等都是從大量語料中人為提煉出來的先驗知識,且是我們希望機器能夠學習到的先驗知識(這也是知識圖譜構建出來的目的)。那麼,能不能將知識圖譜作為語言模型共現的補充,利用圖譜來使得模型能夠直接學習到圖譜中實體的關係,加速模型獲取知識的過程呢?
  • 知識圖譜的皇冠:知識圖譜推理的前世今生
    [ 導讀 ]業界和學界對知識圖譜的關注主要集中於兩大領域,分別是知識圖譜的構建和知識圖譜的應用。 前者聚焦於通過對結構化、非結構化數據的整合,實現統一形式的數據存儲;後者則著眼於通過算法對海量知識圖譜數據進行學習與挖掘,從而推理出新的知識,服務於具體行業應用。
  • 從ACL 2020看知識圖譜研究進展
    1.1 背景知識介紹知識圖譜(Knowledge Graph)是一種多關係圖,其中,節點表示實體,邊表示實體之間的關係。知識圖譜存儲來自不同來源的關於人、地方和世界的事實。這些事實以三元組形式保存(頭實體、關係實體、尾部實體),並表示為(h, r, t) 。
  • 技術動態 | ACL 2019 知識圖譜的全方位總結
    文章則圍繞ACL大會上關於知識圖譜(KG)的研究進行了詳細且完整的探討的內容,共包含五個部分,分別為:1、基於知識圖譜的對話系統2、知識圖譜事實的自然語言生成3、基於知識圖譜的問答4、基於知識圖譜的NER和關係連結5、知識圖譜嵌入和圖表示一、基於知識圖譜的對話系統
  • 技術動態 | 知識圖譜上的實體連結
    知識工場                                                                          1、什麼是實體連結實體連結(entity linking)就是將一段文本中的某些字符串映射到知識庫中對應的實體上。
  • 縱覽知識圖譜在AI領域的有效應用,2019知識圖譜前沿技術論壇即將開幕
    滴滴的出行知識圖譜是這些實體、屬性及行為的數位化表示。為了讓數據發揮更大的作用,我們構建並深入挖掘了大規模的領域知識圖譜,並依託這些圖數據構建各種不同場景的有效解決方案。本次報告敘述了領域知識圖譜在滴滴生態中的廣泛研究和應用,包括基於實體圖譜的圖計算、圖嵌入、知識融合等案例服務,以及業務知識圖譜中以智能對話機器人和信息推薦為代表的應用。
  • AAAI2020必讀的10篇「知識圖譜(Knowledge Graph)」相關論文和代碼
    現有的知識圖譜嵌入模型主要側重於對稱/反對稱、反轉、複合等關係模式的建模。然而,許多現有的方法無法對語義層次結構建模,而這在實際應用程式中是很常見的。為了解決這一問題,我們提出了一種新的知識圖譜嵌入模型——層次感知知識圖譜嵌入(HAKE),它將實體映射到極坐標系統中。HAKE的靈感來自於這樣一個事實,即在極坐標系統中的同心圓可以自然地反映層次結構。
  • ICDE 2020丨第四範式新作:借鑑AutoML,自動設計不同知識圖譜嵌入的...
    (Knowledge Graph,KG)中三元組可編程性的重要指標,已成為知識圖譜嵌入的關鍵。近年來,大量的評分函數被設計出來,用於捕捉知識圖譜中的各種關係。然而,由於關係可能表現出複雜的模式,而這些模式在訓練前很難推斷,因此在現有的基準數據集上,沒有一個能比其他模式表現得更好。本次工作年來自動化機器學習(AutoML)的啟發,提出了一種自動設計和發現知識圖譜嵌入(KG Embedding,KGE)中更好SF的AutoSF算法。
  • 如何構建知識圖譜?
    1.1 什麼是知識圖譜知識圖譜是谷歌在2012年提出來的,最初的目的是優化其搜尋引擎。在現實世界中是存在很多的實體的,各種人、物,他們之間是相互聯繫的。知識圖譜就是對這個真實世界的符號表達,描述現實世界中存在的一些概念,以及它們之間的聯繫。具體來說是一個具有屬性的實體,通過關係連接而成的網狀知識庫。
  • 百分點認知智能實驗室:信息抽取在知識圖譜構建中的實踐與應用
    尤其是基於深度遷移學習,幫助構建法律百科詞條、公安文本知識圖譜等行業項目中,在實體抽取、關係抽取、事件抽取等方面都取得了理想的實踐效果。本文將從概念辨析、技術路徑、實踐總結,由虛到實、由淺入深引導大家理性看待知識圖譜技術的能與不能,以更好地在實踐中運籌帷幄。