【知識圖譜】知識圖譜嵌入模型簡介

2021-02-13 機器學習算法與自然語言處理


作者 | 陳佳俊

知識圖譜 (Knowledge Graphs) 是大規模語義網絡知識庫,採取符號化的知識表示方式,利用三元組來描述具體的知識,並以有向圖的形式對其進行表示和存儲,具有語義豐富、結構友好、易於理解等優點。由於在表達人類先驗知識上具有優良的特性,知識圖譜近年來在自然語言處理、問答系統、推薦系統等諸多領域取得了廣泛且成功的應用。

   圖1:知識圖譜示意圖  

然而,知識圖譜通常存在連結缺失問題,這限制了知識圖譜在相關下遊任務中的應用。為解決該問題,知識圖譜補全任務應運而生。知識圖譜補全旨在根據知識圖譜中已有事實推斷出新的事實,從而使得知識圖譜更完整。

知識圖譜嵌入 (Knowledge Graph Embedding) 是解決知識圖譜補全問題的重要方法之一,它通過將知識圖譜中的實體 (Entity) 和關係 (Relation) 嵌入到連續向量空間,從而在方便計算的同時保留知識圖譜中的結構信息。知識圖譜嵌入模型大致可以分為三類:

基於距離的模型 (Distance-based Models)神經網絡模型 (Neural Network Models)

本文將首先簡要介紹知識圖譜補全任務,然後回顧總結各類知識圖譜嵌入模型,最後就模型的統一評測進行補充說明。

知識圖譜補全任務符號定義

知識圖譜通常以三元組 (Triple) 來表示知識,三元組的一般格式為 (頭實體,關係,尾實體),如「金庸的表兄是徐志摩」表示成三元組為 (金庸,表兄,徐志摩),其中金庸為頭實體,徐志摩為尾實體,表兄是這兩個實體之間的關係。我們使用小寫的字母

補全任務與性能指標

知識圖譜補全 (Knowledge Graph Completion),是根據知識圖譜中已有的三元組去對未知三元組進行預測。我們使用

   圖2:查詢示意圖  

對於知識圖譜補全任務,常用的性能評測指標有:MR (Mean Rank),MRR (Mean Reciprocal Rank), 和 Hits@N。

MRR 是針對一系列查詢

Hits@N 是排名在前

其中,如果

在一些實際應用中,MRR 能夠比 MR 更好地反映排名的綜合情況。例如,在一次測試中共有4次查詢,模型A返回的排名結果序列為 [1,1,1,40001],模型B返回的排名結果序列為 [10000,10000,10000,10000],從 MR 的角度,模型A效果略差於模型B,但從 MRR 的角度,模型A的效果遠好於模型B。在實際應用中,可能的場景是模型給出若干個最可能的結果供人選擇,我們可以發現排名10000的結果和排名40001的結果由於排名非常靠後,很難出現在供人選擇的若干結果中,這兩個結果雖然排名值相差30001,但是他們對實際應用的貢獻都接近0。從這個角度講,使用 MRR 來評價這兩個模型更為合適。

知識圖譜補全數據集

知識圖譜補全任務上,目前常用的數據集有 WN18RR, FB15k-237 和 YAGO3-10 等,它們分別是 WN18,FB15k 和 YAGO3 的子集。WN18 和 FB15k 數據集早期被用於知識圖譜補全任務,但是後來有研究者發現這兩個數據集存在一定的測試集洩漏問題,在這兩個數據集上,簡單的基於規則的方法就能夠達到先進模型的效果,所以 WN18 和 FB15k 漸漸不被研究者使用。表1顯示了知識圖譜補全數據集的具體統計信息,其中數據集大小指的是三元組的數量。

   表1:知識圖譜補全數據集  知識圖譜嵌入模型

知識圖譜嵌入模型的設計通常需要三步:1)定義實體和關係的表示形式;2)定義衡量三元組合理性的打分函數;3)訓練學習實體和關係的嵌入表示 [13]。打分函數值越高,代表三元組的合理性越高,即正確的可能性越大。在訓練學習實體和關係的嵌入表示時,優化目標是使得知識圖譜中已有三元組得分儘可能比未出現的三元組得分要高。根據打分函數的定義形式,可以將知識圖譜嵌入模型大致分為基於距離的模型、雙線性模型和神經網絡模型。部分知識圖譜嵌入模型的打分函數對比見表2。

表2:知識圖譜嵌入模型打分函數對比。其中

基於距離的模型將關係建模成從頭實體到尾實體的距離變換,並通過變換後的距離差來定義打分函數。

TransE [2] 假設實體和關係滿足

其中,我們使用

然而,TransE 模型難以處理多對一、一對多、多對多問題。以一對多問題為例,如存在兩個三元組

通過讓實體在不同關係下擁有不同的嵌入向量,可以一定程度解決這個問題。TransR [3] 提出針對每個關係

通過這種方式,實體在不同關係下可以有不同的表示,最後的打分函數定義為:

其中,

另一方面,為了能夠更好地建模知識圖譜中的關係模式,RotatE [4] 把關係定義成復空間中頭實體到尾實體的旋轉變換 (Rotation),並假設實體和關係滿足

最近,HAKE [1] 模型使用極坐標系建模知識圖譜中普遍存在的語義分層現象,利用模長部分建模分屬不同層級的實體,利用角度部分建模屬於同一層級的實體,在主流數據集上的性能超越了現有基於距離的模型。感興趣的讀者可以參考我們之前的分享了解詳細情況:HAKE。

   圖3:HAKE 模型示意圖 [1]  雙線性模型

雙線性模型採用乘積形式的打分函數來衡量實體和關係的語義相關性。

RESCAL [5] 定義打分函數為:

可以看作是

   圖4:雙線性模型計算方式示意圖 [13]  

ComplEx [8] 模型將 DistMult 模型擴展到複數空間,從而更好地建模反對稱和可逆關係,它的打分函數為:

其中,

神經網絡模型

神經網絡模型將

   圖5:MLP 模型計算示意圖 [13]  模型統一評測

近年來,大量的知識圖譜嵌入模型被提出,各種方法層出不窮,模型效果的實際對比有待研究。近期,有兩篇工作對現有的知識圖譜嵌入模型進行了一些總結和重新評測,揭示了各個模型性能在統一評測下的效果,也為我們提供了對這些模型更為清晰的認識。

Zhiqing Sun 等人 [11] 指出,使用不恰當的評測方式,可能會造成實驗結果虛高。在進行效果評測時,可能會有一些三元組得分和正確答案的得分相同,這時候針對這些相同得分的結果集合

值得注意的是,TOP 的排序策略在某些情況下是不恰當的,會導致結果虛高。一個直觀的例子是,讓一個模型對所有的候選三元組打分都輸出0,這時正確答案和所有候選三元組得分相同,在 TOP 排序策略下,該模型所有正確答案都排名第一,評測性能達到頂峰。但實際上,由於候選三元組得分相同,該模型在預測時無法判別哪個為正確答案。由此可見,TOP 的排序策略會導致結果虛高。文章指出,RANDOM 的排序策略是最為合理的 [11],這和我們實際的認知也是相符合的,即給定多個相同得分的候選者,我們通常採用隨機的方式來挑選。採用統一的 RANDOM 策略進行評測之後,可以發現有些模型尤其是部分神經網絡模型的性能顯著下降,這表明有些模型由於不恰當的評測方式,導致了結果的虛高,這是我們需要注意甄別的。

另外,Daniel Ruffinelli 等人 [12] 對各種知識圖譜嵌入模型中使用到的訓練方式進行了系統的實驗和研究,發現一些早期的模型如 RESCAL 在調整訓練方式和進行更大的超參搜索之後,也能夠達到或者超過現有先進模型的效果。這也顯示了模型性能的提升未必是方法具有很大的優勢,訓練技巧也可能在其中起到不小的作用,我們需要通過統一評測去認知各個方法中真正有價值的思路和想法。

總結

本文首先簡要介紹了知識圖譜補全任務,包括評測方式、評測指標和評測數據集。知識圖譜嵌入是處理知識圖譜補全任務的重要方法之一。本文按照基於距離的模型、雙線性模型和神經網絡模型的分類方式,對知識圖譜嵌入模型進行簡要介紹。最後,本文結合兩篇最新工作,指出模型統一評測的重要性。限於篇幅原因,本文只進行了簡要的總結,更多細節請參考相應的原論文,以下給出文中參考文獻的詳細列表。

參考文獻:

 [1] Zhanqiu Zhang, Jianyu Cai, Yongdong Zhang, and Jie Wang. 2020. Learning Hierarchy-Aware Knowledge Graph Embeddings for Link Prediction. In AAAI.

 [2] Antoine Bordes, Nicolas Usunier, Alberto Garcia-Durán, Jason Weston, and Oksana Yakhnenko. 2013. Translating Embeddings for Modeling Multi-relational Data. In NIPS.

 [3] Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, and Xuan Zhu. 2015. Learning Entity and Relation Embeddings for Knowledge Graph Completion. In AAAI.

 [4] Zhiqing Sun, Zhi-Hong Deng, Jian-Yun Nie, and Jian Tang. 2019. RotatE: Knowledge Graph Embedding by Relational Rotation in Complex Space. In ICLR.

 [5] Maximilian Nickel, Volker Tresp, and Hans-Peter Kriegel. 2011. A threeway model for collective learning on multi-relational data. In ICML.

 [6] Bishan Yang, Scott Wen-tau Yih, Xiaodong He, Jianfeng Gao, and Li Deng. 2015. Embedding Entities and Relations for Learning and Inference in Knowledge Bases. In ICLR.

 [7] Maximilian Nickel, Lorenzo Rosasco, and Tomaso Poggio. 2016. Holographic Embeddings of Knowledge Graphs. In AAAI.

 [8] Théo Trouillon, Johannes Welbl, Sebastian Riedel, Éric Gaussier, and Guillaume Bouchard. 2016. Complex Embeddings for Simple Link Prediction. In ICML.

 [9] Xin Luna Dong, Evgeniy Gabrilovich, Geremy Heitz, Wilko Horn, Ni Lao, Kevin Murphy, Thomas Strohmann, Shaohua Sun, and Wei Zhang. 2014. Knowledge vault: A webscale approach to probabilistic knowledge fusion. In SIGKDD.

 [10] Tim Dettmers, Pasquale Minervini, Pontus Stenetorp, and Sebastian Riedel. 2018. Convolutional 2d knowledge graph embeddings. In AAAI.

 [11] Daniel Ruffinelli, Samuel Broscheit, and Rainer Gemulla. 2020. You CAN Teach an Old Dog New Tricks! On Training Knowledge Graph Embeddings. In ICLR.

 [12] Zhiqing Sun, Shikhar Vashishth, Soumya Sanyal, Partha Pratim Talukdar, and Yiming Yang. 2020. A Re-evaluation of Knowledge Graph Completion Methods. In ACL.

 [13] Quan Wang, Zhendong Mao, Bin Wang, and Li Guo. 2017. Knowledge Graph Embedding: A Survey of Approaches and Applications. In TKDE.

作者簡介:陳佳俊,2019年畢業於廈門大學自動化系,獲得工學學士學位。現於中國科學技術大學電子工程與信息科學系的 MIRA Lab 實驗室攻讀研究生,師從王傑教授。研究興趣包括知識表示與知識推理。

下載1:動手學深度學習

在機器學習算法與自然語言處理公眾號後臺回復「動手學」

即可獲取547頁《動手學深度學習》電子書和源碼。

本書同時覆蓋深度學習的方法和實踐,

不僅從數學的角度闡述深度學習的技術和應用,

還包含可運行的代碼,

為讀者展示如何在實際中解決問題。

下載2:倉庫地址共享

在機器學習算法與自然語言處理公眾號後臺回復「代碼」

即可獲取195篇NAACL+295篇ACL2019有代碼開源的論文。開源地址如下:https://github.com/yizhen20133868/NLP-Conferences-Code

重磅!機器學習算法與自然語言處理交流群已正式成立

群內有大量資源,歡迎大家進群學習!

額外贈送福利資源!邱錫鵬深度學習與神經網絡,pytorch官方中文教程,利用Python進行數據分析,機器學習學習筆記,pandas官方文檔中文版,effective java(中文版)等20項福利資源

獲取方式:進入群後點開群公告即可領取下載連結

注意:請大家添加時修改備註為 [學校/公司 + 姓名 + 方向]

例如 —— 哈工大+張三+對話系統。

號主,微商請自覺繞道。謝謝!

推薦閱讀:

開放域知識庫問答研究回顧

使用PyTorch Lightning自動訓練你的深度神經網絡

PyTorch常用代碼段合集

相關焦點

  • 知識圖譜基本概念以及知識圖譜嵌入模型
    1.2 本體(Ontology)• 概念化的具體標準• 能夠同時在機器和人相互之間分享和理解• 某一領域類型、特徵和實體間關係的形式定義• 提供廣泛的、靜態的知識1.3 知識圖譜嵌入• 把知識圖譜中包含的具體信息轉換為向量或矩陣的表徵知識圖譜嵌入的缺點:1.
  • 面向知識圖譜的圖嵌入學習研究進展
    ,面向知識圖譜的圖嵌入學習也得到越來越多研究人員的關注.面向知識圖譜的圖嵌入學習任務旨在為圖譜中的實體與關係學習低維且稠密的向量,通過圖嵌入向量表達實體與關係的語義信息以及度量實體之間、關係之間、實體與關係之間的語義聯繫,已有許多研究證明圖嵌入模型在下遊任務中的有效性.近年來,越來越多研究人員開始關注知識圖譜的圖嵌入學習,並取得大量的研究成果,本文嘗試將圖嵌入算法分成了基於轉移思想、基於張量分解、基於傳統深度學習模型
  • 第四範式NeurIPS 2020:知識圖譜嵌入的自動化
    start=6知識圖譜嵌入(Knowledge Graph Embedding)目前在學習知識圖譜(KG)中的知識表達上具有很強的能力。在以往的研究中,很多工作主要針對單個三元組(triplet)建模,然而對 KG 而言,三元組間的長鏈依賴信息在一些任務上也很重要。
  • 從知識圖譜到認知圖譜:歷史、發展與展望
    2012年,谷歌發布的570億實體的大規模知識圖譜徹底改變了這一現狀1;同時,深度學習技術的發展也推波助瀾,掀起了知識圖譜領域研究的新熱潮,特別是以Trans[1]為代表的知識圖譜嵌入,以及使用大型知識圖譜增強其他應用,如推薦系統、情感分析等。然而,當知識圖譜在諸多應用中取得成功的同時,其方法論始終籠罩著幾朵「烏雲」,如歧義問題、連結困難、關係的冗餘與組合爆炸等。
  • 縱覽知識圖譜在AI領域的有效應用,2019知識圖譜前沿技術論壇即將開幕
    >知識圖譜的構建包括邏輯建模、隱含空間分析、人機互動和本體模型支撐等多種方法。本報告將討論利用類型、結構和文本三類輔助信息構建知識庫補全模型方面的嘗試。具體包括:1)融合層次類型體系的嵌入框架:類型在知識庫中以層級形式存在,通過類型約束增強實體和關係表示,增強知識表示蘊含的信息。2)融合鄰居結構信息的嵌入模型:利用注意力機制選擇相關結構信息,屏蔽結構信息中噪音的影響,達到結構信息輔助擴充的目的。
  • 學習實體和關係嵌入與實體描述的知識圖譜完成
    摘要隨著現有知識圖譜的增長,知識圖譜的完成已成為一個關鍵問題。
  • 【綜述專欄】關於知識圖譜和語言模型的想法
    這個想法相當的直觀,知識圖譜中的屬性、關係等都是從大量語料中人為提煉出來的先驗知識,且是我們希望機器能夠學習到的先驗知識(這也是知識圖譜構建出來的目的)。那麼,能不能將知識圖譜作為語言模型共現的補充,利用圖譜來使得模型能夠直接學習到圖譜中實體的關係,加速模型獲取知識的過程呢?
  • ICDE 2020丨第四範式新作:借鑑AutoML,自動設計不同知識圖譜嵌入的...
    評分函數(Scoring Function,SF)是衡量知識圖譜(Knowledge Graph,KG)中三元組可編程性的重要指標,已成為知識圖譜嵌入的關鍵。近年來,大量的評分函數被設計出來,用於捕捉知識圖譜中的各種關係。然而,由於關係可能表現出複雜的模式,而這些模式在訓練前很難推斷,因此在現有的基準數據集上,沒有一個能比其他模式表現得更好。本次工作年來自動化機器學習(AutoML)的啟發,提出了一種自動設計和發現知識圖譜嵌入(KG Embedding,KGE)中更好SF的AutoSF算法。
  • ACL 2019 知識圖譜的全方位總結
    文章則圍繞ACL大會上關於知識圖譜(KG)的研究進行了詳細且完整的探討的內容,共包含五個部分,分別為:1、基於知識圖譜的對話系統2、知識圖譜事實的自然語言生成3、基於知識圖譜的問答4、基於知識圖譜的NER和關係連結5、知識圖譜嵌入和圖表示一、基於知識圖譜的對話系統
  • 從ACL 2020看知識圖譜研究進展
    京東人工智慧研究院在關於京東智聯雲的工作中,應用知識圖譜技術構建了基於商品的「商品圖譜」,並將「商品圖譜」與語言模型相結合實現了營銷內容智能生成,可以說是 NLP 技術很好的一個應用實例。本文是關於知識圖譜本身構建的工作,目的是改進知識圖譜中源實體到目標實體的連結預測水平。
  • 多知識圖譜的融合算法探索
    很自然的做法是,為了契合各個業務的實際場景,我們會為每個業務方獨立出各自的知識圖譜,方便與業務方共同管理數據。隨著業務深入,很快會發現單個業務知識圖譜因為規模小,在文本語義理解類任務上非常受限,此時需要將多個知識圖譜進行融合,打通知識邊界。
  • 知識圖譜 | 阿里小蜜多模態知識圖譜的構建及應用
    作者 | 徐國海@阿里巴巴 來源 | DataFunTalk導讀:本文由阿里巴巴達摩院阿里小蜜團隊帶來,介紹其在知識圖譜方面一年多以來的一些工作進展。主要內容包括:① 知識圖譜的簡介;② 領域知識圖譜的構建及應用;③ 多模態知識圖譜的構建及應用;④ Takeaways (心得領悟)。
  • 詳解NLP中的預訓練模型、圖神經網絡、模型壓縮、知識圖譜
    為了真正全面系統的培養NLP人才,貪心學院推出了《自然語言處理終身升級版》課程覆蓋了從經典的機器學習、文本處理技術、序列模型、深度學習、預訓練模型、知識圖譜、圖神經網絡所有必要的技術。並落地實操工業級項目,由資深的NLP負責人全程直播講解,幫助你融會貫通,輕鬆拿offer。
  • 技術動態 | ACL 2019 知識圖譜的全方位總結
    文章則圍繞ACL大會上關於知識圖譜(KG)的研究進行了詳細且完整的探討的內容,共包含五個部分,分別為:1、基於知識圖譜的對話系統2、知識圖譜事實的自然語言生成3、基於知識圖譜的問答4、基於知識圖譜的NER和關係連結5、知識圖譜嵌入和圖表示一、基於知識圖譜的對話系統
  • 使用Facebook的Pytorch的BigGraph從知識圖譜中提取知識
    我們將依靠我們的知識圖譜(如上所述)和的單詞相似性原理來構建嵌入模型。在現實世界中,字典的大小遠遠大於3。字典的維數可能是數萬到數百萬。這些向量不僅不能真正代表我們的相似性概念,而且它們的體積也很大,無法在實際中使用。
  • 一文全覽,ICLR 2020 上的知識圖譜研究
    五個角度分別為:1)在複雜QA中利用知識圖譜進行神經推理(Neural Reasoning for Complex QA with KGs)2)知識圖譜增強的語言模型(KG-augmented Language Models)3)知識圖譜嵌入:循序推理和歸納推理(KG Embeddings: Temporal and Inductive Inference)
  • 【綜述專欄】多模態知識圖譜前沿進展
    這裡有一個值得深思的問題,就是這兩個系統是分離的兩個系統,還是一個系統的兩個部分?至少到目前為止,以語言和知識為代表的符號空間和以神經網絡為代表的向量空間還是被割裂的兩個不同的空間。我們有可能把這兩個系統融為一體嗎?圖1  System1 和 System2 的融合3.
  • 知識圖譜是什麼?
    知識圖譜最開始是Google為了優化搜尋引擎提出來的,推出之後引起了業界轟動,隨後其他搜索公司也紛紛推出了他們的知識圖譜。知識圖譜發展到今天,不僅是應用在搜索行業,已經是AI的基礎功能了。那到底知識圖譜是什麼?有什麼能力?怎麼應用?這就是本文想要討論的內容。
  • 萬字詳解:騰訊如何自研大規模知識圖譜 Topbase
    一、簡介知識圖譜( Knowledge Graph)以結構化的形式描述客觀世界中概念、實體及其關係,便於計算機更好的管理、計算和理解網際網路海量信息。圖14 Topbase中用於實體分類的屬性規則配置頁面簡介分類模塊:簡介分類模塊以規則模塊的數據作為訓練數據,可以得到一個以簡介為實體分類依據的分類模型,然後基於該模型預測屬性規則模塊無法識別的實體
  • 《知識圖譜完整項目實戰》學習指引
    一、前言本文是《知識圖譜完整項目實戰(附源碼)》系列課程的學習指引部分,主要是對《知識圖譜完整項目實戰》的課程特色、章節設置、關鍵技術和主要內容做一個簡介,目的是讓大家對本課程有一個系統性的認知。:汽車領域知識圖譜。