【知識圖譜】知識圖譜嵌入模型簡介

2021-02-13 機器學習算法與自然語言處理

作者 | 陳佳俊

知識圖譜 (Knowledge Graphs) 是大規模語義網絡知識庫，採取符號化的知識表示方式，利用三元組來描述具體的知識，並以有向圖的形式對其進行表示和存儲，具有語義豐富、結構友好、易於理解等優點。由於在表達人類先驗知識上具有優良的特性，知識圖譜近年來在自然語言處理、問答系統、推薦系統等諸多領域取得了廣泛且成功的應用。

圖1：知識圖譜示意圖

然而，知識圖譜通常存在連結缺失問題，這限制了知識圖譜在相關下遊任務中的應用。為解決該問題，知識圖譜補全任務應運而生。知識圖譜補全旨在根據知識圖譜中已有事實推斷出新的事實，從而使得知識圖譜更完整。

知識圖譜嵌入 (Knowledge Graph Embedding) 是解決知識圖譜補全問題的重要方法之一，它通過將知識圖譜中的實體 (Entity) 和關係 (Relation) 嵌入到連續向量空間，從而在方便計算的同時保留知識圖譜中的結構信息。知識圖譜嵌入模型大致可以分為三類：

基於距離的模型 (Distance-based Models)神經網絡模型 (Neural Network Models)

本文將首先簡要介紹知識圖譜補全任務，然後回顧總結各類知識圖譜嵌入模型，最後就模型的統一評測進行補充說明。

知識圖譜補全任務符號定義

知識圖譜通常以三元組 (Triple) 來表示知識，三元組的一般格式為 (頭實體，關係，尾實體)，如「金庸的表兄是徐志摩」表示成三元組為 (金庸，表兄，徐志摩)，其中金庸為頭實體，徐志摩為尾實體，表兄是這兩個實體之間的關係。我們使用小寫的字母

補全任務與性能指標

知識圖譜補全 (Knowledge Graph Completion)，是根據知識圖譜中已有的三元組去對未知三元組進行預測。我們使用

圖2：查詢示意圖

對於知識圖譜補全任務，常用的性能評測指標有：MR (Mean Rank)，MRR (Mean Reciprocal Rank), 和 Hits@N。

MRR 是針對一系列查詢

Hits@N 是排名在前

其中，如果

在一些實際應用中，MRR 能夠比 MR 更好地反映排名的綜合情況。例如，在一次測試中共有4次查詢，模型A返回的排名結果序列為 [1,1,1,40001]，模型B返回的排名結果序列為 [10000,10000,10000,10000]，從 MR 的角度，模型A效果略差於模型B，但從 MRR 的角度，模型A的效果遠好於模型B。在實際應用中，可能的場景是模型給出若干個最可能的結果供人選擇，我們可以發現排名10000的結果和排名40001的結果由於排名非常靠後，很難出現在供人選擇的若干結果中，這兩個結果雖然排名值相差30001，但是他們對實際應用的貢獻都接近0。從這個角度講，使用 MRR 來評價這兩個模型更為合適。

知識圖譜補全數據集

知識圖譜補全任務上，目前常用的數據集有 WN18RR, FB15k-237 和 YAGO3-10 等，它們分別是 WN18，FB15k 和 YAGO3 的子集。WN18 和 FB15k 數據集早期被用於知識圖譜補全任務，但是後來有研究者發現這兩個數據集存在一定的測試集洩漏問題，在這兩個數據集上，簡單的基於規則的方法就能夠達到先進模型的效果，所以 WN18 和 FB15k 漸漸不被研究者使用。表1顯示了知識圖譜補全數據集的具體統計信息，其中數據集大小指的是三元組的數量。

表1：知識圖譜補全數據集知識圖譜嵌入模型

知識圖譜嵌入模型的設計通常需要三步：1）定義實體和關係的表示形式；2）定義衡量三元組合理性的打分函數；3）訓練學習實體和關係的嵌入表示 [13]。打分函數值越高，代表三元組的合理性越高，即正確的可能性越大。在訓練學習實體和關係的嵌入表示時，優化目標是使得知識圖譜中已有三元組得分儘可能比未出現的三元組得分要高。根據打分函數的定義形式，可以將知識圖譜嵌入模型大致分為基於距離的模型、雙線性模型和神經網絡模型。部分知識圖譜嵌入模型的打分函數對比見表2。

表2：知識圖譜嵌入模型打分函數對比。其中

基於距離的模型將關係建模成從頭實體到尾實體的距離變換，並通過變換後的距離差來定義打分函數。

TransE [2] 假設實體和關係滿足

其中，我們使用

然而，TransE 模型難以處理多對一、一對多、多對多問題。以一對多問題為例，如存在兩個三元組

通過讓實體在不同關係下擁有不同的嵌入向量，可以一定程度解決這個問題。TransR [3] 提出針對每個關係

通過這種方式，實體在不同關係下可以有不同的表示，最後的打分函數定義為：

其中，

另一方面，為了能夠更好地建模知識圖譜中的關係模式，RotatE [4] 把關係定義成復空間中頭實體到尾實體的旋轉變換 (Rotation)，並假設實體和關係滿足

最近，HAKE [1] 模型使用極坐標系建模知識圖譜中普遍存在的語義分層現象，利用模長部分建模分屬不同層級的實體，利用角度部分建模屬於同一層級的實體，在主流數據集上的性能超越了現有基於距離的模型。感興趣的讀者可以參考我們之前的分享了解詳細情況：HAKE。

圖3：HAKE 模型示意圖 [1] 雙線性模型

雙線性模型採用乘積形式的打分函數來衡量實體和關係的語義相關性。

RESCAL [5] 定義打分函數為：

可以看作是

圖4：雙線性模型計算方式示意圖 [13]

ComplEx [8] 模型將 DistMult 模型擴展到複數空間，從而更好地建模反對稱和可逆關係，它的打分函數為：

其中，

神經網絡模型

神經網絡模型將

圖5：MLP 模型計算示意圖 [13] 模型統一評測

近年來，大量的知識圖譜嵌入模型被提出，各種方法層出不窮，模型效果的實際對比有待研究。近期，有兩篇工作對現有的知識圖譜嵌入模型進行了一些總結和重新評測，揭示了各個模型性能在統一評測下的效果，也為我們提供了對這些模型更為清晰的認識。

Zhiqing Sun 等人 [11] 指出，使用不恰當的評測方式，可能會造成實驗結果虛高。在進行效果評測時，可能會有一些三元組得分和正確答案的得分相同，這時候針對這些相同得分的結果集合

值得注意的是，TOP 的排序策略在某些情況下是不恰當的，會導致結果虛高。一個直觀的例子是，讓一個模型對所有的候選三元組打分都輸出0，這時正確答案和所有候選三元組得分相同，在 TOP 排序策略下，該模型所有正確答案都排名第一，評測性能達到頂峰。但實際上，由於候選三元組得分相同，該模型在預測時無法判別哪個為正確答案。由此可見，TOP 的排序策略會導致結果虛高。文章指出，RANDOM 的排序策略是最為合理的 [11]，這和我們實際的認知也是相符合的，即給定多個相同得分的候選者，我們通常採用隨機的方式來挑選。採用統一的 RANDOM 策略進行評測之後，可以發現有些模型尤其是部分神經網絡模型的性能顯著下降，這表明有些模型由於不恰當的評測方式，導致了結果的虛高，這是我們需要注意甄別的。

另外，Daniel Ruffinelli 等人 [12] 對各種知識圖譜嵌入模型中使用到的訓練方式進行了系統的實驗和研究，發現一些早期的模型如 RESCAL 在調整訓練方式和進行更大的超參搜索之後，也能夠達到或者超過現有先進模型的效果。這也顯示了模型性能的提升未必是方法具有很大的優勢，訓練技巧也可能在其中起到不小的作用，我們需要通過統一評測去認知各個方法中真正有價值的思路和想法。

總結

本文首先簡要介紹了知識圖譜補全任務，包括評測方式、評測指標和評測數據集。知識圖譜嵌入是處理知識圖譜補全任務的重要方法之一。本文按照基於距離的模型、雙線性模型和神經網絡模型的分類方式，對知識圖譜嵌入模型進行簡要介紹。最後，本文結合兩篇最新工作，指出模型統一評測的重要性。限於篇幅原因，本文只進行了簡要的總結，更多細節請參考相應的原論文，以下給出文中參考文獻的詳細列表。

參考文獻：

[1] Zhanqiu Zhang, Jianyu Cai, Yongdong Zhang, and Jie Wang. 2020. Learning Hierarchy-Aware Knowledge Graph Embeddings for Link Prediction. In AAAI.

[2] Antoine Bordes, Nicolas Usunier, Alberto Garcia-Durán, Jason Weston, and Oksana Yakhnenko. 2013. Translating Embeddings for Modeling Multi-relational Data. In NIPS.

[3] Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, and Xuan Zhu. 2015. Learning Entity and Relation Embeddings for Knowledge Graph Completion. In AAAI.

[4] Zhiqing Sun, Zhi-Hong Deng, Jian-Yun Nie, and Jian Tang. 2019. RotatE: Knowledge Graph Embedding by Relational Rotation in Complex Space. In ICLR.

[5] Maximilian Nickel, Volker Tresp, and Hans-Peter Kriegel. 2011. A threeway model for collective learning on multi-relational data. In ICML.

[6] Bishan Yang, Scott Wen-tau Yih, Xiaodong He, Jianfeng Gao, and Li Deng. 2015. Embedding Entities and Relations for Learning and Inference in Knowledge Bases. In ICLR.

[7] Maximilian Nickel, Lorenzo Rosasco, and Tomaso Poggio. 2016. Holographic Embeddings of Knowledge Graphs. In AAAI.

[8] Théo Trouillon, Johannes Welbl, Sebastian Riedel, Éric Gaussier, and Guillaume Bouchard. 2016. Complex Embeddings for Simple Link Prediction. In ICML.

[9] Xin Luna Dong, Evgeniy Gabrilovich, Geremy Heitz, Wilko Horn, Ni Lao, Kevin Murphy, Thomas Strohmann, Shaohua Sun, and Wei Zhang. 2014. Knowledge vault: A webscale approach to probabilistic knowledge fusion. In SIGKDD.

[10] Tim Dettmers, Pasquale Minervini, Pontus Stenetorp, and Sebastian Riedel. 2018. Convolutional 2d knowledge graph embeddings. In AAAI.

[11] Daniel Ruffinelli, Samuel Broscheit, and Rainer Gemulla. 2020. You CAN Teach an Old Dog New Tricks! On Training Knowledge Graph Embeddings. In ICLR.

[12] Zhiqing Sun, Shikhar Vashishth, Soumya Sanyal, Partha Pratim Talukdar, and Yiming Yang. 2020. A Re-evaluation of Knowledge Graph Completion Methods. In ACL.

[13] Quan Wang, Zhendong Mao, Bin Wang, and Li Guo. 2017. Knowledge Graph Embedding: A Survey of Approaches and Applications. In TKDE.

作者簡介：陳佳俊，2019年畢業於廈門大學自動化系，獲得工學學士學位。現於中國科學技術大學電子工程與信息科學系的 MIRA Lab 實驗室攻讀研究生，師從王傑教授。研究興趣包括知識表示與知識推理。

下載1：動手學深度學習

在機器學習算法與自然語言處理公眾號後臺回復「動手學」，

即可獲取547頁《動手學深度學習》電子書和源碼。

本書同時覆蓋深度學習的方法和實踐，

不僅從數學的角度闡述深度學習的技術和應用，

還包含可運行的代碼，

為讀者展示如何在實際中解決問題。

下載2：倉庫地址共享

在機器學習算法與自然語言處理公眾號後臺回復「代碼」，

即可獲取195篇NAACL+295篇ACL2019有代碼開源的論文。開源地址如下：https://github.com/yizhen20133868/NLP-Conferences-Code

重磅！機器學習算法與自然語言處理交流群已正式成立！

群內有大量資源，歡迎大家進群學習！

額外贈送福利資源！邱錫鵬深度學習與神經網絡，pytorch官方中文教程，利用Python進行數據分析，機器學習學習筆記，pandas官方文檔中文版，effective java（中文版）等20項福利資源

獲取方式：進入群後點開群公告即可領取下載連結

注意：請大家添加時修改備註為 [學校/公司 + 姓名 + 方向]

例如 —— 哈工大+張三+對話系統。

號主，微商請自覺繞道。謝謝！

推薦閱讀：

開放域知識庫問答研究回顧

使用PyTorch Lightning自動訓練你的深度神經網絡

PyTorch常用代碼段合集

【知識圖譜】知識圖譜嵌入模型簡介

相關焦點

知識圖譜基本概念以及知識圖譜嵌入模型

面向知識圖譜的圖嵌入學習研究進展

第四範式NeurIPS 2020:知識圖譜嵌入的自動化

從知識圖譜到認知圖譜:歷史、發展與展望

縱覽知識圖譜在AI領域的有效應用,2019知識圖譜前沿技術論壇即將開幕

學習實體和關係嵌入與實體描述的知識圖譜完成

【綜述專欄】關於知識圖譜和語言模型的想法

ICDE 2020丨第四範式新作:借鑑AutoML,自動設計不同知識圖譜嵌入的...

ACL 2019 知識圖譜的全方位總結

從ACL 2020看知識圖譜研究進展

多知識圖譜的融合算法探索

知識圖譜 | 阿里小蜜多模態知識圖譜的構建及應用

詳解NLP中的預訓練模型、圖神經網絡、模型壓縮、知識圖譜

技術動態 | ACL 2019 知識圖譜的全方位總結

使用Facebook的Pytorch的BigGraph從知識圖譜中提取知識

一文全覽,ICLR 2020 上的知識圖譜研究

【綜述專欄】多模態知識圖譜前沿進展

知識圖譜是什麼?

萬字詳解:騰訊如何自研大規模知識圖譜 Topbase

《知識圖譜完整項目實戰》學習指引