新智元報導
來源:專知
編輯:元子
地址:
https://arxiv.org/abs/2003.02320
在本文中,我們對知識圖譜進行了全面的介紹,在需要開發多樣化、動態、大規模數據收集的場景中,知識圖譜最近引起了工業界和學術界的極大關注。在大致介紹之後,我們對用於知識圖譜的各種基於圖的數據模型和查詢語言進行了歸納和對比。我們將討論schema, identity, 和 context 在知識圖譜中的作用。我們解釋如何使用演繹和歸納技術的組合來表示和提取知識。我們總結了知識圖譜的創建、豐富、質量評估、細化和發布的方法。我們將概述著名的開放知識圖譜和企業知識圖譜及其應用,以及它們如何使用上述技術。最後,我們總結了未來高層次的知識圖譜研究方向。
知識圖譜的優勢
儘管「知識圖譜」一詞至少從1972年就開始出現在文獻中了[440],但它的現代形式起源於2012年發布的谷歌知識圖譜[459],隨後Airbnb[83]、亞馬遜[280]、eBay[392]、Facebook[365]、IBM[123]、LinkedIn[214]、微軟[457]、優步[205]等公司相繼發布了開發知識圖譜的公告。事實證明,學術界難以忽視這一概念的日益普及: 越來越多的科學文獻發表關於知識圖譜的主題,其中包括書籍(如[400]),以及概述定義(如[136])的論文,新技術(如[298,399,521]),以及對知識圖譜具體方面的調查(如[375,519])。
所有這些發展的核心思想是使用圖形來表示數據,通常通過某種方式顯式地表示知識來增強這種思想[365]。結果最常用於涉及大規模集成、管理和從不同數據源提取價值的應用場景[365]。在這種情況下,與關係模型或NoSQL替代方案相比,使用基於圖的知識抽象有很多好處。圖為各種領域提供了簡潔而直觀的抽象,其中邊捕獲了社會數據、生物交互、書目引用和合作作者、交通網絡等[15]中固有實體之間的(潛在的循環)關係。圖允許維護者推遲模式的定義,允許數據(及其範圍)以比關係設置中通常可能的更靈活的方式發展,特別是對於獲取不完整的知識[2]。與(其他)NoSQL模型不同,專門的圖形查詢語言不僅支持標準的關係運算符(連接、聯合、投影等),而且還支持遞歸查找通過任意長度路徑[14]連接的實體的導航運算符。標準的知識表示形式主義——如本體論[66,228,344]和規則[242,270]——可以用來定義和推理用於標記和描述圖中的節點和邊的術語的語義。可伸縮的圖形分析框架[314,478,529]可用於計算中心性、集群、摘要等,以獲得對所描述領域的洞察。各種表示形式也被開發出來,支持直接在圖上應用機器學習技術[519,527]。
總之,構建和使用知識圖譜的決策為集成和從不同數據源提取價值提供了一系列技術。但是,我們還沒有看到一個通用的統一總結,它描述了如何使用知識圖譜,使用了哪些技術,以及它們如何與現有的數據管理主題相關。
教程目標:全面介紹知識圖譜
本教程的目標是全面介紹知識圖譜: 描述它們的基本數據模型以及如何查詢它們;討論與schema, identity, 和 context相關的表徵;討論演繹和歸納的方式使知識明確;介紹可用於創建和充實圖形結構數據的各種技術;描述如何識別知識圖譜的質量以及如何改進知識圖譜;討論發布知識圖譜的標準和最佳實踐;並提供在實踐中發現的現有知識圖譜的概述。我們的目標受眾包括對知識圖譜不熟悉的研究人員和實踐者。因此,我們並不假設讀者對知識圖譜有特定的專業知識。
知識圖。「知識圖譜」的定義仍然存在爭議[36,53,136],其中出現了一些(有時相互衝突的)定義,從具體的技術建議到更具包容性的一般性建議;我們在附錄a中討論了這些先前的定義。在這裡,我們採用了一個包容性的定義,其中我們將知識圖譜視為一個數據圖,目的是積累和傳遞真實世界的知識,其節點表示感興趣的實體,其邊緣表示這些實體之間的關係。數據圖(又稱數據圖)符合一個基於圖的數據模型,它可以是一個有向邊標記的圖,一個屬性圖等(我們在第二節中討論具體的替代方案)。這些知識可以從外部資源中積累,也可以從知識圖譜本身中提取。知識可以由簡單的語句組成,如「聖地牙哥是智利的首都」,也可以由量化的語句組成,如「所有的首都都是城市」。簡單的語句可以作為數據圖的邊來積累。如果知識圖譜打算積累量化的語句,那麼就需要一種更有表現力的方式來表示知識——例如本體或規則。演繹的方法可以用來繼承和積累進一步的知識(例如,「聖地牙哥是一個城市」)。基於簡單或量化語句的額外知識也可以通過歸納方法從知識圖譜中提取和積累。
知識圖譜通常來自多個來源,因此,在結構和粒度方面可能非常多樣化。解決這種多樣性, 表示模式, 身份, 和上下文常常起著關鍵的作用,在一個模式定義了一個高層結構知識圖譜,身份表示圖中哪些節點(或外部源)引用同一個真實的實體,而上下文可能表明一個特定的設置一些單位的知識是真實的。如前所述,知識圖譜需要有效的提取、充實、質量評估和細化方法才能隨著時間的推移而增長和改進。
在實踐中 知識圖譜的目標是作為組織或社區內不斷發展的共享知識基礎[365]。在實踐中,我們區分了兩種類型的知識圖譜:開放知識圖譜和企業知識圖譜。開放知識圖譜在網上發布,使其內容對公眾有好處。最突出的例子——DBpedia[291]、Freebase[51]、Wikidata[515]、YAGO[232]等——涵蓋了許多領域,它們要麼是從Wikipedia[232,291]中提取出來的,要麼是由志願者社區[51,515]建立的。開放知識圖譜也在特定領域內發表過,如媒體[406]、政府[222,450]、地理[472]、旅遊[11,263,308,540]、生命科學[79]等。企業知識圖譜通常是公司內部的,並應用於商業用例[365]。使用企業知識圖譜的著名行業包括網絡搜索(如Bing[457]、谷歌[459])、商業(如Airbnb[83]、亞馬遜[127、280]、eBay[392]、Uber[205])、社交網絡(如Facebook[365]、LinkedIn[214])、金融(如埃森哲[368]、義大利銀行[32][326]、彭博[326]、Capital One[65]、富國銀行[355])等。應用包括搜索[457,459],推薦[83,205,214,365],個人代理[392],廣告[214],商業分析[214],風險評估[107,495],自動化[223],以及更多。我們將在第10節中提供更多關於在實踐中使用知識圖譜的細節。
課程其餘部分結構
第2節概述了圖形數據模型和可用於查詢它們的語言。
第3節描述了知識圖譜中模式、標識和上下文的表示形式。
第四節介紹了演繹式的形式主義,通過這種形式主義,知識可以被描述和推導出來。
第5節描述了可以提取額外知識的歸納技術。
第6節討論了如何從外部資源中創建和豐富知識圖譜。
第7節列舉了可用於評估知識圖譜的質量維度。
第8節討論知識圖譜細化的各種技術。
第9節討論發布知識圖譜的原則和協議。
第10節介紹了一些著名的知識圖譜及其應用。
第11節總結了知識圖譜的研究概況和未來的研究方向。
附錄A提供了知識圖譜的歷史背景和以前的定義。
附錄B列舉了將從論文正文中引用的正式定義。
本文授權轉載自公眾號:專知