史上最全《知識圖譜》2020綜述論文,18位作者,130頁pdf

2020-11-25 騰訊網

新智元報導

來源:專知

編輯:元子

地址:

https://arxiv.org/abs/2003.02320

在本文中,我們對知識圖譜進行了全面的介紹,在需要開發多樣化、動態、大規模數據收集的場景中,知識圖譜最近引起了工業界和學術界的極大關注。在大致介紹之後,我們對用於知識圖譜的各種基於圖的數據模型和查詢語言進行了歸納和對比。我們將討論schema, identity, 和 context 在知識圖譜中的作用。我們解釋如何使用演繹和歸納技術的組合來表示和提取知識。我們總結了知識圖譜的創建、豐富、質量評估、細化和發布的方法。我們將概述著名的開放知識圖譜和企業知識圖譜及其應用,以及它們如何使用上述技術。最後,我們總結了未來高層次的知識圖譜研究方向。

知識圖譜的優勢

儘管「知識圖譜」一詞至少從1972年就開始出現在文獻中了[440],但它的現代形式起源於2012年發布的谷歌知識圖譜[459],隨後Airbnb[83]、亞馬遜[280]、eBay[392]、Facebook[365]、IBM[123]、LinkedIn[214]、微軟[457]、優步[205]等公司相繼發布了開發知識圖譜的公告。事實證明,學術界難以忽視這一概念的日益普及: 越來越多的科學文獻發表關於知識圖譜的主題,其中包括書籍(如[400]),以及概述定義(如[136])的論文,新技術(如[298,399,521]),以及對知識圖譜具體方面的調查(如[375,519])。

所有這些發展的核心思想是使用圖形來表示數據,通常通過某種方式顯式地表示知識來增強這種思想[365]。結果最常用於涉及大規模集成、管理和從不同數據源提取價值的應用場景[365]。在這種情況下,與關係模型或NoSQL替代方案相比,使用基於圖的知識抽象有很多好處。圖為各種領域提供了簡潔而直觀的抽象,其中邊捕獲了社會數據、生物交互、書目引用和合作作者、交通網絡等[15]中固有實體之間的(潛在的循環)關係。圖允許維護者推遲模式的定義,允許數據(及其範圍)以比關係設置中通常可能的更靈活的方式發展,特別是對於獲取不完整的知識[2]。與(其他)NoSQL模型不同,專門的圖形查詢語言不僅支持標準的關係運算符(連接、聯合、投影等),而且還支持遞歸查找通過任意長度路徑[14]連接的實體的導航運算符。標準的知識表示形式主義——如本體論[66,228,344]和規則[242,270]——可以用來定義和推理用於標記和描述圖中的節點和邊的術語的語義。可伸縮的圖形分析框架[314,478,529]可用於計算中心性、集群、摘要等,以獲得對所描述領域的洞察。各種表示形式也被開發出來,支持直接在圖上應用機器學習技術[519,527]。

總之,構建和使用知識圖譜的決策為集成和從不同數據源提取價值提供了一系列技術。但是,我們還沒有看到一個通用的統一總結,它描述了如何使用知識圖譜,使用了哪些技術,以及它們如何與現有的數據管理主題相關。

教程目標:全面介紹知識圖譜

本教程的目標是全面介紹知識圖譜: 描述它們的基本數據模型以及如何查詢它們;討論與schema, identity, 和 context相關的表徵;討論演繹和歸納的方式使知識明確;介紹可用於創建和充實圖形結構數據的各種技術;描述如何識別知識圖譜的質量以及如何改進知識圖譜;討論發布知識圖譜的標準和最佳實踐;並提供在實踐中發現的現有知識圖譜的概述。我們的目標受眾包括對知識圖譜不熟悉的研究人員和實踐者。因此,我們並不假設讀者對知識圖譜有特定的專業知識。

知識圖。「知識圖譜」的定義仍然存在爭議[36,53,136],其中出現了一些(有時相互衝突的)定義,從具體的技術建議到更具包容性的一般性建議;我們在附錄a中討論了這些先前的定義。在這裡,我們採用了一個包容性的定義,其中我們將知識圖譜視為一個數據圖,目的是積累和傳遞真實世界的知識,其節點表示感興趣的實體,其邊緣表示這些實體之間的關係。數據圖(又稱數據圖)符合一個基於圖的數據模型,它可以是一個有向邊標記的圖,一個屬性圖等(我們在第二節中討論具體的替代方案)。這些知識可以從外部資源中積累,也可以從知識圖譜本身中提取。知識可以由簡單的語句組成,如「聖地牙哥是智利的首都」,也可以由量化的語句組成,如「所有的首都都是城市」。簡單的語句可以作為數據圖的邊來積累。如果知識圖譜打算積累量化的語句,那麼就需要一種更有表現力的方式來表示知識——例如本體或規則。演繹的方法可以用來繼承和積累進一步的知識(例如,「聖地牙哥是一個城市」)。基於簡單或量化語句的額外知識也可以通過歸納方法從知識圖譜中提取和積累。

知識圖譜通常來自多個來源,因此,在結構和粒度方面可能非常多樣化。解決這種多樣性, 表示模式, 身份, 和上下文常常起著關鍵的作用,在一個模式定義了一個高層結構知識圖譜,身份表示圖中哪些節點(或外部源)引用同一個真實的實體,而上下文可能表明一個特定的設置一些單位的知識是真實的。如前所述,知識圖譜需要有效的提取、充實、質量評估和細化方法才能隨著時間的推移而增長和改進。

在實踐中 知識圖譜的目標是作為組織或社區內不斷發展的共享知識基礎[365]。在實踐中,我們區分了兩種類型的知識圖譜:開放知識圖譜和企業知識圖譜。開放知識圖譜在網上發布,使其內容對公眾有好處。最突出的例子——DBpedia[291]、Freebase[51]、Wikidata[515]、YAGO[232]等——涵蓋了許多領域,它們要麼是從Wikipedia[232,291]中提取出來的,要麼是由志願者社區[51,515]建立的。開放知識圖譜也在特定領域內發表過,如媒體[406]、政府[222,450]、地理[472]、旅遊[11,263,308,540]、生命科學[79]等。企業知識圖譜通常是公司內部的,並應用於商業用例[365]。使用企業知識圖譜的著名行業包括網絡搜索(如Bing[457]、谷歌[459])、商業(如Airbnb[83]、亞馬遜[127、280]、eBay[392]、Uber[205])、社交網絡(如Facebook[365]、LinkedIn[214])、金融(如埃森哲[368]、義大利銀行[32][326]、彭博[326]、Capital One[65]、富國銀行[355])等。應用包括搜索[457,459],推薦[83,205,214,365],個人代理[392],廣告[214],商業分析[214],風險評估[107,495],自動化[223],以及更多。我們將在第10節中提供更多關於在實踐中使用知識圖譜的細節。

課程其餘部分結構

第2節概述了圖形數據模型和可用於查詢它們的語言。

第3節描述了知識圖譜中模式、標識和上下文的表示形式。

第四節介紹了演繹式的形式主義,通過這種形式主義,知識可以被描述和推導出來。

第5節描述了可以提取額外知識的歸納技術。

第6節討論了如何從外部資源中創建和豐富知識圖譜。

第7節列舉了可用於評估知識圖譜的質量維度。

第8節討論知識圖譜細化的各種技術。

第9節討論發布知識圖譜的原則和協議。

第10節介紹了一些著名的知識圖譜及其應用。

第11節總結了知識圖譜的研究概況和未來的研究方向。

附錄A提供了知識圖譜的歷史背景和以前的定義。

附錄B列舉了將從論文正文中引用的正式定義。

本文授權轉載自公眾號:專知

相關焦點

  • NumPy論文登上Nature;高效Transformer綜述
    推薦:30 頁 PDF,400+ 參考文獻,清華大學張長水等撰寫少樣本學習綜述文章。論文 3:Array programming with NumPy作者:Charles R. Harris、K. Jarrod Millman、Travis E.
  • 7 Papers & Radios | ACL 2020獲獎論文;貝葉斯深度學習綜述
    機器之心 & ArXiv Weekly Radiostation參與:杜偉、楚航、羅若天本周的重要論文包括 ACL 2020 公布的最佳論文、最佳主題論文、最佳 Demo 論文以及其他獎項論文,此外還有 MIT 和香港科技大學學者的貝葉斯深度學習綜述論文
  • 清華張長水等人30頁少樣本學習綜述論文,涵蓋400+參考文獻
    選自arXiv作者:張長水等機器之心編譯編輯:魔王這篇綜述文章回顧了少樣本學習(FSL)的演進歷史和當前進展,對 FSL 方法進行了層次分類,並總結了近期多個 FSL 擴展性主題及其最新進展
  • 從ACL 2020看知識圖譜研究進展
    原創 Synced 機器之心機器之心分析師網絡作者:仵冀穎編輯:H4O本文選擇了 ACL 2020 中三篇與知識圖譜相關的文章進行詳細解讀。國際計算語言學協會年會 ACL 2020 按照原定時間已經於 7 月 5 日至 10 日召開,受到疫情影響,本次會議全部改為線上會議。ACL 2020 共收到了 3429 篇論文,收錄其中 779 篇論文,包括 571 篇長論文和 208 篇短論文,論文的總接收率為 22.7%。
  • 3秒搞定社科論文綜述 | 試用神器「論文知識圖譜」工具
    你還在用Google學術搜論文嗎?給你推薦一個找論文神器:只需輸入網址或標題,短短幾秒,就可得到相關論文圖表。你以為他只是參考文獻?不,它是與你的問題相關的論文知識圖譜。只需幾秒,最常引用的、最新的、相似的論文,全部以圖表的形式打包送給你!
  • 阿里巴巴AAAI 18論文CoLink:知識圖譜實體連結無監督學習框架
    篇論文被 AAAI 2018錄用,分別來自機器智能技術實驗室、業務平臺事業部、阿里媽媽事業部、人工智慧實驗室、雲零售事業部,其中有 5 位作者受邀在主會做 Oral&Spotlight 形式報告,另有 1 位作者攜兩篇論文在主會以 Poster 形式做報告。
  • 第四範式NeurIPS 2020:知識圖譜嵌入的自動化
    機器之心聯合多位研究者舉辦了線上分享活動,前不久,來自第四範式的資深研究員姚權銘博士和大家分享了其參與並被 NeurIPS 2020 接收的論文《Interstellar: Searching Recurrent Architecture for Knowledge Graph Embedding》。
  • 第四範式NeurIPS 2020:知識圖譜嵌入的自動化
    機器之心聯合多位研究者舉辦了線上分享活動,前不久,來自第四範式的資深研究員姚權銘博士和大家分享了其參與並被 NeurIPS 2020 接收的論文《Interstellar: Searching Recurrent Architecture for Knowledge Graph Embedding》。
  • 論文淺嘗 | 基於超平面的時間感知知識圖譜嵌入
    Background知識圖譜嵌入(Knowledge graph embedding)方法是將知識圖譜中的實體和關係表示成連續稠密低維實值向量,從而可以通過向量來高效計算實體與關係的語義聯繫。這些模型都沒有考慮時間維度,一直將知識圖譜當做靜態來處理,這顯然不符合事實,數據的暴漲與更新表明知識圖譜本來就是動態的,所以後來有工作將時間信息考慮進去,但只是將時間序列作為KG embedding過程中的約束,沒有明顯地體現時間的特性,為此,本文提出的HyTE模型直接在學習的過程中結合時間信息。
  • 領域大數據知識圖譜專題 《中國科學:信息科學》
    為推動領域大數據知識圖譜的研究,交流相關研究進展與成果,《中國科學: 信息科學》在2020年第50卷第7期組織出版「領域大數據知識圖譜專題」,經過嚴格的同行評議, 專題共收錄 7 篇文章, 主題涵蓋推薦系統、科技知識圖譜、事理認知圖譜、人物關係圖譜、地理知識圖譜、篇章事件連通圖、旅遊知識圖譜等方面的內容。
  • 18頁關於芳香性的綜述
    從最開始的苯到苯的衍生物擴展到非苯環的芳香化合物;從電中性的化合物擴展到離子狀態的化合物;從單一的不飽和碳環化合物擴展到含有雜原子的環狀化合物,甚至有些無機物也具有芳香性。。。最經典碳氫體系是最早被研究的芳香體系, 具有共平面、單雙鍵交替、π 電子完全參與離域與共軛等典型特徵。       其中比較公認的休克爾4n+2規則較完整、具體地提出了怎樣的分子體系才可能有芳香性。
  • 以史為鑑:從數字計算機到知識圖譜的這 60 多年
    對於語義 Web 研究領域來說,尤其是其中前景最為光明的一個發展領域——知識圖譜,我們注意到學生和初級研究者並沒有完全地熟知他們所掌握的思想、概念和技術的來源。我們認為本文將是為克服這一缺點所邁出的一小步。本文作者根據自己的經驗提出了撰寫這篇文章的想法。
  • 復旦大學教授發表19頁綜述文章:G蛋白偶聯受體超家族的化學多樣性
    該論文長達19頁,耗時一年完成,對目前所有已知G蛋白偶聯受體(G protein-coupled receptor, GPCR)小分子配體的化學結構和藥理活性進行了整合分析
  • Nature一篇論文57000位作者,更厲害的是,大多數作者都是遊戲玩家
    假裝有6萬個作者的論文前不久 Nature 出了一篇關於遊戲的科研論文,裡面提到了一個遊戲——Foldit。該論文的作者有超過 57,000 位作者,關鍵是,這些作者大多是遊戲玩家!玩遊戲玩出了頂級論文的操作也是服!
  • 一篇論文能署名多少作者?這篇Nature署名了57,000+位...
    該論文的作者有超過 57,000 位作者,關鍵是,這些作者大多是遊戲玩家!玩遊戲玩出了頂級論文的操作也是服!  有57000多位作者的論文  這篇論文的作者數和上一篇比,真心不算什麼。但是你可能不知道,這篇論文共有 33 頁,正文和參考文獻只有 9 頁,其餘的 24 頁全是論文作者和研究機構名單!平均下來,一個人只要寫幾個單詞就好了。
  • 7 Papers & Radios | EMNLP 2020最佳論文;新型優化器AdaBelief
    Lim論文連結:https://arxiv.org/pdf/2010.11944.pdf摘要:智能體在學習新任務時嚴重依賴之前的經驗,大部分現代強化學習方法從頭開始學習每項任務。利用先驗知識的一種方法是將在之前任務中學到的技能遷移到新任務中。
  • 一篇Nature論文有57000位作者,且大多數作者都是遊戲玩家!?
    一些大的科研項目,如腦的研究、人類基因組學、全球氣候變化的研究等,需要科學家之間、學術團體之間、國內外科學家之間的合作才能完成,所以署名作者相應也會很多。論文的署名人數有幾十人甚至幾百人已經不是新鮮事情了,可是6萬個作者的論文,你見過沒?
  • 論文寫作之如何搞定文獻綜述
    文獻綜述反映當前某一領域中某分支學科或重要專題的歷史現狀、最新進展、學術見解和建議,它往往能反映出有關問題的新動態、新趨勢、新水平、新原理和新技術等等。文獻綜述是針對某一研究領域分析和描述前人已經做了哪些工作,進展到何程度,要求對國內外相關研究的動態、前沿性問題做出較詳細的綜述,並提供參考文獻。作者一般不在其中發表個人見解和建議,也不做任何評論,只是客觀概括地反映事實。
  • 【乾貨】最全知識圖譜的概念篇
    ,實體是知識圖譜中的最基本元素,不同的實體間存在不同的關係。語義類(概念):具有同種特性的實體構成的集合,如國家、民族、書籍、電腦等。 概念主要指集合、類別、對象類型、事物的種類,例如人物、地理等。內容: 通常作為實體和語義類的名字、描述、解釋等,可以由文本、圖像、音視頻等來表達。屬性(值): 從一個實體指向它的屬性值。不同的屬性類型對應於不同類型屬性的邊。屬性值主要指對象指定屬性的值。