是時候該關注「知識圖譜」了!

2021-01-21 微言創新


編者按

隨著大數據、自然語言處理、人工智慧等技術的發展,知識圖譜成為近幾年的熱點技術,在生活服務、醫療輔助、金融風控等不同行業和領域,實現了眾多的智能化應用。


知識圖譜是什麼


通俗地講,知識圖譜就是將複雜的知識通過數據挖掘、信息處理、知識計量和圖形繪製等一系列方式,把所有不同種類的信息連接在一起得到的一個關係網絡。在知識圖譜裡,用節點表示現實世界中存在的「實體」,用邊示意實體與實體之間的「關係」。知識圖譜是表示關係的最有效的方式,提供了從「關係」的角度分析問題的能力,讓機器能夠像人一樣理解世界、獲取知識,進而做出決策和行動。

在大數據的推動下,知識圖譜受到了業界和學術界的廣泛關注。自2012 年Google推出第一版知識圖譜軟體,相繼湧現出一大批面向不同領域和應用的知識圖譜,如Yago,DBpedia,MusicBrainz,PubMed等,為各類智能應用帶來了大量結構化知識。以DBpedia為例,其英文版知識圖譜擁有400萬實體,包括144萬人物、73萬地點、41萬創意作品、24萬組織機構、25萬物種和6000多種疾病。在國內,搜狗和百度分別推出搜狗知立方和知心,百度還開放其知識圖譜Schema,作為百度知識圖譜構建和知識計算的核心數據結構,並用於規範百度內外部合作方的結構化數據交換。


知識圖譜的構建


假設我們直接向Google提問:「愛因斯坦的兒子是誰」。可以看到,除了一堆關於愛因斯坦的網頁,Google還會直接給出答案:愛德華·愛因斯坦。Google到底是怎麼做的呢?

首先,Google要理解我們的提問。對輸入的問話進行自然語言分析,抽取句中的實體,比如「愛因斯坦」、「兒子」,再依據這兩個關鍵詞進行檢索。

然後,Google利用網頁中的搜索結果建立知識圖譜。構建知識圖譜的關鍵是進行實體之間的關聯連接。通過大量的網頁分析,可以得出Albert Einstein和Eduard Einstein具有父子關聯,同時構建與愛因斯坦相關的知識圖譜。

最後,反饋答案。雖然本例中Google返回的是直接答案,實際上知識圖譜應用的反饋結果還可以是自然語言或可視化圖表。

因此,知識圖譜的構建可能涉及網絡爬蟲、數據預處理、圖資料庫和算法、關係型數據可視化等多種技術。在一個實現知識圖譜的典型流程中(見下圖),使用目標網站作為信息源,通過網絡爬蟲技術,使用本體方法或者其他自然語言處理方法定位複雜網頁中需要抓取的實體屬性信息。對抓取到的數據的部分欄位值進行清洗和規範化,選擇要抽取的實體和關係欄位,並定義實體間的關係及關係的方向,通過增加唯一性約束,對實體進行對齊操作。最後將實體和實體之間的關係一併保存到圖資料庫中。此後便可以通過各類圖算法,提供對外服務,包括各類查詢分析及圖譜可視化。



知識圖譜的應用


知識圖譜技術為不同的商業場景帶來了大量的智能應用和成功案例,上文用於搜尋引擎的例子只是冰山一角,常見的領域還包括問答系統和金融風控等。

1.問答系統

問答系統是信息檢索的一種高級形式,它能用準確、簡潔的自然語言回答問題。建立基於知識圖譜的問答系統,不僅需要建立一個擁有高質量數據的知識圖譜,還需要解決語義理解問題和語義檢索問題。大數據的發展,為精確的語義理解和高質量的知識來源帶來了數據層面的發展契機;而圖資料庫的發展,則提供了比關係型資料庫更為高效的技術解決方案。

從 2011年Siri誕生,到Google Now,再到微軟的Cortana和亞馬遜的Alexa,語音助手本質上都是問答系統。這些面向公開領域的問答系統,能幫助我們訂行程、打電話、開啟導航甚至網上購物,帶來生活便利。

除此之外,還有一部分面向特定領域的問答系統,如2016年10月「百度醫療大腦」首個產品化項目發布的「對話機器人」。該問答系統模擬醫生的問診流程,依據用戶的症狀提出可能出現的問題,反覆交流驗證,直到給出最終建議。同時收集整理病人的症狀描述,提醒醫生更多可能性,輔助基層醫生完成問診。


2.金融風控

隨著網際網路特別是移動網際網路的爆發式發展,金融行業的數據增長量十分驚人,據統計,國內大型商業銀行和保險公司的數據量已超100TB。由於對數據強烈的依賴性,金融領域被看作人工智慧最適合落地的領域之一。金融風控知識圖譜的構建需要從金融機構內外部數據中對金融實體進行抽取、定義,並挖掘金融實體間的各種關係,如企業間的投資關係、擔保關係,企業與個人間的任職、實際控制關係。除了記錄實體的基本信息,還可以把實體的其他相關數據,如消費記錄、行為記錄、關係信息等,整合到知識圖譜裡,並在此基礎上對該實體的金融風險進行評估和預警。如下圖所示,以借款申請人李某為中心的擔保關係中,已有的五個客戶一半以上存在借款逾期的情況,從風險角度考慮,知識圖譜會提供「拒絕李某借款申請」的建議供審核人員參考。



近幾年,金融欺詐的形式多種多樣,資料造假、團夥欺詐、內外勾結等手段越來越「高明」,原來單點突破的反欺詐方法已經遠遠不夠,有必要引入知識圖譜豐富的關聯知識。如國內的明略數據公司搭建的新一代金融風控大腦,挖掘隱藏在複雜網絡之下的關聯關係風險和資金流動異常,及時有效地防範和化解業務風險。

此外,在科技服務領域,上海產業技術研究院也進行了知識圖譜的應用探索,研發了面向科技服務大數據的知識圖譜工具,實現了路徑檢索、相似檢索、環路檢測等功能,並對大量科技服務數據進行連結、分析,通過可視化技術展現複雜的領域知識,為用戶提供最直觀的決策依據。



責任編輯:雷蓉




戴炳榮,博士、高級工程師,上海計算機軟體技術開發中心軟體平臺服務部副主任。數據資產管理標準核心研究人員,在知識圖譜與大數據分析等方向有深入研究。

 

袁汝焱,研發工程師,主要負責知識圖譜與大數據分析等技術研發工作。


應用大數據,做好技術成果市場價值評估

AlphaGo積累的數據值多少錢? ——談數據價值評估

你真的了解大數據系統嗎? ——大數據系統評測的挑戰與方法

大數據開放共享?數據治理應先行

工業大數據的六種應用場景

值得期盼的「大數據試驗場」

對大數據產業基地未來發展的思考

莫讓大數據成為網絡詐騙的「幕後幫兇」

數據時代的五種創新模式【上】

數據時代的五種創新模式【下】




(本文不代表微言創新觀點。歡迎投稿、轉載和商務合作,請聯繫innotalk@163.com) 


相關焦點

  • 知識圖譜的皇冠:知識圖譜推理的前世今生
    [ 導讀 ]業界和學界對知識圖譜的關注主要集中於兩大領域,分別是知識圖譜的構建和知識圖譜的應用。 前者聚焦於通過對結構化、非結構化數據的整合,實現統一形式的數據存儲;後者則著眼於通過算法對海量知識圖譜數據進行學習與挖掘,從而推理出新的知識,服務於具體行業應用。
  • 如何構建知識圖譜?
    本文根據轉轉張青楠老師,在DataFun AI+ Talk中所分享的《二手電商知識圖譜構建以及在價格模型中的應用》編輯整理而成。一、知識圖譜概述這次的分享主要從以下四個部分:知識圖譜概述、知識圖譜構造、轉轉二手電商知識圖譜、在價格模型中的應用。
  • 從ACL 2020看知識圖譜研究進展
    研究手段則仍集中於各類機器學習的方法,包括:神經網絡、預訓練、注意力、知識圖譜等。還有一些文章特別關注了低資源、少樣本等實際應用中經常會遇到的問題。我們選擇了 ACL 2020 中三篇與知識圖譜相關的文章進行詳細解讀。其中,第一篇重點關注知識圖譜本身,提出了一種基於距離的知識圖譜中的源實體到目標實體的連結預測(Link Prediction)方法。
  • 知識圖譜在推薦系統的落地
    原標題:知識圖譜在推薦系統的落地 本篇文章為大家介紹了什麼是推薦系統、推薦系統運作流程、圖譜應用的優勢、圖譜在推薦中的應用、圖譜推薦的原理、圖譜推薦的難點,並附上實際例子幫助大家進一步了解。
  • 解析|如何構建知識圖譜
    編輯導語:知識圖譜可以說是一個資料庫,在如今大數據時代,知識圖譜已經是企業中能夠起到很大作用的一個環節,可以提高工作效率等;本文作者分享了關於構建知識圖譜以及問題的解答,我們一起來看一下。
  • 基於向量空間的知識圖譜查詢及結果解釋
    知識圖譜表示學習知識圖譜表示學習是在2014年左右的時候出現的一項新的技術,核心思想是詞項的問題。做自然語言的深度學習,如何選擇詞項模型和訓練方式是第一項基本任務。知識圖譜的向量模型之前是通過關係資料庫或者圖資料庫,採用傳統的方式存儲。
  • 試驗知識圖譜分析
    、知識圖譜方面的應用研究。前言:知識圖譜是知識工程不斷發展衍生出的新一代知識工程技術,知識圖譜的概念最早是由谷歌在2012年正式提出,最初僅應用在智能搜索領域,目前已應用在多垂直領域,比如金融行業、醫療衛生、政府、能源與工業得到廣泛的應用。本期課程重點分為以下四個方面:試驗知識綜述、試驗知識圖譜分析、試驗知識圖譜構建技術和試驗知識圖譜技術展望。
  • 中科院趙軍帶你認識:知識圖譜的關鍵技術
    該報告首先介紹知識圖譜的發展脈絡,特別是與傳統知識表示方法的區別和聯繫,然後介紹知識圖譜構建和應用中的關鍵技術,進而討論知識圖譜及其構建與應用中的關鍵技術如何服務於大數據環境下的推薦系統,最後簡要介紹基於知識圖譜的推薦系統的前沿學術進展。
  • 谷歌知識圖譜功能帶來的是什麼?
    近日,谷歌(暫限於英文版谷歌)正式推出被稱為知識圖譜(Knowledge Graph)的新搜索功能。只要在谷歌搜尋引擎裡鍵入單詞或短語,在傳統搜索結果的右側就會多出一個欄目直接顯示該詞條的相關信息,這些信息來自維基百科與其他提供信息服務的網站。與之前的瀏覽方式相比,用戶免去了自己訪問信息出處網站這一過程——谷歌直接把信息呈現在搜索頁面中。
  • 企業大數據挖掘:為員工構建職場知識圖譜
    職場知識圖譜EDI為何如此聰明?一方面,EDI擁有精準的自然語言理解和對話能力;另一方面,利用深度學習和社交網絡融合等前沿技術,EDI為每個用戶構建了一張關於他們的職場知識圖譜。本文首先介紹如何構建用戶的職場信息圖譜,這是EDI個人助理的「大腦」,後續文章將介紹如何賦予EDI自然語言理解和對話能力,讓它能為主人愉快地工作,歡迎有興趣的讀者繼續關注。
  • 論文淺嘗 | 基於超平面的時間感知知識圖譜嵌入
    本文提出了 HyTE 模型,HyTE 不僅能夠利用時間導向進行知識圖譜圖推理,還能夠為那些缺失時間注釋的事實預測temporal scopes 。實驗結果表明該模型與傳統模型或者同類模型相比都有著突出的表現。
  • 【乾貨】最全知識圖譜的概念篇
    知識圖譜於2012年5月17日由[Google]正式提出,其初衷是為了提高搜尋引擎的能力,改善用戶的搜索質量以及搜索體驗。隨著人工智慧的技術發展和應用,知識圖譜逐漸成為關鍵技術之一,現已被廣泛應用於智能搜索、智能問答、個性化推薦、內容分發等領域。知識圖譜的定義在維基百科的官方詞條中:知識圖譜是Google用於增強其搜尋引擎功能的知識庫。
  • 第四範式NeurIPS 2020:知識圖譜嵌入的自動化
    start=6知識圖譜嵌入(Knowledge Graph Embedding)目前在學習知識圖譜(KG)中的知識表達上具有很強的能力。在以往的研究中,很多工作主要針對單個三元組(triplet)建模,然而對 KG 而言,三元組間的長鏈依賴信息在一些任務上也很重要。
  • 第四範式NeurIPS 2020:知識圖譜嵌入的自動化
    start=6知識圖譜嵌入(Knowledge Graph Embedding)目前在學習知識圖譜(KG)中的知識表達上具有很強的能力。在以往的研究中,很多工作主要針對單個三元組(triplet)建模,然而對 KG 而言,三元組間的長鏈依賴信息在一些任務上也很重要。
  • 2020 WAIC明略科技HAO圖譜Open API 吳信東深度解讀知識圖譜的自動...
    數據圖譜不是知識圖譜吳信東認為,大多數情況下,我們所說的、所用到的圖譜並沒有後臺知識,只是數據圖譜,而不是知識圖譜。知識圖譜應該有三個組成部分,首先是概念,即圖譜的節點。概念跟概念之間是連接,是關係,即圖譜的邊。只有概念和關係還不夠,還需要背景知識解釋概念,和連接的語義。
  • YOCSEF合肥技術論壇:知識圖譜是否真的物有所值
    10月10號,YOCSEF合肥技術論壇成功在線召開,本次主題圍繞知識圖譜是否真的物有所值展開。知識圖譜是近年來的研究和應用熱點,已經進入其蓬勃發展的階段,並且逐步輻射眾多行業。但是知識圖譜成本高昂,能否獲得相對應的增益,達到物有所值的目的仍舊是值得探討的問題。
  • 深度解析知識圖譜領域幾次發展的主要技術突破
    知識圖譜是人工智慧三大分支之一——符號主義——在新時期主要的落地技術方式。該技術雖然在 2012 年才得名,但它的歷史淵源,卻可以追溯到更早的語義網、描述邏輯、和專家系統。在該技術的的歷史演變中,多次出現發展瓶頸,也多次以工程的方式突破了這些瓶頸。
  • COOC--一款用於文獻計量和科學知識圖譜繪製的軟體
    COOC一款用於文獻計量和知識圖譜繪製的新軟體[EB/OL].(2020-01-12)[2020-08-16].https://mp.weixin.qq.com/s/Igng9UyO9rTAHd0B4lD_4g其中【2020-08-16】為你引用的時間 其他本平臺開發的軟體引用格式於此類似以前論文寫作中做一個共現矩陣
  • 需要知識的後深度學習時代,如何高效自動構建知識圖譜?
    該技術常見於智慧型手機或音箱載體上的智能對話機器人,如 Siri、小愛同學、天貓精靈,以及weiruan的小冰、小娜等,這些智能問答 agent 的背後都有相關企業各自積累的知識圖譜作為問答系統的支撐。 智能推薦:基於知識圖譜的推薦能更好將用戶與被推薦項目之間的各種相互聯繫考慮進來,可以增強數據的語義信息、挖掘隱藏的關聯信息,進一步提高推薦的準確度。
  • 知識圖譜在金融資管領域的應用、實踐與展望
    知識圖譜是人工智慧的一個重要分支,對可解釋人工智慧具有重要作用。金融知識圖譜作為專業領域知識圖譜,在智能投研、智能風控、智能客服、智能合規等領域有著重要的應用價值。本文綜合熵簡科技三年以來的產業實踐,結合知識圖譜領域的技術前沿,以及資管場景的落地應用,淺談知識圖譜在金融資管領域的發展現狀與應用展望。