知識圖譜入門系列

2021-01-11 騰訊網

01 什麼是知識圖譜

1. 定義

官方定義:知識圖譜是一種基於圖的數據結構,由節點(point)和邊(Edge)組成,每個節點表示一個「實體」,每條邊為實體與實體之間的「關係」,知識圖譜本質上是語義網絡。

實體指的可以是現實世界中的事物,比如人、地名、公司、電話、動物等;關係則用來表達不同實體之間的某種聯繫。

由上圖,可以看到實體有地名和人;大理屬於雲南、小明住在大理、小明和小秦是朋友,這些都是實體與實體之間的關係。

通俗定義:知識圖譜就是把所有不同種類的信息連接在一起而得到的一個關係網絡,因此知識圖譜提供了從「關係」的角度去分析問題的能力。

2. 可視化表現

如果我們在百度搜索「周杰倫的老婆」的時候,搜索結果不是周杰倫,而是直接返回了昆凌的信息卡片,為什麼呢?

因為底層知識圖譜已經有了周杰倫和昆凌是夫妻關係,所以可以理解到你要找的是昆凌,而不是周杰倫,這也說明了知識圖譜有理解用戶意圖的能力。

02 知識圖譜構建的關鍵技術

知識圖譜構建的過程中,最主要的一個步驟就是把數據從不同的數據源中抽取出來,然後按一定的規則加入到知識圖譜中,這個過程我們稱為知識抽取。

數據源的分為兩種:結構化的數據和非結構化的數據。

結構化的數據是比較好處理的,難點在於處理非結構化的數據。而處理非結構化數據通常需要使用自然語言處理技術:實體命名識別、關係抽取、實體統一、指代消解等。

我們先來看下把這段文字變成知識圖譜的方式表達的結果:

上圖左邊的文案就是一個非結構化的文本數據,就需要經過一系列的技術處理,才能轉化為右邊的知識圖譜。具體是怎麼實現的呢,接下來一一討論。

1. 實體命名識別

提取文本中的實體,並對每個實體進行分類或打標籤,比如把文中「1984年12月30日」記為「時間」類型;「克利夫蘭騎士」和「邁阿密熱火」記為「球隊」類型,這個過程就是實體命名。

2. 關係抽取

關係抽取是把實體之間的關係抽取出來的一項技術,其中主要是根據文本中的一些關鍵詞,如「出生」、「在」、「轉會」等,我們就可以判斷詹姆斯與地點俄亥俄州、與邁阿密熱火等實體之間的關係。

3. 實體統一

在文本中可能同一個實體會有不同的寫法,比如說「LBJ」就是詹姆斯的縮寫,因此「勒布朗詹姆斯」和「LBJ」指的就是同一個實體,實體統一就是處理這樣問題的一項技術。

4. 指代消解

指代消解跟實體統一類似,都是處理同一個實體的問題。比如說文本中的「他」其實指的就是「勒布朗詹姆斯」。所以指代消解要做的事情就是,找出這些代詞,都指的是哪個實體。

指代消解和實體統一是知識抽取中比較難的環節。

03 知識圖譜的存儲

知識圖譜主要有兩種存儲方式:一種是基於RDF的存儲;另一種是基於圖資料庫的存儲。

1. RDF

RDF一個重要的設計原則是數據的易發布以及共享,另外,RDF以三元組的方式來存儲數據而且不包含屬性信息。

2. 圖資料庫

圖資料庫主要把重點放在了高效的圖查詢和搜索上,一般以屬性圖為基本的表示形式,所以實體和關係可以包含屬性。

3. RDF和圖資料庫的主要特點區別

關於知識圖片的存儲方式的內容比較專業,且沒有實際操作過比較難理解,所以我就不在此展開討論了,大家簡單知道知識圖譜有這麼一項內容就行,若有需要的可以自行研究下。

下面我們把重點放在知識圖片在金融領域的一些應用。

04 知識圖譜在金融領域的應用

知識圖譜在各行各業中的應用是比較普及的,並且有很重要的地位。下面我們跟大家一起討論的是知識圖譜在金融領域的一些應用,希望能通過這些例子給大家一點啟發。

1. 反欺詐

假設銀行要借錢給一個人,那要怎麼判斷這個人是真實用戶還是欺詐的呢?

我們需要以人為核心,展開一系列的數據構建,比如說用戶的基本信息、借款記錄、工作信息、消費記錄、行為記錄、網站瀏覽記錄等等。把這些信息整合到知識圖譜中。從而整體進行預測和評分,用戶欺詐行為的概率有多大。當然這個預測是需要通過機器學習,得到一個合理的模型,模型中可能會包括消費記錄的權重、網站瀏覽記錄的權重等等信息。

2. 不一致性驗證

比如說不同的兩個借款人,卻填寫了同一個電話號碼,那說明這兩個人中至少有一個是可疑的了,這時就需要重點關注了。

更複雜點的,可能需要知識圖譜通過一些關係去推理了。比如說「借款人」跟小明和小秦都是母子關係,按推理的話小明跟小秦應該是兄弟關係,而在知識圖譜上顯示的是朋友關係,就有可能有異常了,因此也需要重點關注。

3. 客戶失聯管理

如果借款人失聯了,通過知識圖譜,是不是可以聯繫他的朋友,或兄弟,甚至是兄弟的妻子,去追蹤失聯人。

因此在失聯的情況下,知識圖譜可以挖掘更多失聯人的聯繫人,從而提高催收效率。

4. 知識推理

如上左圖(注意這裡的箭頭方向),小秦是大秦的兒子,大秦是老秦的兒子,從這這樣的關係,我們就可以推理出,小秦是老秦的孫子,這樣就能使知識圖譜更加完善了。

如上左圖,小明在騰訊上班,小秦也在騰訊上班,從這樣的關係,我們可以推理出,小明和小秦是同事關係。

推理能力其實就是機器模仿人的一種重要的能力,可以從已有的知識中發現一些隱藏的知識。當然這樣的能力離不開深度學習,而隨著深度學習的不斷成熟,我相信知識圖譜的能力也會越來越強大。

相關焦點

  • 知識圖譜的皇冠:知識圖譜推理的前世今生
    [ 導讀 ]業界和學界對知識圖譜的關注主要集中於兩大領域,分別是知識圖譜的構建和知識圖譜的應用。 前者聚焦於通過對結構化、非結構化數據的整合,實現統一形式的數據存儲;後者則著眼於通過算法對海量知識圖譜數據進行學習與挖掘,從而推理出新的知識,服務於具體行業應用。
  • 老焦專欄|知識圖譜建設方法論
    《解開知識圖譜神秘的面紗》這篇介紹了知識圖譜的基本概念、應用知識圖譜的三個層面,本文主要介紹知識圖譜建設的方法論。2、知識建模的一個示例領域知識圖譜的建設,對業務的理解最為關鍵。往往對業務有深入理解的人,未必掌握知識圖譜應用建設的知識,因此我們的方法論就是如何在業務與 IT 之間建立一個溝通的橋梁。這裡舉一個實際的知識圖譜建模實例,以便更好的說明。
  • 老焦專欄|一個典型的知識圖譜應用建設案例
    1知識圖譜的幾種典型應用方式基於知識圖譜的應用可以分為幾種典型的類型,這幾種應用使用的場景各有不同,在使用技術上也各有側重,我們希望能夠根據不同類型,總結出一些通用的場景,指導應用建設:1)知識推理類型就是通過已知的知識,推理出未知的知識,這在知識圖譜應用的建設中
  • 從ACL 2020看知識圖譜研究進展
    研究手段則仍集中於各類機器學習的方法,包括:神經網絡、預訓練、注意力、知識圖譜等。還有一些文章特別關注了低資源、少樣本等實際應用中經常會遇到的問題。我們選擇了 ACL 2020 中三篇與知識圖譜相關的文章進行詳細解讀。其中,第一篇重點關注知識圖譜本身,提出了一種基於距離的知識圖譜中的源實體到目標實體的連結預測(Link Prediction)方法。
  • 本體和知識圖譜之間的區別是什麼?
    隨著語義應用程式成為業界越來越熱門的話題,客戶經常來EK詢問有關本體和知識圖譜的問題。具體來說,他們想知道兩者之間的區別。本體和知識圖譜是一回事嗎?它們有何不同?兩者之間是什麼關係?在這篇博客中,我將引導您了解本體和知識知識圖譜,講述它們之間的區別以及它們如何組織大量數據和信息。
  • 一文全覽,ICLR 2020 上的知識圖譜研究
    我們曾對 ICLR 2020 上的圖機器學習趨勢進行介紹,本文考慮的主題為知識圖譜。作者做波恩大學2018級博士生 Michael Galkin,研究方向為知識圖和對話人工智慧。在AAAI 2020 舉辦之際,他也曾對發表在AAAI 2020上知識圖譜相關的文章做了全方位的分析,具體可見「知識圖譜@AAAI2020」。
  • 使用Streamlit-Agraph構建知識圖譜
    streamlit_components.htmlhttps://www.streamlit.io/componentspip install some_cool_componentStreamlit-Agraph簡介Streamlit-Agraph是基於react-d3-graph的封裝,使我們能夠在Streamlit應用中展示一定的關係網絡圖譜
  • 萬字詳解:騰訊如何自研大規模知識圖譜 Topbase
    二、知識圖譜技術架構TopBase 的技術框架如圖 2 所示,主要包括知識圖譜體系構建,數據生產流程,運維監控系統以及存儲查詢系統。其中知識圖譜體系是知識圖譜的骨架,決定了我們採用什麼樣的方式來組織和表達知識,數據生產流程是知識圖譜構建的核心內容,主要包括下載平臺,抽取平臺,知識規整模塊,知識融合模塊,知識推理模塊,實體重要度計算模塊等。Topbase 應用層涉及知識問答(基於 topbase 的 KB-QA 準確率超 90%),實體連結(2017 圖譜頂級賽事 KBP 雙料冠軍),相關實體推薦等。
  • 國雙石承泰:知識圖譜賦能社交洞察,助力品牌新增長
    與電商平臺不同,國雙的優勢在於具備強大的大數據和人工智慧技術,在進行社交洞察分析的過程中,能夠利用知識圖譜技術融合各類社交數據,構建消費者行為關係網,幫助品牌預測消費者需求,提升GMV。  因此,基於知識圖譜的社交洞察也被石承泰定義為社交數據3.0時代。
  • 2020年中國面向人工智慧「新基建」的知識圖譜行業白皮書
    知識圖譜是一種用圖模型來描述知識和建模世界萬物之間關聯關係的大規模語義網絡,幫助機器實現理解、解釋和推理的能力,是認知智能的底層支撐。 2019年知識圖譜相關的融資金額較2018年增長超過200%,逐漸成為人工智慧又一熱點產業,產業鏈已初具規模,2019年知識圖譜核心產品市場規模約65億元,知識圖譜技術帶動經濟增長規模約391.8億元。
  • 這周日,北理工將邀數位大咖研討「知識圖譜與智能問答」
    在過去幾個月中,其有效地融合了高校資源和業界資源推出了Python、知識圖譜、機器學習等系列專題學習與研討活動,其中知識圖譜專題涉及了知識圖譜構建技術、知識圖譜應用、大規模知識圖譜數據存儲、知識圖譜與聊天機器人等主題,引起了北京地區廣大師生和業界人員的高度關注。
  • 同濟王昊奮:知識圖譜與多模態大數據時代|世界人工智慧大會
    同濟大學特聘研究員王昊奮教授圍繞知識圖譜詳細介紹了多模態知識圖譜的構建、以及大規模知識推理、多策略知識問答等關鍵技術,並就行業知識圖譜在金融、工業網際網路、泛傳媒、抗疫等領域的實踐進行了詳細介紹。以下為演講內容:大家好!
  • 「神經+符號」:從知識圖譜角度看認知推理的發展
    ,則必須藉助外部的符號知識(如知識圖譜)進行認知推理,才能完成求解過程。綜上所述,「神經+符號」系統無疑是人工智慧的理想模型。我們可以總結出一個完美的「神經+符號」系統的特點和優勢:1.可以輕鬆處理目前主流機器學習擅長的問題;2. 對於數據噪音有較強的魯棒性;3. 系統的求解過程和結果容易被人理解、解釋和評價;4.
  • 知識圖譜的用戶需求分析專題及常見問題 - CSDN
    1.2 需求分析通過如下的背景介紹,我們可以明確到,為了構建一個全局統一的知識表示和查詢框架,我們需要如下的關鍵工作。1.3 電商認知圖譜為了解決上面的問題,我們提出了電商認知圖譜(E-commerce ConceptNet), 目標是建立電商領域的知識體系,通過深度認知用戶需求,實現電商場景下關聯人-貨-場的聯動,賦能業務方和行業。
  • 醫渡雲知識圖譜技術 更好發揮「黑盒」和「邏輯」的雙邊優勢
    醫渡雲知識圖譜技術 更好發揮「黑盒」和「邏輯」的雙邊優勢 2020年12月28日來源:網際網路 提要:作為國內知識圖譜、語義技術、語言理解和知識計算等領域的核心會議,2020全國知識圖譜與語義大會吸引了來自清華大學、哈爾濱工業大學、騰訊、阿里巴巴等眾多國內知名大學與企業前來參加
  • 攻克信息抽取行業難題,搜狗知識圖譜團隊在NLPCC 2020上奪冠
    近日,在NLPCC(全稱:CCF國際自然語言處理和中文計算會議) 2020上,搜狗杭州研究院知識圖譜組以最高F1值,擊敗多隻國內外頂尖科研機構的參賽隊伍,榮獲Auto Information Extraction(信息抽取)任務組冠軍。
  • 百分點認知智能實驗室:信息抽取在知識圖譜構建中的實踐與應用
    編者按坦率地講,各行各業對如何落地知識圖譜這個問題,或多或少都心存一絲疑惑。人類知識和機器可理解的知識有什麼區別?知識圖譜如何突破自身局限性,從「萬事通」轉為「科學家」?在行業的實踐中之所以對知識圖譜期望太高,是因為人類知識和知識圖譜這兩個概念容易引起歧義:人類知識包括原理、技能等高級知識,而知識圖譜源自語義網絡、本體論,藉助RDF三元組及模式(schema)的形式構建計算機可理解、可計算的實體及實體之間關聯的事實性知識庫,即圖譜可形象地稱作「萬事通」而非「科學家」。
  • 從神經轉化到符號:從知識圖譜的角度看認知推理的發展
    ,則必須藉助外部的符號知識(如知識圖譜)進行認知推理,才能完成求解過程。 綜上所述,「神經+符號」系統無疑是人工智慧的理想模型。我們可以總結出一個完美的「神經+符號」系統的特點和優勢: 1. 可以輕鬆處理目前主流機器學習擅長的問題; 2.
  • 2021年NLP入門書籍推薦|理論&實戰
    對於初學者來說,最系統的入門方法就是買一本好書。相比網絡上的內容,書籍是反覆審核修改過的,條理上也更加清晰,可以幫大家建立起更完備的知識體系。今天rumor就從理論和實踐兩方面梳理一個中文NLP入門書單,幫大家快速入門。
  • 平安產險在ICDM 2020 知識圖譜國際大賽中斬獲冠軍
    近日,平安產險在國際電氣與電子工程師協會(IEEE)旗下 ICDM(International Conference on Data Mining)國際數據挖掘會議主辦的知識圖譜大賽中脫穎而出,擊敗257家參賽單位和隊伍,在競賽單元和論文單元綜合排名首位。這是繼2019年智能單證識別技術榮獲第一後,平安產險在數據挖掘領域再次摘得世界桂冠。