知識圖譜發展的難點&構建行業知識圖譜的重要性

2020-12-14 人人都是產品經理

知識圖譜又稱為科學知識圖譜,在圖書情報界稱為知識域可視化,或知識領域映射地圖,用來顯示知識發展進程與結構關係的一系列各種不同的圖形,用可視化技術描述知識資源及載體,挖掘、分析、構建、繪製和顯示知識及他們互相之間的關係。

一、概述

儘管人工智慧依靠機器學習和深度學習取得了快速進展,但這些都是弱人工智慧,對於機器的訓練,需要人類的監督以及大量的數據來餵養,更有甚者需要人手動對數據進行標記,對於強人工智慧而言,這是不可取的。要實現真正的類人智能,機器需要掌握大量的常識性知識,以人的思維模式和知識結構來進行語言理解、視覺場景解析和決策分析。

二、什麼是知識圖譜

百度百科定義:知識圖譜又稱為科學知識圖譜,在圖書情報界稱為知識域可視化,或知識領域映射地圖,用來顯示知識發展進程與結構關係的一系列各種不同的圖形,用可視化技術描述知識資源及載體,挖掘、分析、構建、繪製和顯示知識及他們互相之間的關係。

乳腺癌知識圖譜

三、為什麼需要知識圖譜

  1. 知識圖譜把複雜的知識領域及知識體系通過數據挖掘、信息處理、知識計量和圖形繪製顯示出來,表示該領域的發展動態及規律,為該領域的研究提供全方位、整體性、關係鏈的參考。
  2. 知識圖譜是智能社會的重要生產資料,如果把人工智慧比作一個「大腦」,那麼深度學習是「大腦」的運轉方式,知識圖譜則是「大腦」的知識庫,而大數據、GPU並行計算和高性能計算等支撐技術就是「大腦」思維運轉的支撐。
  3. 知識圖譜是真實世界的語義表示,其中每一個節點代表實體連接節點的邊則對應實體之間的關係異構數據通過整合表達為知識,圖的表達映射了人類對世界的認知方式,知識圖譜非常適合整合非結構化數據從零散數據中發現知識,從而幫助組織機構實現業務智能化。

四、知識圖譜的誕生

當你對陌生領域進行學習時,無法把握要點及整體框架,以至於檢索效率低、入門無道時,知識圖譜應運而生。

自2012年5月,Google將知識圖譜應用到其搜尋引擎,以提升其搜索服務能力,將各種渠道收集而來的相關信息展示在搜索結果旁的信息框中,以結構化模塊形式提供給用戶。

主要從三個方面提升了其搜索效果:

  1. 語言的多義性,展示差異化結果,縮小搜索範圍。
  2. 信息的關聯性,理解總結信息間的關聯,理解事物的相關性。
  3. 體系的廣泛性,構建完整的知識體系,發現新的事實或新的聯繫,促進一系列全新的搜索查詢。

google知識圖譜展示

五、知識圖譜的原理

知識圖譜以結構化數據處理,運用三元體,點、線、面的方式表示本體之間的關係,利用關係來組織所有的對象(實體),形成有向圖結構。所謂知識,指的是點或邊對應的信息。

知識圖譜以語義分析技術為基礎,以模型為核心,基於數據,利用深度神經網絡、NLP框架語義理解等智能處理技術對輸入的字、詞、篇章進行多層次、多維度的信息分析,提供可遠程調用的實體抽取、關係抽取和屬性抽取等算法服務接口能力。達到構建多領域知識圖譜平臺,服務不同行業和應用場景。

知識圖譜相關技術

構建知識圖譜是一個迭代更新的過程,根據知識獲取的邏輯,每一輪迭代可分為三個階段:

  1. 信息抽取:從各種類型的數據源中提取出實體、屬性以及實體間的相互關係,在此基礎上形成本體化的知識表達;
  2. 知識融合:在獲得新知識之後,需要對其進行整合,以消除矛盾和歧義,比如:某些實體可能有多種表達,某個特定稱謂也許對應於多個不同的實體等;
  3. 知識加工:對於經過融合的新知識,需要經過質量評估之後(部分需要人工參與甄別),才能將合格的部分加入到知識庫中,以確保知識庫的質量。

知識圖譜技術架構

六、知識圖譜的發展方向

「純粹的通用型人工智慧沒有任何意義,人工智慧未來的方向一定是行業化。」

因此行業知識圖譜的構建顯得尤為重要,首先,構建行業知識圖譜系統應以海量數據匯聚融合、快速感知和認知、強大的分析和推理、自適應與自優化和行業智能決策為導向。

下面介紹一下通用知識圖譜行業知識圖譜構建的區別:

通用知識圖譜以網際網路開放數據為基礎,如維基百科或社區眾包為主要來源,逐步擴大規模。以三元組事實型知識為主,較多的面向開放域的Web抽取,對知識抽取的質量有一定容忍度,以知識融合提升數據質量,應用領域主要在搜索和問答方面,對推理要求較低。如:百度、谷歌、雅虎等等

行業知識圖譜以領域或企業內部的數據為主要來源,通常要求快速擴大規模,構建行業壁壘,知識結構更加複雜,通常包含本體工程和規則型知識。知識抽取的質量要求很高,較多的依靠從企業內部的結構化、非結構化以及半結構化數據進行聯合抽取需要依靠人工進行審核校驗,來保證質量。通常需要融合多來源的領域是數據擴大規模的有效手段。應用形式更加全面,除搜索問答外,還包括決策分析、業務管理等,並對推理的要求更高,並有較強的可解釋性要求。主要領域有電商、金融、農業、安全、醫療等等

面向行業知識譜圖系統構建

大數據的採集分析和計算力已經不再是阻礙,難點在於算法背後的知識圖譜構建。實際中,企業數據和業務變化靈活,因此數據源、數據結構、數據內容隨時會發生變動,對業務的理解以及對數據的解讀也隨之發生變化。因此,建立實時敏捷、靈活可擴展、智能自適應的動態知識圖譜尤為重要。

七、行業知識圖譜的重要性

由於IT時代的快速發展,形成了數據的聚集。促進了正在來臨DT時代,數據與算法作為基礎為知識圖譜的構建提供了新的可能性,而知識圖譜作為AI的支撐基礎,雖然發展緩慢,卻是人工智慧的必經之路。由於其在語義搜索、智能問答、數據分析、自然語言處理、視覺理解、物聯網設備已展現出越來越大的價值。

比如:上一篇文章中提到的基於語音對話系統構建的機器人,要想機器人好玩有趣,就需要建立通用知識圖譜,使機器人具有強大的邏輯,了解人與人關係,人與物的關係,人的屬性、物的屬性,理解人類世界的關係鏈,靈活應對用戶的各種聊天需求,使機器具有類人智能。而行業知識圖譜則幫助用戶解答關於行業的任務型需求,輔助用戶決策,反向幫助人類學習。

如今,人工智慧屬於發展初期,主要以技術驅動行業發展,屬於拿著錘子找釘子的時期,企業在以行業+AI為核心的同時,也應重視行業+知識圖譜。因為未來技術肯定不是公司的核心競爭力,而多年積累的行業數據才是壁壘。數據養育AI,AI反哺數據。

行業知識圖譜在很多領域已經有了很好的應用。

例如:天眼查、企查查的企業知識圖譜,數據包括:企業基礎數據、投資關係、任職關係、企業專利數據、企業招標數據、企業招聘數據、企業訴訟數據、企業失信數據、企業新聞數據;

企業知識圖譜

利用知識圖譜融合以上數據,製作企業知識圖譜,並在企業知識圖譜之上利用圖譜特性,針對金融業務場景做一系列應用。

(1)企業風險評估

基於企業基礎信息、投資關係、訴訟、失信等多維度關聯數據,利用圖計算等方法構建科學、嚴謹的企業風險評估體系,有效規避潛在的經營風險與資金風險。

(2)企業社交圖譜

基於投資、任職、專利、招標股、涉訴關係以目標企業為核心向外層擴散,形成一個網絡關係圖,直觀立體展現企業關聯。

(3)企業掌權人

基於股權投資關係尋找持股比例最大的股東,最終追溯至自然人或國有資產管理部門。

(4)企業關聯路徑

基於股權、任職、專利、招標股、涉訴關係形成的網絡關係中、查詢企業之間的最短路徑,衡量企業之間的關係密切度。

(5)企業的發展歷程

基於企業知識圖譜中的投融資事件的時間順序,記錄企業的發展歷程。

(6)企業信息的智能問答

用戶通過語音輸入,系統通過語音輸出給用戶想要的答案。

就寫這麼多,希望能帶給各位一些思考。關於醫療知識圖譜、金融知識圖譜、農業知識圖譜的應用場景請自行查詢吧。

 

本文由 @阿拉燈神丁 原創發布於人人都是產品經理。未經許可,禁止轉載

題圖作者提供

相關焦點

  • 媒體知識圖譜的構建簡析
    知識圖譜是反映實體間、實體與屬性間關係的網絡,是它們基於知識的關聯,是對於海量數據的一種有效的組織方式和利用手段。現有代表性的知識網絡有Wordnet、DBpedia、Freebase、NELL(Never Ending Language Learning,永不結束語言學習)、YAGO和谷歌知識圖譜等。其共同點是均基於單一文本進行構建。根據知識來源與頂層概念設計理念,現有數據驅動的知識圖譜構建的研究工作大致分為如下幾類。
  • 如何構建知識圖譜
    編輯導語:知識圖譜可以說是一個資料庫,在如今大數據時代,知識圖譜已經是企業中能夠起到很大作用的一個環節,可以提高工作效率等;本文作者分享了關於構建知識圖譜以及問題的解答,我們一起來看一下。知識圖譜作為大數據內容的搬運工,在知識算法和使用上,能夠放大組織沉澱數據應用價值;目前搜索巨頭、購物網站均已經通過應用知識網絡,實現了更深層次的「千人千面」。
  • 萬字綜述:行業知識圖譜構建最新進展
    目前在大部分細分垂直領域中,行業知識圖譜的 schema 構建依賴領域專家的重度參與,該模式人力投入成本高,建設周期長,同時在缺乏大規模有監督數據的情形下的信息抽取效果欠佳,這限制了行業知識圖譜的落地且降低了圖譜的接受度。
  • 如何構建知識圖譜?
    本文根據轉轉張青楠老師,在DataFun AI+ Talk中所分享的《二手電商知識圖譜構建以及在價格模型中的應用》編輯整理而成。一、知識圖譜概述這次的分享主要從以下四個部分:知識圖譜概述、知識圖譜構造、轉轉二手電商知識圖譜、在價格模型中的應用。
  • 知識圖譜是什麼?
    知識圖譜最開始是Google為了優化搜尋引擎提出來的,推出之後引起了業界轟動,隨後其他搜索公司也紛紛推出了他們的知識圖譜。知識圖譜發展到今天,不僅是應用在搜索行業,已經是AI的基礎功能了。那到底知識圖譜是什麼?有什麼能力?怎麼應用?這就是本文想要討論的內容。
  • 從知識圖譜到認知圖譜:歷史、發展與展望
    知識圖譜的研究熱點逐漸出現重數量輕結構化的傾向,這與深度學習和聯結主義思想的盛行密不可分。認知圖譜依據人類認知的雙加工理論,動態構建帶有上下文信息的知識圖譜並進行推理。本文回顧了知識圖譜的發展歷史,指出認知圖譜提出的動機並展望其發展前景。知識圖譜是由谷歌(Google)公司在2012年提出來的一個新的概念。本質上是語義網的知識庫。
  • 自底向上——知識圖譜構建技術初探
    知識圖譜的構建技術主要有自頂向下和自底向上兩種。其中自頂向下構建是指藉助百科類網站等結構化數據源,從高質量數據中提取本體和模式信息,加入到知識庫裡。而自底向上構建,則是藉助一定的技術手段,從公開採集的數據中提取出資源模式,選擇其中置信度較高的信息,加入到知識庫中在知識圖譜技術發展初期,多數參與企業和科研機構主要採用自頂向下的方式構建基礎知識庫,如Freebase。
  • 【乾貨】最全知識圖譜綜述#2: 構建技術與典型應用
    我們專知的技術基石之一正是知識圖譜-構建AI知識體系-專知主題知識樹簡介。下面我們特別整理了關於知識圖譜的技術全面綜述,涵蓋基本定義與架構、代表性知識圖譜庫、構建技術、開源庫和典型應用。主要基於的參考文獻來自[22]和[40], 本人(Quan)做了部分修整。昨天我們介紹了《知識圖譜的概念以及構建技術-知識提取、知識表示、知識融合》,今天介紹知識圖譜的知識推理和典型應用。
  • 知識圖譜:知識圖譜賦能企業數位化轉型 | AI 研習社職播間第 3 期
    我們公司現在主要是面向行業構建行業知識圖譜,賦能企業數位化、智能化轉型。我們公司在研發方面的實力較強。我們的領軍人物是東南大學漆桂林教授,他是知識圖譜領域頂級專家,在知識圖譜和人工智慧領域非常知名,大家去百度搜索一下就知道了。
  • 知識圖譜的皇冠:知識圖譜推理的前世今生
    [ 導讀 ]業界和學界對知識圖譜的關注主要集中於兩大領域,分別是知識圖譜的構建和知識圖譜的應用。 前者聚焦於通過對結構化、非結構化數據的整合,實現統一形式的數據存儲;後者則著眼於通過算法對海量知識圖譜數據進行學習與挖掘,從而推理出新的知識,服務於具體行業應用。
  • 試驗知識圖譜分析
    前言:知識圖譜是知識工程不斷發展衍生出的新一代知識工程技術,知識圖譜的概念最早是由谷歌在2012年正式提出,最初僅應用在智能搜索領域,目前已應用在多垂直領域,比如金融行業、醫療衛生、政府、能源與工業得到廣泛的應用。本期課程重點分為以下四個方面:試驗知識綜述、試驗知識圖譜分析、試驗知識圖譜構建技術和試驗知識圖譜技術展望。
  • 知識圖譜構建的研究已走入下半場,但大規模落地應用仍需時間
    ,經過短短幾年的發展,熱度依舊不減,未來,知識圖譜又將解決哪些其他技術無法解決的問題呢?目前,知識圖譜在工業界的應用已經非常廣泛,半自動化的知識圖譜構建方法目前也已經基本達到了實際應用的水平。工業級的知識圖譜要能夠滿足具體的業務需求,那麼,在具體的落地應用中,又面臨著哪些技術難點?
  • 知識圖譜實戰系列六:Lucene在知識圖譜上構建索引
    這篇文章講講如何在知識圖譜數據集上構建索引進行查詢。倒排索引是一種數據結構,它表示了這樣一種映射,以字或詞或數字為關鍵字進行索引,映射到出現這個字或詞的所有文檔或者資料庫文件。它大概由三部分組成term index、term dictionary 和posting list(倒排表)。索引過程,首要需要找到term(關鍵詞)索引的位置。
  • 區塊鏈學堂|什麼是知識圖譜
    比如在一個電影相關的知識圖譜中會有許多代表電影名稱、導演、演員等相關信息的節點。一個電影節點可以和相關導演及演員節點相關聯。如果有需要的話,我們可以按照這個邏輯將所有電影信息整理成一張巨大的知識圖譜,方便信息的查詢和檢索。由此可見,知識圖譜為信息和數據的融合、統一、連結和復用提供了良好的框架,有助於提高信息數據的管理和分析效率。
  • 知識圖譜研討實錄05丨肖仰華教授帶你讀懂概念圖譜構建
    知識圖譜技術是實現機器認知智能和推動各行業智能化發展的關鍵基礎技術。由復旦大學肖仰華教授策劃的《知識圖譜:概念與技術》課程體系,已在國內進行了多次巡迴演講,受到參會人員一致好評。課程主要目的和宗旨是系統講述知識圖譜相關知識,讓同學們對知識圖譜的理論和技術有一個系統的認知。本實錄來自該課程老師和同學的研討。
  • 縱覽知識圖譜在AI領域的有效應用,2019知識圖譜前沿技術論壇即將開幕
    2019年,在數據、算法和算力合力驅動下,人工智慧進入了飛躍發展時期,各個領域已經積累了豐富的數據、完善的專家知識和領域知識,為知識圖譜有效落地奠定了基礎,但仍存在場景知識表達難以完備化、更新困難以及推理欠缺等實際問題。
  • 知識圖譜在小米的應用與探索
    通過引入知識圖譜,這些產品在內容理解、用戶理解、實體推薦等方面都有了顯著的效果提升。本文的主要內容包括:小米知識圖譜介紹:包括小米的商業模式、小米人工智慧部、知識圖譜在人工智慧部的定位、小米知識圖譜的發展歷程、以及小米知識圖譜的落地場景。小米知識圖譜關鍵技術:小米知識圖譜在成長過程中的技術積累。小米行業知識圖譜探索:結合業務,跟大家分享下小米在行業圖譜上的探索。
  • 是時候該關注「知識圖譜」了!
    編者按隨著大數據、自然語言處理、人工智慧等技術的發展,知識圖譜成為近幾年的熱點技術,在生活服務、醫療輔助、金融風控等不同行業和領域,實現了眾多的智能化應用。以DBpedia為例,其英文版知識圖譜擁有400萬實體,包括144萬人物、73萬地點、41萬創意作品、24萬組織機構、25萬物種和6000多種疾病。在國內,搜狗和百度分別推出搜狗知立方和知心,百度還開放其知識圖譜Schema,作為百度知識圖譜構建和知識計算的核心數據結構,並用於規範百度內外部合作方的結構化數據交換。
  • 知識圖譜系列:Task 1 知識圖譜介紹
    /team-learning-nlp/tree/master/KnowledgeGraph_Basic感謝Datawhale社區的無私分享想學習的小夥伴可以一起來1.知識圖譜知識圖譜本質上是語義網絡(Semantic Network)的知識庫。
  • 技術動態 | 人工智慧開源軟體發展現狀連載——知識圖譜開源軟體
    目前知識圖譜這個概念最早由Google在2012年提出,主要是用來優化現有的搜尋引擎。最近,知識圖譜慢慢地被泛指各種大規模的知識庫。知識圖譜的構建屬於知識工程的範疇,其發展歷程如圖1所示。圖1知識圖譜的發展歷程知識圖譜從其知識的覆蓋面來看可以分為開放域知識圖譜和垂直領域知識圖譜,前者主要是百科類和語義搜尋引擎類的知識基礎,後者在金融、教育、醫療、汽車等垂直領域積累行業內的數據而構成。知識圖譜相關的關鍵技術包括構建和使用。知識圖譜的構建有自頂向下和自底向上兩種方法,現在大部分情況會混合使用這兩種方法。