華為開發者大會HDC.Cloud硬核技術解讀:知識圖譜構建流程及方法

2020-11-23 企業網D1Net

隨著AI技術的發展和普及,當今社會已經進入了智能化時代。與以往不同的是,在這一波浪潮中,企業不僅是向數位化轉型,更是向知識化轉型。那麼,如何助力企業破解智能化知識挖掘和管理難題,實現知識化轉型?

3月13日下午14:00起舉行的華為開發者大會2020(Cloud)第三期華為DevRun Live開發者沙龍中,華為雲自然語言處理技術專家鄭毅將分享《企業級知識計算平臺的技術解讀和案例實踐》,帶你了解華為雲知識計算平臺及相關技術、知識圖譜構建流程及方法,以及知識計算行業案例。下文主要講述「知識圖譜構建流程及方法」,讓我們先睹為快。

一、什麼是知識圖譜?

知識圖譜是由實體、關係和屬性組成的一種數據結構。以下圖為例,「劉德華」是一個人物類型的實體,「劉德華」有自己的身高、國籍等信息,這些信息便稱之為實體的屬性。同樣,「無間道」是一個電影類型的實體。我們知道「劉德華」是「無間道」這部電影的主演,所以「劉德華」與「無間道」之間有「主演」關係。通過實體、關係、屬性,就能夠把我們人可以理解的知識有效地組織起來。知識圖譜的構建與應用涉及資料庫、自然語言處理(NLP)和語義網絡等技術。

圖1 知識圖譜示例

通用知識圖譜or行業知識圖譜?

按照知識圖譜的用途,知識圖譜可分為通用知識圖譜和行業知識圖譜。通用知識圖譜側重構建常識性的知識,並用於搜尋引擎和推薦系統等。行業知識圖譜(也可稱企業知識圖譜)主要面向企業業務,通過構建不同行業、企業的知識圖譜,對企業內部提供知識化服務。華為雲知識圖譜服務可用於以上兩類知識圖譜的構建、管理和服務,更側重面向企業知識圖譜。

二、如何構建知識圖譜?

知識圖譜構建主要分為自頂向下(top-down)與自底向上(bottom-up)兩種構建方式。自頂向下構建方式需要先定義好本體(Ontology或稱為Schema),再基於輸入數據完成信息抽取到圖譜構建的過程。該方法更適用於專業知識方面圖譜的構建,比如企業知識圖譜,面向領域專業用戶使用。自底向上構建方式則是從開放的Open Linked Data中抽取置信度高的知識,或從非結構化文本中抽取知識,完成知識圖譜的構建。該方式更適用於常識性的知識,比如人名、機構名等通用知識圖譜的構建。本文側重介紹自頂向下構建方式的相關流程和技術,並用於構建企業知識圖譜。

目前業界暫無知識圖譜雲服務,也沒有統一標準的自頂向下構建流程。當前業界主流的知識圖譜構建方式是基於企業內部數據、公開數據,圖譜服務商以解決方案形式幫助客戶定製構建知識圖譜。這樣的方式無疑成本非常高並且效率很低,通常需要很長的周期才能完成。同時,企業沒有參與感,圖譜構建也可能存在很大偏差,難以用於實際業務中。

站在用戶角度,華為雲通過抽象知識圖譜構建流程及相關技術,推出華為雲知識圖譜雲服務(圖2),為不同行業、不同企業提供快速構建知識圖譜能力的平臺,賦能大中小型企業構建屬於自己的知識圖譜。

圖2 華為雲知識圖譜雲服務

華為雲知識圖譜雲服務提供流水線式圖譜構建能力,將圖譜構建抽象為如下基本流程:本體構建、數據源配置、信息抽取、知識映射以及知識融合。

圖3 知識圖譜構建基本流程

進一步通過將每一個流程模塊抽象成插件形式,並通過組合配置生成圖譜構建任務。面向不同的行業和領域,只需要修改插件配置即可完成企業知識圖譜的構建。同時,基於流水線設計,知識圖譜雲服務可以在只修改數據源的前提下完成知識圖譜的更新操作,非常適用於需要頻繁更新的知識圖譜。

2.1如何構建知識圖譜的本體?

知識圖譜構建的第一步需要完成圖譜本體(Ontology)的設計和構建。本體是圖譜的模型,是對構成圖譜的數據的一種模式約束。對於企業知識圖譜的構建,一般是由垂直領域的行業專家和知識圖譜專家合作完成。

本體的構建和設計對於知識圖譜的構建至關重要。可以通過梳理領域知識、術語詞典、專家的人工經驗等作為本體構建的基礎,結合知識圖譜的應用場景來完善圖譜的構建,最終獲得實體類別、類別之間的關係、實體包含的屬性定義。華為雲知識圖譜雲服務提供圖形化本體設計工具,可以通過拖拽編輯靈活完成企業知識圖譜本體的構建。

圖4 華為雲知識圖譜雲服務-本體設計界面

2.2如何配置數據源?需要做哪些準備

在配置數據源之前,需要將不同類型、不同格式的數據進行初步的整理。比如:針對本地非電子化文檔,需要先進行掃描電子化,結合OCR等技術將掃描件轉換成文本文檔。再比如:針對本地電子化文檔,需要將本地文檔按文檔類型、格式進行歸檔解析整理成規範的格式,或者針對網絡資源,需要根據網站特點,開發相應的爬蟲,對數據進行爬取,並存儲到本地資料庫等等。還有一些第三方資源,需要獲取相應的數據訪問接口,並通過接口獲取相應數據。

整理好的數據上傳到華為雲OBS對象存儲服務後,知識圖譜雲服務就可以進行數據源的配置,包括指定格式的針對結構化數據和非結構化文本的配置等。

2.3什麼是信息抽取?怎樣抽取?

信息抽取的目的是根據不同的數據源、不同的數據格式,完成實體、屬性、關係這種知識的抽取。這是知識圖譜構建流程中非常關鍵的一環,信息抽取的質量決定了知識圖譜的質量。實體之間的關係以及實體的屬性值,都可以用三元組(主語、謂詞、賓語)來表示,所以信息抽取又可以簡單叫做三元組抽取。華為雲知識圖譜雲服務支持結構化Key-Value格式和非結構化文本的三元組抽取。針對結構化數據,可以通過配置預置函數的組合,完成欄位的處理。與之對應的,針對非結構化文本,雲服務提供算法模型抽取能力,支持業界前沿的基於機器閱讀理解(Machine Reading Comprehension,MRC)的三元組抽取方法,通過使用多輪對話的思想進行三元組抽取,先抽取主語(Subject),然後根據抽取結果和候選謂詞對應的模板構造問句抽取賓語(Object),最終組成(主語,謂詞,賓語)三元組。該框架模型效果可以達到當前業界最好水平(state-of-the-art)。華為雲知識圖譜服務支持基於該算法的模型訓練、預測以及管理功能,同時以插件形式完成流水線中信息抽取部分。

圖5 基於機器閱讀理解(MRC)的三元組抽取方法

信息抽取中模型訓練推理功能是基於華為雲一站式AI開發管理平臺ModelArts完成的,該平臺提供高效的AI計算、模型訓練、推理及部署能力,同時為了方便訓練三元組抽取模型,額外提供三元組標註工具,用戶可以基於該工具快速獲得訓練數據,完成信息抽取以及知識圖譜構建工作。

圖6 三元組標註工具示例

2.4知識融合是如何完成的?

所謂知識融合,就是對多個數據源進行知識抽取後的大量三元組數據進行對齊合併。舉個例子:百度百科有明星劉德華,互動百科有明星劉德華,我們構建的知識圖譜不能有兩個明星劉德華吧?這時候就需要把他們識別出來放在一起,然後合併成一個實體,這就是實體的對齊以及知識的融合。這其中關鍵的問題是怎樣高效的完成實體對齊,技術路線基本可以分為兩類:基於實體屬性相似度的框架、基於聯合表徵的深度學習框架。考慮到基於聯合表徵的深度學習框架依賴大量標註數據,並且模型與行業及數據強相關,無法提供很好的通用化能力,因此,華為雲知識圖譜服務當前支持基於實體屬性相似度的框架,可以通過定義相似度度量及組合,完成實體對齊以及知識融合。

除此之外,華為雲知識圖譜雲服務還提供圖譜可視化服務,可以直觀地觀察分析實體及關係。

圖7 病毒蛋白知識圖譜可視化示例

三、知識圖譜需要怎樣的存儲方式?

經過知識圖譜構建,我們現在已經有了大量的三元組知識。那麼要怎樣來存儲這些三元組知識呢?

最直接的方式是使用表格式的存儲方式,如關係型數據表,三元組以三列數據或多列數據的形式存儲。這種方法在圖譜規模比較小的時候是可行的,但是如果圖譜規模變大了,是否依然可行呢?舉個例子,假使我們有了娛樂明星+電影這樣一個娛樂圖譜,其中包括了大量的明星人物、電影以及他們之間的關係。如果想查詢「劉德華和梁朝偉共同演過的電影中,年齡最大的導演是誰?「,就需要對關係型資料庫中知識圖譜結果表做2-3次自連接操作,如果三元組的數量是千萬、億、十億規模的話,顯而易見,這樣的查詢效率極低,基本不可行。

華為雲知識圖譜服務採用的是業界主流的圖資料庫方式存儲知識圖譜,直接把數據或知識圖譜以圖的形式存儲,可以非常高效地完成多跳關係、屬性的查詢。具體的,我們使用華為雲圖引擎服務,包括圖存儲、圖計算一體的架構設計,不僅可以提供高效的查詢性能,同時也可以提供多種預置的圖深度學習算法,使用起來非常方便,歡迎大家前來試用。

圖8 華為雲圖引擎服務產品優勢

四、華為雲知識計算案例介紹

中國石油基於華為雲知識計算服務的知識建模、油氣圖譜構建、圖譜存儲、自然語言處理、機器學習等能力構建了業界首個油氣知識計算平臺。以油氣勘探開發數據為基礎,通過知識計算技術的應用,為油氣勘探開發增儲上產、降本增效提供智能輔助和決策。

圖9 油氣知識計算的價值和意義

華為知識計算解決方案提供豐富的知識應用,從解決企業痛點、提升企業效率、提供知識化服務的角度全面賦能企業,體現了知識計算在各行業中的智能化價值,讓各行業的企業可以快速、低成本、高效率地管理,通過應用企業知識、實現知識化轉型,釋放知識化帶來的紅利,全面提升企業在智能化時代的競爭力。

想要get知識圖譜全流程能力?更多精彩乾貨請收看3月13日的DevRun Live直播!

DevRun Live是華為開發者大會2020(Cloud)旗下的線上開發者沙龍活動,以直播的形式分享前沿科技和應用實踐,開發者可以了解技術趨勢、學習最新實踐應用、獲取最新開發工具。

相關焦點

  • 西瓜創客少兒編程8歲學員,刷新華為開發者大會HDC.Cloud新紀錄
    2016年,曾有一位9歲的澳大利亞女孩,成為蘋果公司有史以來年齡最小的開發者。2020年,最小開發者記錄被來自於西瓜創客在線少兒編程的兩位 8 歲學員再度刷新,並受邀為眾多專業開發人士分享編程學習故事。9TT中文科技資訊  在華為開發者大會HDC.Cloud 即將開幕之際,華為官方日前發布了一組開發者嘉賓預告,從中揭曉了一系列活動懸念。
  • 2020啟智開發者大會精彩來襲,這些公開課不容錯過!
    自首屆啟智開發者大會在深圳舉辦後,便在開源領域形成了積極影響,從硬核的基礎設施、海量公開的軟體及數據環境、優秀的深度學習AI框架、多元化的合作模式等方面,對開發者創新進行了大力度扶持,並為其提供暢談技術、學習創新的專屬平臺。源創鵬城,智匯北京!
  • 產學研用2020啟智開發者大會亮點搶鮮報
    產:自主AI開源項目重磅發布,展示開源硬實力在本次大會上,華為「OpenI-巴別塔」、百度「飛槳」、達闥的「HARIX OS」項目將作為啟智社區重要的項目成果在會上隆重發布,展示中國開源的「硬核」實力。
  • 2020 WAIC明略科技HAO圖譜Open API 吳信東深度解讀知識圖譜的自動...
    2020年7月11日,世界人工智慧大會WAIC·開發者日:開發·開源·社區主題論壇召開,全球有影響力的圖靈獎得主、頂級技術專家和開發者代表雲聚一堂,對當下人工智慧前沿理論技術和開發實踐進行深度解讀。明略科技首席科學家、明略科學院院長吳信東受邀發表主題演講,分享知識圖譜自動構建的方法論和實踐,並宣布明略科技HAO圖譜開放Text2KG API能力,賦能開發者和企業級用戶。
  • 明略科技HAO圖譜Open API:開放企業級知識圖譜構建能力
    7 月 11 日,在 2020 WAIC 世界人工智慧大會上,明略科技 HAO 圖譜,作為目前世界上第一個語音實時生成圖譜的企業級知識圖譜開發工具包,首次公開亮相,成功入圍了大會最高獎項 SAIL 獎(Super AI Leader)TOP30 的項目及 2020 年度 SAIL 榜單。
  • 華為雲知識計算,助力企業構建可持續傳承的知識體系
    11月12日,華為雲知識圖譜負責人鄭毅博士在我國人工智慧領域頂尖學術會議—2020全國知識圖譜與語義計算大會(CCKS)上帶來《知識計算即服務:賦能企業知識化轉型》主題演講。  鄭毅博士認為,各行各業在發展的過程中沉澱了大量的知識,比如生產系統中的機理模型、豐富的技術典籍文獻、專家大腦裡面的寶貴經驗、方法總結、測試報告等等。
  • 智聚臨港,合啟未來,2020上海臨港人工智慧開發者大會成功舉行
    本次大會旨在貫徹落實關於打造人工智慧等世界級產業集群的要求,響應上海全面推進城市數位化轉型的重大戰略部署,加快臨港新片區前沿產業布局,構建開源創新賦能的人工智慧技術生態,切實解決人工智慧開發者的真實需求。
  • 需要知識的後深度學習時代,如何高效自動構建知識圖譜?
    知識圖譜可以做什麼?如何自動、高效地構建知識圖譜?前沿的知識圖譜自動構建技術有哪些?這篇文章將逐一解答這些問題。 日常生活中,我們經常遇到以下兩種信息展現方式:
  • 試驗知識圖譜分析
    前言:知識圖譜是知識工程不斷發展衍生出的新一代知識工程技術,知識圖譜的概念最早是由谷歌在2012年正式提出,最初僅應用在智能搜索領域,目前已應用在多垂直領域,比如金融行業、醫療衛生、政府、能源與工業得到廣泛的應用。本期課程重點分為以下四個方面:試驗知識綜述、試驗知識圖譜分析、試驗知識圖譜構建技術和試驗知識圖譜技術展望。
  • 如何構建知識圖譜?
    本文根據轉轉張青楠老師,在DataFun AI+ Talk中所分享的《二手電商知識圖譜構建以及在價格模型中的應用》編輯整理而成。一、知識圖譜概述這次的分享主要從以下四個部分:知識圖譜概述、知識圖譜構造、轉轉二手電商知識圖譜、在價格模型中的應用。
  • NumPy、AI基礎設施可微分編程、技術實踐,這是一場開發者的盛會
    在開發者日下午的主單元中,機器之心從開發者最關心的技術話題出發,邀請到了多位大牛做主題演講,內容覆蓋程式語言、開發工具、技術創新與落地實踐等等。賈揚清:構建研究到產品 AI 基礎設施的經驗賈揚清是知名的人工智慧青年學者之一。在加入阿里巴巴之前,他曾任 Facebook AI 架構部門總監,負責前沿 AI 平臺的開發。
  • DevRun夥伴們公開課第6講:華為雲鯤鵬開發者資源寶典大集合
    HC大會在內的生態體系,讓開發者能夠在生態中更好的成長並獲得能力與資源。  華為雲專家技術公開課直播是開發者生態主打的在線內容精品課程,MVP和雲享專家圍繞雲計算熱門領域,通過直播方式進行技術知識分享、傳播布道,幫助雲用戶快速成長,目前已邀請雲享專家韋世東、趙敏敏,MVP專家王立傑、任如意、朱有鵬等多位技術大拿舉行線上直播。  直播中,朱琰還對外分享了華為雲聯盟開發者大賽和HDZ(Huawei Developers Zone)。
  • 知識圖譜構建的研究已走入下半場,但大規模落地應用仍需時間
    是面向清華大學知識工程實驗室構建的面向科技領域的知識圖譜,項目實現了高精度學者畫像、同名消歧、智能推薦、趨勢分析等關鍵技術。 認知圖譜首先由清華大學和阿里巴巴在 2018 年的中國計算機大會上提出,後來 Ding 等人將其應用於多跳開領域閱讀理解問答中。傳統方法中,開領域問答往往依靠大規模的知識圖譜,而閱讀理解問答一般面向單段,此時閱讀理解的 NLP 模型,例如 BERT,可以直接處理。
  • 「2018年全國知識圖譜與語義計算大會」開始徵文!
    全國知識圖譜與語義計算大會是兩個全國性會議的合併:中文知識圖譜研討會 the Chinese Knowledge Graph Symposium (CKGS) 和中國語義網際網路與 Web 科學大會 Chinese Semantic Web and Web Science Conference (CSWS)。
  • 百分點認知智能實驗室:信息抽取在知識圖譜構建中的實踐與應用
    百分點認知智能實驗室在實踐探索中,通過利用自然語言處理技術獲取結構化的信息抽取能力,探索出了一套行業知識圖譜構建流程方法。尤其是基於深度遷移學習,幫助構建法律百科詞條、公安文本知識圖譜等行業項目中,在實體抽取、關係抽取、事件抽取等方面都取得了理想的實踐效果。本文將從概念辨析、技術路徑、實踐總結,由虛到實、由淺入深引導大家理性看待知識圖譜技術的能與不能,以更好地在實踐中運籌帷幄。
  • 國雙:知識智能平臺構建行業知識圖譜 助力產業和社會治理兩化轉型
    據了解,國雙知識智能平臺主要基於兩類場景,一類是產業場景,另一類是社會治理場景。產業場景對應的是日常經濟生活,社會治理場景對應的是日常政務服務。國雙知識智能平臺的核心技術能力是知識圖譜,從而使感知智能深入到認知智能成為現實,讓計算機真正代替人類解決複雜問題。  國雙知識智能平臺這一產品已通過知識圖譜雙項標準,獲得專業機構中國電子技術標準化研究院權威認證。
  • 華為開發者大會召開在即,這些概念股進入發展關鍵期丨牛熊眼
    根據華為官網披露,華為開發者大會將在3月27-28日召開,本次活動將以「鯤鵬+昇騰」雙主線呈現,並依託於華為雲採用線上直播的模式。根據IDC預測,2023年全球計算產業的投資額將超過一萬億美金,而中國的整體投資空間也將達到1043億美金,接近全球的10%,是全球計算產業發展的主要推動力和增長點。
  • 華為開發者大會HMS安全與隱私分論壇 Safety Detect & FIDO助力...
    如何確保應用安全與數據隱私儼然已成為開發者們構建優質安全的應用時需要考慮的關鍵問題。在9月11日的華為開發者大會HMS安全與隱私分論壇上, 華為消費者雲服務雲安全工程 部資深安全技術專家 姚輝就華為HMS Core Safety Detect和FIDO服務如何幫助開發者快速構建安全應用做了分享。
  • 華為開發者大會2020|美的攜手華為,打造懂你的智慧生活新體驗
    9月10日,華為開發者大會2020在廣東東莞松山湖拉開帷幕。本次大會以「Together」為主題,邀請行業大咖一起探討5G、智能互聯時代下行業的趨勢和未來,上百位行業技術專家到場分享創新洞見。美的集團作為華為戰略合作夥伴也在本次大會亮相,美的集團副總裁兼CIO、IoT事業部總裁張小懿介紹了搭載HarmonyOS的美的智能終端應用體驗,傳遞美的IoT打造「懂你的智慧生活」理念。以用戶體驗為核心,聚力全價值鏈生態合作「HarmonyOS系統讓用戶交互變得更加簡單,從配網連接到多設備融合互聯,用戶通過華為手機碰一下或者點擊一個按鈕就可以輕鬆操控家中智能電器。」
  • 這周日,北理工將邀數位大咖研討「知識圖譜與智能問答」
    在過去幾個月中,其有效地融合了高校資源和業界資源推出了Python、知識圖譜、機器學習等系列專題學習與研討活動,其中知識圖譜專題涉及了知識圖譜構建技術、知識圖譜應用、大規模知識圖譜數據存儲、知識圖譜與聊天機器人等主題,引起了北京地區廣大師生和業界人員的高度關注。