2020 WAIC明略科技HAO圖譜Open API 吳信東深度解讀知識圖譜的自動...

2020-12-15 硬派科技

2020 WAIC明略科技HAO圖譜Open API 吳信東深度解讀知識圖譜的自動構建

來源:財訊網 2020-07-13 11:06:30

2020年7月11日,世界人工智慧大會WAIC·開發者日:開發·開源·社區主題論壇召開,全球有影響力的圖靈獎得主、頂級技術專家和開發者代表雲聚一堂,對當下人工智慧前沿理論技術和開發實踐進行深度解讀。明略科技首席科學家、明略科學院院長吳信東受邀發表主題演講,分享知識圖譜自動構建的方法論和實踐,並宣布明略科技HAO圖譜開放Text2KG API能力,賦能開發者和企業級用戶。

數據圖譜不是知識圖譜

吳信東認為,大多數情況下,我們所說的、所用到的圖譜並沒有後臺知識,只是數據圖譜,而不是知識圖譜。知識圖譜應該有三個組成部分,首先是概念,即圖譜的節點。概念跟概念之間是連接,是關係,即圖譜的邊。只有概念和關係還不夠,還需要背景知識解釋概念,和連接的語義。如果只有概念、關係,是數據圖譜,而不是具有背景知識的知識圖譜。

從數據圖譜到知識圖譜的構建,可分成三個階段。第一階段,人工階段。對當前問題充分理解,把概念、關係形成節點和邊,用電腦程式的方式進行連接、溝通。第二階段,眾包構建。當實體太多,關係類型非常複雜時,需要涉及到群體,形成分布式的開發環境進行集成。第三階段,自動構建。自動構建,始於美國的華盛頓大學,卡內基梅隆大學,Google的一些早期項目,採取計算機輔助,做自動融合、自動容錯的檢測機制。

知識圖譜的構建,首先要有數據來源。數據類型可分成結構化數據,例如,表格數據,一個成型的資料庫,關係型資料庫,或者其他層次化的數據;非結構化數據,包括新聞網頁,手寫的欄位,圖片,視頻,中間可能是根據需要、場景採集到的數據片段;半結構化數據,例如,網絡文章,雖然不是完全結構化的,但一般而言都有標題、作者、摘要,分段落以及結束語,所以具備一定的形式,即半結構化數據。

知識圖譜的構建,要考慮到三種不同的數據類型。其中,非結構化數據,由於語言、描述形式呈現了多樣性或靈活性,因此抽取實體、語義關係是知識圖譜自動構建面臨的挑戰。具體而言,信息抽取,需要判斷哪些信息的短語、動詞是和知識圖譜構建相關的。知識融合,需要把每個句子裡面存儲的不同片段的信息,形成一個整體,所形成的描述形式用於其他的知識處理。

無論是從信息抽取做知識融合,還是做知識處理,最核心的三部分,一是實體涉及到的名詞,二是涉及到中間的關係,三是實體和關係之間,可能有同名,有共線(Co-references),如何衝突消解。

知識圖譜的構建方法

圖譜構建主要有三大挑戰:第一,在構建中間可能做了一些信息搜索;第二,後臺的知識庫可能做了一些信息冗餘;第三,隨著時間和空間的變化,信息要進行更新迭代。那麼,如何構建知識圖譜?方法主要有四大類。

第一類是邏輯建模,用邏輯描述所要抽取的知識圖譜包含了哪些概念、關係和背景知識。目前,大多數知識圖譜都是邏輯+概率。邏輯,是名詞跟名詞的關係。當涉及到日常生活、社會經濟系統,這些名詞的關係不是確定的,所以要加上概率的描述方式。概率+邏輯,通常是用來描述知識圖譜的第一種技術手段。其中涉及到一些技術問題,如,邏輯變量、邏輯規則,當量非常大時,使用馬爾可夫邏輯網對問題進行簡化處理。對問題求解關注度比較高的一些描述形式,把馬爾可夫邏輯網介入到概念衍生過程中,達到高效的知識圖譜構建和利用。

第二類知識圖譜的構建方法是隱含空間,涉及隱含變量,即有哪些背景知識來解釋文本。文本包含的社會背景、人物關係、組織結構,沒有在文本中體現,但是要進行了解、梳理。隱含空間分析有多種方法,第一種方法是距離模型,一個三元組,一個head,通過一個relation,推演將來tail究竟是什麼。例如,我走到哪一個大樓,到了具體哪一層,中間可能涉及到隱含的變量。假設我今天的目標是要去訪問客戶,或者做一個項目答辯。根據當前的情況,背景的隱含空間,可以映射我的目標,要到什麼地方去,這就涉及到背景知識。所以隱含變量和隱變量模型,核心都是有一些變量是無法看到的,文本沒有進行具體刻畫的隱含信息。這就涉及到神經網絡經常用到的張量模型,張量是全方位的,是三維空間的描述,用像機、二維模型刻畫,有些變量、特徵不容易展現出來。由此引出矩陣分解,一個矩陣中間可能有一個隱含矩陣,從M到N,中間讓它變成N×K的矩陣的描述形式。所以,隱含變量帶來了很多的空間和機會,相對困難。現在國內用的比較多的是TransE翻譯模型,是從當前的一個變量,翻譯到一定程度。

第三類知識圖譜的構建方法是人機互動,通過人在迴路,以計算機和人交互的方式,完成對信息的搜集、聚合、消解。核心是一個交互接口。人機互動的圖譜構建,基本上有三種不同的模式。第一種模式是通過設計一個電腦程式,讓電腦程式對人類專家進行提問,一旦把這些問題進行完整的回答,就把該問題涉及到的概念和關係建立模型,生成知識圖譜。人機互動的範式裡有Structured Interactive Knowledge Transfer(SIKT),即結構化的交互知識牽引,通過計算機交互,把人腦中存在的關於問題的描述,形成知識圖譜。面向對象,把實體裡面關於知識的描述、知識的牽引進行刻畫,形成Knowledge Object的表示方法,這是第二種模式。第三種模式,是明略科技近兩年所做的一種嘗試,把人類智能、人工智慧、組織智能所涉及的概念、關係進行描述,通過人在迴路進行問題的刻畫。這三種模式,都涉及人機互動,也涉及一些特定的行業知識。

第四類知識圖譜的構建方法是本體模型。本體模型的意思是,我們在讀一個文本的同時,後臺有一個詞典,或者是有一個知識庫,幫助我們理解當前的問題描述。國際上比較經典、成功的是Cyc循環獲取方法,基本上有七個步驟,從問題領域的界定,到創建實例,來形成知識圖譜。Ontology Development七步法中間也涉及本體的半自動構建,利用一些專業詞典、敘詞表,缺點是在復用本體的概念和關係時,對當前的問題不一定能夠做到完全匹配。而自動構建則有基於語言規則的方法和基於機器學習的方法。基於語言的方法,涉及到一些語義的模式。基於統計學的機器學習方法,涉及到數據的聚類,還有一些模式數據的挖掘。

圖譜的自動構建涉及兩個核心要素,第一,要有一個領域知識庫,第二,對數據和知識庫進行匹配時,需要自動糾錯、自主學習,因此強化學習和人機互動是關鍵。

HAO圖譜的核心技術和應用場景

明略科技的HAO圖譜,基於HAO智能框架。其中「HAO」,指代的是Human intelligence,Artificial intelligence,Organizational intelligence。目前,以明略科技HAO智能理論框架為基礎,形成了從感知到認知,再到決策的三個能力階段的HAO技術體系,包括HAO感知、HAO數據一體機,HAO交互、HAO圖譜、HAO模型、HAO情報、HAO預測,HAO代理、HAO排序等系列基礎軟體模型、應用工具和解決方案。

在HAO智能技術環境中,實現從數據圖譜到HAO圖譜。數據圖譜在HAO交互技術環節完成。比如,演講現場,HAO交互技術可以實時採集發言者的語音數據,然後HAO圖譜技術可在後臺實時生成圖譜,首先把聲音翻譯成實體和關係,然後再精簡、關聯。「HAO」圖譜是目前第一個從聲音直接生成圖譜的系統。

HAO圖譜有三項關鍵技術。第一,句子級的信息抽取,生成名詞和名詞之間的關係連接以後,要理解中間哪些語義內容是句子級的,再從句子級,生成更高層次的內容分析。

第二,篇章級的信息抽取。多個句子就形成一個整體描述,整體描述中涉及多個概念、關係,描述一個整體現象,即是篇章級的信息抽取。

第三,動態和靜態的知識表示。從不同的篇章中間做話題演化時,隨著社會、經濟和當前討論熱點的變化,話題關注點可能發生遷移,因此話題目錄要做一些變化,當進行知識圖譜構建抽取事件時,要考慮隨著時間和空間的變化而變化,進行動態和靜態的知識圖譜的表示。

目前,HAO圖譜已在公共安全、數字城市、金融、工業、廣告營銷等多個場景中落地。

在輿情分析和個性化營銷場景中,基於知識圖譜,可以把用戶產生的評論,與品牌相結合,去看用戶的輿情走勢,然後將結果整合到BI系統,為運營人員提供用戶需求洞察,同時,在此基礎之上進行千人千面的個性化廣告生成和智能商品推薦。

在智能導購場景中,在尊重和保護用戶隱私和數據安全的前提下,把銷售溝通話術,經過語音轉成文本,進行話題分類,形成話題轉移的知識圖譜,計算出話題之間轉移的概率,幫助銷售人員復盤,分析流單的主要環節,改善話題轉移和引導,提高成單率。

HAO圖譜技術模塊,依託明略科技新一代人工智慧國家開放創新平臺,已於2020年7月11日正式對外開放Text2KG API,賦能更多開發者和企業級用戶,基於明略科技知識圖譜的底層技術,更高效地探索更多行業細分場景。

免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。

相關焦點

  • 圖靈獎得主論體系結構創新,自動構建知識圖譜,打造新一代Kaldi,盡...
    明略科技吳信東:如何自動構建知識圖譜?從 Google 搜索,到聊天機器人、大數據風控、證券投資,這些應用無一不跟知識圖譜息息相關。知識圖譜在技術領域的熱度也在逐漸上升。在今年的 WAIC 開發者日上,明略科技首席科學家、明略科學院院長吳信東分享了「自動構建知識圖譜」的主題演講。
  • 知識圖譜助力新基建(新知)
    明略科技首席科學家吳信東認為,知識圖譜技術有助於提升數據的生產要素效能,助力新基建價值最大化。什麼是知識圖譜?通俗地說,就是把所有不同種類的信息連接在一起而得到的一個語義關係網絡。它的一個特點,就是可以抽取實體關係、事件、標籤、模型、規則等條件,形成以圖為基礎的數據形式。
  • 與BAT等大腕一起上榜MIT TR50 明略科技實力何在?
    明略科技是一家專注於科技創新的公司,業務形式是以大數據為基,通過整合分析,構建出完整的行業知識圖譜,再利用人工智慧技術進行智能化方案變革。 在前線認為,明略科技成功入選TR50,與諸多巨頭同臺,主要有以下四大原因: 第一,技術創新。
  • 縱覽知識圖譜在AI領域的有效應用,2019知識圖譜前沿技術論壇即將開幕
    明略科技集團首席科學家,教育部長江學者,IEEE FELLOW分享題目:知識圖譜的自動構建內容摘要:我們分析各種構建方法的問題和挑戰,指出自動構建的要素和應用場景。  過去幾年,知識圖譜技術在大規模簡單應用場景取得了顯著落地效果。近年來,知識圖譜日益從數據豐富的大規模簡單應用場景轉向專家知識密集但數據相對稀缺的小規模複雜應用。這一轉向過程所呈現出的一系列全新的形勢,諸如繁雜的應用場景、深度的知識應用、密集的專家知識、有限數據資源等等,都為知識圖譜落地帶來了巨大挑戰。知識圖譜技術的研究與應用日益進入深水區,知識圖譜的「下半場」的態勢已經十分明顯。
  • 一文全覽,ICLR 2020 上的知識圖譜研究
    雷鋒網(公眾號:雷鋒網) AI 科技評論:ICLR 2020 正在進行,但總結筆記卻相繼出爐。我們曾對 ICLR 2020 上的圖機器學習趨勢進行介紹,本文考慮的主題為知識圖譜。在AAAI 2020 舉辦之際,他也曾對發表在AAAI 2020上知識圖譜相關的文章做了全方位的分析,具體可見「知識圖譜@AAAI2020」。
  • 【知識圖譜】知識圖譜嵌入模型簡介
    圖1:知識圖譜示意圖  然而,知識圖譜通常存在連結缺失問題,這限制了知識圖譜在相關下遊任務中的應用。為解決該問題,知識圖譜補全任務應運而生。知識圖譜補全旨在根據知識圖譜中已有事實推斷出新的事實,從而使得知識圖譜更完整。知識圖譜嵌入 (Knowledge Graph Embedding) 是解決知識圖譜補全問題的重要方法之一,它通過將知識圖譜中的實體 (Entity) 和關係 (Relation) 嵌入到連續向量空間,從而在方便計算的同時保留知識圖譜中的結構信息。
  • 從知識圖譜到認知圖譜:歷史、發展與展望
    知識圖譜的研究熱點逐漸出現重數量輕結構化的傾向,這與深度學習和聯結主義思想的盛行密不可分。認知圖譜依據人類認知的雙加工理論,動態構建帶有上下文信息的知識圖譜並進行推理。本文回顧了知識圖譜的發展歷史,指出認知圖譜提出的動機並展望其發展前景。知識圖譜是由谷歌(Google)公司在2012年提出來的一個新的概念。本質上是語義網的知識庫。
  • 試驗知識圖譜分析
    【試驗工程師·公益學習營】第九期第2講【試驗工程師·公益學習營】總第42講,於2020年10月30日如期舉行,本期講師是瑞風協同技術總監,他具有20餘年軟體開發和架構設計經驗,參與多個領域的設計仿真平臺、材料庫、知識庫系統建設,重點研究方向為大數據技術和人工智慧技術,專注於文本挖掘技術、自然語言處理技術在知識庫自動構建、知識自動分類、知識智能推送、知識關聯挖掘
  • 知識圖譜和問答系統
    但是,這並不是說問答系統只能利用知識圖譜來做。事實上,開始的QA系統,都只有有限量的 IE 支持,一般都做了實體識別,但沒有做圖譜。另外,對於不能預先定義的問題,也沒法用知識圖譜來支持。那對於open-ended questions 怎麼辦?最好是用知識圖譜的後備來支持。這個後備就是 parsing。
  • 明略科技給出答案
    與此同時,吳明輝在業務戰略上進行升級,將秒針系統與明略數據兩家公司打通,品牌升級為「明略科技集團」。在選擇與被選擇的過程中,吳信東和吳明輝兩人可以說是「志同道合」,他們都看重吳信東此前在學術領域的研究方向與公司技術路線的高度重合。「我當時做的很多論文都是在講『多源異構』,明略也推崇這個方向,類似的我們很多關鍵詞都對應起來」,吳信東談道。
  • 知識圖譜:知識圖譜賦能企業數位化轉型 | AI 研習社職播間第 3 期
    近日,在雷鋒網 AI 研習社第 3 期職播間上,北京知識圖譜科技有限公司 CEO 進行了招聘宣講,並分享了如何利用知識圖譜產品賦能企業數位化轉型。公開課回放視頻網址:http://www.mooc.ai/open/course/554?
  • 知識圖譜發展的難點&構建行業知識圖譜的重要性
    二、什麼是知識圖譜百度百科定義:知識圖譜又稱為科學知識圖譜,在圖書情報界稱為知識域可視化,或知識領域映射地圖,用來顯示知識發展進程與結構關係的一系列各種不同的圖形,用可視化技術描述知識資源及載體,挖掘、分析、構建、繪製和顯示知識及他們互相之間的關係。
  • 知識圖譜的皇冠:知識圖譜推理的前世今生
    [ 導讀 ]業界和學界對知識圖譜的關注主要集中於兩大領域,分別是知識圖譜的構建和知識圖譜的應用。 前者聚焦於通過對結構化、非結構化數據的整合,實現統一形式的數據存儲;後者則著眼於通過算法對海量知識圖譜數據進行學習與挖掘,從而推理出新的知識,服務於具體行業應用。
  • 乾貨 | NLP、知識圖譜教程、書籍、網站、工具...(附資源連結)
    本文整理了關於 NLP 與知識圖譜的眾多參考資源,涵蓋內容與形式非常豐富。缺點:傳統方法居多,深度學習未涉及。/projects/glove/textsumtextsum是一個基於深度學習的文本自動摘要工具。
  • 星環科技發布新一代高性能全場景知識圖譜解決方案
    5月15日,星環科技發布了知識圖譜全場景解決方案,包含知識圖譜組件SophonKG,圖資料庫StellarDB,全文檢索資料庫,以及時空資料庫,實現高性能全場景應用。發布會上,介紹了幾個組件產品的新特性。
  • 從ACL 2020看知識圖譜研究進展
    機器之心分析師網絡作者:仵冀穎編輯:H4O本文選擇了 ACL 2020 中三篇與知識圖譜相關的文章進行詳細解讀。目前,ACL 2020 收錄的文章大部分已經在網上公開。從論文的題目、主題等關鍵詞可以看出,主要的研究方向包括人機對話,多模態、多語言和多領域,圖神經網絡,以及經典的信息提取類問題,包括實體抽取(NER)、事件抽取以及關係抽取等。研究手段則仍集中於各類機器學習的方法,包括:神經網絡、預訓練、注意力、知識圖譜等。
  • 重啟人工智慧:當深度學習遇上知識圖譜
    Marcus 並不是建議放棄深度學習,而是將其與經典人工智慧的一些工具結合起來。經典人工智慧擅長表示抽象知識,表示句子或抽象。目標是擁有一個能夠使用感知信息的混合系統。構建塊 2:我們需要有豐富的知識具體化方式,我們需要大規模的知識。我們的世界充滿了大量的知識碎片。大多數深度學習系統不是這樣的。
  • 明略科技攜手騰訊深度合作 探索產業升級新範式
    明略科技是國內領先的數據中臺和企業智能決策平臺,致力於通過大數據分析挖掘和認知智能技術,賦能企業實現數位化轉型。在過去幾年,明略科技和騰訊協作完成多個重要項目,以智慧城市一體化建設為例,明略科技與騰訊雲合作,為某副省級市下轄區建設智慧城市項目,3個月內對接56個委辦局,入庫50億條內外部數據,支撐打贏「四個一百」戰役。
  • 華為開發者大會HDC.Cloud硬核技術解讀:知識圖譜構建流程及方法
    那麼,如何助力企業破解智能化知識挖掘和管理難題,實現知識化轉型?3月13日下午14:00起舉行的華為開發者大會2020(Cloud)第三期華為DevRun Live開發者沙龍中,華為雲自然語言處理技術專家鄭毅將分享《企業級知識計算平臺的技術解讀和案例實踐》,帶你了解華為雲知識計算平臺及相關技術、知識圖譜構建流程及方法,以及知識計算行業案例。
  • 知識圖譜之知識抽取詳細解讀
    本文將以知識圖譜中的知識抽取技術為重點,選取代表性的方法,說明其中的相關研究進展和實用技術手段。知識抽取知識抽取主要是面向開放的連結數據,通常典型的輸入是自然語言文本或者多媒體內容文檔等。然後通過自動化或者半自動化的技術抽取出可用的知識單元,知識單元主要包括實體、關係以及屬性3個知識要素,並以此為基礎,形成一系列高質量的事實表達,為上層模式層的構建奠定基礎。1.1實體抽取實體抽取也稱為命名實體學習或命名實體識別,指的是從原始數據語料中自動識別出命名實體。