2020 WAIC明略科技HAO圖譜Open API 吳信東深度解讀知識圖譜的自動...

2020-11-24 硬派網

2020 WAIC明略科技HAO圖譜Open API 吳信東深度解讀知識圖譜的自動構建

來源:財訊網 2020-07-13 11:06:30

2020年7月11日,世界人工智慧大會WAIC·開發者日:開發·開源·社區主題論壇召開,全球有影響力的圖靈獎得主、頂級技術專家和開發者代表雲聚一堂,對當下人工智慧前沿理論技術和開發實踐進行深度解讀。明略科技首席科學家、明略科學院院長吳信東受邀發表主題演講,分享知識圖譜自動構建的方法論和實踐,並宣布明略科技HAO圖譜開放Text2KG API能力,賦能開發者和企業級用戶。

數據圖譜不是知識圖譜

吳信東認為,大多數情況下,我們所說的、所用到的圖譜並沒有後臺知識,只是數據圖譜,而不是知識圖譜。知識圖譜應該有三個組成部分,首先是概念,即圖譜的節點。概念跟概念之間是連接,是關係,即圖譜的邊。只有概念和關係還不夠,還需要背景知識解釋概念,和連接的語義。如果只有概念、關係,是數據圖譜,而不是具有背景知識的知識圖譜。

從數據圖譜到知識圖譜的構建,可分成三個階段。第一階段,人工階段。對當前問題充分理解,把概念、關係形成節點和邊,用電腦程式的方式進行連接、溝通。第二階段,眾包構建。當實體太多,關係類型非常複雜時,需要涉及到群體,形成分布式的開發環境進行集成。第三階段,自動構建。自動構建,始於美國的華盛頓大學,卡內基梅隆大學,Google的一些早期項目,採取計算機輔助,做自動融合、自動容錯的檢測機制。

知識圖譜的構建,首先要有數據來源。數據類型可分成結構化數據,例如,表格數據,一個成型的資料庫,關係型資料庫,或者其他層次化的數據;非結構化數據,包括新聞網頁,手寫的欄位,圖片,視頻,中間可能是根據需要、場景採集到的數據片段;半結構化數據,例如,網絡文章,雖然不是完全結構化的,但一般而言都有標題、作者、摘要,分段落以及結束語,所以具備一定的形式,即半結構化數據。

知識圖譜的構建,要考慮到三種不同的數據類型。其中,非結構化數據,由於語言、描述形式呈現了多樣性或靈活性,因此抽取實體、語義關係是知識圖譜自動構建面臨的挑戰。具體而言,信息抽取,需要判斷哪些信息的短語、動詞是和知識圖譜構建相關的。知識融合,需要把每個句子裡面存儲的不同片段的信息,形成一個整體,所形成的描述形式用於其他的知識處理。

無論是從信息抽取做知識融合,還是做知識處理,最核心的三部分,一是實體涉及到的名詞,二是涉及到中間的關係,三是實體和關係之間,可能有同名,有共線(Co-references),如何衝突消解。

知識圖譜的構建方法

圖譜構建主要有三大挑戰:第一,在構建中間可能做了一些信息搜索;第二,後臺的知識庫可能做了一些信息冗餘;第三,隨著時間和空間的變化,信息要進行更新迭代。那麼,如何構建知識圖譜?方法主要有四大類。

第一類是邏輯建模,用邏輯描述所要抽取的知識圖譜包含了哪些概念、關係和背景知識。目前,大多數知識圖譜都是邏輯+概率。邏輯,是名詞跟名詞的關係。當涉及到日常生活、社會經濟系統,這些名詞的關係不是確定的,所以要加上概率的描述方式。概率+邏輯,通常是用來描述知識圖譜的第一種技術手段。其中涉及到一些技術問題,如,邏輯變量、邏輯規則,當量非常大時,使用馬爾可夫邏輯網對問題進行簡化處理。對問題求解關注度比較高的一些描述形式,把馬爾可夫邏輯網介入到概念衍生過程中,達到高效的知識圖譜構建和利用。

第二類知識圖譜的構建方法是隱含空間,涉及隱含變量,即有哪些背景知識來解釋文本。文本包含的社會背景、人物關係、組織結構,沒有在文本中體現,但是要進行了解、梳理。隱含空間分析有多種方法,第一種方法是距離模型,一個三元組,一個head,通過一個relation,推演將來tail究竟是什麼。例如,我走到哪一個大樓,到了具體哪一層,中間可能涉及到隱含的變量。假設我今天的目標是要去訪問客戶,或者做一個項目答辯。根據當前的情況,背景的隱含空間,可以映射我的目標,要到什麼地方去,這就涉及到背景知識。所以隱含變量和隱變量模型,核心都是有一些變量是無法看到的,文本沒有進行具體刻畫的隱含信息。這就涉及到神經網絡經常用到的張量模型,張量是全方位的,是三維空間的描述,用像機、二維模型刻畫,有些變量、特徵不容易展現出來。由此引出矩陣分解,一個矩陣中間可能有一個隱含矩陣,從M到N,中間讓它變成N×K的矩陣的描述形式。所以,隱含變量帶來了很多的空間和機會,相對困難。現在國內用的比較多的是TransE翻譯模型,是從當前的一個變量,翻譯到一定程度。

第三類知識圖譜的構建方法是人機互動,通過人在迴路,以計算機和人交互的方式,完成對信息的搜集、聚合、消解。核心是一個交互接口。人機互動的圖譜構建,基本上有三種不同的模式。第一種模式是通過設計一個電腦程式,讓電腦程式對人類專家進行提問,一旦把這些問題進行完整的回答,就把該問題涉及到的概念和關係建立模型,生成知識圖譜。人機互動的範式裡有Structured Interactive Knowledge Transfer(SIKT),即結構化的交互知識牽引,通過計算機交互,把人腦中存在的關於問題的描述,形成知識圖譜。面向對象,把實體裡面關於知識的描述、知識的牽引進行刻畫,形成Knowledge Object的表示方法,這是第二種模式。第三種模式,是明略科技近兩年所做的一種嘗試,把人類智能、人工智慧、組織智能所涉及的概念、關係進行描述,通過人在迴路進行問題的刻畫。這三種模式,都涉及人機互動,也涉及一些特定的行業知識。

第四類知識圖譜的構建方法是本體模型。本體模型的意思是,我們在讀一個文本的同時,後臺有一個詞典,或者是有一個知識庫,幫助我們理解當前的問題描述。國際上比較經典、成功的是Cyc循環獲取方法,基本上有七個步驟,從問題領域的界定,到創建實例,來形成知識圖譜。Ontology Development七步法中間也涉及本體的半自動構建,利用一些專業詞典、敘詞表,缺點是在復用本體的概念和關係時,對當前的問題不一定能夠做到完全匹配。而自動構建則有基於語言規則的方法和基於機器學習的方法。基於語言的方法,涉及到一些語義的模式。基於統計學的機器學習方法,涉及到數據的聚類,還有一些模式數據的挖掘。

圖譜的自動構建涉及兩個核心要素,第一,要有一個領域知識庫,第二,對數據和知識庫進行匹配時,需要自動糾錯、自主學習,因此強化學習和人機互動是關鍵。

HAO圖譜的核心技術和應用場景

明略科技的HAO圖譜,基於HAO智能框架。其中「HAO」,指代的是Human intelligence,Artificial intelligence,Organizational intelligence。目前,以明略科技HAO智能理論框架為基礎,形成了從感知到認知,再到決策的三個能力階段的HAO技術體系,包括HAO感知、HAO數據一體機,HAO交互、HAO圖譜、HAO模型、HAO情報、HAO預測,HAO代理、HAO排序等系列基礎軟體模型、應用工具和解決方案。

在HAO智能技術環境中,實現從數據圖譜到HAO圖譜。數據圖譜在HAO交互技術環節完成。比如,演講現場,HAO交互技術可以實時採集發言者的語音數據,然後HAO圖譜技術可在後臺實時生成圖譜,首先把聲音翻譯成實體和關係,然後再精簡、關聯。「HAO」圖譜是目前第一個從聲音直接生成圖譜的系統。

HAO圖譜有三項關鍵技術。第一,句子級的信息抽取,生成名詞和名詞之間的關係連接以後,要理解中間哪些語義內容是句子級的,再從句子級,生成更高層次的內容分析。

第二,篇章級的信息抽取。多個句子就形成一個整體描述,整體描述中涉及多個概念、關係,描述一個整體現象,即是篇章級的信息抽取。

第三,動態和靜態的知識表示。從不同的篇章中間做話題演化時,隨著社會、經濟和當前討論熱點的變化,話題關注點可能發生遷移,因此話題目錄要做一些變化,當進行知識圖譜構建抽取事件時,要考慮隨著時間和空間的變化而變化,進行動態和靜態的知識圖譜的表示。

目前,HAO圖譜已在公共安全、數字城市、金融、工業、廣告營銷等多個場景中落地。

在輿情分析和個性化營銷場景中,基於知識圖譜,可以把用戶產生的評論,與品牌相結合,去看用戶的輿情走勢,然後將結果整合到BI系統,為運營人員提供用戶需求洞察,同時,在此基礎之上進行千人千面的個性化廣告生成和智能商品推薦。

在智能導購場景中,在尊重和保護用戶隱私和數據安全的前提下,把銷售溝通話術,經過語音轉成文本,進行話題分類,形成話題轉移的知識圖譜,計算出話題之間轉移的概率,幫助銷售人員復盤,分析流單的主要環節,改善話題轉移和引導,提高成單率。

HAO圖譜技術模塊,依託明略科技新一代人工智慧國家開放創新平臺,已於2020年7月11日正式對外開放Text2KG API,賦能更多開發者和企業級用戶,基於明略科技知識圖譜的底層技術,更高效地探索更多行業細分場景。

免責聲明:市場有風險,選擇需謹慎!此文僅供參考,不作買賣依據。

相關焦點

  • 明略科技HAO圖譜Open API:開放企業級知識圖譜構建能力
    機器之心報導機器之心編輯部首個語音實時生成圖譜的企業級知識圖譜開發工具包。由深度學習掀起的這波 AI 浪潮極度依賴數據,經過 10 年的發展,深度學習在一些場景應用上已經面臨瓶頸。7 月 11 日,在 2020 WAIC 世界人工智慧大會上,明略科技 HAO 圖譜,作為目前世界上第一個語音實時生成圖譜的企業級知識圖譜開發工具包,首次公開亮相,成功入圍了大會最高獎項 SAIL 獎(Super AI Leader)TOP30 的項目及 2020 年度 SAIL 榜單。
  • 需要知識的後深度學習時代,如何高效自動構建知識圖譜?
    知識圖譜可以做什麼?如何自動、高效地構建知識圖譜?前沿的知識圖譜自動構建技術有哪些?這篇文章將逐一解答這些問題。 日常生活中,我們經常遇到以下兩種信息展現方式:
  • 「死磕」底層數據技術 | 明略科技的數據縱橫
    2014 年,數據挖掘大牛吳信東等人從另一個角度探索了大數據處理技術的框架——基於大數據具有異構、自治的數據源以及複雜和演變的數據關聯等本質特徵提出了 HACE 原理,該原理從大數據的數據處理、領域應用以及數據挖掘三個層次來刻畫大數據處理框架。吳信東現任明略科技集團首席科學家和明略科學院院長,對數據挖掘(Data Mining)、大數據知識工程(BigKE)等領域有很深的認識。
  • 明略科技入選愛分析中國知識圖譜廠商全景報告
    智慧城市包含民生服務、城市治理、產業經濟等,知識圖譜作為全局知識庫,可作為上層智能搜索、問答、推薦等應用的基礎,賦能城市的方方面面。  明略科技是目前國內唯一提供全棧式知識圖譜解決方案的廠商,通過數據組織、模型計算、知識服務,結合客戶業務領域中的行業Know-How,以探索式的交互及可視化表示,發現數據規律,啟發式地創造價值新洞察,輔助業務決策。
  • 同盾科技成功入選《2020愛分析·知識圖譜廠商全景報告》
    近日,同盾科技憑藉在知識圖譜領域一系列前沿創新和實踐成果,成功入選《2020愛分析·知識圖譜廠商全景報告》,在報告定義的金融領域的四大主流應用場景,銀行對公、銀行零售、保險、泛金融領域知識庫中,同盾科技知識圖譜產品「雲圖「均榜上有名。
  • 百分點科技首批通過「知識圖譜產品認證」 並加入產業推進方陣
    論壇期間,百分點智能融合大數據分析平臺首批通過「知識圖譜產品認證」,百分點公安知識圖譜應用案例入選《認知智能時代:知識圖譜實踐案例集》,同時,百分點科技深度參與知識圖譜產業推進方陣籌備會。首批通過「知識圖譜產品認證」電子標準院作為國家信息技術領域標準化的綜合性研究機構,在標準化制定方面發揮著核心的技術基礎作用。
  • 從ACL 2020看知識圖譜研究進展
    原創 Synced 機器之心機器之心分析師網絡作者:仵冀穎編輯:H4O本文選擇了 ACL 2020 中三篇與知識圖譜相關的文章進行詳細解讀。我們選擇了 ACL 2020 中三篇與知識圖譜相關的文章進行詳細解讀。其中,第一篇重點關注知識圖譜本身,提出了一種基於距離的知識圖譜中的源實體到目標實體的連結預測(Link Prediction)方法。第二篇文章是知識圖譜在摘要生成任務中的應用,第三篇文章是知識圖譜在會話生成任務中的應用。1.
  • 試驗知識圖譜分析
    【試驗工程師·公益學習營】第九期第2講【試驗工程師·公益學習營】總第42講,於2020年10月30日如期舉行,本期講師是瑞風協同技術總監,他具有20餘年軟體開發和架構設計經驗,參與多個領域的設計仿真平臺、材料庫、知識庫系統建設,重點研究方向為大數據技術和人工智慧技術,專注於文本挖掘技術、自然語言處理技術在知識庫自動構建、知識自動分類、知識智能推送、知識關聯挖掘
  • 領域大數據知識圖譜專題 《中國科學:信息科學》
    為推動領域大數據知識圖譜的研究,交流相關研究進展與成果,《中國科學: 信息科學》在2020年第50卷第7期組織出版「領域大數據知識圖譜專題」,經過嚴格的同行評議, 專題共收錄 7 篇文章, 主題涵蓋推薦系統、科技知識圖譜、事理認知圖譜、人物關係圖譜、地理知識圖譜、篇章事件連通圖、旅遊知識圖譜等方面的內容。
  • 知識圖譜的皇冠:知識圖譜推理的前世今生
    [ 導讀 ]業界和學界對知識圖譜的關注主要集中於兩大領域,分別是知識圖譜的構建和知識圖譜的應用。 前者聚焦於通過對結構化、非結構化數據的整合,實現統一形式的數據存儲;後者則著眼於通過算法對海量知識圖譜數據進行學習與挖掘,從而推理出新的知識,服務於具體行業應用。
  • YOCSEF「知識圖譜」專題探索班成功舉辦,五大高校、三大企業共話...
    基於此,此次探索班邀請到自然語言處理、資料庫、知識工程和機器學習領域重量級的專家做報告,進行報告的專家教授名單如下:大家結合自己的研究領域,圍繞知識圖譜,對其理論、應用以及創新和未來進行了精彩討論,以下為各位嘉賓的探討內容,雷鋒網 AI 科技評論整理。
  • 華為開發者大會HDC.Cloud硬核技術解讀:知識圖譜構建流程及方法
    那麼,如何助力企業破解智能化知識挖掘和管理難題,實現知識化轉型?3月13日下午14:00起舉行的華為開發者大會2020(Cloud)第三期華為DevRun Live開發者沙龍中,華為雲自然語言處理技術專家鄭毅將分享《企業級知識計算平臺的技術解讀和案例實踐》,帶你了解華為雲知識計算平臺及相關技術、知識圖譜構建流程及方法,以及知識計算行業案例。
  • 艾瑞諮詢《知識圖譜白皮書》(2020)發布,深擎科技榜上有名!
    2020年11月底,艾瑞諮詢從善政、惠民、興業、智融四個部分對知識圖譜技術在其他行業中的代表性應用場景進行梳理,發布了《知識圖譜白皮書》。深擎科技「乾坤袋」知識圖譜引擎與騰訊雲、百度雲、阿里雲等品牌共同作為代表性應用被納入金融領域產業鏈與參與者圖譜。
  • 關於醫療大腦、知識圖譜與智能診斷,這是最全的解讀 | 雷鋒網公開課
    張超:康夫子創始人,前百度自然語言處理部資深研發工程師、文本知識挖掘方向負責人;知識圖譜、實體建模方面專家;畢業於電子科技大學計算數學專業、新加坡國大多媒體搜索實驗室研究助理。以下為公開課內容:雷鋒網:簡單介紹一下康夫子所做的事。
  • 知識圖譜在金融資管領域的應用、實踐與展望
    知識圖譜是人工智慧的一個重要分支,對可解釋人工智慧具有重要作用。金融知識圖譜作為專業領域知識圖譜,在智能投研、智能風控、智能客服、智能合規等領域有著重要的應用價值。本文綜合熵簡科技三年以來的產業實踐,結合知識圖譜領域的技術前沿,以及資管場景的落地應用,淺談知識圖譜在金融資管領域的發展現狀與應用展望。
  • 知識圖譜如何打破人工智慧的認知天花板?
    圖 從數據到認知智能(資料來源:InfoQ 研究院) 三個價值特徵 在知識圖譜的價值維度,首先,當人工智慧進入以場景為牽引的深度應用階段,數據治理需要基於業務戰略高度進行邏輯性的存儲和應用,而知識圖譜有助於實現業務戰略高度的行業數據治理;其次,知識圖譜實現了基於語義連接的知識融合和可解釋性,
  • 愛分析·中國知識圖譜應用趨勢報告
    星環科技專注於企業級容器雲計算、大數據和人工智慧核心平臺的產品研發,為用戶提供一站式、交互式的知識圖譜構建工具,支持圖譜構建、知識存儲、分布式圖譜計算以及圖譜案例分析。  某股份制商業銀行從2018年開始與星環科技合作建設知識圖譜分析應用體系,整體項目建設主要分為三個階段:圖譜構建、風險傳導算法研發、3D可視化分析。
  • 2020年中國面向人工智慧「新基建」的知識圖譜行業白皮書
    01 新基建與知識圖譜概述 新基建的內涵和外延 發力於科技端的信息數位化基礎設施建設 2020年4月20日,國家發改委將新型基礎設施初步定義為:以新發展理念為引領
  • 愛因互動王守崑:知識圖譜+對話機器人 保險業AI方案
    通過其積累的產品知識圖譜、通用保險知識圖譜、銷售話術庫等,前端可以對接營銷員,供他們做專業知識和產品條款查詢、話術查詢和保費試算;同時,也可以直接連接C端用戶,為用戶做個性化的保險方案的配置,做具體產品條款的解讀。下文即根據王守崑演講整理而成。愛因互動創始人兼CEO王守崑首先想問大家一個問題,在網際網路上,針對人身險保險產品,用戶問的最多的問題是什麼?
  • 深度解析知識圖譜領域幾次發展的主要技術突破
    AI科技大本營此次邀請到文因互聯 CEO 鮑捷,作為知識圖譜領域形成過程的親歷者之一,他對知識圖譜的歷史淵源進行了梳理,深度解析了該領域幾次發展的主要技術突破,並分析了其工業落地的幾個關鍵點。 但是在實踐中我們並不需要太過糾結什麼叫知識圖譜,什麼不是知識圖譜。有人問我說是否必須要用RDF(資源描述框架)才是知識圖譜?或者說是不是必須用Neo4j圖資料庫才是知識圖譜?其實不是。不在於你具體用了哪一種Syntax,哪一種數據存儲的資料庫。關鍵是它的本質是什麼。 理解本質從了解知識圖譜的演化過程入手。