明略科技HAO圖譜Open API:開放企業級知識圖譜構建能力

2021-01-15 機器之心Pro

機器之心報導

機器之心編輯部

首個語音實時生成圖譜的企業級知識圖譜開發工具包。

由深度學習掀起的這波 AI 浪潮極度依賴數據,經過 10 年的發展,深度學習在一些場景應用上已經面臨瓶頸。業內有一種聲音得到了大量認同:人工智慧的進一步發展與突破,需要從感知智能向認知智能的突破,知識圖譜能有效從數據中挖掘出知識,以更具可解釋性的 AI 指導人類在更多複雜場景中的智能決策和行動。

7 月 11 日,在 2020 WAIC 世界人工智慧大會上,明略科技 HAO 圖譜,作為目前世界上第一個語音實時生成圖譜的企業級知識圖譜開發工具包,首次公開亮相,成功入圍了大會最高獎項 SAIL 獎(Super AI Leader)TOP30 的項目及 2020 年度 SAIL 榜單。

明略科技首席科學家、明略科學院院長吳信東在開發者日:開發 · 開源 · 社區主題論壇上正式宣布 HAO 圖譜依託國家新一代人工智慧開放創新平臺開放 Text2KG API 接口,賦能開發者和企業級用戶。

負責 HAO 圖譜具體研發工作的是明略科學院知識工程實驗室,我們與實驗室主任張杰博士進行了交流,他向我們介紹了明略科技的 HAO 圖譜技術及應用落地。

HAO 圖譜,源自於 2018 年明略科技提出的 HAO 智能理論框架。HAO 智能旨在集成人類智能(HI)、人工智慧(AI)和組織智能(OI),打通感知、認知和行動系統,幫助企業和組織實現智能化發展。其中,HAO 圖譜屬於認知系統的範疇。

HAO 圖譜,可以獨立運行,也可交付給企業技術團隊進行二次開發,核心模塊包括語音流監聽,語音轉文本,標點預測,口語順滑,文本補全,實體關係抽取,實體對齊,以及圖譜話題切換。

具體來說,HAO 圖譜的輸入為一維的文字序列或語音流,系統工作時分為如下幾步:

逐句翻譯,形成大圖:首先將輸入序列逐句的做實體識別和關係抽取,繪製成圖結構,每新增一句,就在原有的圖結構上增加新節點和新邊;

篇章摘要,找到重點:當整段文本或語音輸入結束後,再在篇章級大圖譜上,根據節點的語義、圖結構、位置等特徵識別出重點節點和邊;

關聯背景知識:將重點節點和關係映射到後臺的領域知識圖譜上,利用領域知識圖譜擴展其語義信息。領域圖譜包括:由大量實例組成的數據圖譜、由因果關係組成的因果圖譜、由領域本體結構和領域詞表組成的語義工具;

圖譜增強的應用:針對領域內的特定場景需求,基於圖譜做可視化交互、分類、檢索、推薦、文本生成等特定任務。

目前 HAO 圖譜開放的 Text2KG API 接口,提供了文本轉圖譜的能力,但後臺還做了一些面對 PDF、PPT、word 等半結構化文檔的信息抽取接口。

知識圖譜技術在產業界正經歷著應用的高速增長,學術領域前沿成果與實際落地應用場景間依然存在著巨大的鴻溝,設計、開發、部署一套知識圖譜系統,會面臨數據標註、模型訓練調優、高並發高可用等一系列問題。「目前業內仍缺少一個工業級的穩定工具,HAO 圖譜是第一個語音實時生成圖譜的企業級知識圖譜開發工具包。」張杰表示。

在實際的知識圖譜構建流程中,標註數據、訓練模型需要花費大量時間。而 HAO 圖譜很大程度上解決了上述問題,讓數據分析師或者是建模人員集中精力在業務層,而底層的收集數據、標註數據、訓練模型、數據抽取以及與後臺關聯可以通過調用 HAO 圖譜 Text2KG API 完成,避免了大量的重複工作。「根據實際的企業用戶使用情況來看,可以幫助開發者節約 60% 左右的時間。」張杰介紹。

HAO 圖譜所提供的模型,既包含通用模型,也包含特定領域的模型,如汽車、奶粉、美妝等。通過 API 接口,使用已經訓練好的開放域模型和特定領域模型,開發者可以集中精力在使用知識圖譜解決實際的業務問題上。

知識圖譜的應用涉及可視化、分類、檢索、推薦和生成。目前,HAO 圖譜已經被廣泛應用在社交輿情分析、銷售技能培訓、金融交易反欺詐、案情研判、設備維護、城市及園區管理等不同場景。

在推薦領域,將領域知識有效融入算法,提高推斷準確率一直是研究的難點之一。知識圖譜,可將人類專家經驗和規則,以及大量來自網際網路、各個產業生產中獲得的數據,有機結合,通過對不同實體(節點)之間關係的進行分析,獲得洞察。「知識圖譜蘊含一定的可解釋性,因果關係相對比較明確,這一特點讓它在金融、軌交、電力、公共安全等行業中得以較快落地。」

在社交媒體輿情分析場景中,基於知識圖譜,可以把用戶產生的評論,與後臺已有的品牌數據結合,對產品特性進行觀察,分析特定維度的用戶輿情走勢,隨後把這些結果整合到 BI 系統,為運營人員提供用戶需求洞察。在此基礎之上,實現千人千面的個性化廣告。

在智能導購場景中,比如,銷售人員通過佩戴明略的智能工牌,在保障用戶隱私和數據安全的前提下,將銷售對話轉為文字,進行話題分類,形成一個話題轉移的知識圖譜,計算出話題之間轉移的概率,幫助銷售人員復盤,分析流單的主要環節,改善話題轉移和引導,提高成單率。

總之,HAO 圖譜可以把企業數據按照業務邏輯抽象為陳述性知識或過程性知識,生成數據洞察以更易使用的方式為業務服務。「通過歷史數據的分析和行業專家先驗知識的輸入,知識圖譜可以很大程度上把行業知識復現出來,並實現能力的復用,明略科技能夠在歷史數據達到 10PB 級、日均增量數據超過 10TB 的環境下進行數據價值的挖掘,實現毫秒級的預測性分析,結合行業知識圖譜形成決策和行動。」

目前,在企業智能化服務領域,明略科技已成長為一家明星公司。去年 8 月,明略科技成為第二批「國家新一代人工智慧開放創新平臺」建設單位,以開放、創新、共享為基本原則,持續建設軟體與硬體平臺、開源社區平臺、培訓平臺,構建人工智慧眾創平臺和標準驗證實驗室,設立人工智慧產業基金,全面打造平臺生態體系。HAO 圖譜 Text2KG API 已在明略科技國家新一代人工智慧開放創新平臺官網上線。

相關焦點

  • 2020 WAIC明略科技HAO圖譜Open API 吳信東深度解讀知識圖譜的自動...
    明略科技首席科學家、明略科學院院長吳信東受邀發表主題演講,分享知識圖譜自動構建的方法論和實踐,並宣布明略科技HAO圖譜開放Text2KG API能力,賦能開發者和企業級用戶。知識圖譜的構建,要考慮到三種不同的數據類型。其中,非結構化數據,由於語言、描述形式呈現了多樣性或靈活性,因此抽取實體、語義關係是知識圖譜自動構建面臨的挑戰。具體而言,信息抽取,需要判斷哪些信息的短語、動詞是和知識圖譜構建相關的。知識融合,需要把每個句子裡面存儲的不同片段的信息,形成一個整體,所形成的描述形式用於其他的知識處理。
  • 明略科技入選愛分析中國知識圖譜廠商全景報告
    近日,中國領先的產業數位化研究與諮詢機構愛分析發布《中國知識圖譜廠商全景報告》,在金融、政府與公共服務、能源與工業、零售4大行業的13個應用場景中,明略科技均被評為具備成熟解決方案和落地能力的知識圖譜廠商。  在數字經濟時代,數據是重要的生產要素。數據挖掘能力是企業數位化轉型成功的基石。
  • 需要知識的後深度學習時代,如何高效自動構建知識圖譜?
    隨著大數據時代的到來和人工智慧技術的進步,知識圖譜的應用邊界被逐漸拓寬,越來越多的企業開始將知識圖譜技術融入其已經成型的數據分析業務,有的甚至使用知識圖譜作為其數據的基礎組織與存儲形式,成為其數據中臺的核心基建。
  • 是時候該關注「知識圖譜」了!
    知識圖譜是表示關係的最有效的方式,提供了從「關係」的角度分析問題的能力,讓機器能夠像人一樣理解世界、獲取知識,進而做出決策和行動。在大數據的推動下,知識圖譜受到了業界和學術界的廣泛關注。自2012 年Google推出第一版知識圖譜軟體,相繼湧現出一大批面向不同領域和應用的知識圖譜,如Yago,DBpedia,MusicBrainz,PubMed等,為各類智能應用帶來了大量結構化知識。
  • 明略科技榮獲第十屆吳文俊人工智慧科學技術發明一等獎_發現頻道...
    近日,2020年度第十屆吳文俊人工智慧科學技術獎獲獎名單公示,明略科技憑藉知識圖譜自動構建及行業應用的成果獲人工智慧技術發明一等獎。此前,明略科技在2018年被授予第八屆吳文俊人工智慧科技進步獎。時隔2年再獲殊榮,與明略科技在大數據和人工智慧技術領域沉澱的研發實力和產業洞察息息相關。
  • 明略科技榮獲第十屆吳文俊人工智慧科學技術發明一等獎
    近日,2020年度第十屆吳文俊人工智慧科學技術獎獲獎名單公示,明略科技憑藉知識圖譜自動構建及行業應用的成果獲人工智慧技術發明一等獎。此前,明略科技在2018年被授予第八屆吳文俊人工智慧科技進步獎。時隔2年再獲殊榮,與明略科技在大數據和人工智慧技術領域沉澱的研發實力和產業洞察息息相關。
  • 如何構建知識圖譜?
    本文根據轉轉張青楠老師,在DataFun AI+ Talk中所分享的《二手電商知識圖譜構建以及在價格模型中的應用》編輯整理而成。一、知識圖譜概述這次的分享主要從以下四個部分:知識圖譜概述、知識圖譜構造、轉轉二手電商知識圖譜、在價格模型中的應用。
  • 解析|如何構建知識圖譜
    編輯導語:知識圖譜可以說是一個資料庫,在如今大數據時代,知識圖譜已經是企業中能夠起到很大作用的一個環節,可以提高工作效率等;本文作者分享了關於構建知識圖譜以及問題的解答,我們一起來看一下。
  • 華為開發者大會HDC.Cloud硬核技術解讀:知識圖譜構建流程及方法
    3月13日下午14:00起舉行的華為開發者大會2020(Cloud)第三期華為DevRun Live開發者沙龍中,華為雲自然語言處理技術專家鄭毅將分享《企業級知識計算平臺的技術解讀和案例實踐》,帶你了解華為雲知識計算平臺及相關技術、知識圖譜構建流程及方法,以及知識計算行業案例。下文主要講述「知識圖譜構建流程及方法」,讓我們先睹為快。一、什麼是知識圖譜?
  • 百分點科技首批通過「知識圖譜產品認證」 並加入產業推進方陣
    百分點科技與電子標準院及20餘家頭部企業,聯合編制了《知識圖譜構建平臺認證技術規範》、《知識圖譜應用平臺認證技術規範》,完成了首批13家企業的產品認證工作,並在本次論壇上頒發認證證書,百分點智能融合大數據分析平臺經過嚴格的技術測評和專業評估,得到專家委一直認可,首批通過「知識圖譜產品認證」,並獲頒產品認證證書。
  • 知識圖譜構建的研究已走入下半場,但大規模落地應用仍需時間
    是面向清華大學知識工程實驗室構建的面向科技領域的知識圖譜,項目實現了高精度學者畫像、同名消歧、智能推薦、趨勢分析等關鍵技術。 近年得益於自然語言處理的極大進步,BERT 等預訓練模型帶來的文本理解和檢索能力使得我們可以在原始文本上進行理解和推理,例如 Chen 等人的 DrQA 就是使用神經網絡直接從文本中抽取問題答案,掀起開放領域問題的新熱潮。另一方面,我們必須保持知識圖譜的圖結構帶來的可解釋性和精準穩定的推理能力。
  • 愛分析·中國知識圖譜應用趨勢報告
    星環科技專注於企業級容器雲計算、大數據和人工智慧核心平臺的產品研發,為用戶提供一站式、交互式的知識圖譜構建工具,支持圖譜構建、知識存儲、分布式圖譜計算以及圖譜案例分析。  某股份制商業銀行從2018年開始與星環科技合作建設知識圖譜分析應用體系,整體項目建設主要分為三個階段:圖譜構建、風險傳導算法研發、3D可視化分析。
  • 企業大數據挖掘:為員工構建職場知識圖譜
    職場知識圖譜EDI為何如此聰明?一方面,EDI擁有精準的自然語言理解和對話能力;另一方面,利用深度學習和社交網絡融合等前沿技術,EDI為每個用戶構建了一張關於他們的職場知識圖譜。本文首先介紹如何構建用戶的職場信息圖譜,這是EDI個人助理的「大腦」,後續文章將介紹如何賦予EDI自然語言理解和對話能力,讓它能為主人愉快地工作,歡迎有興趣的讀者繼續關注。
  • 同盾科技成功入選《2020愛分析·知識圖譜廠商全景報告》
    例如,知識圖譜可以為銀行對公業務實現跨行業和跨企業的關係網絡的構建,重塑對公業務營銷與風控的過程,提升風險管理和營銷管理的效率,特別是在反洗錢、反欺詐、輿情風控等環節中,知識圖譜可以起到關鍵作用。在保險領域,相較於傳統的客戶畫像體系,基於知識圖譜的客戶畫像能夠更好的將客戶的關係、事件、行為等進行關聯,對客戶畫像進行動態、實時的描繪,幫助保險公司實現精準營銷。
  • YOCSEF「知識圖譜」專題探索班成功舉辦,五大高校、三大企業共話...
    知識圖譜和圖數據是目前計算機學科相關研究中的熱點,具體研究涵蓋知識圖譜構建,知識圖譜的存儲和查詢系統,面向知識圖譜應用,以及大圖數據的處理分析方法及系統等。知識圖譜和圖數據為計算機研究者提供了一個非常好的交叉研究對象,這包括自然語言處理、資料庫、知識工程和機器學習等領域。同時基於知識圖譜的工業應用,也是各大網際網路公司以及一些創業型企業共同關注的焦點。
  • 騰訊雲小微獲首批知識圖譜產品認證,加速AI交互能力升級
    1月8日,第一屆知識圖譜產業發展論壇在北京召開,中國電子技術標準化研究院在會上發布了首批知識圖譜產品認證證書,其中,騰訊雲小微的知識圖譜構建平臺、知識圖譜應用平臺獲得專業認證。在這方面,騰訊雲小微通過與行業專家合作、騰訊系內資源整合、線上資源積累等多種方式,建設了數十個通用領域知識圖譜,包含億級實體及十億級關係,在教育、文旅、政務、交通等多個領域中助力企業服務智慧化升級。
  • 「死磕」底層數據技術|明略科技的數據縱橫
    吳信東現任明略科技集團首席科學家和明略科學院院長,對數據挖掘(Data Mining)、大數據知識工程(BigKE)等領域有很深的認識。構建知識圖譜分類,建設多渠道、多維度的數據服務模式,面向使用者提供查詢檢索、比對排序等基礎數據服務,面向專業人員提供挖掘分析、專家建模等智能數據服務。此文是大數據領域的集大成之作。從另一個層面講,明略科技用從實踐和理論證明了構建大數據處理技術的實力。
  • 艾瑞諮詢《知識圖譜白皮書》(2020)發布,深擎科技榜上有名!
    深擎科技「乾坤袋」知識圖譜引擎與騰訊雲、百度雲、阿里雲等品牌共同作為代表性應用被納入金融領域產業鏈與參與者圖譜。知識圖譜是一種用圖模型來描述知識和建模世界萬物之間關聯關係的大規模語義網絡,是大數據時代知識表示的重要方式之一,也是認知智能的底層支撐,為描繪物理世界生產生活行為提供有效的方法與工具。
  • 知識圖譜的皇冠:知識圖譜推理的前世今生
    [ 導讀 ]業界和學界對知識圖譜的關注主要集中於兩大領域,分別是知識圖譜的構建和知識圖譜的應用。 前者聚焦於通過對結構化、非結構化數據的整合,實現統一形式的數據存儲;後者則著眼於通過算法對海量知識圖譜數據進行學習與挖掘,從而推理出新的知識,服務於具體行業應用。
  • 領域大數據知識圖譜專題 《中國科學:信息科學》
    基於知識圖譜的推薦系統研究綜述. 中國科學: 信息科學, 2020, 50: 937–956, doi: 10.1360/SSI-2019-0274 「科技大數據知識圖譜構建方法及應用研究綜述」從科技大數據知識圖譜構建及應用研究角度, 對科學學研究過程中發揮重大推動作用的科技領域知識圖譜技術進行系統、深入的綜述。