媒體知識圖譜的構建簡析

2020-12-27 我是天邊飄過一朵雲

知識圖譜是反映實體間、實體與屬性間關係的網絡,是它們基於知識的關聯,是對於海量數據的一種有效的組織方式和利用手段。

現有代表性的知識網絡有Wordnet、DBpedia、Freebase、NELL(Never Ending Language Learning,永不結束語言學習)、YAGO和谷歌知識圖譜等。其共同點是均基於單一文本進行構建。根據知識來源與頂層概念設計理念,現有數據驅動的知識圖譜構建的研究工作大致分為如下幾類。

1.基於維基百科的infoboxes等結構化數據的構建:以百科作為知識的主要來源,抽取百科詞條作為實體,利用詞條中的infobox來填充實體的屬性。主要代表有YAGO、DBpedia和Freebase等。此類構建方法的特點是質量較高,但更新較慢。

2.基於開放文檔的構建(schema-less):以網際網路開放網頁文檔作為知識的主要來源,其假定如果已知兩個實體之間存在特定的語義關係,那麼包含該實體對的句子在某種程度上就蘊含語義關係。主要代表系統有Reverb、OLLIE、Prismatic等。此類方法可挖掘大量實體與實體間的關係謂詞,缺點是所挖掘知識的噪音大。

3.基於固定本體/模式的構建:以少量人工定義的抽象本體/模式(ontology/schema)作為知識圖譜的頂層概念設計,以此來充實、匯聚符合頂層概念的實體與實體關係,並在此之上進一步發現新的概念。其代表系統有NELL、PROSPERA、史丹福大學的DeepDive、谷歌的Knowledge Vault等。

4.基於層次化本體的構建:該方法構建的知識庫的代表是Probase。Probase首先從開放域匯聚了約265萬個概念;然後針對這些概念計算上下位關係;最後基於概率的方法,從橫向與縱向上對這些概念進行合併,形成一個具有豐富層次的概念樹。

為了彌補單一類型文本構建知識圖譜的不足,出現了一種結合圖像和文本等數據來構建的知識圖譜,如ImageNet、NEIL和Vispedia等。為了使用深度學習來構建知識圖譜,一般需要通過深層模型(如反饋遞歸神經網絡等)來學習實體及其屬性,以及實體和實體之間關係的低維向量表示和關係操作矩陣,如張量神經網絡。如何在現有知識圖譜構建的基礎上,從圖像和視頻等媒體數據中提取視覺實體、視覺關係以及視覺屬性,在自然語言和視覺信息之間架構橋梁,使得視覺實體及其關係與文本實體及其關係相互支撐驗證(grounded),形成跨越數據類型的媒體知識網絡來對客觀世界中的概念、實體、屬性和關係進行表達,是一個具有巨大潛力的研究方向。有人表達的是利用馬科夫邏輯網來學習視覺實體屬性及其關係。

在深度學習中有效利用不同類型的媒體數據在不同層次上所具有的耦合特性是學術界高度重視的研究問題。正如谷歌公司首席科學家約翰·普蘭特(John Platt)博士指出的,當前智能計算面臨的一大挑戰是對強耦合(strongly-coupled)輸出的整體估計。儘管深度學習進展可喜,但是仍然面臨如下挑戰。

在線增量深度學習,人腦具有從不斷湧現的數據中持續學習以及逐步增長經驗知識的能力。現有的生理研究表明:嬰幼兒的神經細胞在出生後會持續增多,並且其神經軸突、樹狀突和突觸等複雜度會不斷增加。谷歌於2015年2月在《自然》上發表了其結合深度學習和強化學來實現具有「pixels-to-actions」能力以及超越人類玩家的智能遊戲算法的研究成果,以此說明從數據中不斷學習可逐漸提升算法的性能。雖然現在已有若干在線深度學習方法國,但是還需要將不同深層模型學習算法向在線增量學習方向做進一步拓展。

深度學習的黑盒子問題,深度學習在一定程度上是一個黑盒子問題,其難點在於根據特定任務來對深層模型本身的結構進行優化設計。新加坡國立大學教授顏水成課題組將傳統卷積神經網絡中的線性函數替換為多層網絡,提出了網中網(network in network)的框架。有人提出了將深度學習與條件隨機場相結合的神經條件隨機場(Conditional Random Fields,CRF)模型;谷歌在GoogLeNet中利用了「神經元之間持續重複經驗刺激可導致突觸傳遞效能增加」的赫布理論(Hebbian theory)。因此,如何根據數據本身以及人類的認知機理來設計最優的深層網絡結構(如網絡層數、每一層中隱含的單元數目以及層與層之間的反饋機制等),並且給出深層網絡理論分析,尚需理論的進一步深入和突破。

深度學習與眾包計算結合基於數據驅動的深度學習易受數據噪音的影響。YAGO知識庫研究者格哈德·維昆(Gerhard Weikum)教授曾指出,只有將數據驅動機器學習方法和眾包計算方法緊密結合起來,才能更好地實現知識圖譜的構建。雖然現有基於深度學習框架的弱標籤學習和半監督學習在某些方面利用了眾包數據(如利用微軟的點擊數據集Clickage來提升圖像檢索性能),但是如何有效利用眾包中的標註數據,來提升單純依賴數據驅動模式的深度學習方法的性能,是值得投入的研究方向。

相關焦點

  • 華為開發者大會HDC.Cloud技術探秘:知識圖譜構建流程及方法
    通用知識圖譜側重構建常識性的知識,並用於搜尋引擎和推薦系統等。行業知識圖譜(也可稱企業知識圖譜)主要面向企業業務,通過構建不同行業、企業的知識圖譜,對企業內部提供知識化服務。華為雲知識圖譜服務可用於以上兩類知識圖譜的構建、管理和服務,更側重面向企業知識圖譜。二、如何構建知識圖譜?
  • 知識圖譜的皇冠:知識圖譜推理的前世今生
    [ 導讀 ]業界和學界對知識圖譜的關注主要集中於兩大領域,分別是知識圖譜的構建和知識圖譜的應用。 前者聚焦於通過對結構化、非結構化數據的整合,實現統一形式的數據存儲;後者則著眼於通過算法對海量知識圖譜數據進行學習與挖掘,從而推理出新的知識,服務於具體行業應用。
  • 圖靈獎得主論體系結構創新,自動構建知識圖譜,盡在WAIC開發者日
    明略科技吳信東:如何自動構建知識圖譜?從 Google 搜索,到聊天機器人、大數據風控、證券投資,這些應用無一不跟知識圖譜息息相關。知識圖譜在技術領域的熱度也在逐漸上升。在今年的 WAIC 開發者日上,明略科技首席科學家、明略科學院院長吳信東分享了「自動構建知識圖譜」的主題演講。
  • 百分點入選艾瑞《面向人工智慧「新基建」的知識圖譜行業白皮書》
    基於此,報告從善政、惠民、興業、智融四個部分對知識圖譜技術在各行業中的代表性應用場景進行梳理,對知識圖譜未來的發展和應用做出兩大展望:(1) 創新的知識圖譜形態,構建多模態知識圖譜,拓展知識圖譜的應用場景和領域。(2)與區塊鏈技術結合發展,優化知識來源管理、知識儲存和更新、智慧財產權保護。
  • 「新基建」中的佼佼者:基於知識圖譜的工業網際網路
    正如其名,它是一系列顯示知識發展進程與結構關係的不同的圖形,用可視化的技術,描述知識資源及其載體,挖掘、分析、構建、繪製和顯示知識及它們之間的相互關係。今年2月,媒體報導了一則「山東省司法廳廳長因疫情防控不力被免職」的新聞。乍一看,你可能會好奇,山東司法廳廳長與武漢新冠肺炎的關係是什麼?
  • 2020年中國面向人工智慧「新基建」的知識圖譜行業白皮書
    根據覆蓋範圍的不同,知識圖譜可以區分為應用相對廣泛的通用知識圖譜和專屬於某個特定領域的行業知識圖譜:通用知識圖譜覆蓋範圍廣,注重橫向廣度,強調融合更多的實體,通常採用自底向上的構建方式,從開放連結數據(「信息」)中抽取出置信度高的實體,再逐層構建實體與實體之間的聯繫;行業知識圖譜指向一個特定的垂直行業,注重縱向深度,具有豐富的實體屬性和數據模式,通常採用自頂向下的構建方式
  • 好看視頻宣布品牌升級:定位視頻知識圖譜
    百度短視頻生態平臺總經理宋健表示:「依託百度在知識信息服務上的技術與生態沉澱,好看視頻將結合用戶主動搜索、知識探索帶來的『主動流量』構建視頻知識圖譜,堅持做『Save time,為用戶解決問題』的短視頻平臺。同時,好看視頻還將通過三大舉措賦能泛知識類創作者,加碼優質創作生態構建。」
  • 知識圖譜不複雜,我來幫你理一理!
    將數據中蘊含的知識用圖的結構表示出來,就形成了知識圖譜。圖片來自 Pexels知識圖譜可以應用到智能搜索,自動文檔,推薦,決策支持等領域。例如:WordNet,Freebase,Wikidata。今天和大家一起了解知識圖譜構建的方法和基本原理。
  • 騰訊雲小微獲首批知識圖譜產品認證,加速 AI 交互能力升級
    原標題:騰訊雲小微獲首批知識圖譜產品認證,加速 AI 交互能力升級     1 月 8 日,第一屆知識圖譜產業發展論壇在北京召開,中國電子技術標準化研究院在會上發布了首批知識圖譜產品認證證書,其中,騰訊雲小微的知識圖譜構建平臺、知識圖譜應用平臺獲得專業認證。
  • 從ACL 2020看知識圖譜研究進展
    研究手段則仍集中於各類機器學習的方法,包括:神經網絡、預訓練、注意力、知識圖譜等。還有一些文章特別關注了低資源、少樣本等實際應用中經常會遇到的問題。我們選擇了 ACL 2020 中三篇與知識圖譜相關的文章進行詳細解讀。其中,第一篇重點關注知識圖譜本身,提出了一種基於距離的知識圖譜中的源實體到目標實體的連結預測(Link Prediction)方法。
  • 好看視頻品牌升級:定位視頻知識圖譜,三大舉措賦能泛知識創作者
    百度短視頻生態平臺總經理宋健表示:依託百度在知識信息服務上的技術與生態沉澱,好看視頻將結合用戶主動搜索、知識探索帶來的「主動流量」構建視頻知識圖譜,堅持做「Save time,為用戶解決問題」的短視頻平臺。同時,好看視頻還將通過三大舉措賦能泛知識類創作者,加碼優質創作生態構建。
  • 很高興見到你|「I CAMP」知識圖譜產業加速營Ⅱ期正式開營!
    此前的9月份,創合匯創業服務中心與科大訊飛,以及陽澄湖半島度假區三方合力,成功打造知識圖譜產業運營中臺,逐漸開始探索出一條以AI知識圖譜為驅動的創新發展之路。知識圖譜產業加速營匯聚了地方政府、科研單位、大企業以及專業的服務運營商,一齊為知識圖譜的發展聚力。
  • 聚焦CCKS 2020 |醫渡雲運用知識圖譜技術 更好發揮「黑盒」和...
    醫渡雲算法工程師焦曉康受邀參加此次會議,並在知識圖譜工業界論壇發表了主題演講。 本屆大會吸引眾多人工智慧、知識圖譜領域的專家出席,中國科學院數學與系統科學研究院研究員、中國科學院院士陸汝鈐院士,作為大會特邀嘉賓,在開幕式上發表了關於發展知識圖譜支撐平臺研究的主題報告,並在報告中回顧了學術界和企業界對知識圖譜支撐平臺的研究現狀。
  • 一文全覽,ICLR 2020 上的知識圖譜研究
    我們曾對 ICLR 2020 上的圖機器學習趨勢進行介紹,本文考慮的主題為知識圖譜。作者做波恩大學2018級博士生 Michael Galkin,研究方向為知識圖和對話人工智慧。在AAAI 2020 舉辦之際,他也曾對發表在AAAI 2020上知識圖譜相關的文章做了全方位的分析,具體可見「知識圖譜@AAAI2020」。
  • 老三觀天下:人物關係-知識圖譜
    王健林出於好奇,便在搜索框裡對知識圖譜進行了搜索,發現很多網站都有這方面的功能,尤其是像百度、谷歌、搜狗等搜尋引擎公司,紛紛涉獵,以改進搜索質量。知識圖譜的研究者王昊奮在知識圖譜的原理中講到:知識圖譜率先由谷歌提出。
  • 基於知識圖譜的問答在美團智能交互場景中的應用和演進
    以上交互的場景對知識有重要的依賴,需要使用知識幫助人們完成選擇:由於交互對知識有重要依賴,於是我們引入了基於知識圖譜的問答 KBQA。4.傳統基於知識圖譜的問答首先介紹的是傳統基於知識圖譜的問答,該類問答主要分成兩大流派:Semantic Parsing-based KB-QA把用戶的問題轉換為機器的查詢語句,直接查詢知識圖譜獲取答案
  • 好看視頻品牌升級:定位視頻知識圖譜 三大舉措賦能泛知識創作者
    百度短視頻生態平臺總經理宋健表示:好看視頻將結合用戶主動搜索、知識探索帶來的「主動流量」構建視頻知識圖譜,堅持做「Save time,為用戶解決問題」的短視頻平臺。同時,好看視頻還將通過三大舉措賦能泛知識類創作者,加碼優質創作生態構建。據介紹,要實現Save time價值觀離不開平臺創作者的持續輸出。
  • 清華唐傑教授:認知圖譜是人工智慧的下一個瑰寶
    唐教授表示,當前認知 AI 還沒有實現,我們急需做的是一些基礎性的東西(AI 的基礎設施),比如知識圖譜的構建,知識圖譜的一些認知邏輯,包括認知的基礎設施等。 作者:唐傑 來源:學術頭條(ID:SciTouTiao)
  • 中國構建首個人類細胞圖譜基本框架 80後浙大學者領銜
    (原標題:中國構建首個人類細胞圖譜基本框架,「80後」浙大學者領銜)
  • 乘風破浪,智子可期|「I CAMP」科大訊飛知識圖譜產業加速營首期...
    柯基數據:是一家專注於一站式知識圖譜中臺產品及醫藥大健康知識圖譜解決方案的公司,已經為很多跨國藥企提供了從醫藥研發到銷售市場學術營銷等知識圖譜和智能問答產品。懿衡信息:懿衡信息用語言知識圖譜來理解漢語語義,用公司知識圖譜來研究企業價值,用產業知識圖譜來分析行業趨勢,用事理知識圖譜來挖掘投資機會,為投融資賦能。