cnSchema: 面向 bot 的開放中文知識圖譜 schema

2021-02-20 開放知識圖譜

本文改編整理自丁力,謝殿俠(海知智能),陳華鈞(浙江大學),漆桂林(東南大學)在杭州首屆金融知識圖譜論壇上的報告。

cnSchema 是 OpenKG 正在努力的一個方向,其目標就是通過復用與設計 schema,支持開放中文知識圖譜應用落地。這裡的 schema 就是中文知識圖譜中使用的詞彙集、數據字典。

從下圖的實體數據中可以看到,在發布和使用開放數據中 schema 定義了實體的分類、屬性和數據結構,是數據接口的關鍵部分。數據發布者可以通過 schema 說明「我有什麼數據」,例如實體分多少類別,每種實體分別具備哪些屬性和結構。數據使用者也可以通過 schema 提出「我要什麼數據」,例如需要哪些類型的實體,某種實體必須具備哪些屬性。

圖一:基於schema.org的schema發布的數據(使用JSON-LD格式)

開放知識圖譜數據發布的早期代表性科研工作有 2001 年提出的 Semantic Web【1】和 2007 年提出的 LinkedData【2】。目前實際應用中有兩個著名的 schema 體系:schema.org【3】和 Wikidata (www.wikidata.org)【4】。

schema.org 是谷歌等搜尋引擎公司於 2011 年推出的 schema 規範體系,指導數據發布者如何在網頁中嵌入並發布結構化數據。它的核心 Schema 由一個專家組自頂向下定義,其中近 600 種核心分類覆蓋了人物、機構、產品、地點等常用概念,同時它也支持垂直領域工作組進一步貢獻醫療、文獻、金融等領域的特定概念體系。

2016 年的統計【6】表明 schema.org 的規範已經被全球超過 5 百萬獨立域名網站使用,尤其是廣泛覆蓋了大量垂直領域的知名網站,例如電商 60%,商旅 86%,工作 70% 。美中不足的是,並非所有schema.org定義的類型和屬性都被廣泛使用,而且它的概念定義和數據結構也缺乏對中文市場的支持。

Wikidata 是 2012 年維基百基金會利用其高品質的眾包編輯團隊推出的一站式知識圖譜數據管理平臺。上萬志願者依據自底向上的原則自主發布或導入數據,在經過相對嚴格的管理員審核來保障數據質量與可信度。該網站目前擁有 2500 萬實體的數據。但是,Wikidata 缺乏明確的終端應用,而且它過於龐雜的分類體系也不適於 Bot 構建領域詞典。下表對比了 schema.org 和 Wikidata 在 schema 設計和應用方面的特色與差異。

表一:知識圖譜schema設計與應用的對比(schema.org,Wikidata)

為了支持開放中文知識圖譜應用落地,cnSchema 希望解決下面幾個問題。

1)面向智慧機器人(Bots)。Bots 是搜尋引擎後新興的人機接口,對話中的信息粒度縮小到短文本、實體和關係,而且多輪對話還要求更豐富的上下文知識。這需要知識圖譜schema提供簡潔靈活的數據模型支持,例如文本與結構化數據的結合,多來源數據的融合,規整的 schema 定義等。面向中文市場。cnSchema 是中文知識圖譜接口的關鍵,不論是 schema 自身對接中文自然語言處理,還是針對中文信息中特有概念都需要支持。

2)開放的 schema。知識圖譜的學習代價與構建成本都不低,希望能儘量利用現有規範標準,避免各家重新發明輪子,快速達成核心概念的簡潔穩定的共識;進一步針對垂直領域的合作者,通過最佳實踐幫助他們擴展領域知識圖譜以支持數據發布和應用。

3)應用落地。開放中文知識圖譜天生就是一個龐大的生態體系,需要有合理的方法實現成本分攤,保障數據發布者的權益,支持大家快速應用落地並實現可衡量的價值。

cnSchema 的工作正處於籌備階段,幾個代表性的工作包括(1)schemaorg 的國內鏡像與中文翻譯,(2)中文知識圖譜核心概念的 schema 梳理與舉例,(3)schema 設計原則與工具的推薦,(4)音樂,飲食,佛學等垂直領域以及通用百科在 Bot 中應用落地。更多的項目會在 GITHUB 上討論並推進。(https://github.com/cnschema/cnschema)

歡迎對知識圖譜 schema 感興趣的同仁加入我們,共同為為建設 OpenKG 倡導的開放中文知識圖譜添磚加瓦,也歡迎大家關注 cnSchema 的微信公眾號,獲取更多動態。

參考資料

【1】Tim Berners-Lee, Jim Hendler, and Ora Lassila,     "The Semantic Web," Scientific American, May 2001, pp. 34–43.

【2】Tim Berners-Lee, Linked Data, 2006. https://www.w3.org/DesignIssues/LinkedData.html

【3】R. V. Guha, Dan Brickley, and Steve Macbeth. 2016.     Schema.org: evolution of structured data on the web. Commun. ACM 59, 2,     44-51. DOI: https://doi.org/10.1145/2844544

【4】Denny Vrandečić and Markus Krötzsch. 2014. Wikidata: a     free collaborative knowledgebase. Commun. ACM 57, 10, 78-85. DOI: https://doi.org/10.1145/2629489

【5】https://github.com/schemaorg/schemaorg/tree/sdo-callisto/data/releases/3.2    

【6】Christian Bizer, Robert Meusel, Anna Primpeli, Web Data     Commons - RDFa, Microdata, and Microformat Data Sets,Extracting Structured Data from     the Common Web Crawl,http://webdatacommons.org/structureddata/#results-2016-1

【7】https://www.wikidata.org/wiki/Wikidata:Statistics

【8】https://www.wikidata.org/wiki/Wikidata:Database_reports/List_of_properties/all

【9】https://tools.wmflabs.org/wikidata-todo/stats.php

【10】https://tools.wmflabs.org/bambots/WikidataClasses.php

OpenKG.CN

中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。

點擊閱讀原文,進入 OpenKG 博客。

相關焦點

  • cnSchema: 面向bot的開放中文知識圖譜schema
    cnSchema是OpenKG正在努力的一個方向,其目標就是通過復用與設計schema,支持開放中文知識圖譜應用落地。這裡的schema就是中文知識圖譜中使用的詞彙集、數據字典。從下圖的實體數據中可以看到,在發布和使用開放數據中schema定義了實體的分類、屬性和數據結構,是數據接口的關鍵部分。
  • 知識圖譜與智能問答研討會將於北理工召開
    本次活動面向北京理工大學師生、北京地區高校師生及科研機構免費開放,提供茶歇,參會人員食宿與交通費用自理。:開放中文知識圖譜的進展   專家介紹:丁力博士,海知智能CTO,聯合創始人。結合中文的特點,我們復用、連接並擴展了Schema.org,Wikidata, Wikipedia等已有的知識圖譜Schema標準,為中文領域的開放知識圖譜、聊天機器人、搜尋引擎優化等提供可供參考和擴展的數據描述和接口定義標準。通過cnSchema, 開發者也可以快速對接上百萬基於Schema.org定義的網站,以及Bot的知識圖譜數據API。
  • 這周日,北理工將邀數位大咖研討「知識圖譜與智能問答」
    研究興趣包括推薦系統,知識圖譜和文本挖掘。圖靈機器人公司是以語義理解為核心驅動力的人工智慧公司,致力於「讓機器理解世界」, 產品服務包括機器人開放平臺,機器人 OS 和場景方案。公司成立於2010 年,2013 年推出全球第一款中文人工智慧語音助手-蟲洞語音助手,累計4500 萬用戶量。2014 年推出開放人工智慧機器人平臺,至今已有 60 多萬合作夥伴和開發者。
  • 知識圖譜(02): 語義網絡,語義網,連結數據和知識圖譜
    什麼是知識圖譜?——KG的前世今生」提及了和知識圖譜相關的一些早期概念。為了讓讀者能夠更好地區分這些概念,以及更好地在整體上把握知識譜圖發展過程,本文將對這些概念作一個更為詳細的介紹。一、語義網絡(Semantic Network)對於初學者來講,這個概念很容易和語義網(Semantic Web)相混淆。
  • 從語義網到知識圖譜
    知識圖譜2012年,當谷歌推出它的知識圖譜時,一個新的術語出現了。例如,可以通過在 google 網站上搜索知名實體來查看 Google知識圖譜的部分內容: 在連結到網頁的搜索結果旁邊顯示一個所謂的信息框,顯示來自Google知識圖譜的信息。下圖給出了這種信息框的一個例子,搜索 Kofi Annan 就可以找到這個例子。
  • 再添近10個新冠知識圖譜,OpenKG發布第二批開放數據集
    2020年2月11日,世界衛生組織宣布了新型冠狀病毒肺炎官方正式命名為 COVID-19,21日國家衛健委決定與世界衛生組織保持一致,中文名稱不變。隨著關於新型冠狀病毒病毒疫情的不斷發展,有關疫情的各類信息也在不斷更新。OpenKG 緊隨疫情發展,繼續發布新領域的新冠知識圖譜,同時對已經發布的圖譜進行持續不斷的更新。
  • 一文讀懂知識圖譜的商業應用進程及技術背景
    類似地,Alexa 也依託其早年收購的 True Knowledge 公司所積累的知識庫;Siri 則利用 DBpedia 和可計算的知識服務引擎 WolframAlpha;狗尾草公司推出的虛擬美少女機器人琥珀虛顏則用到了首個中文連結知識庫 Zhishi.me。伴隨著機器人和 IoT 設備的智能化浪潮,智能廚房、智能駕駛和智能家居等應用層出不窮。
  • 萬字綜述:行業知識圖譜構建最新進展
    目前在大部分細分垂直領域中,行業知識圖譜的 schema 構建依賴領域專家的重度參與,該模式人力投入成本高,建設周期長,同時在缺乏大規模有監督數據的情形下的信息抽取效果欠佳,這限制了行業知識圖譜的落地且降低了圖譜的接受度。
  • 中文自然語言處理相關資料集合指南
    Chatbot (Python) 基於向量匹配的情境式聊天機器人Tipask (PHP) 一款開放源碼的PHP問答系統,基於Laravel框架開發,容易擴展,具有強大的負載能力和穩定性。QuestionAnsweringSystem (Java) 一個Java實現的人機問答系統,能夠自動分析問題並給出候選答案。
  • Awesome-Chinese-NLP:中文自然語言處理相關資料
    Chatbot (Python) 基於向量匹配的情境式聊天機器人Tipask (PHP) 一款開放源碼的PHP問答系統,基於Laravel框架開發,容易擴展,具有強大的負載能力和穩定性。QuestionAnsweringSystem (Java) 一個Java實現的人機問答系統,能夠自動分析問題並給出候選答案。
  • 伯克利&清華從GPT等預訓練語言模型中無監督構建出知識圖譜!
    二、MAP階段:通過映射候選知識構建開放知識圖譜在獲取原始的知識三元組後,需要進行適當的映射,與既有的知識圖譜schema(如Wikidata)進行比對合併的同時,我們也對開放schema的結果進行保留整理,從而構建開放知識圖譜。我們獲取的第一類知識是可以完全映射到既有知識圖譜schema的知識。
  • 媒體知識圖譜的構建簡析
    現有代表性的知識網絡有Wordnet、DBpedia、Freebase、NELL(Never Ending Language Learning,永不結束語言學習)、YAGO和谷歌知識圖譜等。其共同點是均基於單一文本進行構建。根據知識來源與頂層概念設計理念,現有數據驅動的知識圖譜構建的研究工作大致分為如下幾類。
  • 知識圖譜:知識圖譜賦能企業數位化轉型 | AI 研習社職播間第 3 期
    現任北京知識圖譜科技有限公司 CEO、中文信息學會語言與知識計算專委會委員、開放知識圖譜聯盟成員。畢業後在湯森路透工作了幾年,做面向金融、科技行業的諮詢顧問,之後在 2017 年,我們成立了北京知識圖譜科技,面向醫療、軍工、金融等領域提供知識圖譜解決方案。今天我們分享內容包括:公司介紹&招聘,知識圖譜概述 &企業機遇挑戰,知識圖譜賦能企業數位化轉型,知識圖譜落地挑戰與趨勢四個方面。
  • 基於知識圖譜的智能問答
    立知問答系統是搜狗搜索研發的面向未來的搜索技術,在理解用戶的問題或信息需求後,利用海量網絡信息及大規模知識庫,直接給出答案,方便快捷,適用於多種交互方式。其背後蘊含語義分析、問題理解、信息抽取、知識圖譜、信息檢索、深度學習等眾多技術。阿里小蜜是一個無線端多領域私人助理,依託於客戶真實的需求,通過智能+人工的方式提供客戶極致的購物體驗服務,提升客戶留存並創造價值。
  • 陳華鈞等 | OpenKG區塊鏈:構建可信開放的聯邦知識圖譜平臺
    利用分布式帳本技術,開放知識的產生、發展、推演都被記錄下來,開放知識的價值和相關性都可以進行分析,而開放知識的確權也可以完整的記錄下來,同時所有基於開放知識圖譜構建的應用都基於引用。利用基於區塊鏈技術構建開放知識圖譜,解決了開放知識價值的認定、開放知識貢獻的確權、開放知識傳播和開放知識關係的分布式組織方式。
  • 新瓶裝舊酒:知識圖譜基礎之RDF,RDFS與OWL
    什麼是知識圖譜?——KG的前世今生), [2](語義網絡,語義網,連結數據和知識圖譜))的讀者應該對RDF有了一個大致的認識和理解。本文將結合實例,對RDF和RDFS/OWL,這兩種知識圖譜基礎技術作進一步的介紹。其實,RDF、RDFS/OWL是類語義網概念背後通用的基本技術,而知識圖譜是其中最廣為人知的概念。
  • 知識圖譜之知識抽取詳細解讀
    本文將以知識圖譜中的知識抽取技術為重點,選取代表性的方法,說明其中的相關研究進展和實用技術手段。知識抽取知識抽取主要是面向開放的連結數據,通常典型的輸入是自然語言文本或者多媒體內容文檔等。由於實體是知識圖譜中的最基本元素,其抽取的完整性、準確率、召回率等將直接影響到知識圖譜構建的質量。我們將實體抽取的方法分為4種:基於百科站點或垂直站點提取、基於規則與詞典的方法、基於統計機器學習的方法以及面向開放域的抽取方法。
  • 編程任務中的know-how知識:從文本教程到面向任務的知識圖譜
    最終,我們構建起一個面向任務的知識圖譜。知識圖譜中的每個操作被表示為包含一個描述操作的動詞短語、操作以及動詞短語中對象的結構化操作框架,並被關聯到它的父操作、子操作、兄弟操作、前一個&後一個操作以及操作屬性值。基於面向任務的知識圖譜,我們開發了一個以操作為中心的知識檢索引擎。給定一個how-to問題,搜尋引擎將問題意圖建模成操作、對象和操作屬性,這與詞袋模型不同。
  • 史上最大規模:這有一份1.4億的中文開源知識圖譜
    機器之心整理 參與:鄭麗慧、杜偉 知識圖譜是人工智慧新時代的產物,簡單地說知識圖譜就是通過關聯關係將知識組成網狀的結構,然後我們的人工智慧可以通過這個圖譜來認識其代表的這一個現實事件,這個事件可以是現實,也可以是虛構的。
  • 2020年中國面向人工智慧「新基建」的知識圖譜行業白皮書
    ,以技術創新為驅動,以信息網絡為基礎,面向高質量發展需要,提供數字轉型、智能升級、融合創新等服務的基礎設施體系。 上世紀七八十年代,傳統的知識工程與專家系統解決了很多的問題,但是都是在規則明確、邊界清晰、應用封閉的限定場景取得成功,嚴重依賴專家幹預,一旦涉及到開放的問題就基本不太可能實現,因此難以適應大數據時代開放應用到規模化的需求等問題。相對於傳統的知識表示,知識圖譜具有規模巨大、語義豐富、質量精良與結構友好等特點,宣告知識工程進入了一個新的時代。