本文改編整理自丁力,謝殿俠(海知智能),陳華鈞(浙江大學),漆桂林(東南大學)在杭州首屆金融知識圖譜論壇上的報告。
cnSchema 是 OpenKG 正在努力的一個方向,其目標就是通過復用與設計 schema,支持開放中文知識圖譜應用落地。這裡的 schema 就是中文知識圖譜中使用的詞彙集、數據字典。
從下圖的實體數據中可以看到,在發布和使用開放數據中 schema 定義了實體的分類、屬性和數據結構,是數據接口的關鍵部分。數據發布者可以通過 schema 說明「我有什麼數據」,例如實體分多少類別,每種實體分別具備哪些屬性和結構。數據使用者也可以通過 schema 提出「我要什麼數據」,例如需要哪些類型的實體,某種實體必須具備哪些屬性。
圖一:基於schema.org的schema發布的數據(使用JSON-LD格式)
開放知識圖譜數據發布的早期代表性科研工作有 2001 年提出的 Semantic Web【1】和 2007 年提出的 LinkedData【2】。目前實際應用中有兩個著名的 schema 體系:schema.org【3】和 Wikidata (www.wikidata.org)【4】。
schema.org 是谷歌等搜尋引擎公司於 2011 年推出的 schema 規範體系,指導數據發布者如何在網頁中嵌入並發布結構化數據。它的核心 Schema 由一個專家組自頂向下定義,其中近 600 種核心分類覆蓋了人物、機構、產品、地點等常用概念,同時它也支持垂直領域工作組進一步貢獻醫療、文獻、金融等領域的特定概念體系。
2016 年的統計【6】表明 schema.org 的規範已經被全球超過 5 百萬獨立域名網站使用,尤其是廣泛覆蓋了大量垂直領域的知名網站,例如電商 60%,商旅 86%,工作 70% 。美中不足的是,並非所有schema.org定義的類型和屬性都被廣泛使用,而且它的概念定義和數據結構也缺乏對中文市場的支持。
Wikidata 是 2012 年維基百基金會利用其高品質的眾包編輯團隊推出的一站式知識圖譜數據管理平臺。上萬志願者依據自底向上的原則自主發布或導入數據,在經過相對嚴格的管理員審核來保障數據質量與可信度。該網站目前擁有 2500 萬實體的數據。但是,Wikidata 缺乏明確的終端應用,而且它過於龐雜的分類體系也不適於 Bot 構建領域詞典。下表對比了 schema.org 和 Wikidata 在 schema 設計和應用方面的特色與差異。
表一:知識圖譜schema設計與應用的對比(schema.org,Wikidata)
為了支持開放中文知識圖譜應用落地,cnSchema 希望解決下面幾個問題。
1)面向智慧機器人(Bots)。Bots 是搜尋引擎後新興的人機接口,對話中的信息粒度縮小到短文本、實體和關係,而且多輪對話還要求更豐富的上下文知識。這需要知識圖譜schema提供簡潔靈活的數據模型支持,例如文本與結構化數據的結合,多來源數據的融合,規整的 schema 定義等。面向中文市場。cnSchema 是中文知識圖譜接口的關鍵,不論是 schema 自身對接中文自然語言處理,還是針對中文信息中特有概念都需要支持。
2)開放的 schema。知識圖譜的學習代價與構建成本都不低,希望能儘量利用現有規範標準,避免各家重新發明輪子,快速達成核心概念的簡潔穩定的共識;進一步針對垂直領域的合作者,通過最佳實踐幫助他們擴展領域知識圖譜以支持數據發布和應用。
3)應用落地。開放中文知識圖譜天生就是一個龐大的生態體系,需要有合理的方法實現成本分攤,保障數據發布者的權益,支持大家快速應用落地並實現可衡量的價值。
cnSchema 的工作正處於籌備階段,幾個代表性的工作包括(1)schemaorg 的國內鏡像與中文翻譯,(2)中文知識圖譜核心概念的 schema 梳理與舉例,(3)schema 設計原則與工具的推薦,(4)音樂,飲食,佛學等垂直領域以及通用百科在 Bot 中應用落地。更多的項目會在 GITHUB 上討論並推進。(https://github.com/cnschema/cnschema)
歡迎對知識圖譜 schema 感興趣的同仁加入我們,共同為為建設 OpenKG 倡導的開放中文知識圖譜添磚加瓦,也歡迎大家關注 cnSchema 的微信公眾號,獲取更多動態。
參考資料
【1】Tim Berners-Lee, Jim Hendler, and Ora Lassila, "The Semantic Web," Scientific American, May 2001, pp. 34–43.
【2】Tim Berners-Lee, Linked Data, 2006. https://www.w3.org/DesignIssues/LinkedData.html
【3】R. V. Guha, Dan Brickley, and Steve Macbeth. 2016. Schema.org: evolution of structured data on the web. Commun. ACM 59, 2, 44-51. DOI: https://doi.org/10.1145/2844544
【4】Denny Vrandečić and Markus Krötzsch. 2014. Wikidata: a free collaborative knowledgebase. Commun. ACM 57, 10, 78-85. DOI: https://doi.org/10.1145/2629489
【5】https://github.com/schemaorg/schemaorg/tree/sdo-callisto/data/releases/3.2
【6】Christian Bizer, Robert Meusel, Anna Primpeli, Web Data Commons - RDFa, Microdata, and Microformat Data Sets,Extracting Structured Data from the Common Web Crawl,http://webdatacommons.org/structureddata/#results-2016-1
【7】https://www.wikidata.org/wiki/Wikidata:Statistics
【8】https://www.wikidata.org/wiki/Wikidata:Database_reports/List_of_properties/all
【9】https://tools.wmflabs.org/wikidata-todo/stats.php
【10】https://tools.wmflabs.org/bambots/WikidataClasses.php
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。