編者按
隨著大數據、自然語言處理、人工智慧等技術的發展,知識圖譜成為近幾年的熱點技術,在生活服務、醫療輔助、金融風控等不同行業和領域,實現了眾多的智能化應用。
知識圖譜是什麼
通俗地講,知識圖譜就是將複雜的知識通過數據挖掘、信息處理、知識計量和圖形繪製等一系列方式,把所有不同種類的信息連接在一起得到的一個關係網絡。在知識圖譜裡,用節點表示現實世界中存在的「實體」,用邊示意實體與實體之間的「關係」。知識圖譜是表示關係的最有效的方式,提供了從「關係」的角度分析問題的能力,讓機器能夠像人一樣理解世界、獲取知識,進而做出決策和行動。
在大數據的推動下,知識圖譜受到了業界和學術界的廣泛關注。自2012 年Google推出第一版知識圖譜軟體,相繼湧現出一大批面向不同領域和應用的知識圖譜,如Yago,DBpedia,MusicBrainz,PubMed等,為各類智能應用帶來了大量結構化知識。以DBpedia為例,其英文版知識圖譜擁有400萬實體,包括144萬人物、73萬地點、41萬創意作品、24萬組織機構、25萬物種和6000多種疾病。在國內,搜狗和百度分別推出搜狗知立方和知心,百度還開放其知識圖譜Schema,作為百度知識圖譜構建和知識計算的核心數據結構,並用於規範百度內外部合作方的結構化數據交換。
知識圖譜的構建
假設我們直接向Google提問:「愛因斯坦的兒子是誰」。可以看到,除了一堆關於愛因斯坦的網頁,Google還會直接給出答案:愛德華·愛因斯坦。Google到底是怎麼做的呢?
首先,Google要理解我們的提問。對輸入的問話進行自然語言分析,抽取句中的實體,比如「愛因斯坦」、「兒子」,再依據這兩個關鍵詞進行檢索。
然後,Google利用網頁中的搜索結果建立知識圖譜。構建知識圖譜的關鍵是進行實體之間的關聯連接。通過大量的網頁分析,可以得出Albert Einstein和Eduard Einstein具有父子關聯,同時構建與愛因斯坦相關的知識圖譜。
最後,反饋答案。雖然本例中Google返回的是直接答案,實際上知識圖譜應用的反饋結果還可以是自然語言或可視化圖表。
因此,知識圖譜的構建可能涉及網絡爬蟲、數據預處理、圖資料庫和算法、關係型數據可視化等多種技術。在一個實現知識圖譜的典型流程中(見下圖),使用目標網站作為信息源,通過網絡爬蟲技術,使用本體方法或者其他自然語言處理方法定位複雜網頁中需要抓取的實體屬性信息。對抓取到的數據的部分欄位值進行清洗和規範化,選擇要抽取的實體和關係欄位,並定義實體間的關係及關係的方向,通過增加唯一性約束,對實體進行對齊操作。最後將實體和實體之間的關係一併保存到圖資料庫中。此後便可以通過各類圖算法,提供對外服務,包括各類查詢分析及圖譜可視化。
知識圖譜的應用
知識圖譜技術為不同的商業場景帶來了大量的智能應用和成功案例,上文用於搜尋引擎的例子只是冰山一角,常見的領域還包括問答系統和金融風控等。
1.問答系統
問答系統是信息檢索的一種高級形式,它能用準確、簡潔的自然語言回答問題。建立基於知識圖譜的問答系統,不僅需要建立一個擁有高質量數據的知識圖譜,還需要解決語義理解問題和語義檢索問題。大數據的發展,為精確的語義理解和高質量的知識來源帶來了數據層面的發展契機;而圖資料庫的發展,則提供了比關係型資料庫更為高效的技術解決方案。
從 2011年Siri誕生,到Google Now,再到微軟的Cortana和亞馬遜的Alexa,語音助手本質上都是問答系統。這些面向公開領域的問答系統,能幫助我們訂行程、打電話、開啟導航甚至網上購物,帶來生活便利。
除此之外,還有一部分面向特定領域的問答系統,如2016年10月「百度醫療大腦」首個產品化項目發布的「對話機器人」。該問答系統模擬醫生的問診流程,依據用戶的症狀提出可能出現的問題,反覆交流驗證,直到給出最終建議。同時收集整理病人的症狀描述,提醒醫生更多可能性,輔助基層醫生完成問診。
2.金融風控
隨著網際網路特別是移動網際網路的爆發式發展,金融行業的數據增長量十分驚人,據統計,國內大型商業銀行和保險公司的數據量已超100TB。由於對數據強烈的依賴性,金融領域被看作人工智慧最適合落地的領域之一。金融風控知識圖譜的構建需要從金融機構內外部數據中對金融實體進行抽取、定義,並挖掘金融實體間的各種關係,如企業間的投資關係、擔保關係,企業與個人間的任職、實際控制關係。除了記錄實體的基本信息,還可以把實體的其他相關數據,如消費記錄、行為記錄、關係信息等,整合到知識圖譜裡,並在此基礎上對該實體的金融風險進行評估和預警。如下圖所示,以借款申請人李某為中心的擔保關係中,已有的五個客戶一半以上存在借款逾期的情況,從風險角度考慮,知識圖譜會提供「拒絕李某借款申請」的建議供審核人員參考。
近幾年,金融欺詐的形式多種多樣,資料造假、團夥欺詐、內外勾結等手段越來越「高明」,原來單點突破的反欺詐方法已經遠遠不夠,有必要引入知識圖譜豐富的關聯知識。如國內的明略數據公司搭建的新一代金融風控大腦,挖掘隱藏在複雜網絡之下的關聯關係風險和資金流動異常,及時有效地防範和化解業務風險。
此外,在科技服務領域,上海產業技術研究院也進行了知識圖譜的應用探索,研發了面向科技服務大數據的知識圖譜工具,實現了路徑檢索、相似檢索、環路檢測等功能,並對大量科技服務數據進行連結、分析,通過可視化技術展現複雜的領域知識,為用戶提供最直觀的決策依據。
責任編輯:雷蓉
戴炳榮,博士、高級工程師,上海計算機軟體技術開發中心軟體平臺服務部副主任。數據資產管理標準核心研究人員,在知識圖譜與大數據分析等方向有深入研究。
袁汝焱,研發工程師,主要負責知識圖譜與大數據分析等技術研發工作。
應用大數據,做好技術成果市場價值評估
AlphaGo積累的數據值多少錢? ——談數據價值評估
你真的了解大數據系統嗎? ——大數據系統評測的挑戰與方法
大數據開放共享?數據治理應先行
工業大數據的六種應用場景
值得期盼的「大數據試驗場」
對大數據產業基地未來發展的思考
莫讓大數據成為網絡詐騙的「幕後幫兇」
數據時代的五種創新模式【上】
數據時代的五種創新模式【下】
(本文不代表微言創新觀點。歡迎投稿、轉載和商務合作,請聯繫innotalk@163.com)