01 什麼是知識圖譜
1. 定義
官方定義:知識圖譜是一種基於圖的數據結構,由節點(point)和邊(Edge)組成,每個節點表示一個「實體」,每條邊為實體與實體之間的「關係」,知識圖譜本質上是語義網絡。
實體指的可以是現實世界中的事物,比如人、地名、公司、電話、動物等;關係則用來表達不同實體之間的某種聯繫。
由上圖,可以看到實體有地名和人;大理屬於雲南、小明住在大理、小明和小秦是朋友,這些都是實體與實體之間的關係。
通俗定義:知識圖譜就是把所有不同種類的信息連接在一起而得到的一個關係網絡,因此知識圖譜提供了從「關係」的角度去分析問題的能力。
2. 可視化表現
如果我們在百度搜索「周杰倫的老婆」的時候,搜索結果不是周杰倫,而是直接返回了昆凌的信息卡片,為什麼呢?
因為底層知識圖譜已經有了周杰倫和昆凌是夫妻關係,所以可以理解到你要找的是昆凌,而不是周杰倫,這也說明了知識圖譜有理解用戶意圖的能力。
02 知識圖譜構建的關鍵技術
知識圖譜構建的過程中,最主要的一個步驟就是把數據從不同的數據源中抽取出來,然後按一定的規則加入到知識圖譜中,這個過程我們稱為知識抽取。
數據源的分為兩種:結構化的數據和非結構化的數據。
結構化的數據是比較好處理的,難點在於處理非結構化的數據。而處理非結構化數據通常需要使用自然語言處理技術:實體命名識別、關係抽取、實體統一、指代消解等。
我們先來看下把這段文字變成知識圖譜的方式表達的結果:
上圖左邊的文案就是一個非結構化的文本數據,就需要經過一系列的技術處理,才能轉化為右邊的知識圖譜。具體是怎麼實現的呢,接下來一一討論。
1. 實體命名識別
提取文本中的實體,並對每個實體進行分類或打標籤,比如把文中「1984年12月30日」記為「時間」類型;「克利夫蘭騎士」和「邁阿密熱火」記為「球隊」類型,這個過程就是實體命名。
2. 關係抽取
關係抽取是把實體之間的關係抽取出來的一項技術,其中主要是根據文本中的一些關鍵詞,如「出生」、「在」、「轉會」等,我們就可以判斷詹姆斯與地點俄亥俄州、與邁阿密熱火等實體之間的關係。
3. 實體統一
在文本中可能同一個實體會有不同的寫法,比如說「LBJ」就是詹姆斯的縮寫,因此「勒布朗詹姆斯」和「LBJ」指的就是同一個實體,實體統一就是處理這樣問題的一項技術。
4. 指代消解
指代消解跟實體統一類似,都是處理同一個實體的問題。比如說文本中的「他」其實指的就是「勒布朗詹姆斯」。所以指代消解要做的事情就是,找出這些代詞,都指的是哪個實體。
指代消解和實體統一是知識抽取中比較難的環節。
03 知識圖譜的存儲
知識圖譜主要有兩種存儲方式:一種是基於RDF的存儲;另一種是基於圖資料庫的存儲。
1. RDF
RDF一個重要的設計原則是數據的易發布以及共享,另外,RDF以三元組的方式來存儲數據而且不包含屬性信息。
2. 圖資料庫
圖資料庫主要把重點放在了高效的圖查詢和搜索上,一般以屬性圖為基本的表示形式,所以實體和關係可以包含屬性。
3. RDF和圖資料庫的主要特點區別
關於知識圖片的存儲方式的內容比較專業,且沒有實際操作過比較難理解,所以我就不在此展開討論了,大家簡單知道知識圖譜有這麼一項內容就行,若有需要的可以自行研究下。
下面我們把重點放在知識圖片在金融領域的一些應用。
04 知識圖譜在金融領域的應用
知識圖譜在各行各業中的應用是比較普及的,並且有很重要的地位。下面我們跟大家一起討論的是知識圖譜在金融領域的一些應用,希望能通過這些例子給大家一點啟發。
1. 反欺詐
假設銀行要借錢給一個人,那要怎麼判斷這個人是真實用戶還是欺詐的呢?
我們需要以人為核心,展開一系列的數據構建,比如說用戶的基本信息、借款記錄、工作信息、消費記錄、行為記錄、網站瀏覽記錄等等。把這些信息整合到知識圖譜中。從而整體進行預測和評分,用戶欺詐行為的概率有多大。當然這個預測是需要通過機器學習,得到一個合理的模型,模型中可能會包括消費記錄的權重、網站瀏覽記錄的權重等等信息。
2. 不一致性驗證
比如說不同的兩個借款人,卻填寫了同一個電話號碼,那說明這兩個人中至少有一個是可疑的了,這時就需要重點關注了。
更複雜點的,可能需要知識圖譜通過一些關係去推理了。比如說「借款人」跟小明和小秦都是母子關係,按推理的話小明跟小秦應該是兄弟關係,而在知識圖譜上顯示的是朋友關係,就有可能有異常了,因此也需要重點關注。
3. 客戶失聯管理
如果借款人失聯了,通過知識圖譜,是不是可以聯繫他的朋友,或兄弟,甚至是兄弟的妻子,去追蹤失聯人。
因此在失聯的情況下,知識圖譜可以挖掘更多失聯人的聯繫人,從而提高催收效率。
4. 知識推理
如上左圖(注意這裡的箭頭方向),小秦是大秦的兒子,大秦是老秦的兒子,從這這樣的關係,我們就可以推理出,小秦是老秦的孫子,這樣就能使知識圖譜更加完善了。
如上左圖,小明在騰訊上班,小秦也在騰訊上班,從這樣的關係,我們可以推理出,小明和小秦是同事關係。
推理能力其實就是機器模仿人的一種重要的能力,可以從已有的知識中發現一些隱藏的知識。當然這樣的能力離不開深度學習,而隨著深度學習的不斷成熟,我相信知識圖譜的能力也會越來越強大。