知識對於人工智慧的價值就在於,讓機器具備認知能力和理解能力。構建知識圖譜這個過程的本質,就是讓機器形成認知能力,理解這個世界。
說到人工智慧技術,人們首先會聯想到深度學習、機器學習技術;談到人工智慧應用,人們很可能會馬上想起語音助理、自動駕駛等等,各行各業都在研發底層技術和尋求AI場景,卻忽視了當下最時髦也很重要的AI技術:知識圖譜。
當我們進行搜索時,搜索結果右側的聯想,來自於知識圖譜技術的應用。我們幾乎每天都會接收到各種各樣的推薦信息,從新聞、購物到吃飯、娛樂。
個性化推薦作為一種信息過濾的重要手段,可以依據我們的習慣和愛好推薦合適的服務,也來自於知識圖譜技術的應用。搜索、地圖、個性化推薦、網際網路、風控、銀行……越來越多的應用場景,都越來越依賴知識圖譜。
知識圖譜用節點和關系所組成的圖譜,為真實世界的各個場景直觀地建模。通過不同知識的關聯性形成一個網狀的知識結構,對機器來說就是圖譜。
形成知識圖譜的過程本質是在建立認知、理解世界、理解應用的行業或者說領域。每個人都有自己的知識面,或者說知識結構,本質就是不同的知識圖譜。正是因為有獲取和形成知識的能力,人類才可以不斷進步。
知識圖譜對於人工智慧的重要價值在於,知識是人工智慧的基石。機器可以模仿人類的視覺、聽覺等感知能力,但這種感知能力不是人類的專屬,動物也具備感知能力,甚至某些感知能力比人類更強,比如:狗的嗅覺。
而「認知語言是人區別於其他動物的能力,同時,知識也使人不斷地進步,不斷地凝練、傳承知識,是推動人不斷進步的重要基礎。」 知識對於人工智慧的價值就在於,讓機器具備認知能力。
而構建知識圖譜這個過程的本質,就是讓機器形成認知能力,去理解這個世界。
知識圖譜的圖存儲在圖資料庫(Graph Database)中,圖資料庫以圖論為理論基礎,圖論中圖的基本元素是節點和邊,在圖資料庫中對應的就是節點和關係。用節點和關系所組成的圖,為真實世界直觀地建模,支持百億量級甚至千億量級規模的巨型圖的高效關係運算和複雜關係分析。
目前市面上較為流行的圖資料庫有:Neo4j、Orient DB、Titan、Flock DB、Allegro Graph等。不同於關係型資料庫,一修改便容易「牽一髮而動全身」圖資料庫可實現數據間的「互聯互通」,與傳統的關係型資料庫相比,圖資料庫更擅長建立複雜的關係網絡。
圖資料庫將原本沒有聯繫的數據連通,將離散的數據整合在一起,從而提供更有價值的決策支持。
知識圖譜用節點和關系所組成的圖譜,為真實世界的各個場景直觀地建模,運用「圖」這種基礎性、通用性的「語言」,「高保真」地表達這個多姿多彩世界的各種關係,並且非常直觀、自然、直接和高效,不需要中間過程的轉換和處理——這種中間過程的轉換和處理,往往把問題複雜化,或者遺漏掉很多有價值的信息。
在風控領域中,知識圖譜產品為精準揭露「欺詐環」、「窩案」、「中介造假」、「洗錢」和其他複雜的欺詐手法,提供了新的方法和工具。儘管沒有完美的反欺詐措施,但通過超越單個數據點並讓多個節點進行聯繫,仍能發現一些隱藏信息,找到欺詐者的漏洞,通常這些看似正常不過的聯繫(關係),常常被我們忽視,但又是最有價值的反欺詐線索和風險突破口。
儘管各個風險場景的業務風險不同,其欺詐方式也不同,但都有一個非常重要的共同點——欺詐依賴於信息不對稱和間接層,且它們可以通過知識圖譜的關聯分析被揭示出來,高級欺詐也難以「隱身」。
凡是有關係的地方都可以用到知識圖譜,事實上,知識圖譜已經成功俘獲了大量客戶,且客戶數量和應用領域還在不斷增長中,包括沃爾瑪、領英、阿迪達斯、惠普、FT金融時報等知名企業和機構。
目前知識圖譜產品的客戶行業,分類主要集中在:社交網絡、人力資源與招聘、金融、保險、零售、廣告、物流、通信、IT、製造業、傳媒、醫療、電子商務和物流等領域。在風控領域中,知識圖譜類產品主要應用於反欺詐、反洗錢、網際網路授信、保險欺詐、銀行欺詐、電商欺詐、項目審計作假、企業關係分析、罪犯追蹤等場景中。
那相比傳統數據存儲和計算方式,知識圖譜的優勢顯現在哪裡呢?
(1)關係的表達能力強
傳統資料庫通常通過表格、欄位等方式進行讀取,而關係的層級及表達方式多種多樣,且基於圖論和概率圖模型,可以處理複雜多樣的關聯分析,滿足企業各種角色關係的分析和管理需要。
(2)像人類思考一樣去做分析
基於知識圖譜的交互探索式分析,可以模擬人的思考過程去發現、求證、推理,業務人員自己就可以完成全部過程,不需要專業人員的協助。
(3)知識學習
利用交互式機器學習技術,支持根據推理、糾錯、標註等交互動作的學習功能,不斷沉澱知識邏輯和模型,提高系統智能性,將知識沉澱在企業內部,降低對經驗的依賴。
(4)高速反饋
圖式的數據存儲方式,相比傳統存儲方式,數據調取速度更快,圖庫可計算超過百萬潛在的實體的屬性分布,可實現秒級返回結果,真正實現人機互動的實時響應,讓用戶可以做到即時決策。
知識建模,即為知識和數據進行抽象建模,主要包括以下5個步驟:
從不同來源、不同結構的數據中進行知識提取,形成知識存入到知識圖譜,這一過程我們稱為知識獲取。針對不同種類的數據,我們會利用不同的技術進行提取。
從結構化資料庫中獲取知識:D2R。
難點:複雜表數據的處理。
從連結數據中獲取知識:圖映射。
難點:數據對齊。
從半結構化(網站)數據中獲取知識:使用包裝器。
難點:方便的包裝器定義方法,包裝器自動生成、更新與維護。
從文本中獲取知識:信息抽取。
難點:結果的準確率與覆蓋率。
如果知識圖譜的數據源來自不同數據結構的數據源,在系統已經從不同的數據源把不同結構的數據提取知識之後,接下來要做的是把它們融合成一個統一的知識圖譜,這時候需要用到知識融合的技術(如果知識圖譜的數據結構均為結構化數據,或某種單一模式的數據結構,則無需用到知識融合技術)。
知識融合主要分為數據模式層融合和數據層融合,分別用的技術如下:
由於行業知識圖譜的數據模式通常採用自頂向下(由專家創建)和自底向上(從現有的行業標準轉化,從現有高質量數據源(如百科)轉化)結合的方式,在模式層基本都經過人工的校驗,保證了可靠性,因此,知識融合的關鍵任務在數據層的融合。
圖譜的數據存儲既需要完成基本的數據存儲,同時也要能支持上層的知識推理、知識快速查詢、圖實時計算等應用,因此需要存儲以下信息:三元組(由開始節點、關係、結束節點三個元素組成)知識的存儲、事件信息的存儲、時態信息的存儲、使用知識圖譜組織的數據的存儲。
其關鍵技術和難點就在於:
知識計算主要是在知識圖譜中知識和數據的基礎上,通過各種算法,發現其中顯式的或隱含的知識、模式或規則等,知識計算的範疇非常大,這裡主要講三個方面:
知識圖譜之上的圖挖掘和計算主要分以下6類:
目前兩個比較常見的可視化工具是:D3.js和ECharts。
知識圖譜的應用場景很多,除了問答、搜索和個性化推薦外,在不同行業不同領域也有廣泛應用,以下列舉幾個目前比較常見的應用場景。
6.1.1 欺詐手法
銀行信用卡的申請欺詐包括個人欺詐、團夥欺詐、中介包裝、偽冒資料等,是指申請者使用本人身份或他人身份或編造、偽造虛假身份進行申請信用卡、申請貸款、透支欺詐等欺詐行為。
欺詐者一般會共用合法聯繫人的一部分信息,如電話號碼、聯繫地址、聯繫人手機號等,並通過它們的不同組合創建多個合成身份。比如:3個人僅通過共用電話和地址兩個信息,可以合成9個假名身份,每個合成身份假設有5個帳戶,總共約45個帳戶。假設每個帳戶的信用等級為20000元,那麼銀行的損失可能高達900000元。
由於擁有共用的信息,欺詐者通過這些信息構成欺詐環。
一開始,欺詐環中的帳戶使用正常,欺詐者會進行正常的購買、支付和還款行為,這種行為稱為「養卡」。「養卡」了一段時間後,信用額度會有所增加,隨著時間推移會增長到一個讓欺詐者相對「滿意」的額度。
突然有一天欺詐環「消失」了,環內成員都最大化地使用完信用額度後跑路了。
6.1.2 知識圖譜解決信用卡申請反欺詐問題
使用傳統的關係資料庫,來揭露欺詐環需要技術人員執行一系列的複雜連接和自連接,而且查詢構建起來非常複雜,查詢效率低、速度慢且成本高。
知識圖譜產品利用圖資料庫的天然優勢,直接將銀行欺詐環節可能涉及的所有有用的數據欄位:如申請號、帳戶、身份證、手機、地址、家庭電話、聯繫人、設備指紋等設計成圖譜的節點,定義好圖譜所需的所有節點和節點屬性後,定義兩兩節點間的關係。
如:申請號節點與設備指紋節點相連構成「申請設備」關係,人節點與地址節點相連構成「申請人地址」關係。
根據業務上設計好的圖譜進行建圖,建圖後,用戶可以直接在關聯圖譜平臺上,輸入某個節點值查詢節點的關聯信息,如:輸入某個黑手機號,看其關聯5層範圍內的涉及到的申請人信息,看該節點是否與其他節點關聯成欺詐環,看節點與歷史的黑節點間是否有過關聯等等。
用戶可藉助知識圖譜產品,在貸前防禦風險,貸中進行關聯分析找出可疑點,控制風險,貸後進行風險把關,讓損失降到最低。
目前金融證券領域,應用主要側重於企業知識圖譜。企業數據包括:企業基礎數據、投資關係、任職關係、企業專利數據、企業招投標數據、企業招聘數據、企業訴訟數據、企業失信數據、企業新聞數據等。
利用知識圖譜融合以上企業數據,可以構建企業知識圖譜,並在企業知識圖譜之上利用圖譜的特性,針對金融業務場景有一系列的圖譜應用,舉例如下:
(1)企業風險評估
基於企業的基礎信息、投資關係、訴訟、失信等多維度關聯數據,利用圖計算等方法構建科學、嚴謹的企業風險評估體系,有效規避潛在的經營風險與資金風險。
(2)企業社交圖譜查詢
基於投資、任職、專利、招投標、涉訴關係以目標企業為核心向外層層擴散,形成一個網絡關係圖,直觀立體展現企業關聯。
(3)企業最終控制人查詢
基於股權投資關係尋找持股比例最大的股東,最終追溯至某自然人或國有資產管理部門。
(4)企業之間路徑發現
在基於股權、任職、專利、招投標、涉訴等關係形成的網絡關係中,查詢企業之間的最短關係路徑,衡量企業之間的聯繫密切度。
(5)初創企業融資發展歷程
基於企業知識圖譜中的投融資事件發生的時間順序,記錄企業的融資發展歷程。
(6)上市企業智能問答
用戶可以通過輸入自然語言問題,系統直接給出用戶想要的答案。
金融交易知識圖譜在企業知識圖譜之上,增加交易客戶數據、客戶之間的關係數據以及交易行為數據等,利用圖挖掘技術,包括很多業務相關的規則,來分析實體與實體之間的關聯關係,最終形成金融領域的交易知識圖譜。
在銀行交易反欺詐方面,可以從從身份證,手機號、設備指紋、IP等多重維度對持卡人的歷史交易信息進行自動化關聯分析,關聯分析出可疑人員和可疑交易。
對於反洗錢或電信詐騙場景,知識圖譜可精準追蹤卡卡間的交易路徑,從源頭的帳戶/卡號/商戶等關聯至最後收款方,識別洗錢/套現路徑和可疑人員,並通過可疑人員的交易軌跡,層層關聯,分析得到更多可疑人員、帳戶、商戶或卡號等實體。
對於網際網路信貸、消費貸、小額現金貸等場景,知識圖譜可從身份證、手機號、緊急聯繫人手機號、設備指紋、家庭地址、辦公地址、IP等多重維度對申請人的申請信息,進行自動化關聯分析,通過關係關係並結合規則,識別圖中異常信息,有效判別申請人信息真實性和可靠性。
在內控場景的經典案例裡,中介人員通過製造或利用對方信息的不對稱,將企業存款從銀行偷偷轉移,在企業負責人不知情的情況下,中介已把企業存在銀行的全部存款轉移並消失不見。通過建立企業知識圖譜,可將信息實時互通,發現一些隱藏信息,尋找欺詐漏洞,找出資金流向。
什麼是關聯圖譜?
作者:Amy,公眾號:Amy的風控產品記(Amy_fkcpj),旨在與同行交流關聯圖譜(知識圖譜)和風控領域產品。
本文由 @Amy 原創發布於人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基於CC0協議