近日,愛分析在北京舉辦了2020愛分析·中國人工智慧高峰論壇,融慧金科AI Lab負責人張凱博士進行了題為《知識圖譜與圖神經網絡模型在金融科技的應用》的主題演講。
張凱博士提出,在過去五年以及未來五年內,圖神經網絡將會有良好的發展趨勢。而圖神經算法在反欺詐、反洗錢和金融風控底層能力建設的應用能夠有效提升模型效果。
現將張凱博士的演講實錄分享。
張凱博士:大家下午好,非常感謝愛分析各位小夥伴的辛苦準備。作為金融科技的代表,今天和大家分享一下知識圖譜和圖神經網絡在金融科技的一些應用案例。
在演講之前先給大家介紹一下過去幾年圖資料庫的發展趨勢,圖資料庫實際上是一個底層的資料庫,支撐上層的知識圖譜。橫軸代表從2013年到現在的發展時間,縱軸是整個圖資料庫在網絡上受歡迎的程度。不同的曲線對應不同的數據線,可以看到上面最陡的這條曲線呈指數級增長的就是圖資料庫。據尼爾森諮詢的預測,這個趨勢會持續到2025年。下面相對來講比較平緩的資料庫包括傳統的關係型資料庫,以及傳統的搜尋引擎。這是國外的一個比較專業的資料庫的諮詢網站所整理的信息。所以說圖資料庫在過去五年以及未來的發展趨勢是非常良好的。
再看算法層面的一些背景信息,挑出2020年KDD,一個世界頂級的數據挖掘會議的關鍵詞,即基於今年KDD接收到的論文裡面提取出這些關健詞的頻率和頻次,可以看到在中間字體最大的、最醒目的是圖神經網絡。其他的如深度學習模型、神經模型等相對來講字體比較小一點,因為它們其實在過去的3-5年已經形成了一些比較成熟的模型架構和一些應用方案。比較有意思的是深度神經網絡模型以及關聯網絡在過去幾年一直是兩條平行線,但隨著圖神經網絡的應用,這兩條平行線終於有機會走到一起,基於圖資料庫基礎上的算法已經成為最近2-3年非常火的議題。
2020 KDD數據挖掘會議關鍵詞
回到金融科技,基於知識圖譜和圖神經網絡的應用具體分三塊:
第一塊,反欺詐。可分為交易反欺詐和信貸反欺詐。反欺詐的本質會捕捉兩類特徵:一是極端異常的交易特徵或者是信貸申請特徵;二是偏集中度類的,如團夥欺詐。
第二塊,反洗錢。反洗錢和反欺詐在本質上非常像,有兩類傳統的特徵可以捕捉:一是拉幫結夥,就是團夥的欺詐或者是團夥的洗錢;二是順藤摸瓜,發現一個壞人後,上下遊的壞人也可以順應找出,這兩類場景適用於反欺詐也適用於反洗錢。
第三塊,金融風控底層能力上也有一些可以實踐的經驗。這是融慧金科在和合作夥伴一起做的事。基於圖資料庫的底層建設在圖分析、圖挖掘、圖模型方面,對傳統關係型資料庫或者是傳統的深度學習模型能夠起到一個非常大的增益效果。
融慧金科基於知識圖譜的關聯網絡平臺包括商業分析指標,反欺詐分析,即結合金融業務場景,進行團簇細節、上下遊分析的關聯節點、歷史軌跡以及最短路徑分析,這些都是比較經典的關於知識圖譜的算法;融慧金科不光支持離線計算,也支持毫秒級的實時計算和監控;案件調查是比較有特色的「人工智慧」的場景,如結合關聯網絡平臺的智能工具對催收人員進行審查;名單庫是金融風控領域常用的黑名單庫或者黑種子,是逐漸基於業務的實踐經驗沉澱起來的;最後是基礎的數據記錄,將數據從傳統的Excel表格或者其他關係型表格導入。
下面給大家看一些具體案例,一是在反欺詐方面,二是在風控能力底層建設方面。
反欺詐案例
我將用三個案例來展示融慧金科知識圖譜平臺的應用場景。
案例一是團夥欺詐識別的案例,對象是一個線下做非法貸款的中介,中介雖然做了搬家的處理,但是融慧金科有效的在他搬家之後仍然能夠抓到這個中介的特徵。具體來看,最左邊這個團簇是最大規模的一個團簇,策略人員在分析這個團簇的時候發現裡面有四個比較可疑的地點,其中3個地點集中在一塊,兩個地點相隔10公裡。進一步結合時間軸去看,發現該中介集中貸款申請批次分成兩批,第一批在2019年1月份之前在第一個地點,第二批是在2019年2月份之後,在第二、第三和第四個地點。再進一步分析,發現其實是中介機構地點的轉移,他第一次在地點一的時候被融慧金科的風控策略給攔截住了,這個中介也很聰明,進行搬家,搬到十公裡之外的一個地點。但是這些犯罪分子不捨得把他的路由器給丟掉,帶著路由器去到新地點。但是路由器背後的SSID已經被我們的系統拉黑了,所以通過這個辦法有效的阻止了團夥欺詐。
案例二體現了節點重要性以及最短路徑分析,這是很經典的在圖方面的算法,現在我給大家演示一下這些算法是怎樣應用到業務上面。中間是一個比較大規模的團簇給拉出來了,拉出來之後如果策略分析人員想做比較高效的分析。首先可以做節點重要性的分析,比如在這張圖裡面最重要的五個節點,通過快速的運行算法,可以發現最中間的地理位置的圖表關聯的手機設備是最多的,這毫無疑問是最重要的一個節點,以及最上面的Wi-Fi的設備以及手機號IMEI,右邊的手機號以及左邊的手機號是排名前五的最重要的節點。基於這五個節點,策略分析人員能從一張比較大的網中抓到一些比較重要的信息。最短路徑分析在這張圖紅圈圈出來兩個,一個是一個Wi-Fi設備,第二個是一個安卓手機,我們想關心這個安卓手機是怎樣跟著Wi-Fi設備以最短路徑連接起來的,可以看到這臺安卓手機來到某個地理位置,在這個地理位置其實另外一臺設備也來過,另外一臺設備其實連接了一個黑的Wi-Fi,通過最短路徑分析可以非常高效的把隱藏的關係快速抓到。
案例三是關於團簇隨著時間變化的生長情況。時間切片在整個金融風控領域非常關鍵,因為風險本身會有一些滯後性,融慧金科平時在做模型或者策略分析的時候,一定要基於過去預測未來,所以時間層面的一些變化比較關鍵。現在看到這是一個非常簡單的單線條的一個變化:2019年11月-2020年2月,這個網絡逐漸開始生長,4月份之後這個網絡已經長的非常龐大了。如果能夠在早期的時候,如在2019年12月份的時候,提前把網絡的生長給抑制住,就能避免以後大規模欺詐可能性的發生。
以上是我給大家分享的反欺詐場景的應用案例,接下來給大家看一下在底層的風控能力建設上融慧金科做的東西。
這是融慧金科基於知識圖譜搭建的一個關聯網絡的架構,這個關聯網絡架構完全是基於圖資料庫搭建的,可以有效提升風控的底層能力。
最下面是存儲層,將數據從傳統的關係型資料庫導入到圖資料庫裡面去,並且有一部分圖資料庫是支持實時計算的。往上一層是工具層,最右面是融慧金科的生態夥伴提供的圖計算引擎,相當於在整體的架構裡面提供一個非常強勁的發動機。有了這樣一個發動機之後,可以配備左邊這些開源的計算工具,比如像Google和Facebook的深度學習計算框架。也會利用Spark做一些離線的分析。第三層的算法最理想的是做端到端的學習,當然也支持一些嵌入式學習或者做一些挖掘和分析模塊。具體到解決方案層會分為四個維度,分別是人的維度、設備的維度、APP的維度和WI-FI的維度。產品層最典型的就是負樣本的資料庫,也就是通常所稱的黑名單資料庫。同時還會有通過關聯的特徵生出來的變量,以及可以輸出給各大金融機構的標準模型。最後是根據金融機構的樣本去量身定製模型,這是整體底層能力的架構情況。
基於這個架構,融慧金科在金融零售信貸場景有廣泛應用。產品層的應用包括信用風險、欺詐風險、導流獲客、額度授予等,在這些場景融慧金科生成了各種各樣的特徵和分數,比如Wi-Fi的黑名單、設備黑名單、APP黑名單等。最下面的圖學習的模塊會具體分為三大類:圖分析、圖挖掘、圖模型,這裡面有一些比較經典的算法工具是直接用的,有一些是融慧金科AI Lab團隊寫出來的。上面我圈出了兩個紅框,一個是社區發現,一個是GCN,這裡會給大家分享一個具體的實例。
這是社區發現的一個應用案例,融慧金科做的事情是對借貸類APP進行社區分析,目的是希望提升APP分類精確度。實驗設計分為分析流程和效果驗證兩個部分。分析流程方面首先會建構一個二部圖,這個二部圖基於手機設備和APP之間,能夠學習APP和APP之間的關聯程度。這裡提供一些數據清理的小技巧,比如剔除安裝比較少的長尾APP,來杜絕噪音的幹擾。另外也刪除了一些國民APP,比如我的設備和您的設備都安裝微信,但不代表我們的微信之間有任何關聯度。在最終的效果驗證中,利用圖模型自動識別、更新未被人工標記的應用標籤後,對比傳統的人工標註的APP精度,準確率能夠從32%提升至89%,效果十分顯著。
另一個案例是圖神經網絡模型,用了GCN的架構,它的好處是在不需要做太多人工標記的前提下能夠跑出一個非常優異的模型。左邊的是卷積神經網絡模型的架構,參考的是2017年的一篇半監督的GCN模型架構,右邊是樣本情況。有標籤的樣本相對來說是比較少的,只有14萬,大部分的18萬樣本沒有標籤,並且整體正例佔比比較低。下面是實驗效果對比,對比了一個基線模型,基線模型是基於傳統的LR模型 ,AUC在80%左右,而GCN模型的AUC接近於滿分100%。
以上我分享完了在反欺詐方面以及在風控底層能力建設方面的應用。
最後簡單介紹一下融慧金科。融慧金科已成立三年,目前處在B+輪融資,其中A輪B輪都為紅杉資本中國投資,也有國內外像華創資本、澳洲電信投資等投資。融慧金科希望通過科技讓金融更智慧,以產品和服務為核心,以共享、共贏為理念,打造一個一站式服務的高端金融科技公司。融慧金科對標是希望做成金融科技界的蘋果。
融慧金科的產品會提供控、獲客、運營、系統一整套閉環的服務。風控標準化產品其實是40多個小的API的接口,這個布在融慧金科的雲上,能夠快速的給金融機構提供服務,快速建立甲乙雙方的信任。右上角的獲客是整個線上的金融業務裡面必不可少的一環,甚至是最前端的一環。方案定製服務是指,標準服務已經不能滿足現階段金融機構的一些需求,所以我們推出了定製建模、定製風控等服務,更好的量體裁衣。SaaS服務是融慧金科過去三年中沉澱出來的一些可以模塊化輸出的軟體類SaaS服務,比如像數據管理平臺以及人行徵信平臺,包括今天提及的關聯網絡平臺等等。
最後給大家看一下我們的一些典型客戶的案例,包括銀行、消金、互金、保險、信託等平臺。目前合作的付費機構有超過一百家,我們選擇客戶有四個標準,一是合規持牌,二是有品牌影響力,三是雙方互相認可,四是有成長潛力的。另外,在網際網路大廠整體的滲透率方面,基本上中國大部分的網際網路大廠在做金融業務的時候其實都是在用我們的產品,這代表我們對整個網際網路流量客群的了解是比較深入的。同時這也會幫助我們向持牌消金和銀行推廣,因為很多時候這些金融機構的線上業務也需要接入網際網路流量。
本文來源:大眾新聞 責任編輯: 陳體強_NB6485