融慧金科張凱:知識圖譜與圖神經網絡模型在金融科技的應用

2021-01-17 網易新聞

近日,愛分析在北京舉辦了2020愛分析·中國人工智慧高峰論壇,融慧金科AI Lab負責人張凱博士進行了題為《知識圖譜與圖神經網絡模型在金融科技的應用》的主題演講。

張凱博士提出,在過去五年以及未來五年內,圖神經網絡將會有良好的發展趨勢。而圖神經算法在反欺詐、反洗錢和金融風控底層能力建設的應用能夠有效提升模型效果。

現將張凱博士的演講實錄分享。

張凱博士:大家下午好,非常感謝愛分析各位小夥伴的辛苦準備。作為金融科技的代表,今天和大家分享一下知識圖譜和圖神經網絡在金融科技的一些應用案例。

在演講之前先給大家介紹一下過去幾年圖資料庫的發展趨勢,圖資料庫實際上是一個底層的資料庫,支撐上層的知識圖譜。橫軸代表從2013年到現在的發展時間,縱軸是整個圖資料庫在網絡上受歡迎的程度。不同的曲線對應不同的數據線,可以看到上面最陡的這條曲線呈指數級增長的就是圖資料庫。據尼爾森諮詢的預測,這個趨勢會持續到2025年。下面相對來講比較平緩的資料庫包括傳統的關係型資料庫,以及傳統的搜尋引擎。這是國外的一個比較專業的資料庫的諮詢網站所整理的信息。所以說圖資料庫在過去五年以及未來的發展趨勢是非常良好的。

再看算法層面的一些背景信息,挑出2020年KDD,一個世界頂級的數據挖掘會議的關鍵詞,即基於今年KDD接收到的論文裡面提取出這些關健詞的頻率和頻次,可以看到在中間字體最大的、最醒目的是圖神經網絡。其他的如深度學習模型、神經模型等相對來講字體比較小一點,因為它們其實在過去的3-5年已經形成了一些比較成熟的模型架構和一些應用方案。比較有意思的是深度神經網絡模型以及關聯網絡在過去幾年一直是兩條平行線,但隨著圖神經網絡的應用,這兩條平行線終於有機會走到一起,基於圖資料庫基礎上的算法已經成為最近2-3年非常火的議題。

2020 KDD數據挖掘會議關鍵詞

回到金融科技,基於知識圖譜和圖神經網絡的應用具體分三塊:

第一塊,反欺詐。可分為交易反欺詐和信貸反欺詐。反欺詐的本質會捕捉兩類特徵:一是極端異常的交易特徵或者是信貸申請特徵;二是偏集中度類的,如團夥欺詐。

第二塊,反洗錢。反洗錢和反欺詐在本質上非常像,有兩類傳統的特徵可以捕捉:一是拉幫結夥,就是團夥的欺詐或者是團夥的洗錢;二是順藤摸瓜,發現一個壞人後,上下遊的壞人也可以順應找出,這兩類場景適用於反欺詐也適用於反洗錢。

第三塊,金融風控底層能力上也有一些可以實踐的經驗。這是融慧金科在和合作夥伴一起做的事。基於圖資料庫的底層建設在圖分析、圖挖掘、圖模型方面,對傳統關係型資料庫或者是傳統的深度學習模型能夠起到一個非常大的增益效果。

 融慧金科基於知識圖譜的關聯網絡平臺包括商業分析指標,反欺詐分析,即結合金融業務場景,進行團簇細節、上下遊分析的關聯節點、歷史軌跡以及最短路徑分析,這些都是比較經典的關於知識圖譜的算法;融慧金科不光支持離線計算,也支持毫秒級的實時計算和監控;案件調查是比較有特色的「人工智慧」的場景,如結合關聯網絡平臺的智能工具對催收人員進行審查;名單庫是金融風控領域常用的黑名單庫或者黑種子,是逐漸基於業務的實踐經驗沉澱起來的;最後是基礎的數據記錄,將數據從傳統的Excel表格或者其他關係型表格導入。

下面給大家看一些具體案例,一是在反欺詐方面,二是在風控能力底層建設方面。

反欺詐案例

我將用三個案例來展示融慧金科知識圖譜平臺的應用場景。

案例一是團夥欺詐識別的案例,對象是一個線下做非法貸款的中介,中介雖然做了搬家的處理,但是融慧金科有效的在他搬家之後仍然能夠抓到這個中介的特徵。具體來看,最左邊這個團簇是最大規模的一個團簇,策略人員在分析這個團簇的時候發現裡面有四個比較可疑的地點,其中3個地點集中在一塊,兩個地點相隔10公裡。進一步結合時間軸去看,發現該中介集中貸款申請批次分成兩批,第一批在2019年1月份之前在第一個地點,第二批是在2019年2月份之後,在第二、第三和第四個地點。再進一步分析,發現其實是中介機構地點的轉移,他第一次在地點一的時候被融慧金科的風控策略給攔截住了,這個中介也很聰明,進行搬家,搬到十公裡之外的一個地點。但是這些犯罪分子不捨得把他的路由器給丟掉,帶著路由器去到新地點。但是路由器背後的SSID已經被我們的系統拉黑了,所以通過這個辦法有效的阻止了團夥欺詐。

案例二體現了節點重要性以及最短路徑分析,這是很經典的在圖方面的算法,現在我給大家演示一下這些算法是怎樣應用到業務上面。中間是一個比較大規模的團簇給拉出來了,拉出來之後如果策略分析人員想做比較高效的分析。首先可以做節點重要性的分析,比如在這張圖裡面最重要的五個節點,通過快速的運行算法,可以發現最中間的地理位置的圖表關聯的手機設備是最多的,這毫無疑問是最重要的一個節點,以及最上面的Wi-Fi的設備以及手機號IMEI,右邊的手機號以及左邊的手機號是排名前五的最重要的節點。基於這五個節點,策略分析人員能從一張比較大的網中抓到一些比較重要的信息。最短路徑分析在這張圖紅圈圈出來兩個,一個是一個Wi-Fi設備,第二個是一個安卓手機,我們想關心這個安卓手機是怎樣跟著Wi-Fi設備以最短路徑連接起來的,可以看到這臺安卓手機來到某個地理位置,在這個地理位置其實另外一臺設備也來過,另外一臺設備其實連接了一個黑的Wi-Fi,通過最短路徑分析可以非常高效的把隱藏的關係快速抓到。

案例三是關於團簇隨著時間變化的生長情況。時間切片在整個金融風控領域非常關鍵,因為風險本身會有一些滯後性,融慧金科平時在做模型或者策略分析的時候,一定要基於過去預測未來,所以時間層面的一些變化比較關鍵。現在看到這是一個非常簡單的單線條的一個變化:2019年11月-2020年2月,這個網絡逐漸開始生長,4月份之後這個網絡已經長的非常龐大了。如果能夠在早期的時候,如在2019年12月份的時候,提前把網絡的生長給抑制住,就能避免以後大規模欺詐可能性的發生。

以上是我給大家分享的反欺詐場景的應用案例,接下來給大家看一下在底層的風控能力建設上融慧金科做的東西。

這是融慧金科基於知識圖譜搭建的一個關聯網絡的架構,這個關聯網絡架構完全是基於圖資料庫搭建的,可以有效提升風控的底層能力。

最下面是存儲層,將數據從傳統的關係型資料庫導入到圖資料庫裡面去,並且有一部分圖資料庫是支持實時計算的。往上一層是工具層,最右面是融慧金科的生態夥伴提供的圖計算引擎,相當於在整體的架構裡面提供一個非常強勁的發動機。有了這樣一個發動機之後,可以配備左邊這些開源的計算工具,比如像Google和Facebook的深度學習計算框架。也會利用Spark做一些離線的分析。第三層的算法最理想的是做端到端的學習,當然也支持一些嵌入式學習或者做一些挖掘和分析模塊。具體到解決方案層會分為四個維度,分別是人的維度、設備的維度、APP的維度和WI-FI的維度。產品層最典型的就是負樣本的資料庫,也就是通常所稱的黑名單資料庫。同時還會有通過關聯的特徵生出來的變量,以及可以輸出給各大金融機構的標準模型。最後是根據金融機構的樣本去量身定製模型,這是整體底層能力的架構情況。

基於這個架構,融慧金科在金融零售信貸場景有廣泛應用。產品層的應用包括信用風險、欺詐風險、導流獲客、額度授予等,在這些場景融慧金科生成了各種各樣的特徵和分數,比如Wi-Fi的黑名單、設備黑名單、APP黑名單等。最下面的圖學習的模塊會具體分為三大類:圖分析、圖挖掘、圖模型,這裡面有一些比較經典的算法工具是直接用的,有一些是融慧金科AI Lab團隊寫出來的。上面我圈出了兩個紅框,一個是社區發現,一個是GCN,這裡會給大家分享一個具體的實例。

這是社區發現的一個應用案例,融慧金科做的事情是對借貸類APP進行社區分析,目的是希望提升APP分類精確度。實驗設計分為分析流程和效果驗證兩個部分。分析流程方面首先會建構一個二部圖,這個二部圖基於手機設備和APP之間,能夠學習APP和APP之間的關聯程度。這裡提供一些數據清理的小技巧,比如剔除安裝比較少的長尾APP,來杜絕噪音的幹擾。另外也刪除了一些國民APP,比如我的設備和您的設備都安裝微信,但不代表我們的微信之間有任何關聯度。在最終的效果驗證中,利用圖模型自動識別、更新未被人工標記的應用標籤後,對比傳統的人工標註的APP精度,準確率能夠從32%提升至89%,效果十分顯著。

另一個案例是圖神經網絡模型,用了GCN的架構,它的好處是在不需要做太多人工標記的前提下能夠跑出一個非常優異的模型。左邊的是卷積神經網絡模型的架構,參考的是2017年的一篇半監督的GCN模型架構,右邊是樣本情況。有標籤的樣本相對來說是比較少的,只有14萬,大部分的18萬樣本沒有標籤,並且整體正例佔比比較低。下面是實驗效果對比,對比了一個基線模型,基線模型是基於傳統的LR模型 ,AUC在80%左右,而GCN模型的AUC接近於滿分100%。

以上我分享完了在反欺詐方面以及在風控底層能力建設方面的應用。

最後簡單介紹一下融慧金科。融慧金科已成立三年,目前處在B+輪融資,其中A輪B輪都為紅杉資本中國投資,也有國內外像華創資本、澳洲電信投資等投資。融慧金科希望通過科技讓金融更智慧,以產品和服務為核心,以共享、共贏為理念,打造一個一站式服務的高端金融科技公司。融慧金科對標是希望做成金融科技界的蘋果。

融慧金科的產品會提供控、獲客、運營、系統一整套閉環的服務。風控標準化產品其實是40多個小的API的接口,這個布在融慧金科的雲上,能夠快速的給金融機構提供服務,快速建立甲乙雙方的信任。右上角的獲客是整個線上的金融業務裡面必不可少的一環,甚至是最前端的一環。方案定製服務是指,標準服務已經不能滿足現階段金融機構的一些需求,所以我們推出了定製建模、定製風控等服務,更好的量體裁衣。SaaS服務是融慧金科過去三年中沉澱出來的一些可以模塊化輸出的軟體類SaaS服務,比如像數據管理平臺以及人行徵信平臺,包括今天提及的關聯網絡平臺等等。

最後給大家看一下我們的一些典型客戶的案例,包括銀行、消金、互金、保險、信託等平臺。目前合作的付費機構有超過一百家,我們選擇客戶有四個標準,一是合規持牌,二是有品牌影響力,三是雙方互相認可,四是有成長潛力的。另外,在網際網路大廠整體的滲透率方面,基本上中國大部分的網際網路大廠在做金融業務的時候其實都是在用我們的產品,這代表我們對整個網際網路流量客群的了解是比較深入的。同時這也會幫助我們向持牌消金和銀行推廣,因為很多時候這些金融機構的線上業務也需要接入網際網路流量。

本文來源:大眾新聞 責任編輯: 陳體強_NB6485

相關焦點

  • 中科院計算所設計全球首款圖神經網絡加速晶片
    嚴明玉介紹道,圖神經網絡將深度學習算法和圖計算算法相融合,取長補短,能達到更優的認知與問題處理等能力,在搜索、推薦、風險控制等重要領域有著廣泛應用。現有的處理器晶片在執行圖神經網絡的計算中效率低下,其團隊前瞻性地展開面向圖神經網絡的加速晶片設計,為解決這一難題提供了可行方案。
  • 今日Paper|縮放神經網絡;形變的LSTM;知識圖譜複雜問答;陰影著色等
    目錄ZoomNet:用於3D對象檢測的部分感知自適應縮放神經網絡ForecastNet:一種用於多步超前時間序列預測的時變深度前饋神經網絡結構形變的LSTM基於消息傳遞的知識圖譜複雜問答深度學習中的循環和卷積神經網絡已經被用於時間序列預測,然而這些網絡通過在時間或空間上重複使用固定參數的一組不變結構來共享參數,使得整個體系結構是時域不變的,降低了執行多步提前預測的能力。這篇論文提出了ForecastNet,使用深度前饋體系結構來提供時變模型。ForecastNet中還使用了交錯輸出,有助於緩解逐漸消失的梯度。
  • 圖靈獎得主論體系結構創新,自動構建知識圖譜,盡在WAIC開發者日
    明略科技吳信東:如何自動構建知識圖譜?從 Google 搜索,到聊天機器人、大數據風控、證券投資,這些應用無一不跟知識圖譜息息相關。知識圖譜在技術領域的熱度也在逐漸上升。在今年的 WAIC 開發者日上,明略科技首席科學家、明略科學院院長吳信東分享了「自動構建知識圖譜」的主題演講。
  • 螞蟻金服推出分布式的圖神經知識表示框架,性能和可擴展性俱佳
    為了靈活地利用知識圖譜,通過知識表示學習來進行圖譜補全、對齊和推理已經成為一個新興的方向。知識表示學習旨在將實體和關係映射到一個低維空間,並同時保留原始網絡的特定信息。這些方法可以大致分為平移距離式模型(如TransE、TransR等)和語義匹配式模型(如DistMult、ConvE等),分別利用基於距離和基於相似性的評分函數進行知識表示學習。
  • 知識圖譜的皇冠:知識圖譜推理的前世今生
    [ 導讀 ]業界和學界對知識圖譜的關注主要集中於兩大領域,分別是知識圖譜的構建和知識圖譜的應用。 前者聚焦於通過對結構化、非結構化數據的整合,實現統一形式的數據存儲;後者則著眼於通過算法對海量知識圖譜數據進行學習與挖掘,從而推理出新的知識,服務於具體行業應用。
  • 智能化金融科技創新監管工具:理念、平臺框架和展望(上)
    金融科技目前高度依賴生物特徵識別、自然語言處理、深度神經網絡等前沿人工智慧技術,但這些技術本身處於早期發展階段,模型的機理和可解釋性仍有待探索。一旦技術使用不當,將引發信用欺詐、客戶隱私洩露等問題。金融科技紛繁複雜的局面給金融監管帶來了極大挑戰,具體表現在如下幾個方面。第一,混業經營和新業態對現有分業監管體制的衝擊。
  • 從ACL 2020看知識圖譜研究進展
    從論文的題目、主題等關鍵詞可以看出,主要的研究方向包括人機對話,多模態、多語言和多領域,圖神經網絡,以及經典的信息提取類問題,包括實體抽取(NER)、事件抽取以及關係抽取等。研究手段則仍集中於各類機器學習的方法,包括:神經網絡、預訓練、注意力、知識圖譜等。還有一些文章特別關注了低資源、少樣本等實際應用中經常會遇到的問題。
  • 2020年中國面向人工智慧「新基建」的知識圖譜行業白皮書
    知識圖譜是一種用圖模型來描述知識和建模世界萬物之間關聯關係的大規模語義網絡,幫助機器實現理解、解釋和推理的能力,是認知智能的底層支撐。 2019年知識圖譜相關的融資金額較2018年增長超過200%,逐漸成為人工智慧又一熱點產業,產業鏈已初具規模,2019年知識圖譜核心產品市場規模約65億元,知識圖譜技術帶動經濟增長規模約391.8億元。
  • 一文全覽,ICLR 2020 上的知識圖譜研究
    五個角度分別為:1)在複雜QA中利用知識圖譜進行神經推理(Neural Reasoning for Complex QA with KGs)2)知識圖譜增強的語言模型(KG-augmented Language Models)3)知識圖譜嵌入:循序推理和歸納推理(KG Embeddings: Temporal and Inductive Inference)
  • 虎博科技作為技術服務商代表入選艾瑞諮詢2020年金融科技50強
    內容: 近日,第三方諮詢機構艾瑞諮詢發布《曙光- 2020年中國金融科技行業發展研究報告》(下稱「報告」),報告指出,我國金融行業已經進入全方位數位化升級新階段,2019年中國金融機構的金融科技資金投入達362.7億元,預計到2023年,將達到691.5億元,並以數字中臺等系統類建設及智能科技等單類別科技創新為主要投入方向。
  • 通聯數據:知識圖譜是人工智慧進步的階梯
    3月16日,《清華金融評論》舉辦「疫情下金融科技的應用」高端分享活動,通聯數據首席智能投資科學家羅戈在活動中做了分享。金融科技有三個主要方向:信用科技、供應鏈科技和投資科技。通聯數據專注於投資科技領域。過去一周的全球資本市場是驚濤駭浪的一周,受新冠疫情和原油價格戰的影響,美國股市先後熔斷三次,資產價格巨幅波動。
  • 創投日報 |「雲頂新耀」獲3.1億美元C輪融資,「融慧金科」獲千萬級...
    (查看更多請點這裡) 金融 融資披露: 36氪獲悉,融慧金科近日完成了千萬級美元的B輪融資,由澳洲電信投資領投。本輪融資將用於系統、伺服器、存儲等方面的技術投入及金融科技領域的人才招聘。此前融慧金科曾獲得紅杉資本中國基金的A輪融資及華創資本領投的A+輪融資。
  • 聚焦CCKS 2020 |醫渡雲運用知識圖譜技術 更好發揮「黑盒」和...
    中國科學院陸汝鈐院士開幕式發言 知識圖譜技術應用相當廣泛,該技術可被大量用於金融、醫療、地理、電商、醫療等,並發揮出巨大的作用。通過知識圖譜的相關應用,用戶可以在最短的時間內了解某項知識,獲取到精確信息。
  • 知識圖譜不複雜,我來幫你理一理!
    將數據中蘊含的知識用圖的結構表示出來,就形成了知識圖譜。圖片來自 Pexels知識圖譜可以應用到智能搜索,自動文檔,推薦,決策支持等領域。例如:WordNet,Freebase,Wikidata。今天和大家一起了解知識圖譜構建的方法和基本原理。
  • 資料| 神經網絡與深度學習(邱錫鵬)
    近年來,以機器學習、知識圖譜為代表的人工智慧技術逐漸變得普及。從車牌識別、人臉識別、語音識別、智能助手、推薦系統到自動駕駛,人們在日常生活中都可能有意無意地用到了人工智慧技術。特別是最近這幾年,得益於數據的增多、計算能力的增強、學習算法的成熟以及應用場景的豐富,越來越多的人開始關注這個「嶄新」的研究領域:深度學習。深度學習以神經網絡為主要模型,一開始用來解決機器學習中的表示學習問題。但是由於其強大的能力,深度學習越來越多地用來解決一些通用人工智慧問題,比如推理、決策等。
  • 圖神經網絡加速晶片進入倒計時 全球首款商用圖神經網絡加速IP核...
    【2021年01月08日,北京】1月8日,在與中科院計算所和中科院計算所南研院的通力合作基礎上,北京中科睿芯科技集團有限公司(簡稱中科睿芯)正式發布了一款圖神經網絡加速晶片的IP核(即製備晶片的智慧財產權核),並宣布面向全球開展商用授權。
  • 華為開發者大會HDC.Cloud技術探秘:知識圖譜構建流程及方法
    通過實體、關係、屬性,就能夠把我們人可以理解的知識有效地組織起來。知識圖譜的構建與應用涉及資料庫、自然語言處理(NLP)和語義網絡等技術。該框架模型效果可以達到當前業界最好水平(state-of-the-art)。華為雲知識圖譜服務支持基於該算法的模型訓練、預測以及管理功能,同時以插件形式完成流水線中信息抽取部分。
  • 媒體知識圖譜的構建簡析
    知識圖譜是反映實體間、實體與屬性間關係的網絡,是它們基於知識的關聯,是對於海量數據的一種有效的組織方式和利用手段。現有代表性的知識網絡有Wordnet、DBpedia、Freebase、NELL(Never Ending Language Learning,永不結束語言學習)、YAGO和谷歌知識圖譜等。其共同點是均基於單一文本進行構建。根據知識來源與頂層概念設計理念,現有數據驅動的知識圖譜構建的研究工作大致分為如下幾類。
  • 科技創新2030—「新一代人工智慧」重大項目2020年度第一批項目...
    考核指標: 構建具備學習、記憶等認知能力的神經網絡計算模型,模型規模不少於百萬量級神經元;具備自糾錯、可遷移能力,噪聲環境下的模型性能有數量級提升;設計自學習、小樣本學習方法, 相同性能條件下所需標註數據數量級減少;通過知識歸納和遷移,對模型結果和性能提升具備可解釋性;開源新型神經網絡計算數據、模型和代碼等。
  • 虎博科技證券科技解決方案入選艾瑞2020年金融科技報告典型案例
    憑藉手握60%頭部券商,深度服務證券行業智能化轉型的效果優勢,虎博科技賦能券商業務轉型的解決方案入選2020年度金融科技行業報告,成為業內典型案例。近日,第三方諮詢機構艾瑞諮詢發布《曙光- 2020年中國金融科技行業發展研究報告》,虎博科技賦能方正證券轉型的案例入選報告。