用機器學習做信用評分

2021-01-08 手機鳳凰網

本文為 AI 研習社編譯的技術博客,原標題 :

Credit Scoring with Machine Learning

作者 |Hongri Jia

翻譯 | 胡瑛皓

校對 | 醬番梨 審核 | 詹森·李加薪 整理 | 立魚王

原文連結:

https://medium.com/henry-jia/how-to-score-your-credit-1c08dd73e2ed

信用評分是衡量人們信用的數字表示。銀行業通常用它作為支持信貸申請決策的方法。本文講述如何用Python(Pandas、Sklearn)開發標準評分卡模型,它已成為一種最受歡迎且最簡單的衡量客戶信用的形式。

項目動機

如今信用對每個人來說都非常重要,因為它是衡量一個人是否可靠的一種指標。很多時候服務提供商在提供服務前會先評估客戶的信用記錄,然後決定是否提供服務。可是審核個人資料並手工生成信用報告是非常耗時的。信用評分節省時間而且容易解讀,所以就被開發出來服務這些目的。

產生信用分的過程稱為信用評分,它被廣泛應用於許多行業特別是銀行業。銀行通常用信用分決定誰應該授信、授信額度是多少、使用什麼樣的操作策略去避免信用風險。總體來說主要是兩部分:

建立統計模型

應用統計模型為信用申請或現有信用帳戶打分

本文會介紹最受歡迎的信用評分方法,我們稱為評分卡模型。有兩個原因使其成為主流的方法。首先,評分卡模型很容易跟沒有相關背景和經驗的人(諸如客戶)解釋說明。其次,評分卡模型的開發過程很標準且被廣泛接受,這意味著公司不需要投入太多研發經費。以下是評分卡的樣例,後面會講到如何使用。

圖1 評分卡樣例

數據探索和特徵工程

接下來將詳細說明如何開發評分卡模型。我用的數據集來自Kaggle競賽。 圖2列出該數據集的數據字典信息。其中第一個變量是目標變量,二元分類變量,其餘變量是特徵。

圖2 數據字典

瀏覽完數據後,開始用一些特徵工程的方法處理一下數據。首先檢查每個特徵變量是否包含缺失值,然後用中位數估算補齊。

接下來處理異常值。總體來說,需要根據異常的類型進行處理。例如 如果異常值是由機械錯誤或測量導致的,可以用缺失值的方法進行處理。在這個數據集中有很大的數值,不過這些值看起來都很合理,所以取top/bottom coding。圖3中表明當採用top coding後,數據分布看起來更接近於正態。

圖3 用Top coding處理異常值

如圖1中樣例評分卡所示,很顯然每個特徵已被分組為不同的屬性(或屬性組),分組原因如下:

有助於洞察特徵的關聯屬性及性能

在非線性依賴特徵應用線性模型

深入了解風險預測器的行為,有助於制定更好的組合管理策略

那麼我們可以採用分桶法,處理後每個值被賦予它所應在的一個屬性,這樣一來數值特徵便被轉化為分類特徵。以下是分桶後的輸出樣例。

圖4 分桶處理「年齡」

所有特徵分組後,特徵工程就完成了。接下來是計算每個屬性的證據權重(WoE)以及每個特點(特徵)的信息價值。之前提到將所有數值類型都分桶處理後轉換為分類型特徵。然而不能直接用這些分類模型去擬合模型,所以需要給這些分類特徵賦予一些數值。計算證據權重(WoE)的目的是為每個分類變量分配一個唯一值。信息價值(IV)用來衡量特徵的預測力,將被用於特徵選擇。下面給出WoE和IV的公式。這裡「Good」意思是客戶不會有嚴重逾期或者目標變量=0,而「Bad」客戶會產生逾期目標變量=1.

通常特徵分析報告可提供WoE和IV。我在Python中定義了一個函數自動生成這個報告。以「Age」特徵為例,其特徵分析報告如圖5所示

圖5 「Age」特徵分析報告

繪製一張柱狀圖,方便比較各種特徵的IV。從柱狀圖中可以看到最後兩個特徵「NumberOfOpenCreditLinesAndLoans」和 「NumberRealEstateLoansOrLines」的IV值較小,因而只選用其他8個特徵訓練模型。

圖6 特徵預測力

模型擬合及評分卡得分係數計算

特徵選取完成後,用WoE替換原有變量的值進行建模。訓練模型的數據已經準備好了。評分卡模型開發通常使用的模型是邏輯回歸,它是一個通用的二分類模型。我通過交叉驗證和網格搜索調整參數,然後用測試數據集檢查模型的精度。 由於Kaggle不會給出目標變量的值,我不得不在線提交以獲得精度。為了證明這些數據處理是有效的,我分別用原始數據和處理後的數據進行建模。Kaggle給出的結果,經過數據處理精度從0.693956提升至0.800946。雷鋒網雷鋒網雷鋒網

最後一步是為每個屬性計算評分卡得分係數,這樣就得到了最終的評分卡。評分卡模型的得分可以通過以下式子計算得到:

Score = (β×WoE+ α/n)×Factor + Offset/n

此處:
β —含 給定屬性的邏輯回歸模型的係數

α —邏輯回歸模型的截距
WoE — 給定屬性的證據權重

n —模型特徵數量
Factor, Offset — 縮放參數

前四個參數的計算方法在前面已經提到過,這裡給出最後兩個參數factor和offset的計算方法。

Factor = pdo/Ln(2)

Offset = Score — (Factor × ln(Odds))

這裡pdo意思是加倍odds需要的點數,壞樣本率在之前的特徵分析報告中已計算過了。如果評分卡模型的基礎odds是50:1,其得分為600,那麼pdo=20 ,也就是說每增加20點odds翻一倍,具體來說factor和offset公式如下:
Factor = 20/Ln(2) = 28.85
Offset = 600- 28.85 × Ln (50) = 487.14

算完這些之後,評分卡開發就完成了,圖7中列出了評分卡的部分結果。

圖7 最終評分卡 部分特徵

如果來了一個新客戶,你可以立刻查表找出特徵對應的得分,然後評分卡最終的得分是每個特徵得分值之和。比如說,銀行開發了一位新的信用卡申請人,年齡45歲、負債率0.5、月收入5000美元。其信用評分為 53 + 55 + 57 = 165。

如需要開發更精準的評分卡,開發人員需要考慮更多場景。例如有些個人屬於「Bad」,然而申請卻通過了。或者一些個人屬於「Good」,但申請被拒絕。因此拒絕推斷需要結合到開發過程中。這裡並未實現,因為在我的數據集中缺少拒絕數據。如果你想更深入了解這部分,推薦你閱讀Naeem Siddiqi寫的 《Credit Risk Scorecards — Developing and Implementing Intelligent Credit Scoring》。

想要繼續查看該篇文章相關連結和參考文獻?

點擊用機器學習做信用評分】即可訪問:

https://ai.yanxishe.com/page/TextTranslation/1626

機器學習大禮包

限時免費\18本經典書籍/Stanford經典教材+論文

點擊連結即可獲取:https://ai.yanxishe.com/page/resourceDetail/574

相關焦點

  • 乾貨| 基於 Python 的信用評分模型實戰!|python|離散化|dataframe...
    7.信用評分, 根據邏輯回歸的係數和WOE等確定信用評分的方法。將Logistic模型轉換為標準評分的形式。  8.建立評分系統 ,根據信用評分方法,建立自動信用評分系統。  信用評分卡開發中一般有常用的等距分段、等深分段、最優分段。
  • 口語評分——英語學習中的機器學習算法
    口語評分——英語學習中的機器學習算法 作者:有道口語大師技術團隊 發布時間: 2014-11-26 07:00
  • 數據建模:個人信用分是如何計算出來的?
    無論是金融、網際網路企業亦或運營商,都在基於多年積累的大數據搭建個人徵信評分體系,不僅用於自身,也在提供給其他徵信機構做為個人信用評估標準。那麼,個人的信用分到底是如何計算出來的呢?筆者相信不同的信用分有不同的計算方法,無論是FICO評分、芝麻信用亦或其它信用分,這些評分既可以很簡單,也可以很複雜,使用的建模方法各不同,但也總是會遵循一些基本的原則,這裡筆者就信用分計算的一些關鍵技術作簡要介紹,希望於你有益。
  • 流行的機器學習算法總結,幫助你開啟機器學習算法學習之旅
    什麼是機器學習算法?機器學習算法是任何模型背後的大腦,可讓機器學習並使其更智能。這些算法的工作方式是,為它們提供第一批數據,並且隨著時間的流逝和算法的準確性的提高,額外的數據也被引入到算法中。定期將算法應用於新數據和新經驗的過程可提高機器學習的整體效率。機器學習算法對於與分類,預測建模和數據分析相關的各種任務至關重要。
  • 商戶展示信用二維碼接收監督
    天津北方網訊:記者從昨天市發改委、河北區舉行的創建義大利風情區誠信示範街區啟動儀式上獲悉,義大利風情區誠信示範街區揭牌並投入使用,各商戶領取了專屬的二維碼標誌,通過在店鋪公開展示信用二維碼的方式,主動向消費者曬信用,接收各方面監督。
  • 芝麻信用與電信業合作:惡意欠費將納入負面記錄
    10倍月基本費補貼的信用購機套餐,合約期間承諾在網。 對此,芝麻信用為深圳電信輸出以芝麻信用評分為主打、信息驗證服務和反欺詐為輔的芝麻信用全線產品體系,芝麻信用反欺詐產品信息驗證服務(IVS),針對遏制黃牛套利現象。
  • 機器人結構工程師薪資_中國機器學習工程師薪資 - CSDN
    我的第一個模型是什麼由於本科是數學,研究生是量化分析,第一份實習是一家金融科技公司,開始接觸所謂的「Fintech」第一個任務就是做客戶的信用評分卡模型,目的給每個用戶打一個信用分數,類似支付寶的芝麻信用分。這是銀行標配的一個模型,最常見最傳統的算法用的就是邏輯回歸。
  • ZRobot拒做「大數據公司」背後的數據技術商業邏輯
    京東金融與美國大數據公司 ZestFinance聯合發起成立ZRobot日前宣布開業,主要提供數據建模、信用評分、資產定價、欺詐識別、精準營銷等能力在內的數據增值與技術應用服務,面向銀行、汽車金融、消費金融、小貸公司等各類金融及非金機構,為其在信貸領域提供數據技術服務,提升金融及非金機構的大數據分析應用能力以及防控風險
  • 以個人信用貸流程為例,認識風控要點
    最後通過大數據收集到的有效數據如央行徵信數據、信用卡數據等,現在第三方信用數據如螞蟻信用等也做為用戶的評分估值的參考,通過制定信用評分的規則,形成的分數是否達到貸款標準和不同分數對應的貸款額度。3.2 貸中審核制定信用政策是讓企業為對應收帳款進行規劃與控制而確立的基本原則性行為規範。簡單來說是針對用戶的信用評分做出的相應政策,若用戶的信用分數高則能夠貸款的數額更大,還款周期更長,利息更優惠,若信用分數低則相反甚至拒絕貸款。
  • 分享實錄 | 第四範式程曉澄:機器學習在推薦系統中的應用
    挖掘的信息來源就是上述的評分矩陣,豎行是網站上所有的商品,橫行是網站上的用戶,每個用戶對一個商品有一個打分,沒有打分就是零。 做一個假設,如果是用戶買過商品,很大可能會消費相似的商品,什麼樣的商品是相似的呢?就是用這個評分矩陣來刻畫,如果兩個電影的評分在一個用戶或者說很多用戶評分裡都是一致的,這兩個向量相似的話,那麼說明用戶對它的喜好是一致的。
  • WePay機器學習反欺詐實踐:Python+scikit-learn+隨機森林
    【編者按】將機器學習算法用於金融領域的一個很好的突破口是反欺詐,在這篇博文中,WePay介紹了支付行業構建機器學習模型應對很難發現的shell selling欺詐的實踐心得。WePay採用了流行的Python、scikit-learn開源學習機器學習工具以及隨機森林算法。
  • 學術前沿 | 基於gene-pair差異評分的機器學習預測AML發病風險
    研究背景針對有大量臨床表徵信息的轉錄組或表達晶片數據,採用機器學習工具從其中挖掘對疾病預測或預後的標記基因是一種比較流行的研究方法
  • 專訪「流利說」首席科學家林暉:如何用機器學習幫中國人說好英語
    但這項根據指定文本跟讀的產品並不是這麼簡單,它背後其實暗藏著流利說想要用機器學習技術幫助中國人整體提升英語水平的野心。在接受PingWest品玩採訪時,流利說首席科學家林暉表示,早在2012年公司剛剛成立時,這家公司就決定要在語言學習中利用機器學習技術。但由於創業公司在數據上的匱乏,而機器學習又需要大量的數據才能被訓練得很智能,因此流利說決定先推出以上的跟讀功能,收集中國人的口語語音數據。
  • 機器學習算法進入深網和暗網,鎖定零日漏洞
    7月,基於這個產品的第一個惡意軟體出現,是一個名為「 Dyre Banking」的木馬程序,可以攻擊全球用戶並盜取被感染設備上的信用卡號。從上面這個事件裡,我們可以看到惡意軟體誕生的基本過程。首先,黑客利用一個漏洞開發出可作攻擊使用的程序產品,在黑市上售賣,購買者利用它開發出惡意軟體,然後感染用戶設備。
  • 用機器學習生成圖片:GAN的局限性以及如何GAN的更爽
    讀完可能需要下面這首歌的時間👇用機器學習生成圖片(上)—— GAN 和 pix2pix本文翻譯、總結自朱俊彥的線上報告,主要講了如何用機器學習生成圖片一個直接的想法是把 DNN 「倒過來用」。之前的 DNN 可能是輸入一幅圖像,輸出一個標籤(比如說貓),那我們能不能輸入「貓」這個字,輸出一張貓的照片呢?
  • 芝麻信用披露負面信息
    摘要:北京晨報訊螞蟻金服旗下獨立第三方徵信機構芝麻信用,在消費金融領域的失信懲戒方面有所創新。社科院金融所法與金融室副主任尹振濤表示,芝麻信用此舉是助力消費金融市場健康發展的有力措施。 北京晨報訊螞蟻金服旗下獨立第三方徵信機構芝麻信用,在消費金融領域的失信懲戒方面有所創新。據悉,芝麻信用與某知名消費金融機構開展合作,對不同帳齡的逾期客戶進行負面信息披露。
  • 關於使用工程造價諮詢企業信用評價管理平臺實施信用評價的通知
    江蘇省工程造價企業信用評價管理平臺經開發調試已投放運行,各市可組織會員企業按《江蘇省工程造價諮詢企業信用評價辦法》(蘇建價協〔2020〕4號)的要求開展新一輪信用評價工作。評分標準要求企業提供的評價資料和證明性材料,由企業根據各個不同的評價事項具體內容和具體要求提前製作成PDF格式文件,並將PDF格式文件對應各個評價事項逐個上傳至信用評價系統中。每一個評價事項對應上傳一份PDF文件,文件大小不得超過5M。 4、評價信息維護。企業申請信用評價並在線完成各有關評價事項的評價資料和證明性材料上傳後,應確認提交。
  • 機器學習如何從上遊抑制歧視性行為?斯坦福 AI 實驗室的最新成果給...
    概述機器學習系統越來越多地被應用於高風險決策中,對信用評分、刑事判決等領域都帶來了影響。這就提出了一個亟待解決的問題:我們如何確保這些制度不因種族、性別、殘疾或其他少數群體身份而產生歧視性行為?此外,我們還注意到所有現有的機器學習公平表示方法,也可以用來平衡有用性和公平性,產生有用性和公平性兩者相平衡的表示。然後有關方必須多次運行學習流程,直到找到他們滿意的表示結果。基於這種理論,我們引入了一種新的方法,即令有關方通過對不公平性進行具體限制來控制表示的公平性。與早期的公平表示相比,這種方式可以讓機器更快地學到,同時滿足多個公平概念的要求,並涵蓋更多有用的信息。
  • 貓眼電影「專業評分」重新上線,首次全面闡釋貓眼評分規則
    在輿論風波中,貓眼暫時將貓眼「專業評分」系統下線,貓眼相關負責人稱評分系統正在優化,之後還會上線。  重新上線的貓眼「專業評分」,依然與貓眼觀眾評分並列顯示在影片詳情頁。與之前相比,最明顯的變化是專業評委的人數有了進一步擴充。貓眼相關產品負責人表示,除擴充了評委團隊之外,貓眼專業評分的內容標準、評委團隊準入準出規則也重新做了修訂,並做了公示。
  • 評分卡建模工具之變量聚類
    團隊定位打造基於知識驅動的機器學習算法實驗室,由實踐經驗豐富的數據分析挖掘工程師和專注算法的數據科學家精心準備相關作品,志在分享結合實際業務的理論應用和算法創新,以及其中的心得體會。評分卡建模有成熟的一套數據預處理過程。最近看到的這篇總結《從信用管理角度識別高價值客戶》中,變量聚類被突出強調了出來。文章的作者在在線分享[1] 時,還特別還強調了SAS中變量聚類VARCLUS模塊的實用性。那麼這一步變量聚類在做什麼?