我即將發布creditmodel-1.3版本,這一版本是2021年的第一個迭代版本。這個版本只是修正了一些bugs,並沒有什麼重大改進,只是因為新年要有新版本,新版本意味著新開始。
不斷完善和迭代creditmodel已經成為我茶餘飯後的一個興趣愛好,讓我樂此不疲。
統計了一下我和Uwe Ligges教授的來往郵件,已達120封之多。他已經嫌我迭代頻次太高了,後面我要逐漸降低更新頻次。
Uwe Ligges是德國多特蒙德大學教授,也是R-core的成員,R-core是一個由20位頂尖統計學家和計算機科學家組成的小組,他們負責監督與R語言項目,開發和維護R引擎及其核心包的原始碼。
2 開源creditmodel包的動機和意義creditmodel是一個免費開源的R語言數據科學工具包,旨在幫助沒有數據科學背景的人能夠在短時間內完成建模和數據分析工作,讓他們更多地關注業務問題本身,並將更多的時間分配給制定決策。
creditmodel 本來是我的一個私包,僅供我個人和團隊小夥伴在工作中使用。最終我決定將其免費開源,以幫助更多的人低門檻掌握數據科學工具,這一願景也在逐步實現,自2019年4月份在CRAN發布以後,全球累計下載目前已超過1.5萬人次。讓我特別開心的是,creditmodel包已經成為很多同事和朋友高效完成工作的必備工具。
可以說creditmodel是與很多對數據科學感興趣的朋友一起成長起來的。現實世界的數據是很髒很複雜的,總有一些我意想不到的的問題產生,很多朋友在使用creditmodel過程中,也不斷幫我發現一些bug。
如果creditmodel還是一個私包,我可能沒有什麼動力去完善它。開源的魅力就是不斷有人知道這個存在,用戶也越來越多,就像展出一件還未完成的藝術品,對於強迫症和完美主義者來說,是不能容忍它存在缺陷的,只想讓其盡善盡美。我希望讓更多的人了解creditmodel,並廣泛使用該工具解決實際工作中的問題。使用的人越多,我也越有動力繼續完善它。
3 再簡單介紹一下R語言creditmodel包當我第一次編寫creditmodel包時,初衷是提供一個工具,使二分類模型(機器學習模型或信用評分卡)的開發更簡單、更快。因此,我編寫了creditmodel包來自動構建模型,這讓我可以在幾分鐘內在普通電腦上完成數據預處理、變量選擇、參數搜索等過程,構建出可靠的預測模型(如XGboost或邏輯回歸評分卡)。然而,隨著creditmodel軟體包功能不斷增加,結構愈趨複雜,使得creditmodel脫離了原初的目的,成為了一個涵蓋數據科學整個流程的綜合工具包,可完成數據科學的多種任務。
creditmodel包為數據科學提供了一個高效的工具,涵蓋了數據分析和建模的一整套流程的方方面面,如數據探索\準備、數據轉換\預處理、缺失值處理、異常值處理、特徵衍生、特徵篩選\降維、快速建模、超參數搜索、數據挖掘、數據可視化、模型評估、策略分析、文本分析、客戶分群等。
creditmodel特別適用於二分類目標的機器學習自動建模和數據分析,更適用於噪聲相對較高、信息含量較低的金融信貸、電子商務、保險等風險和營銷數據。
感興趣的朋友,可以通過其幫助文檔深入學習,也可以關注漢森定理公眾號:
View on creidtmodel CRAN https://cran.r-project.org/web/packages/creditmodel/index.html
View creditmodel on idrr https://rdrr.io/cran/creditmodel/
4 可能受益於creditmodel包的用戶群體數據分析是一項技能,也是一種思維方式,這已經成為越來越多的工作崗位必備的能力。一位朋友幫我總結了一下可能會受益於creditmodel這一工具包的用戶群體,我覺得總結挺到位的。
目標用戶包括但不限於通俗叫法在有限的編程知識和經驗的情況下有興趣學習R語言或數據科學「調包俠」從事銀行、網際網路金融、基金等的信用評分或建模、風控策略工作模型俠從事網際網路或傳統行業數據分析、運營、增長\營銷策略工作應用俠尋找數據科學在金融、網際網路領域的一些實際應用探索俠歷史文章:
R語言creditmodel包:快速構建信用評分模型
數據預處理——一步搞定數據清洗
基於交叉表(列聯表)的風控規則生成方法
決策樹算法原理以及決策樹規則生成方法
模型自動化調參——基於R語言creditmodel包的實踐
熟練掌握風控策略的換入換出(Swap Out & Swap In)分析
歡迎大家關注我的公眾號
有用請「點讚」「在看」「分享」
1元也是鼓勵