R語言數據科學工具包:creditmodel-1.3版本發布

2021-02-27 漢森定理

1 R語言 creditmodel-1.3版本發布

我即將發布creditmodel-1.3版本,這一版本是2021年的第一個迭代版本。這個版本只是修正了一些bugs,並沒有什麼重大改進,只是因為新年要有新版本,新版本意味著新開始。

不斷完善和迭代creditmodel已經成為我茶餘飯後的一個興趣愛好,讓我樂此不疲。

統計了一下我和Uwe Ligges教授的來往郵件,已達120封之多。他已經嫌我迭代頻次太高了,後面我要逐漸降低更新頻次。

Uwe Ligges是德國多特蒙德大學教授,也是R-core的成員,R-core是一個由20位頂尖統計學家和計算機科學家組成的小組,他們負責監督與R語言項目,開發和維護R引擎及其核心包的原始碼。

2 開源creditmodel包的動機和意義

creditmodel是一個免費開源的R語言數據科學工具包,旨在幫助沒有數據科學背景的人能夠在短時間內完成建模和數據分析工作,讓他們更多地關注業務問題本身,並將更多的時間分配給制定決策。

creditmodel 本來是我的一個私包,僅供我個人和團隊小夥伴在工作中使用。最終我決定將其免費開源,以幫助更多的人低門檻掌握數據科學工具,這一願景也在逐步實現,自2019年4月份在CRAN發布以後,全球累計下載目前已超過1.5萬人次。讓我特別開心的是,creditmodel包已經成為很多同事和朋友高效完成工作的必備工具。

可以說creditmodel是與很多對數據科學感興趣的朋友一起成長起來的。現實世界的數據是很髒很複雜的,總有一些我意想不到的的問題產生,很多朋友在使用creditmodel過程中,也不斷幫我發現一些bug。


如果creditmodel還是一個私包,我可能沒有什麼動力去完善它。開源的魅力就是不斷有人知道這個存在,用戶也越來越多,就像展出一件還未完成的藝術品,對於強迫症和完美主義者來說,是不能容忍它存在缺陷的,只想讓其盡善盡美。我希望讓更多的人了解creditmodel,並廣泛使用該工具解決實際工作中的問題。使用的人越多,我也越有動力繼續完善它。

3 再簡單介紹一下R語言creditmodel包

當我第一次編寫creditmodel包時,初衷是提供一個工具,使二分類模型(機器學習模型或信用評分卡)的開發更簡單、更快。因此,我編寫了creditmodel包來自動構建模型,這讓我可以在幾分鐘內在普通電腦上完成數據預處理、變量選擇、參數搜索等過程,構建出可靠的預測模型(如XGboost或邏輯回歸評分卡)。然而,隨著creditmodel軟體包功能不斷增加,結構愈趨複雜,使得creditmodel脫離了原初的目的,成為了一個涵蓋數據科學整個流程的綜合工具包,可完成數據科學的多種任務。

creditmodel包為數據科學提供了一個高效的工具,涵蓋了數據分析和建模的一整套流程的方方面面,如數據探索\準備、數據轉換\預處理、缺失值處理、異常值處理、特徵衍生、特徵篩選\降維、快速建模、超參數搜索、數據挖掘、數據可視化、模型評估、策略分析、文本分析、客戶分群等。

creditmodel特別適用於二分類目標的機器學習自動建模和數據分析,更適用於噪聲相對較高、信息含量較低的金融信貸、電子商務、保險等風險和營銷數據。

感興趣的朋友,可以通過其幫助文檔深入學習,也可以關注漢森定理公眾號:

View on creidtmodel CRAN  https://cran.r-project.org/web/packages/creditmodel/index.html

View creditmodel on idrr https://rdrr.io/cran/creditmodel/

4 可能受益於creditmodel包的用戶群體

數據分析是一項技能,也是一種思維方式,這已經成為越來越多的工作崗位必備的能力。一位朋友幫我總結了一下可能會受益於creditmodel這一工具包的用戶群體,我覺得總結挺到位的。

目標用戶包括但不限於通俗叫法在有限的編程知識和經驗的情況下有興趣學習R語言或數據科學「調包俠」從事銀行、網際網路金融、基金等的信用評分或建模、風控策略工作模型俠從事網際網路或傳統行業數據分析、運營、增長\營銷策略工作應用俠尋找數據科學在金融、網際網路領域的一些實際應用探索俠

歷史文章:

R語言creditmodel包:快速構建信用評分模型

數據預處理——一步搞定數據清洗

基於交叉表(列聯表)的風控規則生成方法

決策樹算法原理以及決策樹規則生成方法

模型自動化調參——基於R語言creditmodel包的實踐

熟練掌握風控策略的換入換出(Swap Out & Swap In)分析

歡迎大家關注我的公眾號

有用請「點讚」「在看」「分享」

1元也是鼓勵

相關焦點

  • MIT正式發布程式語言Julia 1.0:Python、R、C++三合一
    從技術上來看,這種語言還會長期發展下去。然而,現在是一個裡程碑的時刻:在本周於倫敦舉辦的 Julia 語言年會上,Julia 1.0 正式發布!一起發布的還有 JuliaCon。從 Julia 的生態系統來說,目前它主要的特徵或應用領域為數據可視化、一般性的 UI 與網站、數據科學、機器學習、科學計算與平行計算等。Julia 目前下載量已經達到了 200 萬次,且 Julia 社區開發了超過 1900 多個擴展包。這些擴展包包含各種各樣的數學庫、數學運算工具和用於通用計算的庫。
  • 史上最強科學計算程式語言?| 麻省理工的Julia
    本月初,隨著的 1.0 版本發布的消息確認,一門名為「Julia」的高性能動態程式語言一夜之間刷爆了朋友圈和
  • 數據科學工具包:手把手用YOLO做目標檢測
    注意:這一次,我們將主要使用開源庫和工具,因此我們網站上的編碼量將是最小的。但是,為了鼓勵你使用 YOLO 並為你的項目提供一個起點,我還提供了腳本,允許你下載我的預訓練模型以及所有配置文件和測試數據集。
  • 8 個流行的 Python 可視化工具包,你喜歡哪個?
    之前文章裡出現過漂亮的圖表時,也總有讀者在後臺留言問該圖表時用什麼工具做的。下面,作者介紹了八種在 Python 中實現的可視化工具包,其中有些包還能用在其它語言中。快來試試你喜歡哪個?用 Python 創建圖形的方法有很多,但是哪種方法是最好的呢?當我們做可視化之前,要先明確一些關於圖像目標的問題:你是想初步了解數據的分布情況?想展示時給人們留下深刻印象?
  • R語言數據實戰 | R中的數據類型
    儘管觀影習慣已經開始慢慢養成,電影的方方面面也成為人們茶餘飯後的談資,但是,是否想過通過數據的形式統計一下電影的基本信息呢?比如,本月上映了幾部電影,動作戲偏多還是喜劇為主,主演是不是當紅花旦等,這些信息,都可以通過簡單的R語言操作來一一獲得。在這裡,我們搜集了2016年1—5月間上映的19部熱門電影共10個變量的基本信息,將以此為例說明如何在R語言中進行相關操作。
  • Metaflow:Netflix 的 Python / R數據科學框架
    在過去的兩年裡,他們內部數據科學團隊迅速地應用它,使得許多項目能夠縮短生產時間。Metaflow是創建和執行數據科學工作流的框架,並配備了內置功能:· 管理計算機資源,· 執行容器化運行,· 管理外部依賴,· 版本、重播和恢復工作流運行
  • 這裡有8個流行的Python可視化工具包,你喜歡哪個?
    之前文章裡出現過漂亮的圖表時,也總有讀者在後臺留言問該圖表時用什麼工具做的。下面,作者介紹了八種在 Python 中實現的可視化工具包,其中有些包還能用在其它語言中。快來試試你喜歡哪個?用 Python 創建圖形的方法有很多,但是哪種方法是最好的呢?當我們做可視化之前,要先明確一些關於圖像目標的問題:你是想初步了解數據的分布情況?想展示時給人們留下深刻印象?
  • Android Studio 3.0 Canary 版本發布
    Google I/O 舉辦之際,Android Studio 3.0 迎來 Canary 版本的發布。AS 發燒友們可以前往官方下載更新啦,提前感受新功能的使用。在此之前,不妨簡單看看都有哪些實用的更新吧。Kotlin 程式語言:AS 3.0 內部支持 Kotlin 語言,開發人員不用再藉助 Gradle 插件手動配置。
  • Julia程式語言:地球物理研究的新選擇
    Julia程式語言具有通用、動態、快速、開源、易於使用等特點。Julia程式語言設計項目大約開始於2009年中,由麻省理工學院(MIT)計算機科學與人工智慧實驗室(CSAIL)研發和發布,Julia語言的主要創造者包括Viral Shah博士、Alan Edelman教授、Jeff Bezanson博士和Stefan Karpinski。
  • 8個流行的Python可視化工具
    之前文章裡出現過漂亮的圖表時,也總有讀者在後臺留言問該圖表時用什麼工具做的。下面,作者介紹了八種在 Python 中實現的可視化工具包,其中有些包還能用在其它語言中。快來試試你喜歡哪個?用 Python 創建圖形的方法有很多,但是哪種方法是最好的呢?當我們做可視化之前,要先明確一些關於圖像目標的問題:你是想初步了解數據的分布情況?想展示時給人們留下深刻印象?
  • R包中的小李飛刀|data.table入門介紹
    在R語言的世界中有一個包,以其炫目的速度和樸實無華的招式被稱為R包中的小李飛刀。它就是Matt Dowle開發的data.table包。Matt Dowle雖然不似Hadley Wickham那樣被R語言界許多人視為明星偶像,但就憑其data.table包依然是行家裡手心中的傳奇。
  • R語言 | 回歸分析(四)
    R: The R Project for Statistical Computinghttps://www.r-project.org/RStudio:https://rstudio.com/今天是我們最後一期R語言入門系列。從去年11月份到今天,中間也因學業停更了很久,好在堅持了下來。
  • R語言dplyr包學習筆記(吐血整理宇宙無敵詳細版) - CDA數據分析師
    出處:AI入門學習dplyr包主要用於數據清洗和整理,主要功能有:行選擇、列選擇、統計匯總、窗口函數、數據框交集等是非常高效、友好的數據處理包,學清楚了,基本上數據能隨意玩弄,對的,隨意玩弄,簡直大大提高數據處理及分析效率。我以為,該包是數據分析必學包之一。學習過程需要大量試驗,領悟其中設計的精妙之處。
  • 從經驗到理論、從數據到網絡——腦科學研究的四次範式轉移
    心理學家喬治·米勒發布了文章《神奇數字7±2》(心理學最頻繁引用的論文),這篇論文使記憶研究重新回到心理學中,而且它顯示出如何將資訊理論的概念應用到人類信息加工的表述當中。語言學家諾姆·喬姆斯基發表他的系統的語言學研究成果《語言描述的三模型》,提出的短語結構文法能夠產生所有可被「圖靈機」識別的語言,可被圖靈機識別的語言就是能使圖靈機停機的字串。
  • 【行業資訊】Netbox 2.9.1 發布,IP 地址與數據中心管理工具
    NetBox 是一個 IP 地址管理(IP address management,IPAM)和數據中心基礎設施管理(data center infrastructure management,DCIM)工具。最初起源於 DigitalOcean 的網絡工程團隊,專門用於滿足網絡和基礎設施工程師的需求。
  • 手把手用Python端對端數據分析識別機器人「殭屍粉」
    # 配置參數param_grid = {'max_depth': [1, 3, 6, 9, 12, 15, None],              'max_features': [1, 3, 6, 9, 12],              'min_samples_split': [1, 3, 6, 9, 12, 15],
  • R語言製作相關圖
    在這裡使用了R語言中的corrplot包。安裝corrplot包要想在R語言中繪製相關圖,需要先安裝R包。在這裡使用的是「corrplot」包,具體的R語言安裝介紹請看前面的推文R語言安裝部署基礎。R語言安裝部署基礎準備數據實驗數據使用的是R語言中經典的mtcarshead(mtcars)
  • 自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文
    語言建模語言建模是預測文本中下一個詞的任務。*表示模型使用了動態評估。Penn Treebank-語言建模語言建模的常用評估數據集是 Penn Treebank,已經過 Mikolov 等人的預處理(《Recurrent neural network based language model》)。
  • 資源 | 100+個自然語言處理數據集大放送,再不愁找不到數據!
    (查詢工具)http://eventregistry.org/Examiner.com—用新聞頭條釣魚的垃圾郵件[Kaggle]:現已停用的釣魚網站The Examiner從2010年到2015年發布的3百萬眾包新聞頭條。
  • 【架空助手】製作架空世界的網站、書籍合集1.0版本
    更新日誌2021-02-07 1.0版本此合集是綜合了網際網路上的部分有關架空世界的網站、軟體、書籍,旨在為架空愛好者提供更好的工具