數據挖掘:基於R語言的實戰 | 第8章:決策樹

2022-01-02 狗熊會

第8章我們繼續來介紹數據挖掘中常用的有監督方法——決策樹模型。首先,本章對決策樹做了一個簡單的介紹,然後講解其建模過程,接著討論該模型的優缺點。本章的最後提供了一個使用R語言建立決策樹模型的案例,並給出了詳細的代碼及注釋。

8.1節簡單介紹了決策樹模型。它是一種根據自變量的值不斷進行遞歸劃分以預測因變量的方法。當因變量為分類變量時,我們稱相應的決策樹為分類樹;當因變量為連續變量時,相應地稱為回歸樹。從全樣本開始(根節點),對於某一自變量的一個取值,我們可以將樣本分成兩個部分(子節點),一部分樣本該自變量大於等於該值,另一部分樣本該自變量小於該值。對於這兩部分樣本,我們對因變量賦予相同的預測值,但是這樣的預測效果顯然是比較差的。所以再從這兩個節點出發,選擇一個自變量和取值繼續劃分樣本,直至不能再劃分為止。不可再進行劃分的節點稱為葉節點。樣本中的每個觀測最終都會落到一個葉節點中,且對一個葉節點中的所有樣本,決策樹對其賦予相同的預測值。這樣一棵決策樹就形成了。

8.2節詳細介紹了決策樹的建模過程。通常情況下,我們首先根據訓練集生成一棵深度足夠大且葉節點數量足夠多的決策樹,然後進行剪枝操作,以防止過擬合。一般而言,這一過程要解決的問題有四個:一是決定某節點是葉節點還是繼續劃分,二是需要劃分的節點,如何選擇劃分規則,三是葉節點的預測值如何確定,四是怎麼剪枝。這一節詳細介紹了分類樹和回歸樹的建模過程。包括判斷節點是否需要繼續劃分的不純度概念及其度量(分類樹中的基尼係數、熵和回歸樹中的方差),評估性能使用的錯分率(分類樹)和均方誤差(回歸樹),葉節點預測值的確定方法以及決策樹剪枝方法。

8.3節介紹了決策樹的優缺點。其優點一是可以直接處理定類變量,二是建模過程只考慮自變量取值的大小順序而不使用具體取值,因此無須考慮對定序變量或連續變量進行轉換,三是由於只考慮自變量取值的大小順序,決策樹對於自變量的測量誤差或異常值是穩健的,四是通過替代劃分規則,決策樹可以有效處理自變量的缺失值,五是決策樹所產生的預測規則可解釋性很好,六是根據每次劃分時不純度的下降程度以及每個自變量對該次劃分的貢獻,可以定義自變量的重要程度,從而進行變量選擇。決策樹的缺點,一是每個非葉節點在劃分時,僅考慮一個自變量,無法發現基於多個變量組合的劃分規則,二是為每個非葉節點選擇劃分規則時,僅考慮當前節點的結果,因此只能達到局部最優,三是因為決策樹是局部貪婪的,其結構很不穩定,容易受到訓練集和測試集隨機分割的差異的影響。

8.4節給出了一個使用R語言建立決策樹的案例,使用的是移動運營商數據,案例給出了代碼和詳細的注釋,方便同學們動手操作,快來學習吧!

相關焦點

  • 基於R語言的數據挖掘之決策樹(一)
    對於第一個問題,R中的rpart函數默認依據基尼係數的算法計算出最佳的分組變量,使得在該變量下的兩組輸出變量值異質性最低或"純度"最高。當然也可以使用信息增益率作為最佳變量的選擇。後修剪主要是考慮到決策樹存在過擬合而進行的修剪動作,修剪掉那些不具有代表性的葉節點和子樹。CART算法採用的後修剪技術為最小代價複雜度剪枝法,這種方法同時考慮樹的複雜度和誤差率,最終使樹的預測精度得到保障且還是一棵精簡的樹。
  • 《數據挖掘R語言實戰》圖書介紹,數據挖掘相關人員看過來!
    今天介紹一本書《數據挖掘R語言實戰》。數據挖掘技術是當下大數據時代最關鍵的技術,其應用領域及前景不可估量。R是一款極其優秀的統計分析和數據挖掘軟體,R語言的特點是入門容易,使用簡單。這本書側重使用R進行數據挖掘,重點進述了R的數據挖掘流程、算法包的使用及相關工具的應用,同時結合大量精選的數據挖掘實例對R軟體進行深入潛出和全面的介紹,以便讀者能深刻理解R的精髓並能快速、高效和靈活地掌握使用R進行數據挖掘的技巧。本書以數據預處理、基本算法及應用和高級算法及應用這三篇展示。
  • 決策樹在R語言中的實現
    隨著大數據時代的到來,數據量激增,機器學習方法起到越來越重要的作用。
  • 學習|R語言實現決策樹模型
    如何生成決策樹?如何優化決策樹?2 R語言有哪些包可以用來實現決策樹模型?3 決策樹模型挖掘的規則如何應用?我創建了R語言微信群,定位:R語言學習與實踐,想加入的夥伴,請添加我的個人微信:luqin360,備註:R入群一 決策樹模型的原理對決策樹的原理請您先花10分鐘時間閱讀文章【決策樹算法介紹及應用
  • 【分類算法】基於 R 語言決策樹算法介紹及應用
    機器學習在數據挖掘、計算機視覺、自然語言處理、生物特徵識別、搜尋引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA 序列測序、語言與手寫識別、戰略遊戲與機器人運用等領域有著十分廣泛的應用。它無疑是當前數據分析領域的一個熱點內容。
  • R語言學習路線和常用數據挖掘包
    那麼,眾多書籍中,一個生手應該從哪一本著手呢?入門之後如何才能把自己練就成某個方面的高手呢?相信這是很多人心中的疑問。有這種疑問的人有福了,因為筆者將根據自己的經歷總結一下R語言書籍的學習路線圖以使Ruser少走些彎路。本文分為6個部分,分別介紹初級入門,高級入門,繪圖與可視化,計量經濟學,時間序列分析,金融等。
  • 決策樹(R語言)
    基於屬性做一系列的決策,每次決策要麼進入下一級決策,要麼生成最終結果。決策樹可以作為集成算法中的基分類器,並且有最為廣泛的應用。要想理解決策樹的工作原理,首先需要了解決策樹的層次結構。>離異是6否已婚否7是離異否8否單身是9否已婚否根據歷史貸款記錄,可構造如下決策樹:
  • R中常用數據挖掘算法包
    數據挖掘主要分為4類,即預測、分類、聚類和關聯,根據不同的挖掘目的選擇相應的算法。
  • 機器學習實戰 中英文版 PDF 高清電子書
    使用算法:決策樹的存儲 503.4 示例:使用決策樹預測隱形眼鏡類型 503.5 本章小結 52第4章 基於概率論的分類方法:樸素貝葉斯 534.1 基於貝葉斯決策理論的分類方法 534.2 條件概率 554.3 使用條件概率來分類 564.4 使用樸素貝葉斯進行文檔分類 574.5 使用Python進行文本分類 584.5.1
  • 我的新書《R語言數據分析、挖掘建模和可視化》出版上市啦!
    第1章  R語言的必備基礎知識 11.1  R語言簡介 11.2  R軟體的下載與安裝 21.3  第三方包的下載與加載 41.3.1  手動下載法 41.3.2  代碼下載法 41.3.3  第三方包的加載 51.4  如何查看幫助文檔 61.4.1  知包知函數——help
  • 決策樹 & R實現
    通過訓練數據構建決策樹,可以高效的對未知的數據進行分類。決策數有兩大優點:1)決策樹模型可以讀性好,具有描述性,有助於人工分析;2)效率高,決策樹只需要一次構建,反覆使用,每一次預測的最大計算次數不超過決策樹的深度。
  • 《機器學習實戰》中英文電子書、源碼分享
    本章小結  第3章 決策樹   3.1  決策樹的構造  3.2  在Python中使用Matplotlib註解繪製樹形圖  3.3  測試和存儲分類器  3.4  示例:使用決策樹預測隱形眼鏡類型  3.5  本章小結  第4章 基於概率論的分類方法:
  • 決策樹原理及R語言實現
    本章給大家介紹一下決策樹的基本原理如何使用R語言實現決策樹決策樹是什麼?
  • 【下載】豆瓣評分8.1,《機器學習實戰:基於Scikit-Learn和TensorFlow》
    第一部分為第1章到第8章,涵蓋機器學習的基礎理論知識和基本算法——從線性回歸到隨機森林等,幫助讀者掌握Scikit-Learn的常用方法;第二部分為第9章到第16章,探討深度學習和常用框架TensorFlow,一步一個腳印地帶領讀者使用TensorFlow搭建和訓練深度神經網絡,以及卷積神經網絡。
  • 如何學習基於SPSS Modeler的數據挖掘
    William Frawley & Gregory Piatetsky Shapiro, 1991數據挖掘目的:建立起決策模型,根據過去的行動來預測未來的行為數據挖掘不是無規律可循的,在進行數據挖掘勘探工作中,我們一般遵循CRISP-DM流程。包含商業理解-數據理解-數據前處理-數據建模-模型評估-模型發布六個步驟。
  • R語言—Rattle包數據挖掘(5)
    Rattle包基於R語言開發的強大數據挖掘工具,圖形交互式可視化界面,如同SPSS Modeler一樣,可以讓很多R初學者或R語言薄弱的同學完成數據挖掘工作。Rattle提供了數據清洗、簡單統計檢驗、數據建模分析和模型評估。數據建模包括:聚類、關聯規則、決策樹、隨機森林、支持向量機、回歸、神經網絡和生存分析。
  • R語言實戰(5) ——高級數據管理
    往期回顧:R語言實戰(1)——R語言介紹R語言實戰(2)——創建數據集R語言實戰(3)
  • 開源下載 | 基於Scikit-learn、Keras和TensorFlow的機器學習實戰
    今天要給大家分享的是機器學習領域的一本經典之作:《基於Scikit-learn、Keras
  • R語言數據清洗實戰——高效list解析方案
    杜雨:EasyCharts團隊成員,R語言中文社區專欄作者。興趣方向為:Excel商務圖表,R語言數據可視化,地理信息數據可視化。個人公眾號:數據小魔方(微信ID:datamofang) ,「數據小魔方」創始人。
  • R機器學習:決策樹
    文章結構如下:決策樹是直觀的。他們所做的只是問一些問題,比如性別是男性還是某個特定變量的值高於某個閾值。根據答案,要麼多問幾個問題,要麼分類。很簡單!為了預測類標籤,決策樹從根(根節點)開始,計算哪個屬性最適合分離記錄。可以使用基尼不純度公式進行計算。