數據分析技術:決策樹分析;機器學習入門模型

2021-02-19 生活統計學

基礎準備

草堂君前面介紹過好幾種用於結果分類和判別的數據分析方法,有以下幾種,大家可以點擊下方文章連結回顧:

在上面這些個案分類方法中,包括聚類分析、判別分析和邏輯回歸分析,加上今天將要介紹的決策樹分析,這些分類方法之間有什麼區別呢?

 

分類方法對比

需要明確,聚類分析、判別分析、邏輯回歸和決策樹這些分類方法,它們的分類對象是個案(研究對象),比如人、家庭、公司或國家等,這些分類對象都有一個共同點,那就是它們身上的標籤或屬性是多維和複雜的。例如,當今時代,剩男與剩女問題嚴峻,選擇合適的結婚對象,需要從身高、體重、長相、學歷、人品、脾氣、家庭條件等很多角度進行考察;同樣的,評價一家公司的好壞,可以從工作量、福利待遇、公司文化、辦公環境、盈利情況等角度進行評價;銀行和商業公司在記錄用戶信息時,會記錄包括年齡、性別、學歷、收入、工作單位、家庭成員、銀行存款、貸款情況、還款情況等信息。正是因為研究對象的多屬性和多維度,所以研究對象的分類從來就不是一個簡單的操作。

 

如何確定應該選擇哪種分類方法呢?首選可以根據是否有分類目標將以上這些方法分成兩大類:聚類分析與其它分析方法。聚類分析在將研究對象分類之前是沒有目標類別的,或者說是探索性的,例如,某公司希望做細做深市場,那麼就需要對它們目前的客戶進行分類,分析不同類別客戶的屬性區別,然後才能有針對性的對不同類別客戶採用不同的營銷手段。第二類就是在分類之前已經有明確的分類目標,例如,銀行希望根據客戶還款記錄的好壞,將所有客戶分成兩類,那麼就可以使用判別分析、邏輯回歸和決策樹分析研究還款記錄好的客戶與還款記錄壞的客戶的屬性組合,比如通過家庭情況、收入水平、學歷水平、年齡、性別等屬性來預測將來客戶的還款結果是好是壞,最大可能的避免違約的情況出現。現在知道為什麼在申請銀行貸款的時候,需要查大家的祖宗十八代信息了吧,用來判斷你有多大的概率會違約不還款。

 

屬性變量是什麼類型的數據?在數據分析領域,最終的數據分析方式就是將數據分成定類、定序和定距數據。判別分析適合定距數據,決策樹和邏輯回歸分析適合定類和定序數據。當然,這裡的適合併不意味著決策樹和邏輯回歸分析就不能用於定距數據的分析。草堂君建議大家在充分掌握每種分析方法的分析原理以後,再結合實際的數據分析環境選擇合適的分析方法。

 

決策樹分析

從上面介紹的內容可知,決策樹分析適用於有明確的研究對象分類結果,研究每種類別群體的屬性特點和性質,換種說法就是通過建立模型,可以通過某個研究對象身上的屬性特點,判斷該研究對象最可能落在那個分類群體中。決策樹分析在很多行業中應用得非常廣泛,同時也是機器學習中最基礎也是應用最廣泛的算法模型。

 

我們舉個具體的例子來說明決策樹分析的應用。某個銀行通過對其內部數據的分析,建立了一個決策樹模型,用於預測申請貸款的用戶是否具有償還貸款的能力。該決策樹模型需要考慮三個貸款用戶的屬性:是否擁有房產,是否結婚和平均月收入。這個決策樹模型如下圖所示:

每個分叉點稱為節點,表示一個屬性條件的判斷;每個終端點稱為葉子節點,表示對貸款用戶是否具有償還能力的最終判斷。假設現在有一個申請貸款的客戶甲,他的情況是沒有房產,沒有結婚,月收入五千。通過上面決策樹模型的判斷,用戶甲最終被判斷為具備償還貸款能力,銀行可以考慮為其提供貸款,這就是決策樹分析的作用。

決策樹模型

從上面的決策樹分析思路可知,建立決策樹模型主要包括兩個步驟:節點變量的選擇以及每個節點的分支概率的確定。在決策樹分析中,節點變量的選擇可以通過卡方檢驗、最大熵減少量、基尼係數減少量等方式來完成,首先篩選與目標分類變量顯著相關的變量,如果同時有幾個變量與目標分類變量相關,那麼再根據相關程度的大小,安排變量的進入順序;分支概率則通過已有數據來確定即可。

以上這兩個步驟都會隨著樣本數據量的變化而變化,這就引出了機器學習中的兩個名詞:訓練集和測試集。訓練集是用來進行訓練的集合,也可以理解為原始數據;測試集是用來檢測用訓練集訓練出來的模型的好壞。模型訓練其實就是不斷的增加進入模型的樣本數據量,隨著樣本量的不斷增加,以上兩個步驟的結果也會不斷修正,變得越來越準確。

決策樹算法

SPSS提供了四種決策樹算法:CHAID、Exhaustive CHAID、CART和QUEST。它們在變量相關性的判定準則上有區別,下面我們簡要介紹下每種算法的特性。

CHAID,英文全稱為Chi-squaredAutomatic Interaction Detector,也就是卡方自動交互檢驗。從名稱就可以看出,該決策樹算法是以卡方檢驗為判定準則的。需要注意,CHAID方法的變量都是分類變量(因變量和自變量),如果有連續型變量,系統會自動將其轉換為分類變量。CHAID方法的決策樹生長過程分成兩個步驟:合併和分裂。軟體首先對每個自變量與因變量之間的相關性進行卡方檢驗,如果自變量中有的水平沒有顯著性差異,那麼就進行合併,然後再重新水平分類,直到自變量中所有的水平都有顯著性差異為止。接著就是分裂過程,也就是決策樹生長過程,考察重新水平分類後的自變量與因變量之間的相關性,決定自變量進入決策樹的順序,相關性由高到低依次進入,直到都有顯著性差異,不需要繼續分裂為止。

 

Exhaustive CHAID,窮舉卡方自動交互檢驗,是CHAID方法的改進算法。它與CHAID算法的主要區別在於合併步驟。CHAID在水平合併過程中,如果發現水平之間有顯著性差異,那麼就停止合併,而ExhaustiveCHAID則不同,它會考察所有水平之間的差異性,最終形成兩個大水平,然後再對兩個大水平進行分組,形成有差異的水平組。

CART,英文全稱為Classificationand Regression Trees,也就是分類與回歸樹。與CHAID和Exhaustive CHAID不同,CART決策樹在每個節點上的分支數都是兩支,並且CART算法的檢驗準則不是卡方值,而是採用了最大熵減小量或基尼係數減少量。

QUEST,英文全稱quickunbiased efficient statistical tree,也就是快速無偏有效統計樹。該算與CART一樣,都只能生成二叉樹,也就是每個節點的分支數只有兩個。QUEST算法的優勢在於能夠快速且不偏的建立決策樹。

 

總結一下

決策樹分析是一種通過歷史數據建立決策樹模型,然後用於分類結果判斷的分析方法。經常用在市場研究、信用風險分析、產品銷售策略研究等領域。模型建立後,可以非常方便的幫助業務人員對於結果的判斷,只需採集需要的研究對象屬性變量,代入模型計算即可;同時,模型還會隨著數據量的增大,數據的更新不斷修正。

 

決策樹分析是機器學習最基本的模型之一。因為模型設計的數學概念較多,草堂君在這裡不詳細介紹,這部分內容會在介紹數據挖掘技術時重點介紹。對於普通用戶來說,只需理解決策樹的概念,作用和宏觀分析思路即可;對於決策樹的四種算法,普通用戶可以通過對比結果準確性來選擇最合適自己的算法。

 

決策樹分析的SPSS應用會在下篇文章中推送。

溫馨提示:

相關焦點

  • 如何用決策樹模型做數據分析?
    我們僅僅是通過最多兩個層次的判斷,在樹最末端的葉子結點,可以對我們感興趣的問題給出了一個相對而言的最佳決策。這個就是決策樹的邏輯,非常簡單且和人腦理解事物的邏輯很類似。決策樹是一種簡單高效並且具有強解釋性的模型,廣泛應用於數據分析領域。
  • 拓撲數據分析與機器學習的相互促進
    對拓撲數據分析(TDA)不熟悉的人,經常會問及一些類似的問題:「機器學習和TDA兩者之間的區別?」,這種問題的確難以回答,部分原因在於你眼中的機器學習(ML)是什麼。下面是維基百科關於機器學習的說明:機器學習研究算法學習和構造,能從數據中進行學習並做出預測。
  • 【乾貨】Python機器學習機器學習項目實戰3——模型解釋與結果分析(附代碼)
    最終構建了梯度增強回歸模型【6】,在測試數據的誤差在9.1以內(1-100範圍內)。 模型理解模型由數百個決策樹組成,通過梯度增強了回歸的效果,雖然每個決策樹都是可解釋的,但這仍然是一個複雜的模型。我們將通過三種方式來了解我們的模型是如何預測的。
  • 機器學習 | 決策樹之分類樹
    目前,機器學習在疾病的鑑別診斷,藥物的生產研究,臨床試驗研究,放射影像學等醫學領域已有十分廣泛的應用。今天推出機器學習系列筆記第1期,本期分享內容為:機器學習之決策樹中的分類樹。(筆者使用的是Mac系統)決策樹(Decision Tree):是一種非參數的有監督學習算法,在已知各種情況發生概率的基礎上,通過構成決策樹來取淨現值的期望值大於等於零的概率,是直觀運用概率分析的圖解法,以解決分類和回歸問題。分為分類樹和回歸樹。
  • 跟我做機器學習——你也能掌握決策樹分析!
    顧名思義,決策樹分析 (Decision Tree analysis)是通過已知數據生成一種樹狀結構的模型,進而以if-then的二分法樹形結構邏輯對未知數據進行分析的一系列過程。看起來決策樹有點複雜,但是,其實我們在日常生活中,經常會不經意間使用到決策樹的思想。因此,決策樹的分析並不神秘。通過本篇文章您可以了解:決策樹是如何運作的,利用R語言實現決策樹,讀解決策樹的分析結果以及可視化。
  • python金融風控評分卡模型和數據分析
    lendingClub信貸數據包含有關100多個變量的數據,以及10萬多個貸款申請者被認為是好信用風險還是壞信用風險的分類。預期基於此數據開發的預測模型將為銀行經理/CRO/貸前審批人員提供指導,以根據他/她的個人資料來決定是否批准準申請人的貸款。用戶畫像和數據分析為高層提供決策依據,熟悉公司客戶特徵,為定製營銷做好充分基礎工作。
  • python機器學習預測分析核心算法.pdf
    AI項目體驗地址 https://loveai.tech《Python機器學習 預測分析核心算法》內容簡介  在學習和研究機器學習的時候,面臨令人眼花繚亂的算法,機器學習新手往往會不知所措。本書從算法和Python語言實現的角度,幫助讀者認識機器學習。
  • 【量化課堂】決策樹入門及Python應用
    決策樹的基本原理是通過學習現有數據的特徵,得到簡單的決策規律,再根據這些決策規律對目標進行判斷。一、決策樹的概念決策樹是在已知各種情況發生概率的基礎上,通過構成決策樹來判斷下一預測點,判斷其是否會發生的分析方法,是直觀運用概率分析的一種圖解法。由於這種決策樹分支的圖形很像樹的枝幹,故稱決策樹。
  • 機器學習入門之決策樹1
    決策樹基本流程¶決策樹(Decision Tree)是一類常見的機器學習算法,其基本流程圖遵循簡單且直觀的 D&C策略。下面以西瓜問題來展示決策樹基本流程:西瓜屬性包含:[色澤, 根蒂, 敲聲]我們可能首先看「它是什麼顏色的?」,如果是「青綠色」「它的根蒂是什麼形態?」
  • Python網絡爬蟲教程+數據分析+機器學習
    經過這兩個多月以來的收集與整理,匯集了多個高校以及公開課視頻教程,包括python爬蟲的入門、進階與實踐,共9G左右。爬蟲作為機器學習語料庫構建的主要方式,建議大家都了解學習一下,現在不用並不代表將來用不到,建議將視頻資源收藏或保存。
  • 談談轉行數據分析工作的心得
    自學了一段時間後,發現頭緒比較多,就想報一家培訓機構系統學習下,在網上搜索到了CDA,感覺課程從軟體編程技術和機器學習理論兩個方面從入門到提高都比較系統,於是最終選擇了CDA。完成全部課程後,並最終找到風控建模的工作崗位。學習心得方面,結合我目前的工作說一下吧,EXCEL比較重要,在處理數據樣例時用的最多,數據透視表,數組,聚合函數,文本處理函數使用最多。
  • ​機器學習 | 決策樹之回歸樹
    目前,機器學習在疾病的鑑別診斷,藥物的生產研究,臨床試驗研究,放射影像學等醫學領域已有十分廣泛的應用。今天推出機器學習系列筆記第2期,本期分享內容為:機器學習之決策樹中的回歸樹。解決方法:路徑兩端加上雙引號三、決策樹的優缺點決策樹優點易於理解和解釋,因為樹木可以畫出來被看見 需要很少的數據準備。其他很多算法通常都需要數據規範化,需要創建虛擬變量並刪除空值等。
  • 張松聊數據分析_數據科學家常用的分析模型
    數據分析沒頭緒?推薦5個萬能分析模型 數據不吹牛 今天 提到數據分析,肯定要提到數據分析模型,在進行數據分析之前,先搭建數據分析模型,根據模型中的內容,具體細分到不同的數據指標進行細化分析,最終得到想要的分析結果或結論。
  • 一文帶你讀懂機器學習和數據科學的決策樹
    等等,我們的樹會很大! 確切的溫度確實有點相關,我們只想知道是否可以外出。 機器學習中決策樹的概念是相同的。 我們想要構建一個具有一組層次的決策樹,並給出最終結果,比如說分類或回歸預測。 將選擇決策使得樹儘可能小,同時旨在實現高的分類和回歸準確性。
  • 常見的10個回歸分析模型算法,果斷收藏
    入門數據分析,就必須要了解數據挖掘的一些方法,其中比較常提到的有回歸分析。回歸分析是確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法。在大數據分析中,它是一種預測性的建模技術,它研究的是因變量y(目標)和影響它的自變量x(預測器)之間的回歸模型,從而預測因變量y的發展趨向。當有多個自變量時,可以研究每個自變量x對因變量y的影響強度。
  • 大數據分析與機器學習有什麼區別
    如果從更大的角度看,人工智慧也將成為每個增長業務的一部分,越來越多的人熟悉大數據,大數據分析和機器學習等技術術語,並使用它們來解決複雜的分析問題。 通過處理足夠的數據,公司可以使用大數據分析技術來發現,理解和分析資料庫中複雜的原始數據。機器學習是大數據分析的一部分,它使用算法和統計信息來理解提取的數據。
  • 機器學習中決策樹的原理與算法 | 科普
    我們知道,在機器學習中有兩類十分重要的問題,一類是分類問題,一類是回歸問題。我們今天所要探討的就是在分類和回歸問題中所用到的一種非常基本的方法,叫決策樹。決策樹也是重要的標籤學習方法。這篇文章裡面的部分內容來自於 AI 慕課學院的《機器學習理論與實戰高級特訓班》課程筆記。
  • 數據挖掘從入門到放棄(二):決策樹
    ,輸入輸出是連續值,分類模型的輸出是一個有限集合,本篇介紹決策分類樹算法」決策樹算法理解決策樹是直觀運用概率分析的樹形分類器,是很常用的分類方法,屬於監管學習,決策樹分類過程是從根節點開始,根據特徵屬性值選擇輸出分支,直到到達葉子節點,將葉子節點存放的類別作為決策結果。
  • 機器學習的第一個難點,是數據探索性分析
    當我們在進行機器學習領域的學習和研究時,遇到的第一個難點就是數據探索性分析(Exploratory Data Analysis)。之所以希望特徵是正態分布的,是因為機器學習領域的很多模型是基於數據服從正態分布的假設,所以如果數據服從正態分布,會對模型的訓練效果有比較明顯的提升。可以使用Q-Q圖對特徵進行分析,部分特徵的Q-Q圖如下圖所示。
  • 機器學習數據分析極簡思路及sklearn算法實踐小試
    機器學習數據分析極簡思路機器學習擁有龐大的知識體系,這裡對機器學習的數據分析的整個思路和流程作最最簡單的歸納。