基礎準備
草堂君前面介紹過好幾種用於結果分類和判別的數據分析方法,有以下幾種,大家可以點擊下方文章連結回顧:
在上面這些個案分類方法中,包括聚類分析、判別分析和邏輯回歸分析,加上今天將要介紹的決策樹分析,這些分類方法之間有什麼區別呢?
分類方法對比
需要明確,聚類分析、判別分析、邏輯回歸和決策樹這些分類方法,它們的分類對象是個案(研究對象),比如人、家庭、公司或國家等,這些分類對象都有一個共同點,那就是它們身上的標籤或屬性是多維和複雜的。例如,當今時代,剩男與剩女問題嚴峻,選擇合適的結婚對象,需要從身高、體重、長相、學歷、人品、脾氣、家庭條件等很多角度進行考察;同樣的,評價一家公司的好壞,可以從工作量、福利待遇、公司文化、辦公環境、盈利情況等角度進行評價;銀行和商業公司在記錄用戶信息時,會記錄包括年齡、性別、學歷、收入、工作單位、家庭成員、銀行存款、貸款情況、還款情況等信息。正是因為研究對象的多屬性和多維度,所以研究對象的分類從來就不是一個簡單的操作。
如何確定應該選擇哪種分類方法呢?首選可以根據是否有分類目標將以上這些方法分成兩大類:聚類分析與其它分析方法。聚類分析在將研究對象分類之前是沒有目標類別的,或者說是探索性的,例如,某公司希望做細做深市場,那麼就需要對它們目前的客戶進行分類,分析不同類別客戶的屬性區別,然後才能有針對性的對不同類別客戶採用不同的營銷手段。第二類就是在分類之前已經有明確的分類目標,例如,銀行希望根據客戶還款記錄的好壞,將所有客戶分成兩類,那麼就可以使用判別分析、邏輯回歸和決策樹分析研究還款記錄好的客戶與還款記錄壞的客戶的屬性組合,比如通過家庭情況、收入水平、學歷水平、年齡、性別等屬性來預測將來客戶的還款結果是好是壞,最大可能的避免違約的情況出現。現在知道為什麼在申請銀行貸款的時候,需要查大家的祖宗十八代信息了吧,用來判斷你有多大的概率會違約不還款。
屬性變量是什麼類型的數據?在數據分析領域,最終的數據分析方式就是將數據分成定類、定序和定距數據。判別分析適合定距數據,決策樹和邏輯回歸分析適合定類和定序數據。當然,這裡的適合併不意味著決策樹和邏輯回歸分析就不能用於定距數據的分析。草堂君建議大家在充分掌握每種分析方法的分析原理以後,再結合實際的數據分析環境選擇合適的分析方法。
決策樹分析
從上面介紹的內容可知,決策樹分析適用於有明確的研究對象分類結果,研究每種類別群體的屬性特點和性質,換種說法就是通過建立模型,可以通過某個研究對象身上的屬性特點,判斷該研究對象最可能落在那個分類群體中。決策樹分析在很多行業中應用得非常廣泛,同時也是機器學習中最基礎也是應用最廣泛的算法模型。
我們舉個具體的例子來說明決策樹分析的應用。某個銀行通過對其內部數據的分析,建立了一個決策樹模型,用於預測申請貸款的用戶是否具有償還貸款的能力。該決策樹模型需要考慮三個貸款用戶的屬性:是否擁有房產,是否結婚和平均月收入。這個決策樹模型如下圖所示:
每個分叉點稱為節點,表示一個屬性條件的判斷;每個終端點稱為葉子節點,表示對貸款用戶是否具有償還能力的最終判斷。假設現在有一個申請貸款的客戶甲,他的情況是沒有房產,沒有結婚,月收入五千。通過上面決策樹模型的判斷,用戶甲最終被判斷為具備償還貸款能力,銀行可以考慮為其提供貸款,這就是決策樹分析的作用。
決策樹模型
從上面的決策樹分析思路可知,建立決策樹模型主要包括兩個步驟:節點變量的選擇以及每個節點的分支概率的確定。在決策樹分析中,節點變量的選擇可以通過卡方檢驗、最大熵減少量、基尼係數減少量等方式來完成,首先篩選與目標分類變量顯著相關的變量,如果同時有幾個變量與目標分類變量相關,那麼再根據相關程度的大小,安排變量的進入順序;分支概率則通過已有數據來確定即可。
以上這兩個步驟都會隨著樣本數據量的變化而變化,這就引出了機器學習中的兩個名詞:訓練集和測試集。訓練集是用來進行訓練的集合,也可以理解為原始數據;測試集是用來檢測用訓練集訓練出來的模型的好壞。模型訓練其實就是不斷的增加進入模型的樣本數據量,隨著樣本量的不斷增加,以上兩個步驟的結果也會不斷修正,變得越來越準確。
決策樹算法
SPSS提供了四種決策樹算法:CHAID、Exhaustive CHAID、CART和QUEST。它們在變量相關性的判定準則上有區別,下面我們簡要介紹下每種算法的特性。
CHAID,英文全稱為Chi-squaredAutomatic Interaction Detector,也就是卡方自動交互檢驗。從名稱就可以看出,該決策樹算法是以卡方檢驗為判定準則的。需要注意,CHAID方法的變量都是分類變量(因變量和自變量),如果有連續型變量,系統會自動將其轉換為分類變量。CHAID方法的決策樹生長過程分成兩個步驟:合併和分裂。軟體首先對每個自變量與因變量之間的相關性進行卡方檢驗,如果自變量中有的水平沒有顯著性差異,那麼就進行合併,然後再重新水平分類,直到自變量中所有的水平都有顯著性差異為止。接著就是分裂過程,也就是決策樹生長過程,考察重新水平分類後的自變量與因變量之間的相關性,決定自變量進入決策樹的順序,相關性由高到低依次進入,直到都有顯著性差異,不需要繼續分裂為止。
Exhaustive CHAID,窮舉卡方自動交互檢驗,是CHAID方法的改進算法。它與CHAID算法的主要區別在於合併步驟。CHAID在水平合併過程中,如果發現水平之間有顯著性差異,那麼就停止合併,而ExhaustiveCHAID則不同,它會考察所有水平之間的差異性,最終形成兩個大水平,然後再對兩個大水平進行分組,形成有差異的水平組。
CART,英文全稱為Classificationand Regression Trees,也就是分類與回歸樹。與CHAID和Exhaustive CHAID不同,CART決策樹在每個節點上的分支數都是兩支,並且CART算法的檢驗準則不是卡方值,而是採用了最大熵減小量或基尼係數減少量。
QUEST,英文全稱quickunbiased efficient statistical tree,也就是快速無偏有效統計樹。該算與CART一樣,都只能生成二叉樹,也就是每個節點的分支數只有兩個。QUEST算法的優勢在於能夠快速且不偏的建立決策樹。
總結一下
決策樹分析是一種通過歷史數據建立決策樹模型,然後用於分類結果判斷的分析方法。經常用在市場研究、信用風險分析、產品銷售策略研究等領域。模型建立後,可以非常方便的幫助業務人員對於結果的判斷,只需採集需要的研究對象屬性變量,代入模型計算即可;同時,模型還會隨著數據量的增大,數據的更新不斷修正。
決策樹分析是機器學習最基本的模型之一。因為模型設計的數學概念較多,草堂君在這裡不詳細介紹,這部分內容會在介紹數據挖掘技術時重點介紹。對於普通用戶來說,只需理解決策樹的概念,作用和宏觀分析思路即可;對於決策樹的四種算法,普通用戶可以通過對比結果準確性來選擇最合適自己的算法。
決策樹分析的SPSS應用會在下篇文章中推送。
溫馨提示: