分 類模型:機器通過學習與訓練已有的數據,從而預測新數據的類別。分 類模型與回歸模型的相似之處: 都 可以對數據進行學習,並進行預測。 分 類模型與回歸模型的不同之處: 回 歸模型:預 測數字型變量,銷售額,廣告營銷等。分 類模型:預 測類別型的變量,分類任務是找到一個函數,把觀測值匹配到相關的類和標籤上,在 二 元分類 中 ,必須將數據分配在兩個類別中。如:用戶是否會使用消費券。分 類模型的主要使用場景: 1 、 信用評分,2 、 垃圾郵件預測。3 、 醫療診斷。4 、 用戶行為預測。總 結:將過去已經分類好的類別數據給到機器,讓他學習和訓練,從而可以預測新的數據的類 別。常 用的分類模型— —決策樹模型 優 點:建 模的流程與四看看流程很像,容易解讀,方便展示。模 型的結果可以直接落地為一些規則。方 便可視化展示。決 策樹模型的三個重要問題:
1 、 從那開始,即根節點的確立,對群 體影響最大的因素,使得組間的差異足夠 大 。 常 用信息增益、熵值、基尼係數來確定。 2 、 如何切分,將核心的變量轉變為類 別變量。3 、 核實結束,一開始設計好層級數, 避免層級過多,避免過擬合。