實戰:用Python實現隨機森林

2021-01-08 阿里云云棲號

因為有Scikit-Learn這樣的庫,現在用Python實現任何機器學習算法都非常容易。實際上,我們現在不需要任何潛在的知識來了解模型如何工作。雖然不需要了解所有細節,但了解模型如何訓練和預測對工作仍有幫助。比如:如果性能不如預期,我們可以診斷模型或當我們想要說服其他人使用我們的模型時,我們可以向他們解釋模型如何做出決策的。

在本文中,我們將介紹如何在Python中構建和使用Random Forest,而不是僅僅顯示代碼,我將嘗試了解模型的工作原理。我將從一個簡單的單一決策樹開始,然後以解決現實世界數據科學問題的方式完成隨機森林。本文的完整代碼在GitHub上以Jupyter Notebook的形式提供。


理解決策樹

決策樹是隨機森林的構建塊,它本身就是個直觀的模型。我們可以將決策樹視為詢問有關我們數據問題的流程圖。這是一個可解釋的模型,因為它決定了我們在現實生活中的做法:在最終得出決定之前,我們會詢問有關數據的一系列問題。

決策樹的主要技術細節是如何構建有關數據的問題,決策樹是通過形成能夠最大限度減少基尼係數的問題而建立的。稍後我會討論Gini Impurity,但這意味著決策樹試圖形成儘可能純的節點,其中包含來自單個類的高比例樣本(數據點)的節點。

Gini Impurity和構建樹可能有點難以理解,所以首先讓我們構建一個決策樹,以便可以更好的理解它。


關於最簡單問題的決策樹

我們從一個非常簡單的二進位分類問題開始,如下所示:

我們的數據只有兩個特徵(標籤),且只有6個數據點。

雖然這個問題很簡單,但它不是線性可分的,這意味著我們不能通過數據繪製一條直線來對點進行分類。然而,我們可以繪製一系列劃分類的直線,這基本上是決策樹在形成一系列問題時將要做的事情。

要創建決策樹並在數據上訓練,我們可以使用Scikit-Learn:

在訓練過程中,我們為模型提供特徵和標籤,以便學習根據特徵對點進行分類。我們沒有針對這個簡單問題的測試集,但是在測試時,我們只給模型提供功能並讓它對標籤做出預測。

我們可以在訓練數據上測試我們模型的準確性:

我們看到它100%正確,這是我們所期望的,因為我們給了它訓練的答案。


可視化決策樹

當我們訓練決策樹時,實際上會發生什麼?我發現了解決策樹的最有用的方法是通過可視化,我們可以使用Scikit-Learn的功能(詳細信息請查看筆記本或本文)。

上圖顯示了決策樹的整個結構,除葉節點(終端節點)外,所有節點都有5個部分:

問題基於特徵值詢問數據:每個問題都有對或錯的答案。根據問題的答案,數據點在樹中移動。

Gini:節點的Gini雜質。當我們向下移動樹時,平均加權基尼係數必須減少。

samples:節點中的觀察數。

value:每個類的樣本數量。例如,頂部節點在類0中有2個樣本,在類1中有4個樣本。

class:節點中點的多數分類。在葉節點的情況下,這是對節點中所有樣本的預測。

葉節點沒有問題,因為這些是最終預測的地方。要對新節點進行分類,只需向下移動樹,使用點的特徵來回答問題,直到到達class預測的葉節點。你可以使用上面的點進行嘗試,或者進行不同的預測。


基尼係數

在這一點上,我們應該嘗試了解基尼係數。簡而言之,Gini Impurity是隨機選擇的樣本被節點中的樣本分布標記錯誤的概率。例如,在頂部(根)節點中,有44.4%錯誤的可能性根據節點中樣本標籤的分布對隨機選擇的數據點進行分類。我們可以使用下面這個等式得到這個值:

節點的Gini係數n是1減去每個J類的p_i平方的總和,讓我們計算出根節點的基尼係數。

在每個節點處,決策樹在要素中搜索要拆分的值,從而最大限度地減少基尼係數。(拆分節點的替代方法是使用信息增益)。

然後,它以遞歸過程重複此拆分過程,直到達到最大深度,或者每個節點僅包含來自一個類的樣本。每層樹的加權總基尼係數必須減少。在樹的第二層,總加權基尼係數值為0.333:

最後一層的加權總Gini係數變為0意味著每個節點都是純粹的,並且從該節點隨機選擇的點不會被錯誤分類。雖然這似乎是好結果,但這意味著模型可能過度擬合,因為節點僅使用是通過訓練數據構建的。


過度擬合:為什麼森林比一棵樹更好

你可能會想問為什麼不只使用一個決策樹?它似乎是完美的分類器,因為它沒有犯任何錯誤!記住這其中的關鍵點是樹在訓練數據上沒有犯錯。因為我們給樹提供了答案。機器學習模型的要點是很好地概括測試數據。不幸的是,當我們不限制決策樹的深度時,它往往會過度擬合。

當我們的模型具有高方差並且基本上記憶訓練數據時,一定會發生過度擬合。這意味著它可以很好地在訓練數據上,但由於測試數據不同,它將無法對測試數據做出準確的預測!我們想要的是一個能很好地學習訓練數據的模型,並且可以在其他數據集上發揮作用。當我們不限制最大深度時,決策樹容易過度擬合的原因是因為它具有無限的複雜性,這意味著它可以保持增長,直到它為每個單獨的觀察只有一個葉節點,完美地對所有這些進行分類。

要理解為什麼決策樹具有高差異,我們可以用一個人來考慮它。想像一下,你覺得明天蘋果股票會上漲,你會問一些分析師。每一位分析師都可能會有很大差異並且會嚴重依賴他們可以訪問的數據。一位分析師可能只閱讀親蘋果新聞,因此她認為價格會上漲,而另一位分析師最近從她的朋友那裡聽到蘋果產品的質量開始下降,她可能就認為價格會下降。這些個體分析師的差異很大,因為他們的答案極其依賴於他們所看到的數據。

因為每個分析師都可以訪問不同的數據,所以預計個體差異會很大,但整個集合的總體方差應該減少。使用許多個體本質上是隨機森林背後的想法:而不是一個決策樹,使用數百或數千個樹來形成一個強大的模型。(過度擬合的問題被稱為偏差-方差權衡,它是機器學習中的一個基本主題)。


隨機森林

隨機森林是許多決策樹組成的模型。這個模型不僅僅是一個森林,而且它還是隨機的,因為有兩個概念:

隨機抽樣的數據點;

基於要素子集拆分的節點;

隨機抽樣

隨機森林背後的關鍵是每棵樹在數據點的隨機樣本上訓練。樣本用替換(稱為bootstrapping)繪製,這意味著一些樣本將在一個樹中多次訓練。這個想法是通過對不同樣本的每棵樹進行訓練,儘管每棵樹相對於一組特定的訓練數據可能有很大的差異,但總體而言,整個森林的方差都很小。每個學習者在數據的不同子集上學習,然後進行平均的過程被稱為bagging,簡稱bootstrap aggregating。


用於拆分節點的隨機特徵子集

隨機森林背後的另一個關鍵點是,只考慮所有特徵的子集來分割每個決策樹中的每個節點。通常,這被設置為sqrt(n_features)意味著在每個節點處,決策樹考慮在特徵的樣本上分割總計特徵總數的平方根。考慮到每個節點的所有特徵,也可以訓練隨機森林。

如果你掌握單個決策樹、bagging決策樹和隨機特徵子集,那麼你就可以很好地理解隨機森林的工作原理。隨機森林結合了數百或數千個決策樹,在略微不同的觀察集上訓練每個決策樹,並且僅考慮有限數量的特徵來分割每個樹中的節點。隨機森林做出的最終預測是通過平均每棵樹的預測來做出的。


隨機森林實踐

與其他Scikit-Learn模型非常相似,在Python中使用隨機森林只需要幾行代碼。我們將構建一個隨機森林,但不是針對上面提到的簡單問題。為了將隨機森林與單個決策樹的能力進行對比,我們將使用分為訓練和測試的真實數據集。


數據集

我們要解決的問題是二進位分類任務。這些特徵是個人的社會經濟和生活方式特徵,標籤是健康狀況不佳為0和身體健康為1。此數據集是由中心疾病控制和預防收集,可以在這裡找到。這是一個不平衡的分類問題,因此準確性不是一個合適的指標。相反,我們將測量接收器工作特性區域曲線(ROC AUC),從0(最差)到1(最佳)的度量,隨機猜測得分為0.5。我們還可以繪製ROC曲線以評估模型性能。


該筆記本包含了決策樹和隨機森林的實現,但在這裡我們只專注於隨機森林。在讀取數據後,我們可以實現並訓練隨機森林如下:

在訓練幾分鐘後,準備好對測試數據進行如下預測:

我們進行類預測(predict)以及predict_proba計算ROC AUC所需的預測概率()。一旦我們進行了預測測試,我們就可以將它們與測試標籤進行比較,以計算出ROC AUC。


結果

最終的ROC AUC是隨機森林為0.87,而單一決策樹是0.67。如果我們查看訓練分數,我們注意到兩個模型都達到了1.0 ROC AUC,因為我們給這些模型提供了訓練答案,並沒有限制最大深度。然而,儘管隨機森林過度擬合,但它能夠比單一決策樹更好地推廣測試數據。

如果我們檢查模型,我們會看到單個決策樹達到最大深度55,總共12327個節點。隨機森林中的平均決策樹的深度為46和13396個節點。即使平均節點數較多,隨機森林也能更好地推廣!

我們還可以繪製單個決策樹(頂部)和隨機森林(底部)的ROC曲線。頂部和左側的曲線是更好的模型:

我們看到隨機森林明顯優於單一決策樹。我們可以採用模型的另一個診斷措施是繪製測試預測的混淆矩陣:


特徵重要性(Feature Importances)

隨機森林中的特徵重要性表示在該特徵上拆分的所有節點上Gini係數減少的總和。我們可以使用這些來嘗試找出隨機森林最重要的預測變量,同時也可以從訓練有素的隨機森林中提取特徵重要性,並將其放入Pandas數據框中,如下所示:

我們還可以通過刪除具有0或低重要性的特徵來使用特徵重要性來選擇特徵。


在森林中可視化樹

最後,我們可以在森林中可視化單個決策樹。這次,我們必須限制樹的深度,否則它將太大而無法轉換為圖像。為了製作我將最大深度限制為6,這仍然導致我們無法完全解析的大樹!


優化決策樹

下一步可能是通過隨機搜索和Scikit-Learn中的RandomizedSearchCV來優化隨機森林。

優化是指在給定數據集上找到模型的最佳超參數。最佳超參數將在數據集之間變化,因此我們必須在每個數據集上單獨執行優化(也稱為模型調整)。我喜歡將模型調整視為尋找機器學習算法的最佳設置。有關隨機森林模型優化的隨機搜索的實現,請參閱Jupyter Notebook。


結論

在本文中,我們不僅在Python中構建和使用了隨機森林,而且還對模型的進行了分析。

我們首先查看了一個單獨的決策樹,一個隨機森林的基本構建塊,然後我們看到了如何在一個集合模型中組合數百個決策樹。當與bagging特徵一起使用和隨機抽樣時,該集合模型被稱為隨機森林。從這篇文章中理解的關鍵概念是:

決策樹:直觀模型,根據詢問有關特徵值的問題流程圖做出決策,通過過度擬合訓練數據表示方差高。

Gini Impurity:衡量決策樹在拆分每個節點時嘗試最小化的度量。表示根據節點中樣本的分布對來自節點的隨機選擇的樣本進行分類的概率。

Bootstrapping:用替換的方式隨機觀察組進行採樣。隨機森林用於訓練每個決策樹的方法。

隨機的特徵子集:在考慮如何在決策樹中分割每個節點時選擇一組隨機特徵。

隨機森林:由數百或數千個決策樹組成的集合模型,使用自舉,隨機特徵子集和平均投票來進行預測。這是一個bagging整體的例子。

偏差-方差權衡:機器學習中的基本問題,描述了高複雜度模型之間的權衡,以採用最好的方式學習訓練數據,代價是無法推廣到測試數據以及簡單的模型(高偏見)甚至無法學習訓練數據。隨機森林減少了單個決策樹的方差,同時還準確地學習了訓練數據,從而更好地預測了測試數據。

希望本文為你提供了開始在項目中使用隨機森林所需的信心和理解。隨機森林是一種強大的機器學習模型,但這不應該阻止我們知道它是如何工作的!

相關焦點

  • 用Python實現隨機森林算法
    隨機森林算法(Random forest algorithm)是對 bagging 算法的擴展。除了仍然根據從訓練數據樣本建立複合模型之外,隨機森林對用做構建樹(tree)的數據特徵做了一定限制,使得生成的決策樹之間沒有關聯,從而提升算法效果。本文章旨在探討如何用 Python 實現隨機森林算法。
  • 大盤點:隨機森林的優缺點以及如何用Python解釋
    全文共1755字,預計學習時長3分鐘本文來自The Learning Machine——一個開放原始碼的新項目,該項目旨在為不同背景的人群創建交互式路線圖,其中包含對概念、方法、算法及其在Python或R中的代碼裡實現所有的解釋。
  • 從決策樹到隨機森林:樹型算法的原理與實現
    隨機森林模型雖然袋裝技術(Bagging)通過降低方差而提高了一般決策樹的預測性能,但它還遇到了其他缺點:Bagging 要求我們在自助樣本上生成整棵樹,這就增加了 B 倍計算複雜度。此外,因為基於 Bagging 的樹是相關聯的,預測精度會根據 B 而飽和。隨機森林通過隨機擾動而令所有的樹去相關,因此隨機森林要比 Bagging 性能更好。
  • 機器學習第一步,這是一篇手把手的隨機森林入門實戰
    本文則從最流行的隨機森林出發,手把手教你構建一個模型,它的完整流程到底是什麼樣的。作為數據科學家,我們可以通過很多方法來創建分類模型。最受歡迎的方法之一是隨機森林。我們可以在隨機森林上調整超參數來優化模型的性能。在用模型擬合之前,嘗試主成分分析(PCA)也是常見的做法。但是,為什麼還要增加這一步呢?難道隨機森林的目的不是幫助我們更輕鬆地理解特徵重要性嗎?
  • 出國必備,用python實現美元和人民幣的實時匯率兌換
    各個國家的流通貨幣是不同的,而當我們要出國時,就需要先算好貨幣之間的兌換,而羽憶教程下面為你介紹用python實現美元和人民幣之間的實時匯率兌換。python美元和人民幣匯率兌換python美元和人民幣匯率兌換匯率兌換是一個十分簡單的python程序,只需要知道其兌換的比例就可以輕鬆得出結果
  • 「python opencv視覺零基礎」十、圖片效果毛玻璃
    一、學習目標了解高斯模糊的使用方法了解毛玻璃的圖片效果添加了解如何自己做一個噪聲圖片目錄「python opencv 計算機視覺零基礎實戰」 第一節「python opencv視覺入門到實戰」二、格式與攝像頭「python opencv 視覺入門到實戰」 三、圖像編輯「python opencv視覺入門到實戰
  • 50行Python代碼實現經典遊戲,不僅是划水神器,更是學習利器!
    那麼,今天要介紹的這款Python項目就可以輕鬆實現你成為遊戲開發者的想法,實現前面提到的這些經典遊戲只需要50-100代碼即可完成。free-python-games和我們接觸的大多數Python庫那樣讓人如同壘積木一樣去實現一項功能不同,你需要去靜下心來死鎖一款遊戲的主題,同時需要去實現遊戲中的每一個策略。
  • 「python opencv視覺零基礎實戰」七邏輯運算應用
    一、學習目標了解opencv中圖像的邏輯運算了解opencv中邏輯運算的應用如有錯誤歡迎指出~目錄「python opencv 計算機視覺零基礎實戰」 第一節「python opencv視覺入門到實戰」二、格式與攝像頭「python opencv 視覺入門到實戰」 三、圖像編輯「python
  • 機器學習十大經典算法之隨機森林
    隨機森林簡介隨機森林是機器學習一種常用的方法。它是以決策樹為基礎,用隨機的方式排列建立的,森林裡每個決策樹之間都是沒有關聯的。4、 按照步驟1~3建立大量的決策樹,這樣就構成了隨機森林了。一開始我們提到的隨機森林中的「隨機」就是指的這裡的兩個隨機性。兩個隨機性的引入對隨機森林的分類性能至關重要。
  • python實現螞蟻森林自動「偷」能量
    但當時螞蟻森林的操作流程要比朋友圈點讚複雜很多,所以當時就沒有實現自動偷能量。有網友推薦了 appium 和 uiautomator2 這兩款工具,最近抽空研究了下,發現用 uiautomator2 的話這事簡單了好多,而且由於螞蟻森林改版,連續偷能量的操作流程也簡單了好多,於是乎我就實現了自動偷能量,效果如下,
  • 「python opencv 計算機視覺零基礎實戰」第一節
    前置條件說明:本系列opencv實戰教程將從基礎到實戰,若只是簡單學習完python也可以通過該教程完成一般的機器學習編程;文中將會對很多python的基礎內容進行講解,但由於文章定位的原因將不會贅述過多的基礎內容,基礎內容進行第一次講解後第二次將不會過多贅述,本文主要講解的是opencv相關知識。
  • 別再用PS了,我用五行Python代碼就實現了批量摳圖
    不過對於一些比較複雜的圖,有時候還是需要花點時間的,今天就給大家帶了一個非常快速簡單的辦法,用Python來批量摳取人像。效果展示剛開始,我也不看好什麼自動摳圖,總覺得不夠精確,摳不出滿意的圖。下面我就直接展示一下效果圖吧。
  • 代碼森林帶你實踐熱門編程書籍——《Python編程:從入門到實踐》
    代碼森林提供書籍相關實訓課程,無需自己安裝編程環境。代碼森林《Python編程:從入門到實踐》實訓課程介紹【課程內容】本課程主要介紹了Python編程所必須了解的基本概念,以及對pycharm基本使用系統的介紹;將理論付諸實踐,講解如何使用python的案例。
  • 用functools.lru_cache實現Python的Memoization
    Python部落(python.freelycode.com)組織翻譯,禁止轉載,歡迎轉發。
  • 15課python快遞編程代碼人Python語法簡單才會越來越被編程界歡迎
    明確項目目的分析流程,拆解項目逐步執行,代碼實現3.1 先能用3.2 再改進3.3 精細化節課的項目和上個項目難度差不多,從我們學習完函數之後,我們就可以做出一些有用的程序了。明確每個階段任務後,接下來我們逐步用代碼實現功能。江湖秘籍:%f是字符串格式化,格式字符串為浮點數,%.1f的意思是格式化字符串為浮點數,並且保留一位小數。
  • Python300本電子書強力贈送,你敢來我就敢送!
    Python機器學習實踐指南(中文版帶書籤)、原書代碼、數據集8. python官方文檔9. Python編程(第4版 套裝上下冊)10. linux11. 徵服PYTHON-語言基礎與典型應用.pdf12. 與孩子一起學編程_中文版_詳細書籤.pdf13. 用Python做科學計算.pdf14.
  • 教你用Python自製拼圖小遊戲,輕鬆搞定熊孩子
    教你用Python自製拼圖小遊戲,輕鬆搞定熊孩子 本文主要為大家詳細介紹了python實現拼圖小遊戲,文中還有示例代碼介紹,感興趣的小夥伴們可以參考一下。
  • python利用opencv實現證件照換底
    opencv今天就給大家介紹一下python利用opencv庫進行藍底換紅底或者白底照片的操作。它是一個跨平臺的計算機視覺庫,可以運行在不同作業系統上,它由一些列c函數和少量c++函數組成,並提供python,matlab等語言的接口,實現了圖像處理和計算機視覺方面的很多通用算法。我們這裡用的opencv-python 就是opencv的python API接口。
  • Python入門很簡單,只要掌握3456點
    也希望大家對學python能夠持之以恆 python愛好群, 要快速學會Python,謹記3456這四個數字就可以了。 Python基礎培訓要點 下面我來描述這四個數字的含義!
  • 使用Scikit-learn 理解隨機森林
    翻譯 | 汪鵬 校對 | 餘杭 整理 | 餘杭在我以前的一篇文章中,我討論了隨機森林如何變成一個「白箱子」,這樣每次預測就能被分解為各項特徵的貢獻和,即預測=偏差+特徵 1 貢獻+ ... +特徵 n 貢獻。