隨機森林(Random Forest)

2021-01-18 算法愛好者
(點擊上方公眾號,可快速關注)


來源: Poll的筆記

cnblogs.com/maybe2030/p/4585705.html

如有好文章投稿,請點擊 → 這裡了解詳情


1 什麼是隨機森林?


作為新興起的、高度靈活的一種機器學習算法,隨機森林(Random Forest,簡稱RF)擁有廣泛的應用前景,從市場營銷到醫療保健保險,既可以用來做市場營銷模擬的建模,統計客戶來源,保留和流失,也可用來預測疾病的風險和病患者的易感性。最初,我是在參加校外競賽時接觸到隨機森林算法的。最近幾年的國內外大賽,包括2013年百度校園電影推薦系統大賽、2014年阿里巴巴天池大數據競賽以及Kaggle數據科學競賽,參賽者對隨機森林的使用佔有相當高的比例。此外,據我的個人了解來看,一大部分成功進入答辯的隊伍也都選擇了Random Forest 或者 GBDT 算法。所以可以看出,Random Forest在準確率方面還是相當有優勢的。


那說了這麼多,那隨機森林到底是怎樣的一種算法呢?


如果讀者接觸過決策樹(Decision Tree)的話,那麼會很容易理解什麼是隨機森林。隨機森林就是通過集成學習的思想將多棵樹集成的一種算法,它的基本單元是決策樹,而它的本質屬於機器學習的一大分支——集成學習(Ensemble Learning)方法。隨機森林的名稱中有兩個關鍵詞,一個是「隨機」,一個就是「森林」。「森林」我們很好理解,一棵叫做樹,那麼成百上千棵就可以叫做森林了,這樣的比喻還是很貼切的,其實這也是隨機森林的主要思想--集成思想的體現。「隨機」的含義我們會在下邊部分講到。


其實從直觀角度來解釋,每棵決策樹都是一個分類器(假設現在針對的是分類問題),那麼對於一個輸入樣本,N棵樹會有N個分類結果。而隨機森林集成了所有的分類投票結果,將投票次數最多的類別指定為最終的輸出,這就是一種最簡單的 Bagging 思想。


2 隨機森林的特點


我們前邊提到,隨機森林是一種很靈活實用的方法,它有如下幾個特點:


在當前所有算法中,具有極好的準確率/It is unexcelled in accuracy among current algorithms;

能夠有效地運行在大數據集上/It runs efficiently on large data bases;

能夠處理具有高維特徵的輸入樣本,而且不需要降維/It can handle thousands of input variables without variable deletion;

能夠評估各個特徵在分類問題上的重要性/It gives estimates of what variables are important in the classification;

在生成過程中,能夠獲取到內部生成誤差的一種無偏估計/It generates an internal unbiased estimate of the generalization error as the forest building progresses;

對於預設值問題也能夠獲得很好得結果/It has an effective method for estimating missing data and maintains accuracy when a large proportion of the data are missing

... ...


實際上,隨機森林的特點不只有這六點,它就相當於機器學習領域的Leatherman(多面手),你幾乎可以把任何東西扔進去,它基本上都是可供使用的。在估計推斷映射方面特別好用,以致都不需要像SVM那樣做很多參數的調試。具體的隨機森林介紹可以參見隨機森林主頁:Random Forest。


3 隨機森林的相關基礎知識


隨機森林看起來是很好理解,但是要完全搞明白它的工作原理,需要很多機器學習方面相關的基礎知識。在本文中,我們簡單談一下,而不逐一進行贅述,如果有同學不太了解相關的知識,可以參閱其他博友的一些相關博文或者文獻。


1)信息、熵以及信息增益的概念


這三個基本概念是決策樹的根本,是決策樹利用特徵來分類時,確定特徵選取順序的依據。理解了它們,決策樹你也就了解了大概。


引用香農的話來說,信息是用來消除隨機不確定性的東西。當然這句話雖然經典,但是還是很難去搞明白這種東西到底是個什麼樣,可能在不同的地方來說,指的東西又不一樣。對於機器學習中的決策樹而言,如果帶分類的事物集合可以劃分為多個類別當中,則某個類(xi)的信息可以定義如下:



I(x)用來表示隨機變量的信息,p(xi)指是當xi發生時的概率。


熵是用來度量不確定性的,當熵越大,X=xi的不確定性越大,反之越小。對於機器學習中的分類問題而言,熵越大即這個類別的不確定性更大,反之越小。


信息增益在決策樹算法中是用來選擇特徵的指標,信息增益越大,則這個特徵的選擇性越好。


這方面的內容不再細述,感興趣的同學可以看 《信息&熵&信息增益》 這篇博文。


2)決策樹


決策樹是一種樹形結構,其中每個內部節點表示一個屬性上的測試,每個分支代表一個測試輸出,每個葉節點代表一種類別。常見的決策樹算法有C4.5、ID3和CART。


3)集成學習 


集成學習通過建立幾個模型組合的來解決單一預測問題。它的工作原理是生成多個分類器/模型,各自獨立地學習和作出預測。這些預測最後結合成單預測,因此優於任何一個單分類的做出預測。


隨機森林是集成學習的一個子類,它依靠於決策樹的投票選擇來決定最後的分類結果。你可以在這找到用python實現集成學習的文檔:Scikit 學習文檔。


4 隨機森林的生成


前面提到,隨機森林中有許多的分類樹。我們要將一個輸入樣本進行分類,我們需要將輸入樣本輸入到每棵樹中進行分類。打個形象的比喻:森林中召開會議,討論某個動物到底是老鼠還是松鼠,每棵樹都要獨立地發表自己對這個問題的看法,也就是每棵樹都要投票。該動物到底是老鼠還是松鼠,要依據投票情況來確定,獲得票數最多的類別就是森林的分類結果。森林中的每棵樹都是獨立的,99.9%不相關的樹做出的預測結果涵蓋所有的情況,這些預測結果將會彼此抵消。少數優秀的樹的預測結果將會超脫於芸芸「噪音」,做出一個好的預測。將若干個弱分類器的分類結果進行投票選擇,從而組成一個強分類器,這就是隨機森林bagging的思想(關於bagging的一個有必要提及的問題:bagging的代價是不用單棵決策樹來做預測,具體哪個變量起到重要作用變得未知,所以bagging改進了預測準確率但損失了解釋性。)。下圖可以形象地描述這個情況:



有了樹我們就可以分類了,但是森林中的每棵樹是怎麼生成的呢?


每棵樹的按照如下規則生成:


1. 如果訓練集大小為N,對於每棵樹而言,隨機且有放回地從訓練集中的抽取N個訓練樣本(這種採樣方式稱為bootstrap sample方法),作為該樹的訓練集;


從這裡我們可以知道:每棵樹的訓練集都是不同的,而且裡面包含重複的訓練樣本(理解這點很重要)。


為什麼要隨機抽樣訓練集?


如果不進行隨機抽樣,每棵樹的訓練集都一樣,那麼最終訓練出的樹分類結果也是完全一樣的,這樣的話完全沒有bagging的必要;


為什麼要有放回地抽樣?


我理解的是這樣的:如果不是有放回的抽樣,那麼每棵樹的訓練樣本都是不同的,都是沒有交集的,這樣每棵樹都是"有偏的",都是絕對"片面的"(當然這樣說可能不對),也就是說每棵樹訓練出來都是有很大的差異的;而隨機森林最後分類取決於多棵樹(弱分類器)的投票表決,這種表決應該是"求同",因此使用完全不同的訓練集來訓練每棵樹這樣對最終分類結果是沒有幫助的,這樣無異於是"盲人摸象"。


2. 如果每個樣本的特徵維度為M,指定一個常數m<<M,隨機地從M個特徵中選取m個特徵子集,每次樹進行分裂時,從這m個特徵中選擇最優的;


3. 每棵樹都盡最大程度的生長,並且沒有剪枝過程。


一開始我們提到的隨機森林中的「隨機」就是指的這裡的兩個隨機性。兩個隨機性的引入對隨機森林的分類性能至關重要。由於它們的引入,使得隨機森林不容易陷入過擬合,並且具有很好得抗噪能力(比如:對預設值不敏感)。


隨機森林分類效果(錯誤率)與兩個因素有關:



減小特徵選擇個數m,樹的相關性和分類能力也會相應的降低;增大m,兩者也會隨之增大。所以關鍵問題是如何選擇最優的m(或者是範圍),這也是隨機森林唯一的一個參數。


5 袋外錯誤率(oob error)


上面我們提到,構建隨機森林的關鍵問題就是如何選擇最優的m,要解決這個問題主要依據計算袋外錯誤率oob error(out-of-bag error)。


隨機森林有一個重要的優點就是,沒有必要對它進行交叉驗證或者用一個獨立的測試集來獲得誤差的一個無偏估計。它可以在內部進行評估,也就是說在生成的過程中就可以對誤差建立一個無偏估計。


我們知道,在構建每棵樹時,我們對訓練集使用了不同的bootstrap sample(隨機且有放回地抽取)。所以對於每棵樹而言(假設對於第k棵樹),大約有1/3的訓練實例沒有參與第k棵樹的生成,它們稱為第k棵樹的oob樣本。


而這樣的採樣特點就允許我們進行oob估計,它的計算方式如下:


對每個樣本,計算它作為oob樣本的樹對它的分類情況(約1/3的樹);

然後以簡單多數投票作為該樣本的分類結果;

最後用誤分個數佔樣本總數的比率作為隨機森林的oob誤分率。


oob誤分率是隨機森林泛化誤差的一個無偏估計,它的結果近似於需要大量計算的k折交叉驗證。


6 隨機森林工作原理解釋的一個簡單例子


描述:根據已有的訓練集已經生成了對應的隨機森林,隨機森林如何利用某一個人的年齡(Age)、性別(Gender)、教育情況(Highest Educational Qualification)、工作領域(Industry)以及住宅地(Residence)共5個欄位來預測他的收入層次。


收入層次 :


Band 1 : Below $40,000

Band 2: $40,000 – 150,000

Band 3: More than $150,000


隨機森林中每一棵樹都可以看做是一棵CART(分類回歸樹),這裡假設森林中有5棵CART樹,總特徵個數N=5,我們取m=1(這裡假設每個CART樹對應一個不同的特徵)。



 我們要預測的某個人的信息如下:


Age : 35 years ; 2. Gender : Male ; 3. Highest Educational Qualification : Diploma holder; 4. Industry : Manufacturing; 5. Residence : Metro.


根據這五棵CART樹的分類結果,我們可以針對這個人的信息建立收入層次的分布情況:



最後,我們得出結論,這個人的收入層次70%是一等,大約24%為二等,6%為三等,所以最終認定該人屬於一等收入層次(小於$40,000)。


7 隨機森林的Python實現


利用Python的兩個模塊,分別為pandas和scikit-learn來實現隨機森林。


from sklearn.datasets import load_irisfrom sklearn.ensemble import RandomForestClassifierimport pandas as pdimport numpy as npiris = load_iris()df = pd.DataFrame(iris.data, columns=iris.feature_names)df['is_train'] = np.random.uniform(0, 1, len(df)) <= .75df['species'] = pd.Factor(iris.target, iris.target_names)df.head()train, test = df[df['is_train']==True], df[df['is_train']==False]features = df.columns[:4]clf = RandomForestClassifier(n_jobs=2)y, _ = pd.factorize(train['species'])clf.fit(train[features], y)preds = iris.target_names[clf.predict(test[features])]pd.crosstab(test['species'], preds, rownames=['actual'], colnames=['preds'])


分類結果:



與其他機器學習分類算法進行對比:


import numpy as npimport matplotlib.pyplot as pltfrom matplotlib.colors import ListedColormapfrom sklearn.cross_validation import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.datasets import make_moons, make_circles, make_classificationfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.svm import SVCfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.ensemble import RandomForestClassifier, AdaBoostClassifierfrom sklearn.naive_bayes import GaussianNBfrom sklearn.lda import LDAfrom sklearn.qda import QDAh = .02 # step size in the meshnames = ["Nearest Neighbors", "Linear SVM", "RBF SVM", "Decision Tree",         "Random Forest", "AdaBoost", "Naive Bayes", "LDA", "QDA"]classifiers = [    KNeighborsClassifier(3),    SVC(kernel="linear", C=0.025),    SVC(gamma=2, C=1),    DecisionTreeClassifier(max_depth=5),    RandomForestClassifier(max_depth=5, n_estimators=10, max_features=1),    AdaBoostClassifier(),    GaussianNB(),    LDA(),    QDA()]X, y = make_classification(n_features=2, n_redundant=0, n_informative=2,                           random_state=1, n_clusters_per_class=1)rng = np.random.RandomState(2)X += 2 * rng.uniform(size=X.shape)linearly_separable = (X, y)datasets = [make_moons(noise=0.3, random_state=0),            make_circles(noise=0.2, factor=0.5, random_state=1),            linearly_separable            ]figure = plt.figure(figsize=(27, 9))i = 1# iterate over datasetsfor ds in datasets:    # preprocess dataset, split into training and test part    X, y = ds    X = StandardScaler().fit_transform(X)    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.4)    x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5    y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),                         np.arange(y_min, y_max, h))    # just plot the dataset first    cm = plt.cm.RdBu    cm_bright = ListedColormap(['#FF0000', '#0000FF'])    ax = plt.subplot(len(datasets), len(classifiers) + 1, i)    # Plot the training points    ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright)    # and testing points    ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright, alpha=0.6)    ax.set_xlim(xx.min(), xx.max())    ax.set_ylim(yy.min(), yy.max())    ax.set_xticks(())    ax.set_yticks(())    i += 1    # iterate over classifiers    for name, clf in zip(names, classifiers):        ax = plt.subplot(len(datasets), len(classifiers) + 1, i)        clf.fit(X_train, y_train)        score = clf.score(X_test, y_test)        # Plot the decision boundary. For that, we will assign a color to each        # point in the mesh [x_min, m_max]x[y_min, y_max].        if hasattr(clf, "decision_function"):            Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()])        else:            Z = clf.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]        # Put the result into a color plot        Z = Z.reshape(xx.shape)        ax.contourf(xx, yy, Z, cmap=cm, alpha=.8)        # Plot also the training points        ax.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap=cm_bright)        # and testing points        ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, cmap=cm_bright,                   alpha=0.6)        ax.set_xlim(xx.min(), xx.max())        ax.set_ylim(yy.min(), yy.max())        ax.set_xticks(())        ax.set_yticks(())        ax.set_title(name)        ax.text(xx.max() - .3, yy.min() + .3, ('%.2f' % score).lstrip('0'),                size=15, horizontalalignment='right')        i += 1figure.subplots_adjust(left=.02, right=.98)plt.show()



這裡隨機生成了三個樣本集,分割面近似為月形、圓形和線形的。我們可以重點對比一下決策樹和隨機森林對樣本空間的分割:


從準確率上可以看出,隨機森林在這三個測試集上都要優於單棵決策樹,90%>85%,82%>80%,95%=95%;

從特徵空間上直觀地可以看出,隨機森林比決策樹擁有更強的分割能力(非線性擬合能力)。


更多有關隨機森林的代碼:


Fortran版本

OpenCV版本

Matlab版本

R版本



覺得本文有幫助?請分享給更多人

關注「算法愛好者」,修煉編程內功

相關焦點

  • 隨機森林RandomForest挖掘生物標記預測分類
    隨機森林簡介如果讀者接觸過決策樹(Decision Tree)的話,那麼會很容易理解什麼是隨機森林。
  • R語言 | randomForest包的隨機森林回歸模型以及對重要變量的選擇
    的隨機森林回歸模型以及對重要變量的選擇關於隨機森林(random forest),前文「隨機森林分類以及對重要變量的選擇」中已經對其基本原理作了簡單概括。通過R包randomForest的隨機森林執行回歸  對於隨機森林應用在類別型響應變量中的分類功能,前文「隨機森林分類模型以及對重要變量的選擇」中,已經以R包randomForest中的方法為例展示了如何通過隨機森林構建分類預測模型(分類模型的訓練和測試),以及篩選對區分已知分類具有高度鑑別模式的變量組合(評估變量的相對重要性)。
  • R語言實現隨機森林randomForest
    隨機森林是一個樹形分類器的集合。
  • 隨機森林(Random Forest)算法原理
    Leo Breiman和Adele Cutler發展出推論出隨機森林的算法。而 "RandomForests" 是他們的商標。這個術語是1995年由貝爾實驗室的Tin Kam Ho所提出的隨機決策森林(random decisionforests)而來的。
  • 機器學習:R語言實現隨機森林
    R包randomForest的隨機森林分類模型以及對重要變量的選擇隨機森林(random forest)是一種組成式的有監督學習方法,可視為決策樹的擴展。隨機森林通過對對象和變量進行抽樣構建預測模型,即生成多個決策樹,並依次對對象進行分類。最後將各決策樹的分類結果匯總,所有預測類別中的眾數類別即為隨機森林所預測的該對象的類別,分類準確率提升。
  • 用Python實現隨機森林算法
    隨機森林算法(Random forest algorithm)是對 bagging 算法的擴展。除了仍然根據從訓練數據樣本建立複合模型之外,隨機森林對用做構建樹(tree)的數據特徵做了一定限制,使得生成的決策樹之間沒有關聯,從而提升算法效果。本文章旨在探討如何用 Python 實現隨機森林算法。
  • 【乾貨】隨機森林的Python實現
    【新智元導讀】在機器學習中,隨機森林是一個包含多個決策樹的分類器,並且其輸出的類別是由個別樹輸出的類別的眾數而定。隨機森林幾乎是任何預測類問題(甚至非線性問題)的首選。本文介紹了隨機森林的原理、用途,以及用 Python 實現隨機森林的方法。
  • 機器學習十大經典算法之隨機森林
    隨機森林簡介隨機森林是機器學習一種常用的方法。它是以決策樹為基礎,用隨機的方式排列建立的,森林裡每個決策樹之間都是沒有關聯的。 在得到森林之後,當有一個新的輸入樣本進入的時候,就讓森林中的每一棵決策樹分別進行一下判斷,看看這個樣本應該屬於哪一類(對於分類算法),然後看看哪一類被選擇最多,就預測這個樣本為那一類。隨機森林可以用來進行無監督學習聚類和異常點檢測。
  • JavaScript用Math.random()生成隨機數
    基本概念顧名思義,Math.random()方法就是用於生成隨機數的,因為單詞random的意思正是「隨機的」。該方法生成的結果是 [0, 1) 範圍內的浮點數,注意這是一個左閉右開的區間,即該區間包含0而不包含1。官方文檔指出Math.random()方法生成的隨機數在該區間上要大致符合均勻分布。Math.random()的語法結構如下所示,可以看出它是沒有參數的。
  • GPU上的隨機森林:比Apache Spark快2000倍
    隨機森林是一種機器學習算法,以其魯棒性、準確性和可擴展性而受到許多數據科學家的信賴。該算法通過bootstrap聚合訓練出多棵決策樹,然後通過集成對輸出進行預測。由於其集成特徵的特點,隨機森林是一種可以在分布式計算環境中實現的算法。樹可以在集群中跨進程和機器並行訓練,結果比使用單個進程的訓練時間快得多。
  • 一文看懂隨機森林 - Random Forest(附 4 個構造步驟+4 種實現方式評測+10 個優缺點)
    本文將介紹隨機森林的基本概念、4 個構造步驟、4 種方式的對比評測、10 個優缺點和 4 個應用方向。什麼是隨機森林?隨機森林屬於 集成學習 中的 Bagging(Bootstrap AGgregation 的簡稱) 方法。如果用圖來表示他們之間的關係如下:
  • 理解隨機森林:基於Python的實現和解釋
    隨機森林也可以在每個節點考慮所有特徵來進行訓練。(在 Scikit-Learn 隨機森林實現中,這些選項是可調控的。)如果你理解了單個決策樹、bagging 決策樹、特徵的隨機子集,那你就可以很好地理解隨機森林的工作方式了。
  • python隨機函數random分配應用,隨機分配8名老師到3個教室中
    羽憶教程最近遇到一個問題,要隨機分配8名老師到3個辦公室中,這時小編想要了python中的隨機函數random來進行分配工作,感覺小編像個月老一樣。,就需要使用到python隨機函數random。而在這個項目中,我們需要使用到生成數字1到3範圍內的隨機數,即通過導入random模塊後,根據random.randint(1,3)隨機生成一個1到3的整數。下面開始實操。
  • 具有貝葉斯優化的XGBoost和隨機森林
    XGBoost(XGB)和隨機森林(RF)都是集成學習方法,並通過組合各個決策樹的輸出(我們假設基於樹的XGB或RF)來預測(分類或回歸)。隨機森林隨機森林(RF)使用隨機數據樣本獨立訓練每棵樹。這種隨機性有助於使模型比單個決策樹更健壯。由於RF不太可能過度擬合訓練數據。隨機森林應用示例隨機森林差異性已被用於各種應用,例如,基於組織標記數據找到患者群。
  • ...詳解線性回歸、樸素貝葉斯、隨機森林在R和Python中的實現應用...
    監督式學習的例子有:回歸(Regression)、決策樹(Decision Tree)、隨機森林(Random Forest)、K最近鄰(KNN)、邏輯回歸(Logistic Regression)等等。
  • 詳解線性回歸、樸素貝葉斯、隨機森林在R和Python中的...
    監督式學習的例子有:回歸(Regression)、決策樹(Decision Tree)、隨機森林(Random Forest)、K最近鄰(KNN)、邏輯回歸(Logistic Regression)等等。
  • Python3中常用模塊-random模塊
    random是Python中與隨機數相關的模塊,其本質就是一個偽隨機數生成器,我們可以利用random模塊基礎生成各種不同的隨機數,以及一些基於隨機數的操作。
  • 「創刊25周年專刊論文推薦」煤粉富氧燃燒著火溫度預測的優化隨機...
    由於煤粉組成、粒徑和氣氛對煤粉著火溫度的影響複雜,因而採用高精度和魯棒性強的隨機森林模型方法,結合已有文獻的著火溫度數據,建立了煤粉富氧燃燒著火溫度模型,定量分析煤粉組成對著火溫度的影響。作者彭 潮1,蘭彥冰1,鄒 春1,蔡 磊2作者單位1. 華中科技大學 煤燃燒國家重點實驗室2.
  • Python語言程序設計筆記——第四周random庫
    random庫是使用隨機數的Python標準庫作用:生成隨機數原理:採用梅森旋轉算法生成的(偽)隨機序列中元素使用方法:import randomrandom庫包括兩類函數,常用共8個基本隨機數函數:seed(), random()擴展隨機數函數:randint(), getrandbits