集成學習Bagging和Boosting簡述

2021-03-06 Python面面觀

集成學習是時下非常火爆的一款機器學習方法,是將多個弱分類器按照某種方式組合起來,形成一個強分類器,以此來獲得比單個模型更好的回歸和分類表現,其常用的方法有 Bagging 和 Boosting。

Bagging

把數據集通過有放回的抽樣方式,一次性建立多個平行獨立的弱評估器。針對分類問題,按照少數服從多數原則進行投票,針對回歸問題,求多個測試結果的平均值。其代表模型為隨機森林。

Boosting

Bagging 是以自適應的方法按順序一一學習這些弱學習器,即每個新學習器都依賴於前面的模型,並按照某種確定性的策略將它們組合起來 ,其核心思想是結合弱評估器的力量一次次對難以評估的樣本進行預測,從而構成一個強評估器。其代表算法為 AdaBoost 和 GBDT (梯度提升)。

AdaBoost 與 GBDT 的區別

AdaBoost

第一顆樹建模完成後,對模型進行評估,然後將模型預測錯誤的樣本反饋給我們的數據集,第一次迭代就算完成。在第二次有放回抽樣時,被給予前面錯誤預測的數據更高權重,簡單來說就是前面被判斷錯誤的樣本更有可能被我們抽中。

GBDT

第一顆樹建模完成後,把其殘差(真實值和預測值之間的差值)結果作為下一次預測依據,依次類推,直到殘差小於某個接近 0 的閥值或回歸樹數目達到某一閥值。其核心思想是每輪通過擬合殘差來降低損失函數。

Boosting 與 Bagging 的區別

評估器:Bagging 的基分類器訓練是獨立的,而 Boosting 的訓練集是依賴於之前的模型;

作用:Bagging 的作用是減少方差,提升模型的整體穩定性,而 Boosting 在於減少偏差,提高模型整體的精確度;

抽樣數據集:Bagging 是有放回抽樣,Boosting 也是有放回抽樣,但是會確認數據的權重。

相關焦點

  • 機器學習中集成學習(Bagging, Boosting和Stacking)簡介和示例
    什麼是集成方法?集成方法是通過建立一組獨立的機器學習模型,組合多個模型的預測對類標籤進行預測的方法。這種策略組合可以減少總誤差,包括減少方差和偏差,或者提高單個模型的性能。在這裡,我使用來自Kaggle的「紅酒質量」數據來演示集成方法。「Quality」是我們的目標變量。我唯一要做的預處理就是將10分制的評分轉換為3個分類級別,「 1」,「 2」和「 3」分別代表「好」,「中」和「差」。
  • 常用的模型集成方法介紹:bagging、boosting 、stacking
    本文將討論一些眾所周知的概念,如自助法、自助聚合(bagging)、隨機森林、提升法(boosting)、堆疊法(stacking)以及許多其它的基礎集成學習模型。 為了使所有這些方法之間的聯繫儘可能清晰,我們將嘗試在一個更廣闊和邏輯性更強的框架中呈現它們,希望這樣會便於讀者理解和記憶。
  • 常用的模型集成方法介紹:bagging、boosting、stacking
    本文將討論一些眾所周知的概念,如自助法、自助聚合(bagging)、隨機森林、提升法(boosting)、堆疊法(stacking)以及許多其它的基礎集成學習模型。為了使所有這些方法之間的聯繫儘可能清晰,我們將嘗試在一個更廣闊和邏輯性更強的框架中呈現它們,希望這樣會便於讀者理解和記憶。
  • 一文看懂集成學習(詳解 bagging、boosting 以及他們的 4 點區別)
    而集成學習就是將這些英雄組成團隊。實現「3 個臭皮匠頂個諸葛亮」的效果。本文將介紹集成學習的 2 種主要思路:bagging、boosting。什麼是集成學習?集成學習歸屬於機器學習,他是一種「訓練思路」,並不是某種具體的方法或者算法。現實生活中,大家都知道「人多力量大」,「3 個臭皮匠頂個諸葛亮」。
  • 從Boosting到Stacking,概覽集成學習的方法與性能
    正因為如此,集成方法在許多著名的機器學習比賽(如 Netflix、KDD 2009 和 Kaggle 比賽)中能夠取得很好的名次。集成方法是將幾種機器學習技術組合成一個預測模型的元算法,以達到減小方差(bagging)、偏差(boosting)或改進預測(stacking)的效果。
  • 集成學習算法與Boosting算法原理
    1 集成學習的概念集成學習(ensemble learning)從概念上講,它並不是一個單獨的機器學習算法,而是通過構建並結合多個機器學習器來完成學習任務。也就是我們常說的「博採眾長」。集成學習可以用於分類問題集成,回歸問題集成,特徵選取集成,異常點檢測集成等等,可以說所有的機器學習領域都可以看到集成學習的身影。從下圖,我們可以對集成學習的思想做一個概括。對於訓練集數據,我們通過訓練若干個個體學習器,通過一定的結合策略,就可以最終形成一個強學習器,以達到博採眾長的目的。
  • Boosting和Bagging: 如何開發一個魯棒的機器學習算法
    數據科學家需要真正理解數據和數據背後的過程,才能實現一個成功的系統。實現這個的一個關鍵方法是知道模型何時可以從使用bootstrapping中受益。這些就是所謂的集成模型。集成模型的例子有AdaBoost和隨機梯度提升。
  • 快速理解bootstrap、bagging、boosting
    Jackknife: 和上面要介紹的Bootstrap功能類似,只是有一點細節不一樣,即每次從樣本中抽樣時候只是去除幾個樣本(而不是抽樣),就像小刀一樣割去一部分。bagging:bootstrap aggregating的縮寫。
  • Bagging與隨機森林算法原理小結
    在集成學習原理小結中,我們講到了集成學習有兩個流派,一個是boosting派系,它的特點是各個弱學習器之間有依賴關係。
  • 算法大賽神器:集成學習方法關鍵點介紹
    因此,首先讓我們簡單地解釋一下集成學習,以了解它如何針對這些類型的誤差:集成學習是將不同的學習算法組合成一個預測模型的策略。它的核心方法在於「投票」,能夠起到「群眾智慧」或「團結就是力量」的目的。其主要思想是基於「集合更多的預測方法能夠建立一個更好的模型」。
  • 機器學習集成模型之Bagging
    本文的話題是機器學習集成模型中的Bagging及其典型算法隨機森林的原理。
  • 集成學習:機器學習兵器譜的「屠龍刀」
    本文作者認為,集成學習是一種立竿見影、從不過時的方法,堪稱機器學習兵器譜上排名第一的「屠龍刀」。作者在文章中介紹了集成學習的概念和發展,它有RF和GBDT兩大殺器,著重講解了嫁接法、集成半監督學習等最新進展,以及集成學習成功的關鍵。機器學習是一個大武林,這裡面江湖人士頗多,「發明」出來的算法兵器也是五花八門,浩瀚如海,足夠你數上三天兩夜了。
  • 快速弄懂機器學習裡的集成算法:原理、框架與實戰
    關於集成學習算法的框架體系集成學習算法作為機器學習裡的一個分支,已形成了一套的理論體系,其相關概念也比較多,如個體學習器、結合策略、bagging、AdaBoost算法、XGB、LGBT等等,讓初學者眼花繚亂,每個具體算法的原理不同又會讓大家暈頭轉向。實際上,這些繁多的內容背後,集成學習算法可以分成兩大框架,這也是集成學習著重解決的兩個算法。
  • (二)bagging 方法
    (二)bagging 方法(當前文章)在之前的文章中,你看到了不同的分類算法以及如何正確驗證和評估模型質量的技術。在這種情況下,你需要應用一些更高級的機器學習技術,其中有一種技術就是集成學習。集成學習是由一組共同分類器或者不同分類器來作為一個整體。舉個例子,比如一個音樂會,我們會同時演奏好幾種不同的樂器,來構成美妙的音樂,這個合奏的過程就是集成學習,我們來收集不同的音符,從而組裝成不同的美妙音樂。1. 集成法庭陪審團在某種意義上講就是一個集成學習。
  • 【集成學習系列】三、Bagging
    ,這個系列基本是對《集成學習》這本書的筆記和提煉,鼓勵大家有時間去看原書。」:串行生成基分類器的「串行集成方法」,代表為AdaBoost該方法的基本動機是利用基學習器之間的相關性,按殘差降低(residual-decreasing)方式提升集成的預測性能並行生成基分類器的「並行集成方法」,代表為Bagging
  • 常用機器學習算法的目前主要有深度學習領域的各種模型及框架
    當前,ai人才的招聘主要分為兩大類:計算機系統方向人才和算法方向人才。初期培養的人工智慧人才多數是計算機系統方向的,這是相對而言最好的情況。因為計算機系統的人才可以參與到ai算法的具體實現工作中,從而在不遠的將來實現對ai算法的自主化升級。同時,這類人才也可以參與一些集成方向的工作,如人工智慧商業智能。
  • 通俗講解集成學習算法!
    數據及背景  https://tianchi.aliyun.com/competition/entrance/531795/introduction(阿里天池-零基礎入門CV賽事)集成學習集成學習,即分類器集成,通過構建並結合多個學習器來完成學習任務。一般結構是:先產生一組「個體學習器」,再用某種策略將它們結合起來。結合策略主要有平均法、投票法和學習法等。
  • MLlib中的Random Forests和Boosting
    Random Forests和GBTs屬於ensemble learning algorithms(集成學習算法),通過組合多個決策樹來建立更為強大的模型。在本篇文章,我們將介紹這兩個模型和他們在MLlib中的分布式實現。同時,我們還會展示一些簡單的例子並建議該從何處上手。
  • 機器學習測試筆記(20)——集成學習
    10023427978355.html以前兩本書的網上購買地址:《軟體測試技術實戰設計、工具及管理》:https://item.jd.com/34295655089.html《基於Django的電子商務網站》:https://item.jd.com/12082665.html1.概念集成學習將多個訓練的基礎學習器進行結合