理解AdaBoost算法

2021-03-02 SIGAI

AdaBoost看上去是一個腦洞大開想出來的算法，你可能會問：為什麼弱分類器的權重計算公式是這樣的？為什麼樣本權重的更新公式是這樣的？事實上，它們是有來歷的。我們可以用廣義加法模型+指數損失函數來推導出AdaBoost的訓練算法。

廣義加法模型擬合的目標函數是多個基函數的線性組合：

其中為基函數的參數，為基函數的權重係數。訓練時這個模型要確定的是基函數的參數和權重值。訓練的目標是最小化對所有樣本的損失函數：

訓練算法依次確定每個基函數的參數和它們的權重。接下來將從廣義加法模型推導出AdaBoost的訓練算法。首先定義強分類器對單個訓練樣本的損失函數：

這是指數損失函數。如果標籤值與強分類器的預測值越接近，損失函數的值越小，反之越大。使用指數損失函數而不用均方誤差損失函數的原因是均方誤差損失函數對分類問題的效果不好。將廣義加法模型的擬合函數代入指數損失函數中，得到算法訓練弱分類器時要優化的目標函數為：

這裡將指數函數拆成了兩部分，已有的強分類器，以及當前弱分類器對訓練樣本的損失函數，前者在之前的迭代中已經求出，可以看成常數。目標函數可以簡化為：

其中：

它只和前面的迭代得到的強分類器有關，與當前的弱分類器、弱分類器權重無關，這就是樣本權重。這個最優化問題可以分兩步求解，首先將看成常數，由於yi和f(xi)的取值只能為+1或-1，要讓上面的目標函數最小化，必須讓二者相等。因此損失函數對f(x)的最優解為：

其中I是指標函數，根據括號裡的條件是否成立其取值為0或1。上式的最優解是使得對樣本的加權誤差率最小的分類器。得到弱分類器之後，優化目標可以表示成的函數：

上式前半部分是被正確分類的樣本，後半部分是被錯誤分類的樣本。這可以寫成：

具體推導過程為：

函數在極值點的導數為0，即：

由此得到關於的方程：

最優解為：

其中errj為弱分類器對訓練樣本集的加權錯誤率：

對逼近函數做如下更新：

導致下次迭代時樣本的權重為：

這就是樣本權重的更新公式。AdaBoost訓練算法就是求解上述最優化問題的過程。

相關焦點

AdaBoost算法詳解以及代碼實現

這篇博客主要解釋AdaBoost的算法詳情以及實現。它可以理解為是首個「boosting」方式的集成算法。是一個關注二分類的集成算法。一、算法的總體情況AdaBoost的目標是建立如下的最終的分類器：其中，假設我們輸入的訓練數據總共有nn個，用(x_1,y_y),\cdots,(x_n,y_n)(x1,yy),⋯,(xn,yn)表示，其中xx是一個多為向量，而其對應的y=\{-1,1\}y={−1,1}。1.1、sign函數這裡的sign函數是符號函數。
AdaBoost--從原理到實現

2)可以使用各種方法構建子分類器，adaboost算法提供的是框架　　3)當使用簡單分類器時，計算出的結果是可以理解的。也許你對上面的ɛ1，ɑ1怎麼算的也不是很理解。下面我們算一下，不要嫌我囉嗦，我最開始就是這樣思考的，只有自己把算法演算一遍，你才會真正的懂這個算法的核心，後面我會再次提到這個。算法最開始給了一個均勻分布 D 。所以h1 裡的每個點的值是0.1。
比較全面的Adaboost算法總結(二)

Boosting算法基本原理2. Boosting算法的權重理解3. AdaBoost的算法流程4. AdaBoost算法的訓練誤差分析5. AdaBoost算法的解釋6. AdaBoost算法的過擬合問題討論7. AdaBoost算法的正則化8.
關於Adaboost算法

Adaboost是一種迭代算法，其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器)，然後把這些弱分類器集合起來，構成一個更強的最終分類器（強分類器）。一.引入對於Adaboost，可以說是久聞大名，據說在Deep Learning出來之前，SVM和Adaboost是效果最好的兩個算法，而Adaboost是提升樹(boosting tree)，所謂「提升樹」就是把「弱學習算法」提升(boost)為「強學習算法」(語自《統計學習方法》)，而其中最具代表性的也就是
Adaboost 算法的原理與推導

另外，AdaBoost算法不需要事先知道下界γ，AdaBoost具有自適應性，它能適應弱分類器各自的訓練誤差率。最後，Adaboost 還有另外一種理解，即可以認為其模型是加法模型、損失函數為指數函數、學習算法為前向分步算法的二類分類學習方法，下個月即12月份會再推導下，然後更新此文。而在此之前，有興趣的可以參看《統計學習方法》第8.3節或其它相關資料。
深入理解AdaBoost

為了詳細的理解這些原理，曾經看過西瓜書，統計學習方法，機器學習實戰等書，也聽過一些機器學習的課程，但總感覺話語裡比較深奧，讀起來沒有耐心，並且理論到處有，而實戰最重要，所以在這裡想用最淺顯易懂的語言寫一個白話機器學習算法理論+實戰系列。
【白話機器學習】算法理論+實戰之AdaBoost算法

寫在前面如果想從事數據挖掘或者機器學習的工作，掌握常用的機器學習算法是非常有必要的，常見的機器學習算法：監督學習算法：邏輯回歸，線性回歸，決策樹，樸素貝葉斯，K近鄰，支持向量機，集成算法Adaboost等無監督算法：聚類，降維，關聯規則, PageRank等為了詳細的理解這些原理
獨家 | 一文讀懂Adaboost

算法分析通過2.2算法的偽代碼我們可以分析一下Adaboost算法。分析算法的性能（收斂性、複雜度）：在此處的分析中，我們忽略基礎模型優化的複雜度，默認基礎模型是非常簡單的模型。前面已經說明了Adaboost算法其最終模型訓練集的誤差是有上確界的，也就是說該算法是確切可以收斂到誤差界的。這一點保證了Adaboost算法的可收斂性。算法的優劣勢：前面就Adaboost算法分析了這麼多，那麼它到底有哪些優勢，又有哪些不足呢？
通俗講解集成學習算法!

此外，這個分類器還可以處理高維數據，而且採用的是類似於樹這種形式，也特別直觀和便於理解。因此，決策樹是許多商業規則歸納系統的基礎。2. 樸素貝葉斯分類器素貝葉斯分類器是假設數據樣本特徵完全獨立，以貝葉斯定理為基礎的簡單概率分類器。3.
GBDT算法(詳細版)

GBDT是一個應用很廣泛的算法，可以用於分類，回歸和特徵選擇，特別是用於和其他算法進行模型組成時，如logistic+GBDT,該算法在很多數據上都有不錯的效果，GBDT還有其他的名字，如MART，GBRT和Tree Net等。
機器學習十大經典算法之AdaBoost

Boosting是一族算法，其主要目標為將弱學習器「提升」為強學習器，大部分Boosting算法都是根據前一個學習器的訓練效果對樣本分布進行調整，再根據新的樣本分布訓練下一個學習器，如此迭代M次，最後將一系列弱學習器組合成一個強學習器。而這些Boosting算法的不同點則主要體現在每輪樣本分布的調整方式上。
機器學習第九篇:詳解Adaboost算法

在概率近似正確學習的框架中(簡稱PAC)，一個概念（類），如果存在一個多項式的學習算法能夠學習它，並且正確率很高，那麼就稱這個概念是強可學習的；一個概念，如果存在一個多項式的學習算法能夠學習它，學習的正確率僅比隨機猜測略好，那麼就稱這個概念是弱可學習的。
輕鬆看懂機器學習十大常用算法

通過本篇文章可以對ML的常用算法有個常識性的認識，沒有代碼，沒有複雜的理論推導，就是圖解一下，知道這些算法是什麼，它們是怎麼應用的，例子主要是分類問題。每個算法都看了好幾個視頻，挑出講的最清晰明了有趣的，便於科普。以後有時間再對單個算法做深入地解析。
基於Adaboost算法的人臉檢測分類器!

主要包括主成分分析與特徵臉、神經網絡方法、支持向量機、隱馬爾可夫模型、Adaboost算法等。本文主要基於統計的方法，通過Adaboost算法和Haar特徵來構建Haar分類器，對人臉和非人臉進行分類。本文目錄 1. 算法要點 1.1. Haar分類器訓練步驟 1.2.
經典算法:徹底理解 Dijkstra 算法

，請參考：經典算法：Dijkstra 算法初探本文由單源最短路徑路徑問題開始，而後描述Bellman-Ford算法，到具體闡述Dijkstra算法，闡述詳細剖析Dijkstra算法的每一個步驟，教你徹底理解此Dijkstra算法。
深入理解EM算法

為了詳細的理解這些原理，曾經看過西瓜書，統計學習方法，機器學習實戰等書，也聽過一些機器學習的課程，但總感覺話語裡比較深奧，讀起來沒有耐心，並且理論到處有，而實戰最重要，所以在這裡想用最淺顯易懂的語言寫一個白話機器學習算法理論+實戰系列。
【AI】一文突破人工智慧AI十大算法

通過本篇文章大家可以對人工智慧AI的常用算法形成常識性的認識沒有代碼，沒有複雜的理論推導，僅是圖解，介紹這些算法是什麼以及如何應用（例子主要是分類問題）。以後有機會再對單個算法做深入地解析。今天的算法如下：決策樹隨機森林算法邏輯回歸SVM樸素貝葉斯K最近鄰算法K均值算法Adaboost 算法神經網絡馬爾可夫1.
輕鬆理解什麼是KMP算法

KMP算法內部涉及到的數學原理與知識太多，本文只會對 KMP算法的運行過程、部分匹配表、next數組進行介紹，如果理解了這三點再去閱讀其它有關 KMP算法的文章肯定能有個清晰的認識。以下的文字描述請結合視頻動畫來閱讀~定義Knuth-Morris-Pratt 字符串查找算法，簡稱為 KMP算法，常用於在一個文本串 S 內查找一個模式串 P 的出現位置。
「近水樓臺先得月」——理解KNN算法

在人工智慧領域，有一種算法，非常貼近上述的形象比喻，這就是KNN算法，即K最近鄰算法（K-NearestNeighbors，簡稱KNN），它是一個比較簡單的機器學習算法，也是一個理論上比較成熟的、運用基於樣本估計的最大後驗概率規則的判別方法。本文對KNN算法做一個通俗易懂的介紹，並通過python進行編碼示範，讓讀者朋友對該算法有較好的理解。
不能被算法理解的Homodeus

標題是《不能被算法理解的Homodeus》。今天我們說一個特別重大的題目，liberal arts。這個詞組的字面意思是「自由藝術」，但它說的並不是我們通常理解的「藝術」。我們通過文藝作品了解別人的視角、觀點和體驗，我們才能理解別人，進而理解自己。最起碼的一點，我能意識到自己的局限和渺小，知道我不是世界的中心！而同樣地，我也知道我沒必要圍繞著別人的中心轉。流行文化常常能吸引人去渴望某種生活，而真正的藝術，卻能讓人質疑那種生活。一切人文學科都是歷史學科，不了解過去就不理解現在的世界。你得知道這都是怎麼來的。

理解AdaBoost算法

相關焦點

AdaBoost算法詳解以及代碼實現

AdaBoost--從原理到實現

比較全面的Adaboost算法總結(二)

關於Adaboost算法

Adaboost 算法的原理與推導

深入理解AdaBoost

【白話機器學習】算法理論+實戰之AdaBoost算法

獨家 | 一文讀懂Adaboost

通俗講解集成學習算法!

GBDT算法(詳細版)

機器學習十大經典算法之AdaBoost

機器學習第九篇:詳解Adaboost算法

輕鬆看懂機器學習十大常用算法

基於Adaboost算法的人臉檢測分類器!

經典算法:徹底理解 Dijkstra 算法

深入理解EM算法

【AI】一文突破人工智慧AI十大算法

輕鬆理解什麼是KMP算法

「近水樓臺先得月」——理解KNN算法

不能被算法理解的Homodeus