超級乾貨 :一文讀懂集成學習(附學習資源)

2022-01-03 數據分析

  

Stacking 就像是 Bagging的升級版,Bagging中的融合各個基礎分類器是相同權重,而Stacking中則不同,Stacking中第二層學習的過程就是為了尋找合適的權重或者合適的組合方式。

  

值得注意的是,在Stacking的架構下,有一些經常出現的說法如Stacking, Blending , Stacked Generalization 很多文章也沒有明確說明他們之間的關係。

  

如果不嚴格來區分的話,可以認為堆疊(Stacking),混合(Blending)和層疊泛化(Stacked Generalization)其實是同一種算法的不同名字罷了。在傳統的集成學習中,我們有多個分類器試圖適應訓練集來近似目標函數。 由於每個分類器都有自己的輸出,我們需要找到一個組合結果的組合機制,可以通過投票(大多數勝利),加權投票(一些分類器具有比其他權力更多的權威),平均結果等。

在堆疊中,組合機制是分類器(0級分類器)的輸出將被用作另一個分類器(1級分類器)的訓練數據,以近似相同的目標函數。基本上,讓1級分類器找出合併機制。

Stacking, Blending and and Stacked Generalization are all the same thing with different names. It is a kind of ensemble learning. In traditional ensemble learning, we have multiple classifiers trying to fit to a training set to approximate the target function. Since each classifier will have its own output, we will need to find a combining mechanism to combine the results. This can be through voting (majority wins), weighted voting (some classifier has more authority than the others), averaging the results, etc.

關於Stacking與Blending更多的細節可以參考 KAGGLE ENSEMBLING GUIDE,中文 kaggle比賽集成指南@qjgods(http://blog.csdn.net/a358463121/article/details/53054686)

另眼觀世界

  

最後我們也可以按照林軒田老師課程中的講述來對機器學習集成算法做一個歸納。集成模型主要分為兩條主線,一條Blending 線,一條 Learning線。Blending 假設我們已經得到了各個基礎分類器 ,learning 主要指我們面對的是一堆數據,需要一邊獲得基礎分類器 ,同時一邊學習融合它們的方法。

相關焦點

  • 沙龍乾貨|58同城-深度學習平臺資源使用率優化實踐
    一、深度學習平臺介紹58同城深度學習平臺是集開發實驗、模型訓練和在線預測為一體的一站式算法研發平臺,旨在為集團各業務部門賦能AI算法研發能力,支撐了58同城搜索、推薦、圖像、NLP、語音、風控等AI應用。
  • 【人工智慧選股系列】Stacking集成學習
    本文參考:華泰證券《人工智慧選股之stacking集成學習》採用的數據指標為社區的多因子系列之一的因子庫的因子,包括估值因子,規模因子,槓桿因子,技術因子,動量因子,成長因子,市值因子,因變量為下個月的漲跌幅情況。
  • 獨家 | 一文讀懂Hadoop(三):Mapreduce
    讀者可以通過閱讀「一文讀懂Hadoop」系列文章,對Hadoop技術有個全面的了解,它涵蓋了Hadoop官網的所有知識點,並且通俗易懂,英文不好的讀者完全可以通過閱讀此篇文章了解Hadoop。本期獨家內容「一文讀懂Hadoop」系列文章先介紹Hadoop,繼而分別詳細介紹HDFS、MAPREDUCE、YARN的所有知識點,分為四期內容在近幾天推送。敬請關注後續內容。
  • 深度學習中的正則化技術概述(附Python+keras實現代碼)
    使用Keras進行深度學習:(一)Keras 入門目錄什麼是正則化? 所以每次迭代都有一組不同的節點,這導致了一組不同的輸出。它也可以被認為是機器學習中的集成技術(ensemble technique)。集成模型通常比單一模型表現得更好,因為它們捕獲更多的隨機表達。
  • 集成模型(三)Stacking和超級集成
    ,下半部分的線性分類器作為元學習器。實際上可以通過某種集成策略,充分地利用它們,且該信息應該可以被繼續利用以修正或改進預測圖11-20顯示了利用折外估計的集成方法,是表11-3示例的一個細化,也是Stacking思想的一種實現,論文 稱之為超級學習器(Super Learner),也可稱為交叉驗證集成(Cross-Validation Ensemble
  • 深度學習中的3個秘密:集成,知識蒸餾和自蒸餾
    另一方面,在某些參數上,神經網絡權重可以保持非常接近他們的初始化(稱為neural tangent kernel、NTK,regime),以及由此產生的網絡僅僅是學習一個由完全隨機初始化決定的特定的特徵映射的線性函數。當將兩者結合起來時,我們可以推測深度學習中的集成與隨機特徵映射中的集成原理相同。
  • 深度學習最強資源推薦:一文看盡 GAN 的前世今生
    當 Ian Goodfellow 在 2014 年喝了一杯啤酒之後,在夢中產生了「生成對抗網絡」(GANs)的想法時,他可能沒想到這一領域進展如此之快:你可能不知道我要表達什麼意思——其實你剛才看到的圖片完全、不可否認、100%…是假的。
  • 一文掌握微波傳輸線基礎
    注釋2:文章部分圖片來自網絡,如有侵權,請聯繫告知微波傳輸線是微波工程的基礎,今天我們再來詳細學習一下微波傳輸線的基礎知識。目前常用的微波傳輸線包括平行雙線,同軸線,金屬波導,介質波導,微帶線,共面波導,基片集成波導等多種傳輸線形式,每一種傳輸線都有其適用範圍。如上圖所示,微波傳輸線的形式多種多樣,不同的結構應用場景也各有不同。我們下面一一介紹。
  • 集成學習之Stacking
    --wikiStacking是一種集成的機器學習算法,可以學習如何最好地組合來自多個機器學習模型的預測。和之前講的bagging不同的是,在stacking中包含不同的模型,而不是像bagging中那樣所有的predictor都是決策樹,stacking中不同的模型使用的是相同的數據集,而在bagging中使用的是訓練數據集的子樣本;stacking相較於boosting而言,在stacking中,一個模型是用來學習如何最好地結合不同模型的預測,而不是像在boosting中那樣,通過修正之前模型的預測結果來得到最終結果
  • AI Studio | 提供免費雲計算資源,深度學習也能零門檻
    為了讓每一位開發者都能平等便捷地獲取 AI 能力,百度 AI 最新推出了 AI Studio 一站式開發平臺:一個囊括了 AI 教程、代碼環境、算法算力、數據集,並提供免費的在線雲計算的一體化編程環境。
  • scikit-learn—集成學習方法
    集成方法的目標是把使用多個給定學習算法構建的基本估計器的預測結果結合起來,從而獲得比單個基本估計器更好的泛化能力/魯棒性
  • 黃龍保:申請知識變現系統暨《超級戰神申請書》
    ,我自願申請加入超級戰神特訓營,挑戰月入十萬/百萬的目標,為實現團隊倍增、收入倍增而改變,為創造健康、幸福的家庭而行動,為提升自身的榮譽而戰鬥。推薦你讀:(立即點擊下方藍字,即可自動進入)黃龍保:我坐過最貴的車是爸爸的肩膀黃龍保:如何讓孩子對學習上癮的10字秘訣附詳細操作步驟及解決方案
  • 高級運維學習進階指南!
    openstack的私有雲架構,能熟練操作紅帽openstack私有雲平臺8.學習紅帽ceph架構,並且在openstack私有雲中集成ceph存儲實現統一存儲▼▼▼我們的主講老師庚振源,現任世界500強外企雲計算架構師,是紅帽官方授權講師,具有多年一線實戰經驗及教學經驗。
  • 一文詳解深度學習中的Normalization:BN/LN/WN
    1.2 深度學習中的 Internal Covariate Shift深度神經網絡模型的訓練為什麼會很困難?其中一個重要的原因是,深度神經網絡涉及到很多層的疊加,而每一層的參數更新會導致上層的輸入數據分布發生變化,通過層層疊加,高層的輸入分布變化會非常劇烈,這就使得高層需要不斷去重新適應底層的參數更新。
  • 新教育學習資源
    👉    合一家塾英語突破    👈 👉     如何幫助孩子四個月突破英語     👈他們用了什麼樣的資源?>密碼:trw7E0044 恐龍列車https://pan.baidu.com/s/1ynDis9KEXTEs5Z6fpFWajQ密碼:2qedE0045 神奇書屋有聲書https://pan.baidu.com/s/18O3kGJYBYbT_X67VX3peFg密碼以上為學堂英語突破使用的英語學習材料的資源下載清單
  • 深度學習三大謎團:集成、知識蒸餾和自蒸餾
    將這兩者結合起來,可以推測深度學習集成與隨機特徵映射集成,在原理上是一致的。 主要原因在於,神經網絡是使用分層特徵學習,儘管每個模型𝐹𝑖有不同的初始化,但在每一層它們都擁有相同的特徵集合。因此,與單個模型相比,多個模型的平均模型,並沒有增加其特徵集合的大小。
  • sklearn學習(四):集成算法與隨機森林(附代碼)
    集成算法Ensemble learning目的:讓機器學習效果更好
  • 北亞校園學習資源一覽
    位於NAU校園中心位置的克萊恩圖書館 (Cline Library),藏書120萬冊,管理175個學術資源資料庫,為在校學生提供了豐富的學術資源。圖書館設有自習室、機房、報告廳、咖啡廳,還有3D列印設備等。學生不僅可以一次借閱百本以上的書籍,還可以免費租用筆記本電腦、GoPro相機等設備。
  • 超強深度學習性能! NVIDIA DGX-1超級計算機全面解讀
    搭載了Tesla V100的NVIDIA DGX-1超級計算機,就是專門為深度學習打造的高性能集成系統。DGX-1配有8個NVIDIA Tesla V100 GPU加速器,並通過NVIDIA NVLink技術互相連接,搭配雙路英特爾至強CPU及四塊100Gb InfiniBand網絡適配器,為深度學習訓練提供驚人的強大性能。
  • 深度學習中的3個秘密:集成,知識蒸餾和蒸餾
    另一方面,在某些參數上,神經網絡權重可以保持非常接近他們的初始化(稱為neural tangent kernel、NTK,regime),以及由此產生的網絡僅僅是學習一個由完全隨機初始化決定的特定的特徵映射的線性函數。當將兩者結合起來時,我們可以推測深度學習中的集成與隨機特徵映射中的集成原理相同。