Stacking集成學習模型的構建、原理及回測

2021-03-06 復旦大學經濟學院EDP中心

在「Stacking集成學習中基模型的對比和選取」一章中,我們得出在全A選股情況下,XGBoost_6m以及邏輯回歸_6m最適合與XGBoost_72m進行Stacking集成,本節中,我們將依次展示以下模型的回測結果。

1.Stacking1:將XGBoost_6m和XGBoost_72m進行集成,驗證集數據為2個月。

2.Stacking2:將邏輯回歸_6m和XGBoost_72m進行集成,驗證集數據為2個月。

3.Stacking3:將XGBoost_6m和XGBoost_72m進行集成,驗證集數據為3個月。

4.Stacking4:將邏輯回歸_6m和XGBoost_72m進行集成,驗證集數據為3個月。

5.Stacking5:將XGBoost_6m和XGBoost_72m進行集成,驗證集數據為4個月。

6.Stacking6:將邏輯回歸_6m和XGBoost_72m進行集成,驗證集數據為4個月。

7.Stacking7:將XGBoost_6m,邏輯回歸_6m和XGBoost_72m進行集成,驗證集數據為2個月。

對照組模型:

1. XGBoost_72m

2. XGBoost_6m

3. 邏輯回歸_6m

其中,主要進行三組對比測試:

對比測試1:將Stacking1,Stacking2和對照組模型對比,主要觀察Stacking集成學習相比使用單一模型有哪些區別。

對比測試2:將Stacking1~ Stacking6模型進行對比,主要觀察不同基模型和不同驗證集數據長度對選股結果的影響。

對比測試3:將Stacking1,Stacking2,Stacking7進行對比,主要觀察Stacking中第一層基模型數量對選股結果的影響。

1.  對比測試1

對比測試1將Stacking1,Stacking2和對照組模型對比,主要觀察Stacking集成學習相比使用單一模型有哪些區別。

我們構建了全A選股策略並進行回測,各項指標詳見圖表23,選股策略是行業中性策略,策略組合的行業配置與基準(滬深300、中證500、中證全指)保持一致,各一級行業中選N個股票等權配置(N=2,3,4,5,6)。從圖表23可以看出,XGBoost_72m模型相比XGBoost_6m和邏輯回歸_6m在年化超額收益率和信息比率上有很大優勢,但是超額收益最大回撤更大。而Stacking1和Stacking2模型具有和XGBoost_72m相近的年化超收和信息比率並且超額收益最大回撤也較小,從而取得了最高的Calmar的比率。

圖表24展示了對比測試1中5種模型相對中證500的超額收益和回撤的走勢。可以看出,Stacking1和Stacking2模型在保持了較高的超額收益增長率的同時,有效地控制了超額收益回撤,2017年以來超額收益最大回撤在8%以內。

如果將模型的輸出視為單因子,則可以對該單因子進行IC值分析,圖表25和圖表26展示了5種模型輸出值的IC值分析結果,可以看出,2011年至今,Stacking1和Stacking2模型的IC值都比較穩定,表現接近XGBoost_72m。特別是在2015年至今,Stacking2模型表現最好,顯示出Stacking模型在預測能力方面相比單一模型的優勢。

對比測試1的結論為:Stacking集成學習有效結合了基模型的優點(XGBoost_72m的高收益、高信息比率,XGBoost_6m和邏輯回歸_6m的低回撤),在各項選股指標上都有不錯的表現。

2. 對比測試2

對比測試2將Stacking1~ Stacking6模型進行對比,主要觀察不同基模型和不同驗證集數據長度對選股結果的影響。

我們構建了全A選股策略並進行回測,各項指標詳見圖表27,選股策略是行業中性策略,策略組合的行業配置與基準(滬深300、中證500、中證全指)保持一致,各一級行業中選N個股票等權配置(N=2,3,4,5,6)。從圖表27可以看出,驗證集數據越長(Stacking5和Stacking6最長,Stacking1和Stacking2最短),年化超額收益率越大,但是超額收益最大回撤也越大,從Calmar比率的角度來看,Stacking2模型表現最好。各模型信息比率相差不大。

圖表28展示了對比測試2中6種模型相對中證500的超額收益和回撤的走勢。

如果將模型的輸出視為單因子,則可以對該單因子進行IC值分析,圖表29和圖表30展示了6種模型輸出值的IC值分析結果,從IR比率的角度來看,Stacking2和Stacking4模型表現最好。

從對比測試2中,可以得出兩個結論:

1.較短的驗證集數據長度(2個月)可以使得Stacking集成學習模型的超額收益最大回撤較小,Calmar比率較高。

2.相同的驗證集數據情況下,集成不同類模型的Stacking(XGBoost_72m和邏輯回歸_6m,對應Stacking2、Stacking4、Stacking6)要比集成相同類模型的Stacking(XGBoost_72m和XGBoost_6m,對應Stacking1、Stacking3、Stacking5)表現更好。

3. 對比測試3

對比測試3:將Stacking1,Stacking2,Stacking7進行對比,主要觀察Stacking中第一層基模型數量對選股結果的影響。

我們構建了全A選股策略並進行回測,各項指標詳見圖表31,選股策略是行業中性策略,策略組合的行業配置與基準(滬深300、中證500、中證全指)保持一致,各一級行業中選N個股票等權配置(N=2,3,4,5,6)。從圖表31可以看出,集成3個模型的Stacking(Stacking7)沒有比集成2個模型的Stacking(Stacking1和Stacking2)表現更好。

圖表32展示了對比測試3中3種模型相對中證500的超額收益和回撤的走勢。同樣可以看出,三種模型的表現相差無幾。

如果將模型的輸出視為單因子,則可以對該單因子進行IC值分析,圖表33和圖表34展示了3種模型輸出值的IC值分析結果,從IR比率的角度來看,Stacking2模型表現最好,三種模型的IC 值累積曲線相差無幾,Stacking2的IC 值累積曲線波動最小。

對比測試3的結論為:在本文研究的多因子選股領域,Stacking集成學習並非集成越多的基模型表現就越好,要達到更好的集成學習效果,需要各個基模型兩兩之間相關性低,且有足夠好的預測能力。

相關焦點

  • 常用的模型集成方法介紹:bagging、boosting、stacking
    本文將討論一些眾所周知的概念,如自助法、自助聚合(bagging)、隨機森林、提升法(boosting)、堆疊法(stacking)以及許多其它的基礎集成學習模型。為了使所有這些方法之間的聯繫儘可能清晰,我們將嘗試在一個更廣闊和邏輯性更強的框架中呈現它們,希望這樣會便於讀者理解和記憶。何為集成方法?集成學習是一種機器學習範式。
  • 集成學習(二)--Yeti/Radiorama
    其實音樂裡面不乏集成學習的影子,比如交響樂團的存在。為什麼這麼說呢?
  • 昆明植物所構建雲南咖啡醇厚度(Body)預測模型新技術
    咖啡風味品質是讓人著迷的關鍵,現已構建複雜的咖啡風味品質的感官杯測技術體系。美國精品咖啡協會(SCAA)的杯測規程和風味指標,其中十個指標是香氣(幹香/溼香)、風味、餘韻、酸度、醇厚度、乾淨度、一致性、甜度、均衡度和整體評價。
  • 原理+代碼|Python實戰多元線性回歸模型
    文章來源: 早起Python作者:蘿蔔前言「多元線性回歸模型」非常常見,是大多數人入門機器學習的第一個案例,儘管如此,裡面還是有許多值得學習和注意的地方。其中多元共線性這個問題將貫穿所有的機器學習模型,所以本文會「將原理知識穿插於代碼段中」,爭取以不一樣的視角來敘述和講解「如何更好的構建和優化多元線性回歸模型」。
  • 深入理解推薦系統:特徵交叉組合模型演化簡史
    但FM是顯示構建的特徵交叉,是以向量級(vector-wise)的方式構構建的DNN—隱式—bit-wise級的特徵交叉FM—顯示—vector-wise級的特徵交叉論文:  Factorization MachinesFM是一種通用的預測方法,在即使數據非常稀疏的情況下,依然能估計出可靠的參數進行預測。
  • 惠斯通電橋的測量原理_惠斯通電橋原理是怎樣測電阻的
    打開APP 惠斯通電橋的測量原理_惠斯通電橋原理是怎樣測電阻的 發表於 2017-12-20 17:25:13   惠斯通電橋
  • 清華大學發布全球首個開源自動圖學習工具包:AutoGL
    AutoGL Solver 使用四個主要模塊自動化解決給定任務,分別是特徵工程(Feature Engineering)、圖學習模型(Graph Learning Model)、超參數優化(HPO),以及模型自動集成(Auto Ensemble)。每個部分在設計時都引入了對圖數據特殊性的考慮。
  • 技術中臺應用集成架構之移動微應用集成
    它也是一個集成業務中臺、數據中臺的使用者,而微應用集成是企業門戶之中重中之重的一環,接下來讓我們一起了解微應用的集成方式。   目錄:   1。應用集成架構簡介   2。移動微應用平臺架構分析   3。
  • 提升認知的奧秘:把第一性原理的認知模型,內置到大腦,形成本能
    偷懶的大腦叢林環境的現實是能量總是不足的,因此,一切的能力的構建都遵守能量的最小作用量原理,即使是今天,人類共同體具有最強大的力量,但是他的分化分工體系的原則 ,也是由能量的最小作用量原理規定的。這就是無效學習。真正的有效學習,就是把知識經過不斷的思考與練習,內置到大腦的神經元裡面去,把它學習成本能的自動化反應,學習成強模型。
  • 如何對集成樹進行解釋?
    在解釋集成樹有三個非常好用的方法:特徵重要度(Feature Importance)部分相依圖(Partial Dependence Plot,簡稱PDP)個體條件期望圖(Individual Conditional Expectation Plot,簡稱ICE Plot)這三個方法屬於「事後可解釋性(post hoc)」並且「通用於任何一種演算法模型(model-agnostic
  • 我的深度學習入門路線
    而且,Anaconda 自帶了 Jupyter Notebook,Jupyter Notebook 是一個非常強大的工具,允許使用者為數據分析、教育、文件等任何你可以想到的內容創建漂亮的交互式文檔,已迅速成為數據分析、機器學習、深度學習的必備工具。2.2 夯實深度學習理論基礎有人說深度學習就像一個黑匣子,完全不知道內部發生了什麼。也
  • 建信金科獲軟體測試成熟度模型集成(TMMi)五級水平認證
    日前,國際TMMi基金會公布了2020年度軟體測試成熟度模型集成(Test Maturity Model Integration,以下簡稱TMMi)認證通過名單。其中,建信金科獲TMMi五級認證,成為國內首家獲得該認證最高級別資質證明的金融科技公司。
  • 構建DeblurGAN模型,將模糊相片變清晰
    SwitchableNorm算法的實現不是本節重點,其原理已經在見《深度學習之TensorFlow工程化項目實戰》一書的10.1.6小節介紹。這裡直接使用《深度學習之TensorFlow工程化項目實戰》一書配套資原始碼「switchnorm.py」即可。直接將該代碼放到本地代碼文件夾下,然後將其引入。
  • 蜂鳥數據Trochil:理想的基於模型的策略開發-構建更好的策略3
    這是「構建更好的策略」系列的第三部分。在上一部分中,我們討論了10個被廣泛利用的市場無效性,並提供了一些交易策略的示例。在這一部分中,我們將分析開發基於模型的交易系統的一般過程。幾乎任何事情,您都可以(至少)以兩種不同的方式制定交易策略:「理想的方式」和「真實的方式」。我們從理想的開發過程開始,分為10個步驟。
  • 從八年級上冊物理第一章《機械運動》形成學生構建物理模型意識
    學生們普遍感覺到物理難學,一個重要的原因就是學生沒有構建物理模型的意識。如果從八年級一開始就養成好的學習習慣,注意形成構建物理模型的意識,不但有利於初中物理的學習,對進入高中階段的學習也有非常重要的作用。那麼,該怎樣形成構建物理模型的意識呢?
  • 集成算法之Adaboost
    上節提到兩種集成方法,是集成算法的相關背景知識點,如果你搞定了上節的概念,那麼這節的集成算法應該對你來說不是問題,最起碼在概念上是沒有什麼晦澀難懂的內容需要理解的。上節回顧:兩種集成方法的簡單介紹ok,這節就來說說集成算法的Adaboost算法,真真正正的通過三個臭皮匠造一個諸葛亮出來。
  • BIM與GIS集成的三維建模講解
    一、三維GIS 良好的表面模型分析能力 三維GIS 良好的表面模型分析能力與幾何語義信息豐富的BIM 數據集成是實現從外部環境走向內部部署的必經步驟。
  • 人工智慧模型是這樣構建的!探秘DL4J分布式訓練法!
    近年來深度學習在AI領域表現尤為突出,在這裡我們可以簡單的把AI理解為深度學習。深度學習由深層神經網絡算法構成,大量的神經元輸入通過不斷的迭代更新參數完成模型定型。深度學習的計算強度較高,對於規模非常大的數據集而言,速度很重要。主流的深度學習框架有TensorFlow、Caffe、Keras、Theano等,它們大多在單節點伺服器通過GPU加速完成模型訓練。
  • 測不準原理是如何幹掉拉普拉斯妖的?
    不知道大家發現沒有,在科學界,只要有足夠的數據支撐,科學家們就能通過構造數學模型來預測事情的發展。最直接的例子就是,我們能很準確地預測未來一段時間內天氣的變化,溫度的大小和颱風的走向。1927年,德國物理學家海森堡針對量子力學提出了不確定性原理,也叫測不準原理,這個理論是現代量子力學的最基本理論之一。測不準原理告訴我們,我們不能同時精確測定一個粒子的位置和速度。當粒子的位置越確定,它的速度就越不確定,反過來就是當一個粒子的速度越確定,它的位置就越不確定。這種神奇的性質是由兩個因素決定的。
  • YouTube深度學習推薦模型最全總結
    分析 YouTube 的深度學習推薦系統論文 Deep Neural Networks for YouTube Recommenders,包括 《重讀 Youtube 深度學習推薦系統論文,字字珠璣,驚為神文》、《YouTube 深度學習推薦系統的十大工程問題》、《揭開 YouTube 深度推薦系統模型 Serving 之謎》 等,給大家進行一個完整版的解讀。