多因子系列之二:Alpha因子高維度與非線性問題——基於Lasso的收益預測模型 | 量化專題報告

2021-02-21 留富兵法

本篇報告嘗試解決Alpha預測中高維度與非線性兩個問題。我們使用基於Lasso的模型,針對性的解決了上述兩個問題,最後增強組合的效果相對於傳統的ICIR方法有非常顯著的提升。

高維度問題:目前已知的有效單因子個數越來越多,如何正確有效的篩選因子並且預測收益呢?

非線性問題:線性模型並不能準確的描述因子和收益之間的關係,有些因子並不是嚴格單調的,如何擬合因子和收益之間的非線性關係呢?

本報告使用Adaptive Lasso方法來幫助我們解決高維度下因子篩選以及預測的問題。同時,我們使用樣條回歸來擬合因子和收益之間的非線性關係,然後用Group Lasso的方式進行預測。

從中證500增強組合的角度來說,Adaptive Lasso相對於ICIR方法有年化3%左右的提升,信息比提升0.4。而非線性的Group Lasso方法相對於ICIR方法有年化6%左右的提升,信息比提升1左右。因此,總體來說,基於Lasso的收益預測模型要顯著好於傳統的ICIR方法。

一、實證資產定價與Alpha預測

隨著越來越多的市場異象被發表出來,Cochrane(2011)在他的主席演講中說到股票截面收益又一次陷入混亂。目前的實證資產定價領域有一些亟須解決的問題:1)已經發現的異象都能夠提供關於股票截面收益的獨立信息嗎?哪些能夠被其他因子解釋呢?哪個因子模型才最為有效?2)大多數資產定價模型都有很強的線性假設,如何能夠有效的解決因子和收益的非線性關係呢?(Fama和French,2008)

這與我們在Alpha預測中遇到的高維度與非線性這兩個問題非常相似,因此我們借鑑了資產定價論文中的一些方法來幫助我們解決這兩個問題。

二、Lasso方法與傳統Alpha模型的對比

2.1 ICIR方法存在的問題

ICIR方法在實際投資中可操作性強,且易於解釋,也被證明有著不錯的效果,但是其中存在著一定的問題:

1)   首先,在小類因子合成大類的時候,對於因子的分類存在主觀性,主觀的信息不一定是增量,也有可能是噪聲。一些因子蘊含的信息並不相同,也可能被分到一組內,最典型的例子是質量類因子中,一些財務比率的相關程度並不是很高。

2)   即使這些因子通過統計或者邏輯的方法正確的進行了聚類,在小類合成大類的過程中仍會損失一定的信息。例如,我們將EP、BP、SP等權合成為一個複合因子,期望複合因子中代表的是小類因子中共同含有「價值」因子的信息,但這一做法可能弱化小類因子包含的特質的收益預測信息。

3)最後,在大類合成的時候,等權和ICIR加權也沒有考慮大類因子間的相關性。

2.2 Lasso回歸

想要考慮因子之間的相關關係,並運用因子池中儘可能多的信息,我們需要將所有因子放在一個統一的模型中來預測收益,其中最簡單的模型就是線性模型。

由於因子數量眾多,因子間產生共線性的可能性較大,如果直接進行OLS回歸,那麼對於因子的統計檢驗容易不顯著,幾乎不具備因子篩選的能力。同時,過多的自變量可能會造成模型的過擬合,導致樣本外的預測不準確。我們使用Lasso回歸幫助我們解決上述兩個問題。

Lasso方法滿足因子選擇一致性的條件過於嚴格,測試中發現Lasso篩選變量的效果並不好。因此我們採用Adaptive Lasso方法。即在做完第一步Lasso(OLS)之後再做第二步回歸。

2.3 ICIR方法與Adaptive Lasso回歸的對比


三、考慮非線性的Group Lasso方法

3.1 因子和收益的非線性關係

上圖展示了反轉因子2014年的分組收益,可以看到這個分組收益是中間高兩邊低的。但此時反轉因子的IC值仍然顯著為負。如果去持有反轉因子第一組,這個組合可能不能戰勝市場,甚至產生回撤。

3.2 如何擬合因子和收益之間的非線性關係?

我們參考了很多資產定價領域的論文,有如下一些方法來擬合因子和收益之間的非線性關係,例如使用多項式、分段函數、三角函數等等。通過嘗試,我們發現用這些模型擬合出來的參數不太穩定,並不能很好的預測收益。

3.3 考慮非線性的Group Lasso方法

我們採用非參的方法來對因子和收益的非線性問題進行建模。實際上,通過分組收益測因子的方法就類似於非參截面回歸。如果我們將股票的分組定義為啞變量,與未來一期的收益進行加權線性回歸(加權是由於不同期的樣本數量不同),得到的係數就是分組收益。這相當於把因子和收益的關係擬合成了一個階梯函數。 在此方法中,我們試圖利用非參的方法將階梯函數變換成一個連續光滑的函數,並使用Group Lasso進行估計。

從增強組合的表現來看,考慮非線性問題的Group Lasso方法相比於線性Adaptive Lasso方法有年化2.5%的提升。

風險提示:以上結論均基於歷史數據和統計模型的測算,如果未來市場環境發生明顯改變,不排除模型失效的可能性。

本文節選自國盛證券研究所已於2019年2月20日發布的報告《多因子系列之二:Alpha因子高維度與非線性問題——基於Lasso的收益預測模型》,具體內容請詳見相關報告。

劉富兵

S0680518030007

liufubing@gszq.com

丁一凡


dingyifan@gszq.com


特別聲明:《證券期貨投資者適當性管理辦法》於2017年7月1日起正式實施。通過微信形式製作的本資料僅面向國盛證券客戶中的專業投資者。請勿對本資料進行任何形式的轉發。若您非國盛證券客戶中的專業投資者,為保證服務質量、控制投資風險,請取消關注,請勿訂閱、接受或使用本資料中的任何信息。因本訂閱號難以設置訪問權限,若給您造成不便,煩請諒解!感謝您給予的理解和配合。

 

重要聲明:本訂閱號是國盛證券金融工程團隊設立的。本訂閱號不是國盛金融工程團隊研究報告的發布平臺。本訂閱號所載的信息僅面向專業投資機構,僅供在新媒體背景下研究觀點的及時交流。本訂閱號所載的信息均摘編自國盛證券研究所已經發布的研究報告或者系對已發布報告的後續解讀,若因對報告的摘編而產生歧義,應以報告發布當日的完整內容為準。本資料僅代表報告發布當日的判斷,相關的分析意見及推測可在不發出通知的情形下做出更改,讀者參考時還須及時跟蹤後續最新的研究進展。

本資料不構成對具體證券在具體價位、具體時點、具體市場表現的判斷或投資建議,不能夠等同於指導具體投資的操作性意見,普通的個人投資者若使用本資料,有可能會因缺乏解讀服務而對報告中的關鍵假設、評級、目標價等內容產生理解上的歧義,進而造成投資損失。因此個人投資者還須尋求專業投資顧問的指導。本資料僅供參考之用,接收人不應單純依靠本資料的信息而取代自身的獨立判斷,應自主作出投資決策並自行承擔投資風險。

 

版權所有,未經許可禁止轉載或傳播。

相關焦點

  • 多因子模型選好公司 尋找穩定的阿爾法收益
    採用股票多空策略的量化對衝產品,有望給投資者帶來較為穩健的收益。這類產品有兩個特點:一是採用量化阿爾法選股策略,通過挖掘長期有效的財務基本面因子獲得超額收益;二是依靠股指期貨空頭頭寸來對衝市場單邊波動的風險。  筆者認為,量化對衝策略取得穩健收益的核心在於股票現貨部分能夠實現相對市場的超額收益。
  • 多因子模型水平測試題試答(因子部分)
    在不使用回歸的前提下,如果我們希望測試該因子是否適合於風險預測模型:可以計算該因子的自相關係數、和模型其它因子的共線性程度、和基準組合的相關程度等。問題4:單因子測試是否需要糾正版塊、市值偏離等問題?如何糾正?
  • 原油量化研究系列:基於「繁微數據」的原油多周期擇時預測
    1.2、預測方法:高維時間序列因子模型基本面量化的預測問題本質是用多維的基本面數據來預測未來收益率,高維時間序列預測問題可以簡單歸結為利用高維數據來形成對某一特定時間序列的預測。和《衍生品量化擇時系列專題(四):擇時因子組合優化:基於SF的降維預測方法》中一樣,結合量價信號SAR來綜合共振擇時,降低持倉周期提高交易頻率來降低回撤。由於結合量價信號能夠及時止盈止損,起到降低回撤、增加收益的作用,策略表現進一步提升,年化收益率101.5%,最大回撤-14.9%,年化夏普3.45,勝率高達77.8%,盈虧比4.19,卡爾瑪比率6.81。
  • 衍生品量化擇時跟蹤之螺紋:模型堅定看多 淨值再創新高
    ★主要內容我們在今年10月份發布的《衍生品量化擇時系列專題之二:螺紋鋼指標篩選與大類因子合成研究》報告中,我們分別基於IVX的預測回歸方法進行螺紋單因子篩選與基於3PRF降維模型進行因子動態賦權合成兩套方法論體系採用基本面與宏觀數據信息對螺紋期價進行預測建模。
  • CFA二級筆記43-組合-多因子模型
    反思:對active risk概念不熟,active risk是指,組合收益和benchmark收益之差的標準差,主要看surprise,surprise不為0就是有解釋力度二、本章框架本章是重點APT本質是:組合的風險溢價等於一系列風險溢價的線性組合=組合的系統性風險等於一系列系統風險維度的線性組合APT和CAPM的共同點:都是對組合的預期收益進行解釋;APT和CAPM的不同點:APT的系統性風險維度更精細
  • 到底什麼是多因子量化投資?
    摘要 愛因斯坦強大之處在於其思想,數學則是其建模工具。同樣,量化投資的核心是經濟/金融模型,數學也只是工具。用鐵鏟子去挖金子,能否挖到金子不確定,但鐵鏟肯定不會自動變成金子。
  • 解構質量因子:聚焦於財務分析的多因子策略
    那麼,如何從量化的角度定義質量高的公司呢?於是,在金融研究中,質量因子出現了。與規模、價值、動量等由單指標或同類型指標構成的風格因子不同,質量因子通常由多個不同維度的財務指標構成。目前市場上主流的質量因子指數,往往都採用不同的財務指標構建,這也給不少研究者通過數據挖掘得出各種統計檢驗有效但本質截然不同的質量因子提供了機會。
  • 「量化多因子」到底是個什麼鬼?
    目前市場上叫「量化基金」的有很多,但是名字中帶有「多因子」的股票基金有4隻($建信多因子量化股票(002952.OF)$ 、$匯添富成長多量化策略(001050.OF)$ 、$創金合信量化多因子股票A(002210.OF)$ 、$創金合信量化多因子股票C(003865.OF)$ ),混合基金也有4隻($廣發多因子靈活配置混合(002943.OF)$ 、$大摩多因子策略混合(233009
  • 學習交流 | 因子擇時的三個標尺:因子動量、因子離散度與因子擁擠度
    因此在多因子模型的情境裡面,除了根據外生變量方法來判斷因子的長期趨勢,我們還需要觀察因子的特質信息來進行精細化的因子選擇。本篇報告我們將系統性地給出因子擇時的三個重要標尺:因子動量、因子離散度以及因子擁擠度。在最終的融合策略中我們可以看到在傳統的因子動量配置方案中加入因子離散度和因子擁擠度的信息後,因子配置策略將會有質的改變。
  • 【國君策略】收益、風險、因子:大類資產配置框架與變遷
    我們對大類資產配置因子投資框架、量化多因子模型兩個概念作以辨析。   (2)用因子解析資產收益:以全球股市、匯市為例,我們展示了因子對資產收益的解析;討論了另類資產與股債是否存在相同因子的問題;列舉了MSCI、Vanguard、BlackRock等機構採用的因子。
  • 因子投資中的「小問題」
    來源:金融界基金作者:陳健夫近年來,伴隨著因子投資的發展和深入,市場上湧現了眾多的基於量化方法選股的產品。實際上,市場上很大部分的量化產品都是基於多因子模型的框架,使用的因子也都大同小異,導致了產品的同質化現象嚴重。既然大家都使用差不多的數據和策略,為什麼有些產品賺錢了,有些產品卻虧錢了?是有什麼竅門在裡面嗎? 我們用一句俗語來回答以上的問題:細節決定成敗。當我們發現了一些有效的因子之後,下一個必然的步驟自當是如何在實際操作中捕獲這些因子的收益。
  • 因果變化多聯繫,安得良策破迷茫 —— 量化投資策略專題報告
    量化策略的前提假設是歷史會重複。  量化選股策略  量化選股是利用數量化的方法選擇股票組合,期望該股票組合能夠獲得超越基準收益率的投資行為。量化選股策略總的來說可以分為兩類:第一類是基本面選股,第二類是市場行為選股。基本面選股主要有多因子模型、風格輪動模型和行業輪動模型;市場行為選股主要有資金流模型。
  • 啟林投資王鴻勇:頂尖物理專家轉行私募,煉成量化多因子選股絕技
    全市場量化選股獲取阿爾法王鴻勇表示,公司的量化選股模型在滬深兩市所有股票中尋找阿爾法(alpha),即超過指數表現的收益。由於市場風格總是在不斷變化,當小股票整體表現好時,機會將多一些,勝率也會高一些;在大股票漲、小股票跌時,由於上漲的股票集中於數量相對較少的大盤股,獲得超額收益的難度就會增加。
  • 橫截面與時間序列因子模型比較
    HML是大型股票的高帳面市值比和低帳面市值比組合的收益差與小型股票的高帳面市值比和低帳面市值比組合的收益差的平均值。我們構建的盈利能力和投資因子,RMW和CMA,與HML採用的一樣的方式,除了第二個分組因子是盈利能力或投資能力。盈利能力,OP,在T年6月的分組中,使用T - 1會計年度的會計數據,為收入減去營業成本,減去經營、一般和管理費用,減去利息費用,並除以帳面價值。
  • Ridge 回歸和 Lasso 回歸的完整教程
    這意味著我們非常重視該特徵,即特定特徵是結果的良好預測因子。當他變得太大時,算法開始建模複雜關係以估計輸出並且最終過度擬合到特定訓練數據。3. Ridge 回歸正如前面我們所了解的,Ridge 回歸是採用了 L2 正則化,即它在優化目標中增加係數平方和的因子。
  • 北大經院工作坊第181場 | 潛在非線性因子模型下的因果推斷(計量...
    北大經院工作坊第181場 | 潛在非線性因子模型下的因果推斷(計量、金融和大數據分析工作坊) 2020-12-07 22:22 來源:澎湃新聞·澎湃號·政務
  • 收益率曲線三因子模型的一個直觀定義
    本文根據收益率曲線的幾何特徵,提出了收益率曲線三因子模型的一個直觀定義,並從四個維度對直觀定義方法與經典三因子模型進行了實證比較,結果顯示,直觀定義方法均表現較優,其對收益率曲線的刻畫更加精細。本文還闡述了收益率曲線三因子的影響因素及三因子之間的非線性關係,並運用支持向量機(SVM)技術對未來利率走勢進行預測,其結果也優於傳統線性模型。
  • 乾貨| 量化金融經典理論、重要模型、發展簡史大全
    這種「隨機遊走」的理念後來貫穿於許多科學領域,尤其是普遍運用於各種不可預測的連續時間過程的機制,基於布朗運動的對數正態隨機遊走理論也是金融市場的經典框架,為之後的量化金融的蓬勃發展奠定了基礎。量化開拓者Louis Bachelier是第一個量化描述布朗運動的人。
  • 因子分解機算法原理及實現
    由於在邏輯回歸中使用的是特徵的最原始組合,最終得到的分隔超平面屬於線性模型,其只能處理線性可分的二分類問題。現實生活中的分類問題是多種多樣的,存在大量的非線性可分的分類問題。    為了使得邏輯回歸能夠處理更多的複雜問題,對其的優化主要有兩種:①對特徵進行處理,如核函數的方法,將非線性可分的問題轉換成近似線性可分的問題;②對模型本身進行擴展,因子分解機應運而生,其本質是一種基於矩陣分解的方法。
  • 金因子專訪——啟林投資王鴻勇:技術快速迭代的當下,多維度保持...
    上海啟林投資成立於 2015年5月,公司定位於基於數理視角和計算機應用進行股票交易的科技公司,同時也致力於成為國內頂尖交易團隊和優秀的資產管理公司,指增產品和中性產品業績斐然,規模處於持續增長中。近期,第一創業聯合私募排排網對啟林投資創始人王鴻勇進行了專訪。目前,啟林投資的產品布局如何?機器學習的運用如何?如何在技術快速迭代的當下保持自身的高競爭力?創始人兼投資總監王鴻勇和我們進行了相關分享。