量化投資--因子正交化

2021-01-14 量化金融科技前沿

本系列的第一篇因子加權方法中提到，對於因子間有相關性的情況，可以通過最大化IR來解決，但也會存在另一個問題：因子協方差矩陣的估計，文中對比了最原始的樣本協差陣和Ledoit壓縮估計量結果的差異，表明協方差矩陣的估計效果對於結果有很大影響。本文給出另一種更為常用的解決因子間相關性的方法：因子正交化。

因子多重共線性

如上一篇所述，傳統的多因子模型一般採用IC加權、ICIR加權等方法，這些方法都是以IC為基礎確定各因子在模型中的權重。而IC是當期因子暴露與下一期收益間的相關係數。如果因子間存在較強的相關性/相關性，通過上述加權方式，最終會導致因子對於某種風格的因子重複暴露。使得整個組合的表現嚴重偏向於該因子，削弱其他因子的效果。具體來說，當因子表現好時，組合會獲得更高的超額收益，但因子表現不好時，也會出現更大幅的回撤。

舉個慄子，在上篇三因子組合市淨率、1個月動量、市值的基礎上，加入流通市值因子進行四因子組合。採用過去24個月ICIR加權、月度調倉的方式。組合從2012年1月-2018年12月的表現如下

基準採用滬深300指數，顯然，四因子組合由於在估摸因子上的重複暴露，導致15年股災之後，相較於三因子組合出現了超額增長，但在17年規模因子失效後出現了更大回撤。

正交相關定義

首先給出正交相關的一些概念，忘記的可以再翻一翻線性代數/高等代數。

此外，有興趣可以再去看看正交變換、旋轉放縮變換的矩陣表達式，可以加深理解。

因子正交化統一框架

對於因子多重共線性的問題，可以通過因子正交化的方法來解決。因子正交化有多種方式。目前應用最多的有四種：回歸取殘差、施密特正交化、規範正交化、對稱正交化。其中，後三種都是通過因子旋轉的方式來消除因子間的相關性，而第一種，後文會給出證明，實質上跟施密特正交化是一致的。因此，首先對後三種正交化方式給出統一說明（這部分參考了報告[1][2]，覺得描述不清楚的可以再去看看報告）：

標準化的意義在於，正交跟不相關的概念本來是不等價的，正交不一定不相關，但加上Z-SCORE標準化之後，正交等價於線性相關係數為0。

以上是因子正交框架，不同的正交化方法具有不同的特性，接下來一一說明，並給出代碼。

施密特正交化就是高等代數教科書上的方法，給定一組向量後，分兩步操作，第一步按照一定順序把每個向量與之前所有向量進行正交。第二步對於正交後的向量進行歸一化，最終得到的所有向量兩兩正交且模為1，正交後的因子暴露矩陣為正交陣，用公式表達為

這裡給出的代碼裡正交順序是直接按照輸入因子矩陣的順序，從左向右依次正交。輸入factors為已經標準化後的因子矩陣，返回Q為正交因子矩陣。

# 固定順序的施密特正交化
def Schimidt(self,factors):
class_mkt = factors[['mkt_cap','classname']]
factors1 = factors.drop(['mkt_cap','classname'],axis = 1)
col_name = factors1.columns
factors1 = factors1.values

R = np.zeros((factors1.shape[1], factors1.shape[1]))
Q = np.zeros(factors1.shape)
for k in range(0, factors1.shape[1]):
R[k, k] = np.sqrt(np.dot(factors1[:, k], factors1[:, k]))
Q[:, k] = factors1[:, k]/R[k, k]
for j in range(k+1, factors1.shape[1]):
R[k, j] = np.dot(Q[:, k], factors1[:, j])
factors1[:, j] = factors1[:, j] - R[k, j]*Q[:, k]

Q = pd.DataFrame(Q,columns = col_name,index = factors.index)
Q = pd.concat([Q,class_mkt],axis = 1)
return Q

注意這裡不能用python中的QR分解函數np.linalg.qr計算，施密特正交化是QR分解的一種方法，但numpy的QR分解函數並不是用這種方法做的。

回歸取殘差的方法過程類似施密特正交化，按照一定的順序將每個向量同之前的所有向量回歸取殘差代替原值。接下裡證明，施密特正交化與最小二乘下的回歸取殘差是一致的。差別僅在於，施密特正交化多了一步歸一化。

規範正交化實際上跟主成分分析思路是一樣的，但主成分分析在截面上應用可以，用在時間序列上就會出現對應關係不一致的問題，這也是規範正交化的問題。

# 規範正交
def Canonial(self,factors):
class_mkt = factors[['mkt_cap','classname']]
factors1 = factors.drop(['mkt_cap','classname'],axis = 1)
col_name = factors1.columns
D,U=np.linalg.eig(np.dot(factors1.T,factors1))
S = np.dot(U,np.diag(D**(-0.5)))

Fhat = np.dot(factors1,S)
Fhat = pd.DataFrame(Fhat,columns = col_name,index = factors.index)
Fhat = pd.concat([Fhat,class_mkt],axis = 1)

return Fhat

# 對稱正交
def Symmetry(self,factors):
class_mkt = factors[['mkt_cap','classname']]
factors1 = factors.drop(['mkt_cap','classname'],axis = 1)
col_name = factors1.columns
D,U=np.linalg.eig(np.dot(factors1.T,factors1))
S = np.dot(U,np.diag(D**(-0.5)))

Fhat = np.dot(factors1,S)
Fhat = np.dot(Fhat,U.T)
Fhat = pd.DataFrame(Fhat,columns = col_name,index = factors.index)
Fhat = pd.concat([Fhat,class_mkt],axis = 1)

return Fhat

對於四因子組合，分別用上述三種因子正交化方法正交之後，組合表現如下

可以看出，對稱正交化後的四因子組合表現與三因子表現幾乎完全一致，表明對稱正交非常完美的剔除了因子相關性的影響，其他三種正交化方法的效果一般，這也與文獻【1】【2】中的結論一致。

【1】20171030-天風證券-天風證券金工專題報告：因子正交全攻略，理論、框架與實踐

【2】20180310-光大證券-光大證券多因子系列報告之十：因子正交與擇時，基於分類模型的動態權重配置

【3】20170119-海通證券-選股因子系列研究（十七）：選股因子的正交

多因子嘗試（一）：因子加權

資產瞎配模型（一）：MVO、風險平價等

資產瞎配模型（二）：對（一）的糾正

相關焦點

為什麼要進行因子正交化處理?

這個算法叫作多元回歸的 Gram-Schmidt（格拉姆-施密特）正交化過程。本小節開始的 simple regression model 已經驗證了上述結論。在多因子模型中，b_p 代表的是因子 p 的收益率。為避免因子收益率的估計非常不穩定，要求不同的因子之間儘量滿足正交化。
到底什麼是多因子量化投資?

同樣，量化投資的核心是經濟/金融模型，數學也只是工具。用鐵鏟子去挖金子，能否挖到金子不確定，但鐵鏟肯定不會自動變成金子。　　愛因斯坦強大之處在於其思想，數學則是其建模工具。同樣，量化投資的核心是經濟/金融模型，數學也只是工具。用鐵鏟子去挖金子，能否挖到金子不確定，但鐵鏟肯定不會自動變成金子。
量化價值投資策略:結合不同因子鑑別真假價值股

我們知道價值投資的精髓就是找到長期的好公司、以便宜的價格買入。在量化投資領域，「價值投資」也被廣泛使用：量化價值投資策略在美國幾乎是每一個追求大資管額的量化基金的標配。在量化投資策略中，「價值投資」越來越多地被簡單的基本指標與價格的比率所表示，投資者據此進行選股並構建分散化投資組合的投資策略。
「量化多因子」到底是個什麼鬼?

目前市場上叫「量化基金」的有很多，但是名字中帶有「多因子」的股票基金有4隻（$建信多因子量化股票（002952.OF）$ 、$匯添富成長多量化策略（001050.OF）$ 、$創金合信量化多因子股票A（002210.OF）$ 、$創金合信量化多因子股票C（003865.OF）$ ），混合基金也有4隻（$廣發多因子靈活配置混合（002943.OF）$ 、$大摩多因子策略混合（233009
什麼是量化投資?程序化交易怎麼做?

量化投資什麼意思？所謂量化投資是將投資環節標準化的交易方式，主要包括選股、買入、賣出三個環節，而真正的量化投資是完全自動化交易，不需要人為參與，投資者只要監管程序是否正常運行，參數設置是否合理，指標選擇是否在既定目標範圍內。
演講刷屏量化投資圈!量化程序賺技術派的錢下一步還要搶基本面派...

來源：中國證券報最近這幾天，在量化投資圈，一篇名為《中國量化投資未來展望》的主題演講引起了轟動。據說，如果滿打滿算國內有20萬人從事量化行業的話，那麼，已有1/3的人看過這篇演講。究竟什麼內容產生了這麼大的影響？
遺傳算法原理以及在量化投資的應用

原標題：遺傳算法原理以及在量化投資的應用點擊標題下「藍色微信名」可快速關注本篇內容涉及遺傳算法的概念，原理描述，實現方法以及在量化投資的應用。陳煥生，凡普金科旗下會牛科技研發總監兼數據架構師，目前從事基於遺傳算法因子自動化挖掘，量化投資研究。並於2017年上線了基於遺傳算法因子挖掘的自有資金運營的量化模型。目前處於行業中遊水平，團隊的大多背景都是非金融投資領域，實現網際網路技術向量化投資領域的轉型，本人十年的網際網路研發背景，多次連續創業的經歷。
匯添富多因子 : 匯添富成長多因子量化策略股票型證券投資基金更新...

匯添富多因子 : 匯添富成長多因子量化策略股票型證券投資基金更新招募說明書(2020年4月14日更新) 時間：2020年04月14日 14:56:08&nbsp中財網原標題:匯添富多因子 : 匯添富成長多因子量化策略股票型證券投資基金更新招募說明書(2020年4月14日更新)
幻方投資陸政哲:完全依靠人工智慧的量化投資模式

來源：點拾投資導讀：過去幾年A股市場發展最快的就是量化投資，特別是伴隨著投資工具的豐富、投資理念的先進、以及科技技術的進步，量化投資從過去的非主流，變成了A股市場重要的參與者。那麼量化投資捕捉的短期波動是否具有科學性，他們的超額收益來源又是什麼？我們今天訪談了國內頂尖量化投資機構，幻方量化的CEO陸政哲。
量化選股策略——多因子模型(圖)

[ 多因子模型是量化選股中最重要的一類模型，其基本思想就是找到某些和收益率最相關的指標。並根據該指標，構建一個股票組合，期望該組合在未來的一段時間跑贏或者跑輸指數。　　候選因子的選取　　候選因子的選擇主要依賴於經濟邏輯和市場經驗，但選擇更多和更有效的因子無疑是增強模型信息捕獲能力，提高收益的關鍵因素之一。　　例如：在2011年1月1日，選取流通市值最大的50隻股票，構建投資組合，持有到2011年底，則該組合可以獲得10%的超額收益率。這就說明了在2011年這段時間，流通市值與最終的收益率之間存在正相關關係。
徐楊:因子投資基金如何賺錢

隨著時間的發展，因子投資的價值逐漸被市場證實，也被投資者們所認同。貝萊德曾估計，到2022年，投入到專門的因子策略產品的資產規模將增至3.4萬億美元。許多養老基金、捐贈基金甚至散戶投資者都在擁抱因子投資這種新方法。
中金:A股市場因子投資十問十答

來源：金融界網站作者：中金公司研究部因子投資已經成為資產管理行業重要的投資方式，因子分析的研究方法也已遍布在投資管理中的各個環節。在本文中，我們將聚焦因子投資，通過對十個問題的探索，來嘗試對A股市場因子投資進行梳理。
泰達宏利劉欣談量化投資:雙重風險模型對衝波動風險

與此同時，經過股市大幅調整的洗禮，具備追求絕對收益和規避指數漲跌風險雙重優勢的量化對衝投資策略受到關注，如泰達宏利基金就正在發行旗下首隻採取量化對衝投資方式的發起式基金——泰達宏利絕對收益策略定期開放式混合基金。　　為此，記者專門採訪了該基金擬任基金經理劉欣，以該基金為例，從多樣性的絕對收益策略和獨設的雙重風險模型角度，為投資者解疑量化投資。
興業證券金工首席集體亮相揭開量化投資神秘面紗

原標題：興業證券金工首席集體亮相揭開量化投資神秘面紗來源：新浪財經原標題：興·訪談 | 論賣方研究員的自我修養！研究方向是主動權益量化投資體系與策略開發，對新因子挖掘、Alpha 模型構建、因子輪動等方面有長期深入的研究。於明明，首席金融工程分析師，北京大學金融數學碩士，10年量化策略開發研究經驗。曾多次榮獲外部評選獎項。專注於資產配置、板塊輪動、市場擇時、CTA投資策略等研究方向，在期權的定價和策略開發方面亦有較深入的研究。
信達澳銀量化多因子混合(LOF)C淨值下跌1.04% 請保持關注

來源：金融界基金作者：機器君金融界基金12月25日訊信達澳銀量化多因子混合(LOF)C基金12月24日上漲，現價，成交萬元。當前本基金場外淨值為1.3456元，環比上個交易日下跌1.04%，場內價格溢價率為。
量化投資的未來?

這對量化投資或者智能投顧行業來說，無疑也將有巨大的推動作用。量化投資或智能投顧最重要的就是需要強大的硬體和計算能力，以及真實的自我學習能力。有關專家表示，擬合搜索和ResNet，正是Zero算法中的兩個核心技術。
天算量化:「武器」匯聚交戰市場,揭秘量化之謎!

來源：私募排排網研究院私募行業的蓬勃發展吸引了各個行業的菁英匯集，尤其是對於精英聚集的量化私募而言，在近兩年來備受市場關注，量化投資正在成為A股市場的新生力量，更新著A股的交易模式。作為國內最早一批結合人工智慧技術，採用非線性深度學習算法，進行股票和期貨量化投資的私募基金公司。
「量化四大天王」時代終結!上海鳴石投資挺進第一梯隊

2020年百億量化私募再擴容，截至今年9月初，國內百億量化私募陣營已經增至7家，除了此前就已經站穩百億的明汯投資、寧波幻方量化、靈均投資、幻方量化、九坤投資、金鎝資產外，近期加入百億量化私募陣營的正是但是從2019年開始，量化私募在百億私募中的佔比越來越高，截至9月初，國內百億量化私募數量已經增加至7家，其中不乏有量化私募管理規模更是突飛猛進超過500億元。量化投資是從海量歷史數據中尋找能夠帶來超額收益的多種「大概率」事件，按照這些規律構建數量化模型，並嚴格按照模型進行投資。
在歐美股市遭遇業績滑鐵盧全球量化投資機構加碼中國市場

近日，法國量化投資機構邁德瑞投資在中國基金業協會完成私募證券投資基金管理人登記。　　此前，美國量化投資巨頭城堡基金(Citadel)在新加坡新開設辦公室，擬增加對中國市場的投資額。　　由於今年量化投資基金在歐美金融市場遭遇業績滑鐵盧，其量化投資與量化對衝策略能否在中國市場站穩腳跟，存在諸多變數。
三幅圖形幫你記住施密特正交化公式

施密特正交化公式在用正交矩陣化二次型為標準形中有重要的應用。學過的同學都反映這個公式不太好記。本文用三幅圖形教你記憶這個公式。, 構造一組兩兩正交的單位向量組的過程叫做施密特正交化，它包括正交化和單位化兩個步驟。

量化投資--因子正交化

相關焦點

為什麼要進行因子正交化處理?

到底什麼是多因子量化投資?

量化價值投資策略:結合不同因子鑑別真假價值股

「量化多因子」到底是個什麼鬼?

什麼是量化投資?程序化交易怎麼做?

演講刷屏量化投資圈!量化程序賺技術派的錢 下一步還要搶基本面派...

遺傳算法原理以及在量化投資的應用

匯添富多因子 : 匯添富成長多因子量化策略股票型證券投資基金更新...

幻方投資陸政哲:完全依靠人工智慧的量化投資模式

量化選股策略——多因子模型(圖)

徐楊:因子投資基金如何賺錢

中金:A股市場因子投資十問十答

泰達宏利劉欣談量化投資:雙重風險模型對衝波動風險

興業證券金工首席集體亮相 揭開量化投資神秘面紗

信達澳銀量化多因子混合(LOF)C淨值下跌1.04% 請保持關注

量化投資的未來?

天算量化:「武器」匯聚交戰市場,揭秘量化之謎!

「量化四大天王」時代終結!上海鳴石投資挺進第一梯隊

在歐美股市遭遇業績滑鐵盧 全球量化投資機構加碼中國市場

三幅圖形幫你記住施密特正交化公式

演講刷屏量化投資圈!量化程序賺技術派的錢下一步還要搶基本面派...

興業證券金工首席集體亮相揭開量化投資神秘面紗

在歐美股市遭遇業績滑鐵盧全球量化投資機構加碼中國市場