報告日期:2017年10月19日
★商品市場的宏觀風險因子模型
本篇報告是我們構建一種商品市場宏觀風險因子模型的初步結果,依據傳統的Barra結構化風險模型的總體思路,既給出了一套篩選有效風險因子的流程與標準,也找到了一些影響顯著、有效又穩定的風險因子。
★宏觀風險因子具有的4個特點
根據國內商品市場的特點,識別宏觀風險因子需要滿足4個方面的條件:有效性(對收益的解釋度Adj-R2為正)、低共線性(因子之間相關性低)、顯著性(因子在各截面上顯著的時間佔比超過30%)、穩定性(因子滯後一期的截面相關性平均值超過0.85)。篩選出風險因子最基礎最核心的條件是風險因子的有效性以及風險因子的共線性,因為風險因子是定價因子,既要有一定對收益的解釋度,又要存在很低的共線性。不同於一般風格類的風險因子,宏觀因子的變化在在商品上體現出的敏感度之差異導致產生了風險溢價,所以因子暴露度的獲取應由時間序列的回歸獲得的敏感度來確定。所以一旦確定了風險因子,就首先需要在時間序列上加權回歸得到Beta值(因子暴露),然後在橫截面上回歸得到因子收益率。
★等權複合新因子與逐步回歸挑選因子
為了等權複合出新的5類基本風險因子(利率、通脹、流動性、周期、匯率),平均VIF僅1.16,對截面收益的解釋度平均值為56.97%;另一種方法是通過逐步回歸或Lasso回歸從原有的顯著因子中挑選具有低共線性的因子,得到了6個因子(美元指數環比、PMI環比、M1同比、10年期國債收益率、景氣先行指數環比、金融機構中長期貸款的環比),平均VIF為1.2,但對截面收益的解釋度平均值高達61.46%。
★基於Bootstrap的穩健回歸方法
為解決小樣本回歸的非穩健性,假設樣本數據(或其與全局回歸的殘差)具有高斯分布的形式。殘差法的Bootstrap回歸雖然方差小、有偏性小,實際使用時需注意可能導致降低風險因子的顯著性、因子收益的波動性的情況。
★致謝
本報告在東方證券研究所金融工程首席分析師朱劍濤老師指導下完成。
1
宏觀經濟多因子模型簡介
宏觀經濟多因子模型主要基於這樣一個假設:風險特徵相似的資產應該具有相似的收益,而我們可以將不同的行業、股票或者不同的商品視為不同的資產,利用多因素模型來討論不同資產的收益率和風險之間的關係。
在歐美市場中,一些資產管理公司很早就致力於宏觀經濟多因素模型研究與實踐。包括早期的所羅門兄弟、BIRR、BARRA等多家機構,在構建宏觀經濟多因素模型方面都很有建樹。這些模型基本上都是以 APT 多因子模型為基礎的商業化資產定價模型。這些方法一方面想通過行業對宏觀因素的敏感性對行業(或者個股)進行排序,刻畫行業(或者個股)強弱;另一方面則討論個股對各宏觀因子的風險敞口,進一步進行風險配置。可以看出這些模型大部分是針對股票市場的,專門針對商品市場的仍然相對較少。而商品期貨對於宏觀因子也有明顯的風險敞口,因此需要識別出影響較大的風險因子並對其引起的風險加以控制。
該報告主要研究如何篩選對商品期貨收益影響較為顯著的宏觀風險因子,後續的工作將傾向於做第二方面的工作,也就是得到風險因子以及因子收益之後,針對特定的投資組合來進行風險配置。而由於宏觀因子較多(包括利率、匯率、通貨膨脹等),而且數據形式各異(有實際值、同比值、環比值、變化量等),因此該報告主要完成的一個任務是將與商品收益率關係較為顯著的因子篩選出來,後續的系列報告中我們再對風險配置等問題進行具體討論。
因子風險模型的作用主要有三個:(1)識別風險因子:識別對於組合影響較為明顯的風險因子,並且進一步控制組合對於某一個風險的暴露程度,來獲得相對穩健的組合收益。
(2)用於收益協方差矩陣估計:通過風險因子結構化模型可以達到降維的效果。一般而言,因子數要少於組合中資產的數量。因此可以通過估計出因子的協方差矩陣來進一步得到組合收益的協方差矩陣,從而簡化了計算複雜度。
(3)用於業績歸因:主要分析組合過往業績的業績來源,以及當前面臨的風險敞口大小。對未來的預測意義不大,但是可以作為決策參考。
下面我們先對國外已被發掘構建的宏觀多因子模型進行簡單介紹。
(1)RAM模型
所羅門兄弟 1986 年推出了 RAM 模型(Risk Attribution Model),用來考察美國股票對宏觀經濟變量的敏感性,同時用於甄別篩選「投資級」股票。模型中納入的宏觀經濟因素有:經濟增速、經濟周期、長期利率、短期利率、通貨膨脹風險、美元指數。
在一個多元回歸模型中,因變量是股票月度收益,自變量除了核心的 6 個宏觀經濟變量之外,還包括殘餘因素(Beta)和其他市場因素。對於參數的統計結果將進行標準化,從而便於對個股進行截面(cross-sectional)比較確定個股強弱。
(2)BIRR模型
Burmerister、 Ibbotson、 Roll 和 Ross 在 2003 年建立,其核心模型(Core model)由五個宏觀因子組成,並且可以在此基礎上添加風格因子(custom factoers)。 BIRR 認為利率、通脹、實際經濟增長和市場情緒是無法通過分散化投資消除的系統性風險,對所有個股都會造成衝擊,因此選擇了如下五個核心因子:
(3)BARRA模型
BARRA模型主要是用來對風險進行建模的,但在基本因素模型之外,Barra 也在宏觀經濟多因素模型方面進行了深入研究。 MSCI Barra 在宏觀因素模型中納入了通脹水平,原油價格,美元指數,VIX指數,工業產出和失業率等六個指標。
MSCI BARRA 對多因素模型的研究和商業應用在該領域有較大的影響力。類似於BARRA模型的還有Northfield 模型,其中 BARRA 模型對證券基本面的風險分析做的比較出色,Northfield 模型對宏觀經濟因素的風險分析十分出色,這兩種模型的原理基本相同。BARRA 模型主要基於多因素模型的基本原理,首先需要對風險因子進行識別,然後進一步識別風險因子導致的風險,並對風險加以控制。BARRA模型目前已經推出多個版本,並且覆蓋了全球的主要市場,其中也包括中國的。
2
宏觀經濟因子庫構建
2.1、因子庫構建總框架
因子庫的構建我們採用以下的框架:
首先是因子數據的獲取,這個步驟涉及品種選擇及因子的選擇,因子形式包括實際值、環比值、同比值以及一些衍生的指標比如差值等。得到因子值之後,需要對因子進行預處理,去除因子中的極值。各個期貨品種的收益率採用主力合約的數據。
其次根據風險因子的有效性、低共線性這兩個特點對因子做篩選,依據是單個因子要對大多數的期貨品種都體現出顯著性,不要求Adj-R2有多高,但至少應為正。另外,為了解決因子之間的共線性問題,我們用兩種方式構建出了兩組具有低共線性的風險因子組合。
最後需要通過風險因子的時間顯著性和穩定性來對風險因子進行再次確認,這個過程涉及到獲取因子暴露和橫截面回歸。實際上我們採用的是Chen、Roll and Ross (1986)最早對股票市場所構建的宏觀經濟多因子模型中所使用的線性回歸方法:先在時間序列上進行回歸時,我們採用了一定長度的滾動窗口和時間加權的方式來進行回歸,以求得到各個時點上因子對收益的敏感度的考察,並把該敏感度作為因子暴露;然後需要將時間序列獲得的因子暴露進行橫截面上的標準化處理,在橫截面上線性回歸得到因子收益。
2.2、期貨品種選擇
(1)合約選取主力合約
我們在進行回歸的時候需要用到商品期貨的月度收益率數據,考慮到流動性而主要採用商品期貨的主力合約,但是商品期貨主力合約在移倉換月時會出現「跳價」現象。所以需要我們先對主力合約進行「復權」處理,這裡採用的方法和我們之前一系列的策略報告中所採用的方法一致,即先將舊的和新的主力合約的收益率序列拼接到一起,然後再將收益率序列按照前復權或後復權的方式還原成價格序列。也就是說,儘管原始的主力合約價格序列是「不連續」的,但是收益率序列卻可以是「連續」的。
我們利用「復權」後的主力合約價格序列得到期貨的月度收益率數據,後續報告中構建投資組合中開倉、平倉等實際交易仍將採用真實的合約價格,並且在策略回測時仍然會考慮移倉換月時的展期操作,以及該操作所導致的交易成本和換手率的增加。
(2)數據選取要兼顧上市時間對計算樣本長度的影響
我們要選用的因子數據和月度收益率數據均是從2005年1月開始,並截止到2016年12月。後面分析中涉及到對每個品種的回歸分析,是從其上市之後的數據開始計算的。為了保證有足夠的數據以進行線性回歸,我們實際只選取了上市日期在2014年1月1日之前的期貨品種來進行分析。
(3)過低的流動性會造成較高的交易成本
我們主要研究宏觀經濟變量與商品期貨之間的關係,因此需要首先篩選符合的商品期貨。篩選的條件包括流動性等,只有滿足流動性條件(主要參考歷史30個交易日的日均成交量超過1萬手),交易活躍度較高的品種才被選擇作為期貨研究對象。
2.3、因子的選擇
我們選取了國內以及國外的一些比較典型的經濟變量作為多因子的備選庫。我們初步選擇因子的邏輯是,儘可能地將對商品市場有影響的因子羅列出來,而且這些數據應涵蓋了利率、匯率、貨幣供應量、通脹指標、工業指標、進出口等幾個方面的指標,基本上對整個金融市場有影響的因子都應該被選入到因子庫中作為備選。除此之外,我們也找了一些因子變量之間的衍生指標:比如不同期國債收益率之差、M1與M2增速之差等。
由於我們暫時不知這些不同階、不同意義的宏觀因子數據到底是否真的對商品期貨市場產生較為顯著的影響,所以不能「一股腦」地全部採用並作為因子備選。對於因子到底是否適合被選入到因子庫中,我們從以下兩個方面對宏觀因子做了考慮:
(1)數據發布的頻率及其延後性
有些數據是月頻發布,有些則是日頻的——對於月度發布的宏觀指標來說,一定會由於發布日期遲緩的緣故導致相對於同期的月度收益率存在著一定延遲,比如CPI、PPI這些經濟變量,一般都是在下一個月的月中公布上一月的數據,故實際上在t月月底時所知道的最新CPI、PPI等宏觀數據僅僅是t-1月的,所以像這些月度數據應該作延後一階的處理,但也有例外,比如PMI指數,它一般在當月月底就被公布出來了;但是對於一些本身就是日頻統計的數據,比如國債收益率、美元指數等,實際是可以當做零階處理的。
(2)宏觀數據的計算形式
我們從wind宏觀經濟資料庫中直接拉取部分宏觀因子的數據,一部分環比數據、衍生指標數據則是進一步的計算得到的。但是,對於某個經濟指標我們到底該採用它的實際值、同比值還是環比值?
首先,因為我們的目標解釋變量是商品的收益率,對於具有明顯增長趨勢的宏觀數據,比如M0、M1、M2、發電量、貸款餘額等大多數經濟指標的實際值,是不能作為解釋變量的,否則會產生偽回歸;而且這些宏觀指標的實際值也無法從經濟邏輯上解釋月度收益率,所以我們這裡僅僅考慮各個宏觀指標的邊際變化率(同比或環比),而對於債券類的收益率指標來說,它們已經是收益率了所以直接採用原始實際值也是合適的。我們在這裡獲得的同比或環比數值,如果不能從Wind直接查詢得到,就自己根據原始的月度實際值按照「(當期-上一期)/上一期」的方式計算得到環比變化。除此之外,這些因子的解釋說明、發布頻率、單位、延後階數如下表所示。
但是反映一個宏觀指標的邊際變化應採用同比還是環比呢?
同比數據實際上排除了季節因素的影響,但卻容易具有非平穩的特徵,而環比數據雖然更加平穩,但卻具有很明顯的季節因素。關於同比數據與環比數據的區別,我們可以從自相關函數的衰減分布上較直觀地看出二者的平穩性和季節性特徵,以M1同比增速和環比增速為例,結果如上圖所示。M1同比的自相關函數隨階數增加而較緩慢地衰減,反映出較明顯的非平穩性,而環比增速的自相關函數就更快地衰減至0附近,更趨近於平穩的過程,但由於有包含了季節因素,故自相關衰減函數也會呈現一定季節性變化。
如果考慮解釋變量與因變量的協整性,那麼我們可以側重選用一些具有一定平穩性的因子。但結果是,由於樣本數據過少,若直接採用ADF檢驗可能就會導致有些實際較為顯著的宏觀指標會沒辦法通過平穩性檢驗,比如說M1同比增速這個指標,其ADF的p值實際高於10%的置信水平,但該指標對各個品種的平均解釋度卻較高。所以ADF檢驗的結果只能作為參考,也不能「一刀切」。恰恰相反地是,在後文中通過一元線性回歸測試單因子的有效性時,我們發現有些宏觀因子採用同比值比環比值對收益率解釋度更高,比如CPI、M1、M2、社會消費品零售總額等。
(3)數據的極值處理
我們還需要對已經獲得的宏觀因子進行預處理。由於我們使用最小二乘法進行多元線性回歸篩選因子,而最小二乘法做的擬合是使得均方誤差最小,因此最小二乘法對異常值較為敏感,因此需要對異常值進行處理。
數據極值偵測手段通常有四種:固定比例、均值標準差、MAD 和 Boxplot方法。這裡我們採用MAD方法來進行偵測處理。MAD 法是針對均值標準差方法的改進,把均值和標準差替換成穩健統計量,樣本均值用樣本中位數代替,樣本標準差用樣本 MAD (Median Absolute Deviation)代替:
超出上軌和下軌的值被認為是異常值,我們用上軌或者下軌的值進行代替。
2.4、單因子的顯著性表現
我們將已上市一段時間的每個活躍的期貨品種對每一個被納入到宏觀因子庫當中的各個單因子進行一元線性回歸,目的是展示各個宏觀因子在商品市場上的差異性表現,即各個期貨品種對各因子的敏感度(t值),而t值較高的對應的因子對收益率的解釋程度(Adj-R2)也相對較高。
本篇報告統一選擇10%作為為判斷因子p值的是否滿足顯著性水平的標準,這是由於宏觀因子對收益率的解釋程度並不高,而且對不同品種的解釋度也差別較大,但為了儘可能地抓取到對整個商品市場都有顯著影響的因子,我們將顯著性水平設得較低一些。由於宏觀因子值與對應月度收益率數據樣本區間是從2005年1月至2016月12月,所以對於單因子的一元線性回歸來說實際樣本自由度為144,那麼對應的判斷是否顯著的t值邊界大概在1.655附近。一旦最小二乘法估計得到的t值的絕對值超過1.655,便可以認為該因子是顯著的。
我們以黑色系的螺紋鋼、能化系的天然橡膠、有色金屬系的銅以及農產品系的大豆為例,說明不同品種各自月度收益率對各個宏觀因子變化率的敏感性的差異(如上圖所示),目的是想通過不同因子的敏感度t值的分布來觀察商品收益與因子之間的反應關係。圖中我們用紅色柱子表示收益與因子之間的相關關係滿足10%的顯著性水平。
各個品種上因子呈現顯著的數量並不一樣,而且顯著的因子也呈現較大差別,比如大豆的顯著因子數量僅5個,而銅則有12個顯著因子。CILI指數變化率(CILI_d)對這4個商品呈現出正的顯著關係,而美元指數變化率(USDX_d)則對這4個品種的敏感變化都是負的,而且也都較為顯著。其實美元指數變化率對大多數的商品都呈現出反向的影響,這是由於如果美元貶值就會直接導致以美元計價的國際大宗商品的上漲,而又因為我國在國際貿易中大都以進口為主,所以也會帶動國內的商品出現一定幅度的上漲。事實上,這種宏觀因子在不同品種上所產生的敏感度的差異性正是產生風險收益的來源,所以我們也將會從回歸beta的角度來獲得每個因子在每個品種上的因子暴露度(factor loadings)。
3
風險因子的初步篩選
我們前文已經得到了這樣的結論,每一個期貨品種並不是全部35個宏觀因子都有效,而且各個品種之間的有效因子也是有差異的。對單一品種來說總會有一些因子對收益率的解釋程度很低而成為無效因子,而反過來對於同一個因子來說,總會也有一些表現不顯著的品種。實際上,因子庫包含的35個基本宏觀因子,並非全部都可以被稱之為「風險因子」,因為風險因子應具有一定的條件,所以還需要有一系列的檢驗與評定過程,通過了才可能被認為該因子有一定的風險解釋能力。Barra的結構化風險因子模型有著針對股票市場而設計篩選有效風險因子的基礎條件,業界的做法也基本一致。那麼我們便參照業界對股票市場風險因子的評定標準,提出了幾點針對商品市場宏觀風險因子的幾點評定條件:
(1)風險因子對收益具有一定的解釋能力:按照對股票市場中風險因子的定義「對股價有顯著影響,且影響力度在時間序列上呈現劇烈波動的選股因子」,風險因子首先是一種定價因子,比alpha因子具有較低的因子收益率,但卻具有較高的波動。所以,風險因子要求能夠具有一定程度的收益解釋能力。在實際計算中,如果該因子能夠被選入稱為風險因子,首先就需要這個因子在大部分品種上都具有較好的解釋力(至少Adj-R2為正)。
(2)風險因子之間的共線性很低:也就是方差膨脹因子值(VIF)不會太高,如果有新加入的因子,該因子與其他已有的因子間應該是正交的或者低相關的,而且對收益的解釋度(Adj-R2)能夠增加。
(3)風險因子在各個截面上顯著時間比例要超過30%:在進行截面回歸得到因子收益率的這一步時,應檢驗各因子在考察時間範圍內的顯著性時間佔比,如果超過了30%的月份都能夠達到顯著,就認定因子「合格」,這裡我們之所以設置為30%是由於宏觀經濟變量與商品期貨市場之間的關係不如與股票市場之間的關係更緊密相關一些,A股市場一般設為50%;
(4)風險因子的暴露值在滯後一期的截面相關性的平均值超過0.85:這是要求風險因子具有一定的穩定性,否則變化過大會使得因子變得沒有意義,根據宏觀經濟數據短期內變化較小的特點,我們認為前後兩期的截面因子暴露值應該具有較強的相關性,我們這裡假定該相關性平均值應該超過0.85。
3.1、風險因子的有效性
這4個條件,我們認為最最重要的是第一個,如果滿足了對風險因子最基本的定義,才能進一步地檢驗是否能夠通過補充檢驗條件(2)(3)(4)。也就是說所有的針對風險因子的分析都建立在它是具有一定解釋力的定價因子的基礎上。關於這一點,我們曾做過一個簡單的對比測試,隨機生成一段長度為144的離散的噪聲信號來模擬一列12年的月度宏觀因子。如果跳過對條件(1)的有效性檢驗,實際上也能夠滿足條件(2)(3)(4),與其他因子的相關性很低,顯著時間佔比超過30%,滯後一期截面相關性超過0.9。但對條件(1)卻不滿足(p值超過0.1,Adj-R2為負)。所以在這一部分要根據樣本內數據的單因子一元回歸的結果,篩選出一些在不同品種上顯著性比例較高而且也具有較好的收益解釋能力的因子。
仍然以銅為例,下面兩張圖分別展示了銅的月度收益率分別與CPI同比、CPI環比之間的一元線性回歸結果,結果是CPI同比對銅收益率的解釋程度更高,而且也更顯著(p值小於0.1),所以對於銅來說CPI同比就是一個潛在的風險因子,而CPI環比這個指標沒有解釋能力而且也不顯著,是一個無效因子。
為此,我們將各個品種分別對各個因子進行一元線性回歸的有效性檢驗,統計回歸的t值以及Adj-R2。由於一般情況下就算t值較高(超過1.655)回歸發生顯著,也不能意味著Adj-R2也較高(我們希望Adj-R2至少為正值),所以我們接下來從三個方面分別統計了因子在各個品種上t值出現顯著的比例、Adj-R2平均值以及Adj-R2為正值的佔比,來挖掘潛在的顯著因子。可預想到的是這三個統計指標在從大到小排序之後,如果排名越靠前就說明該指標越傾向於對多數品種都顯著且有效,就越有可能通過條件(1)的檢驗,排序結果如下面3幅圖所示。
單從顯著品種數量佔比來看,僅僅CILI_d、USDX_d和M1_t這三個因子在不低於50%的品種數量上表現顯著。除此,我們對各個因子回歸的Adj-R2進行統計發現,Adj-R2平均值超過1%的因子僅為11個,有一半以上的品種Adj-R2都為正的因子數量為14個。那麼若以序號為分值,加和這3種指標的排序結果,分值越低該因子越有可能被選入。最終我們分值最低的前15個因子為最終在這一步所得到的有效因子集合。
另外,我們也嘗試將每個因子對商品市場指數進行回歸,統計顯著(p值小於0.1)的因子,以對比檢驗前面所得到的結果。對於萬得商品指數(CCFI.WI)來說,共計14個因子是有效的,而與前面得到的因子集合的重合了11個因子,重合度為73.3%;對於南華商品指數(NH0100.NHF)來說,共計16個因子是顯著有效的,與前面因子集合重合了14個因子,重合度為93.3%。由此可見我們所採用的方法還是有一定的實用意義的。
3.2、風險因子的低共線性
前文中篩選時的方法是對單個因子進行一元線性回歸,所以儘管找出了一些較為顯著且有效的因子,但卻忽略了因子之間可能存在著的多重共線性,也就是說某兩個(或多個)因子有著較高的線性相關性,從而影響因子對收益的解釋能力。於是我們首先對這15個顯著因子測算它們彼此之間的相關係數,其次對因子之間彼此的替代效應也做了查看,計算出各個顯著因子的方差膨脹係數(VIF),結果如下表、圖所示。
從相關性矩陣以及方差膨脹係數的排序結果來看,我們對具有較高相關性的因子進行分離,並可以嘗試以簡單的等權方式複合成幾個新的因子,目的是儘可能地得到一組具有低共線性的風險因子。我們大概可以將這些原有的15個顯著因子分為五類,這五類風險因子的內容以及實際的經濟學意義如下:
(1)利率風險:不同期限的中債國債到期收益率之間的高相關性顯而易見,它們可以被分為一類。國債收益率反映了貨幣政策的影響,在國內經濟環境下,貨幣政策的寬鬆與緊張直接影響到債市收益率的變化,而同時債市的變化又對作為生產原料的工業商品的供給與需求,進而對商品價格的變化產生影響。
(2)通脹風險:社會消費品的價格指數同比變化(CPI_t)與工業品價格指數同比變化(PPI_t),因為從不同角度反映了社會通貨膨脹的情況,所以本身就具有較高的相關性,但是二者與社會消費品零售總額同比增速(RETAIL_t)、進出口總額同比增速(IMEX_t)也有著超過0.5的相關性。
(3)流動性風險:M1、M2是較常用到的兩個反映國內經濟活動中貨幣流動性的指標,市場中貨幣流動性的波動可最直接地由二者的變化率得到,所以它們兩個之間的相關性較高。而金融機構中長期貸款餘額(LOAN)其實是包含貨幣乘數信息的社會流動資金,它與基礎貨幣量的關係就顯然是正相關的。當整體流動性充裕時,包括商品期貨在內的金融資產的價格一般情況都更容易上漲。
(4)經濟周期風險:我們從上面圖表中的結果發現PMI指數變化率、BDI指數變化率以及景氣指數先行指數(CILI)變化率與其他的因子均具有較低的相關性,但它們三者之間彼此的相關性卻在0.2-0.4之間,即它們有一定的相關程度。我們把這三者歸類為經濟周期風險。周期性的經濟活動能從供給與需求的角度對商品價格預期產生影響,而描述這種經濟周期變動的指標有很多,包括工業增加值、發電量、GDP等宏觀指標,但是我們認為更加適合作為風險因子的描述經濟周期風險的卻是CILI、PMI與BDI三者的增速。CILI是宏觀經濟景氣先行指數,事先預測總體經濟運行的峰和谷,而PMI是採購經理人指數,從經濟活動中的生產與流通的角度反映整體經濟周期的變化。此二者之所以能夠較其他指標更好地對商品價格的產生影響,是因為它們對經濟周期活動的描述更加及時、直接。CILI是對未來經濟活動的預期,而PMI指數常常在當月月底或者下月月初就被公布了,基本上可以算作第一個被及時公布的宏觀經濟指標。而對于波羅的海乾散貨運價指數BDI來說,它實際從進出口需求的角度所反映經濟活動的周期變化,而且時效性也比較高。
(5)匯率風險:我們發現與其他因子之間的相關性最低的是USDX_d,作為美元指數,這個指標衡量了美元對一攬子貨幣的匯率變化程度。一方面由於很多國際商品都是以美元計價的,對國際商品價格有著反向的影響,從再帶動國內商品價格的變化,而另一方面美元的變化伴隨著資金從新興市場流入或流出,從而導致國際貿易活動的變化,最終對商品價格造成影響。所以說,美元指數的變化實際也間接反映著外匯的流動性風險。
接下來便可以將同一類的因子進行複合。複合的方式有多種,比如像Barra一樣採用固定比例,也可以通過截面多元回歸得到係數並滾動平均。由於基本上同一類的指標都是正相關的,所以我們這裡採用最簡單的方式,即同一類的各個細分因子等權加和得到5個新的複合因子。然後,我們再次對這5個複合因子的相關性矩陣和方差膨脹係數進行了計算,結果如下。可以看到,複合之後的新因子之間的相關性降低了,因子之間的平均相關性係數為-0.03,而平均的方差膨脹係數也非常低,為1.16。
以上是通過合成具有一定相關性的因子來得到具有較低共線性的新因子,其實我們認為也可以不需要通過合成的方式得到新因子,而是直接從原有的15個顯著因子中挑選幾個顯著具有低相關性的且又不影響顯著結果的因子。關於挑選的方法,我們可以採用下面幾種方法分別實現:
(1)逐步回歸法
逐步回歸法(Stepwise Regression)是一種相對容易理解的解決自變量之間多重共線性的方法,但並非通過某種正交手段把線性相關的影響去掉,而僅僅是從k個因子中篩選出彼此之間線性相關程度較低的k』(k』k)個因子出來。該方法的核心思想是以Adj-R2為準則通過一個一個引入新的變量,對已選入的變量進行檢驗,及時剔除不再顯著的變量,最終得到k』個變量的組合,每個變量均顯著,而且Adj-R2最大。
1.對嘗試添加一個新的因子,進行線性回歸,記錄每個新因子對應的回歸後所產生的Adj-R2增量。選擇Adj-R2增量為正而且最大的那個新因子,納入到模型中。
2.納入新因子之後重新對模型進行顯著性檢驗,檢驗已存在的因子中是否有因子的變得不再顯著,剔除這個不顯著的因子。
3.重複步驟1和2,直到新納入的因子與下一步剔除的因子的是一樣的,或者新因子的Adj-R2增量沒有正值時,結束循環。
(2)嶺回歸或Lasso回歸
嶺回歸和Lasso回歸都是用於對含有共線性的數據集進行回歸分析的有偏估計方法,是對最小二乘法的拓展變換,而核心思想是在最小化殘差平方和(OLS的目標函數)加入某種正則化的懲罰項,結果就使得最小二乘估計變為有偏而損失了部分信息,但是獲得的模型方差更小,並且回歸係數變得稀疏而更加可靠。而嶺回歸與Lasso回歸之間的區別就在於加入的懲罰項的正則化方式不一樣,前者懲罰的是所有回歸係數的平方和(L2正則化),而後者懲罰的是所有回歸係數的絕對值之和(L1正則化),Lasso的特點是在懲罰因子夠大時能夠使得某些回歸係數精確地收縮至0。
採用嶺回歸或者Lasso回歸的目的是,利用二者回歸係數的稀疏性特點來進行特徵因子的篩選、去噪,以求能夠獲得更優的回歸R2。具體地,首先通過Cross-Validation的方式,從一定範圍內的lambda值中選出最優值,然後取其對應的回歸係數作為特徵因子的篩選標準。
對於嶺回歸來說,它得到的回歸係數的稀疏性並沒有Lasso回歸得到的回歸係數那麼好,所以嶺回歸的結果仍然具有一定的噪聲。為了解決該問題,我們僅取每個品種所得到的嶺回歸的回歸係數中絕對值較大的前10個因子,並認為這10個因子是嶺回歸方法所得到的相對「顯著」的因子。和第一種方法類似的地方是,這裡提及的「顯著」其實並不一定真的顯著,即達到p值滿足顯著性水平的要求,因為我們將這兩種方法視為特徵選擇的手段,所以更多地是從回歸係數的稀疏性角度來判別因子是否應該被初步地納入到有效因子的集合內。而對於Lasso回歸,它得到的回歸係數不等於0的「顯著」因子的個數和所設置的懲罰因子大小有關,那麼如果過多的回歸係數等於0就會消除掉一些重要的信息,也就直接導致可能回歸模型的R2並不是最優的。所以這兩種方法雖然可以針對多因子模型進行特徵選取,但卻不一定是最優的方法。
我們以逐步回歸法為例,展示得到的每一個品種篩選出來的有效因子、有效因子的數量以及這些有效因子所對應的回歸模型的Adj-R2,如下表所示。表中因子1、因子2…是按照因子的顯著性在逐個遞減排序(t值的絕對值從大到小排列)的,而且僅僅展示出了顯著因子的前5個,不足5個顯著因子的情況為空。
逐步回歸法之所以能夠挑選出具有低共線性的因子,是因為一旦新加入的因子與已有的因子之間有多重共線性就會不會增加Adj-R2。逐步回歸、嶺回歸與Lasso回歸最終統計得到各個因子在不同品種上出現顯著的佔比較高的前6個因子如下表所示。我們發現逐步回歸法和Lasso回歸法所得到的前6個因子完全相同(僅排序不一樣),而嶺回歸的結果差別較大,這原因有可能如前文所討論的,這與嶺回歸的係數稀疏性不高導致有一定噪聲有關。
關於風險因子低共線性的總結:
降低風險因子多重共線性的方法有多種,一種是複合合成新因子,將相關性較高的同一類的風險因子簡單等權相加得到新因子,新因子的平均VIF值僅1.16,而另一種方式是從原始顯著因子集合裡通過逐步回歸、Lasso回歸等方式進行因子的篩選,把具有低共線性的因子挑出來,最終得到的6個風險因子的平均方差因子為1.20。其實不管採用哪種方式得到的低共線性風險因子組合,一旦都能夠通過後續對風險因子顯著性和穩定性的檢驗,那麼就是一組適合用來作為風險因子的組合。
4
風險因子的確認
4.1、風險因子的顯著性和穩定性
風險因子的顯著性和穩定性的檢驗,需要計算因子暴露度和截面因子收益率,而這兩個步驟在宏觀經濟多因子模型中是最核心的、最重要的。在Chen、Roll and Ross (1986)最早對股票市場所構建的宏觀經濟多因子模型中,這兩個步驟分別涉及到兩個維度的多元線性回歸,前者是在時間維度上回歸得到宏觀因子對收益的敏感度(factor sensitivities),而獲得因子敏感度之後便利用該數值在截面上對組合內的股票收益率進行回歸,估計得到的回歸係數便是因子的風險收益(factor premiums)。這一點不同於Barra模型中n對n型(因子在n個股票上有n個對應的值)基本面因子值可以直接作為因子暴露,宏觀因子為n對1型的因子,那麼對收益解釋度的差異性則來源於對因子值的敏感度,所以應該首先在時間序列上回歸得到因子的beta值(敏感度)。
我們首先嘗試對獲取因子暴露度時所涉及的兩個參數——滾動時間窗口長度和衰減係數進行討論,結果如下表所示。表中左列是不同的衰減係數,其中「半衰期對應係數」是由不同的窗口長度而定的,比如窗口長度為24個月時,距當前12個月的樣本點的權重就是0.5,而當前時期樣本點的權重是1。對於風險因子的顯著性來說,在通過時間加權的方式得到因子暴露之後,再進行截面回歸得到因子收益率及因子回歸p值,然後統計每一期截面回歸的因子p值,統計出現顯著的時間佔比;而對於風險因子的穩定性來說,計算滯後一期的前後兩個截面上因子暴露值的相關性,然後取平均值。下表得到的結果其實是對不同因子得到的結果再取了平均值。在這部分分析中,我們以經過合成得到的5個風險因子Bond、Inflation、Liquity、Cycle、Currency的組合為例。
衰減係數越大表示衰減得越快,那麼近期數據的權重就非常高,這就導致時間回歸後得到的暴露值再對當期截面進行回歸時得到的p值就偏小(越顯著),所以越能滿足顯著時間佔比的條件;而較大的衰減係數導致時間加權回歸得到的beta(因子暴露)相對「獨立」,致使前後截面上的相關性就變低。窗口長度對相關性的影響較小,但是選取較長的窗口,由於數據噪聲的原因使得回歸的顯著性降低,所以越長的窗口,時間顯著性就越小。綜合兩個參數的影響情況,我們認為較為合適的時間加權參數——窗口長度應是24個月,而衰減係數就選擇半衰期對應的係數,即2*ln(2)/240.0577。
4.2、不同風險因子組合
我們在第3部分得到了兩種不同的風險因子組合,組合一是由等權加和得到的複合的5個新風險因子(包括Bond、Inflation、Liquity、Cycle、Currency),組合二是由逐步回歸(或Lasso回歸)所得到的6個相關性較低的因子(USDX_d、PMI_d、M1_t、BD10Y、CILI_d、LOAN_d)。接下來我們對所得到的各個因子分別計算與風險因子對應的顯著時間佔比、滯後一期的解碼相關性以及單因子截面回歸所得到的因子收益率的年化波動率,結果如下面兩個表所示。
總之,如果僅僅從結果上來看,我們得到的風險因子基本上都具有這樣幾個特點:
(1)有效性:因子顯著,單個因子對各個品種收益率的解釋度平均值在1%-5%,而其他大多無效的因子Adj-R2為0或者為負值);
(2)低共線性:因子之間共線性較低,方差膨脹因子均很低,最大值也未超過2;
(3)顯著性:因子在時間上的顯著佔比超過了30%(除LOAN_d因子之外);
(4)穩定性:因子表現穩定,截面上前後兩期之間的相關性平均來看最低為0.88;
這裡有幾點需要做出補充解釋:(1)組合一中的「Currency」因子與組合二中的「USDX_d」因子是同一個因子,所以結果是一樣的;(2)具有一定相關性的細分因子在經過複合之後會降低對收益率的解釋度,這是由於某些細分因子本身的解釋度就不算高;(3)各個風險因子因子收益率的年化波動率均值7%-9%之間,和Barra模型中的風格類風險因子的波動效果相當;(4)不同方法得到的風險因子組合有一定差異,但基本上所得到的多數風險因子都滿足這些條件;(5)條件的設置其實並不是嚴苛的,這是因為當改動統計時間範圍時,顯著時間佔比以及其他幾個平均指標都會受到影響,但只要差別不是特別大就行;(6)正如前文所提及的,這些統計特徵的條件其實不是判斷是否為風險因子的充分條件,最重要最基礎的是要先對因子的顯著性進行檢驗;(7)還需要注意的是我們目前的統計是基於樣本內的數據,如果更好樣本區間,有可能結果不會一致,這是由於一方面宏觀數據對商品市場的影響邏輯可能發生了些許改變,另一方面和宏觀數據的質量有關,有可能數據本身由於某些因子導致數據精度不夠、質量欠佳;(8)之前涉及到的時間序列上的回歸和截面上的回歸,其實都是在對小樣本進行回歸,在下一部分中我們嘗試採用Bootstrap的穩健回歸方法來解決該問題。
最終,根據我們所得到的這兩個風險因子組合的因子暴露,分別可以再得到的各自對應的因子收益率,它們的因子收益率的累積表現以及兩種組合之間的因子收益率相關性結果如上所示。其中由於組合一中的Currency因子就等於組合二中USDX_d因子所以它們因子收益率信息是完全一樣的,相關性為1;而另外組合一Liquity因子與組合二M1_t因子相關性也非常地高,組合一Bond因子與BD10Y因子相關性為0.95。所以,儘管因子組合不同,但能夠用來對商品市場的風險信息進行描述的因子其實大同小異。
若從截面多元回歸的Adj-R2結果來看兩個不同的風險因子組合對截面收益的解釋程度的話(如上圖所示),由等權合成法所得的風險因子因為僅僅包含5個因子,其平均的Adj-R2是56.97%,而由逐步回歸法所得到的風險因子對截面收益的平均解釋度為61.46%。後者由於包含6個顯著有效的因子,而前者僅有5個因子,所以後者的平均解釋度會更高一些,所以二者相互比較的意義不大,但是整體來看不管採用哪種方法,我們所構建出來的風險因子模型對收益的解釋程度還是相對較高的(超過50%)。
4.3、基於Bootstrap的線性回歸
在獲得因子暴露與因子收益的兩步回歸都是小樣本的線性回歸,由於樣本數量過少,可能會導致估計誤差,那麼回歸得到的結果無法令人特別信服。經濟學上其實沒有較好的方法來解決小樣本回歸,這是由於我們無法得知小樣本數據本身的數據分布形式,所以為了使得回歸係數更加穩健,我們也只能對樣本數據分布形式進行假設。
基於Bootstrap的線性回歸,其實就是對樣本進行有放回的重複抽樣,這實際是通過抽樣的過程假設了樣本點具有高斯分布的形式。基於Bootstrap的回歸,又包括成對法和殘差法,區別就在於假設具有高斯分布的對象不同,前者是假設了樣本數據對(解釋變量與因變量數據對)是具有高斯分布形式的,而後者則是假設了全局回歸後的殘差具有高斯分布形式。
這裡需要說明的是,由於前文中對時間序列的線性回歸採用了時間加權,而在Bootstrap方法中,不管是成對法還是殘差法,即使隨機取樣時也同樣地取樣對應的時間權重,隨機取樣會不可避免地破壞時間權重分布,所以我們這裡基於Bootstrap的回歸一律採用一般最小二乘法,而不是加權的最小二乘法。
關於成對法Bootstrap具體步驟如下:
(1)將自變量觀測值(因子值或因子暴露值)與其響應值(收益率)形成數據對(xi,yi),i表示第i個樣本點,共N個樣本點。每個數據對以1/N的等概率進行有放回的重複抽樣,每隨機抽出N個點後構成一個抽樣集合。如果設置抽樣次數為B,那就共計得到B個Bootstrap樣本集合。
(2)對每個Bootstrap樣本集合進行線性回歸分析,每個因子的回歸係數會有B個Bootstrap得到的估計值。
(3)按照Bootstrap得到的結果具有一定正態分布的特點,我們去掉較大的5%、較小的5%的數據之後再取平均,以得到更加穩健一點的回歸係數。
而關於殘差法Bootstrap的步驟如下:
(1)將原始自變量觀測值序列 (因子值或因子暴露值)與其響應值(收益率)進行回歸得到殘差序列 以及對收益率的估計值 。
(2)將N個殘差樣本點,以1/N的等概率進行有放回的重複抽樣,得到一個關於殘差的抽樣集合 。如果抽樣次數為B,那就共計得到B個Bootstrap樣本集合。
(3)將每個Bootstrap樣本集合與原始的估計值序列 相加得到偽響應序列 ,對每個樣本集合得到偽響應序列與原始的自變量 進行線性回歸,得到B組對每個因子的回歸係數的估計值。
(4)同上述方法一樣,我們去掉較大的5%、較小的5%的數據之後再取平均,以得到更加穩健一點的回歸係數。
這兩種Bootstrap的方法的最後一步之所以會要求去掉一部分極端值,相當於只取在10%的置信區間內的估計值,這是因為樣本數量本身確實過少,而且取樣方式較隨機,每次Bootstrap得到的回歸係數也不夠穩定,波動較大,誤差較嚴重。
但是關於這兩種方法到底哪一種更加合適呢?我們認為如果樣本集合非常接近獨立同分布(I.I.D.),那麼這兩種方法差別不會很大,這也在一些研究中得到類似的結論。但是對於包含一定時間相關性的序列來說,樣本點之間並非是獨立的。另外,如果採用成對法的話,隨機取樣會對改變樣本集的方差的影響較大,而殘差法的對樣本集的方差變動相對更小一些。為此,我們以某一段24*1大小的觀測樣本以及對應的24*1大小的收益率序列為例,並設置不同的取樣次數B(B=20,50,100,200,500,1000),對殘差法的Bootstrap、成對法的Bootstrap方法的做了對比測試。在每個參數B下,我們重複10次Bootstrap,然後取10次的標準差,以計算收斂特性,結果如下表所示。
從上表結果上來看,當取樣次數較少時,殘差法就已經能夠表現地相對穩定一些。而當取樣次數較大時(如B值取1000),這兩種方法都能夠表現出足夠的穩定性(低方差),而在取樣次數較大時,成對法也增加了回歸係數分布的有偏性。
對比之後,我們發現若採用基於殘差法的Bootstrap對小樣本數據進行線性回歸,將得到更加穩健一些的回歸結果。但是Bootstrap有沒有造成對因子暴露或者截面因子收益的其他影響呢?下面幾張圖展示了原始的非穩健回歸方法——基於全樣本的全局回歸,與基於殘差法Bootstrap的回歸所得到的風險因子特徵對比。
如果從顯著時間佔比來看的話,Bootstrap方法能夠降低這種顯著性,這是由於Bootstrap仍然會造成有偏的估計結果,使得同期的因子暴露對同期的收益的回歸t值的絕對值降低;如果從滯後一期的截面相關性來看的話,Bootstrap的結果由於更加穩健使得前後兩期的相關性略有提高;如果從截面回歸得到的因子收益的年化波動率來看的話,Bootstrap方法因為更加穩健,導致各個時點對因子暴露的估計值相對更加穩定一些,所以截面回歸得到的因子收益率的波動也相對更小一些。
也就是說,Bootstrap雖然使得因子的穩定性略微上升,但降低了截面回歸的顯著時間佔比,同時降低了因子的波動性。但是儘管如此,我們得到的結果依然滿足風險因子的穩定性與顯著性。由於商品上的宏觀風險因子顯著時間本身就比股票上的低,我們建議對於這種小樣本的線性回歸最好仍採用能夠使得回歸係數更加穩健的Bootstrap的方法。但是如果對於時間顯著性的要求非常嚴格的話,我們認為Bootstrap也需要謹慎使用。
5
結論
相比於股票市場上的較為成熟的結構化風險模型,商品市場的宏觀風險因子模型仍比較初級,所以做好該風險模型的關鍵就是對宏觀風險因子的篩選和確認。Barra有一套較為嚴格的篩選風險因子的流程,而且業內在對股票市場的風險模型研究中也基本上得到了一系列較為常規化的篩選流程和標準,基於此我們嘗試對風險因子的篩選應滿足以下幾個條件:(1)因子的有效性,風險因子要具有較高的收益解釋度,對新因子的考量的首要條件就是Adj-R2增量為正;(2)因子之間呈現低共線性,新因子的選入條件之一是與其他因子之間共線性較低;(3)因子在各期截面上的顯著時間佔比應超過30%;(4)因子暴露度在前後兩期之間的相關性的平均值應超過0.85。在對商品市場宏觀風險因子的共線性問題進行考慮時,我們可以採用處理共線性問題的幾種回歸方法,如逐步回歸、嶺回歸和Lasso回歸,而且也可以根據因子之間的相關性來等權合成得到新的因子。但這些方法僅僅是通過以降低共線性為目的而進行初步篩選,不一定更加穩定,所以還需要進一步的檢驗和評定。
在獲取因子暴露以及因子收益時的過程中,我們基本上沿用了Chen、Roll and Ross (1986)最早所提出的對因子暴露度的獲取以及對因子收益的計算方法,先後分別在時間序列和截面上進行單因子的一元線性回歸,但是我們也做了一些調整。一方面採用了時間加權回歸的方式對因子暴露度的回歸,能夠使得近期樣本數據影響更大一些,但過大的權重又降低了因子的穩定性。另一方面,對於小樣本回歸的解決辦法是採用基於殘差法的Bootstrap的線性回歸,目的是為了使得回歸結果更加穩健,但會降低因子顯著性,需慎重採用。
實際上對風險因子顯著性和穩定性的檢驗的過程,可算作對風險因子的補充與確認,而非充分條件。但是最重要的篩選一定是對單個因子的有效性檢驗,單因子對收益率的解釋度可以不高,但至少應該為正值。我們發現無論採用合成新因子的方法得到的5個風險因子的組合還是採用逐步回歸法所得到的6個風險因子的組合,都基本滿足風險因子的顯著性和穩定性的要求。
我們本篇報告的目的是想總結得到一個適合國內商品市場的簡單的結構化風險模型,一方面能夠識別並篩選得到對商品市場影響顯著、有效又穩定的風險因子,而且從有效性、低共線性、顯著性和穩定性4個方面來依次從因子庫中篩選並確認風險因子,而另一方面則是為了為期貨投資配置提供更好的分析風險的模型框架,這樣便可以方便地通過收益率協方差矩陣的估計得到對各風險因子的分配權重,我們將在後續的研究中繼續對該方面進行探討。
6
參考文獻
1. Denis Dolinar, Silvije Orsag, and Paola Suman. 2015. Test of the Chen-Roll-Ross Macroeconomic Factor Model:Evidence from Croatian Stock Market. UTMS Journal of Economics 6 (2): 185196.
2. Fernandez-Perez A, Fuertes A M, Miffre J. Harvesting Commodity Risk Premia.
3. Hamilton J D, Wu J C. 2014. Risk premia in crude oil futures prices, Journal of International Money and Finance, 42: 9-37.
4. Hannam M, Lejonvarn J. 2012. The Commodity Risk Premium, Social Science Electronic Publishing.
5. Chen, Nai-Fu, Richard Roll, and Stephen A. Ross. 1986. Economic forces and the stock market. Journal of business 59 (3): 383403.
6. Barra M. 2007. Barra risk model handbook, MSCI Barra Applied Research, 43.
7. Northfield Information Services, Inc. 2015. U.S. Macroeconomic Equity Risk Model.
李曉輝高級分析師(金融工程)
田鍾澤分析師(金融工程)
文章來源:微信公眾號
(責任編輯:吳曉琳 HF106)