主成分Logistic回歸模型在國債期貨跨品種套利中的應用

2020-11-30 金融界

來源:期貨日報

5年期和10年期國債期貨合約的跨品種套利,是國債期貨市場上較為常見的操作方式。傳統理論認為,5年期和10年期國債收益率具有一致性,存在著較為穩定的利差中樞。當利差明顯高於(低於)利差中樞時,收益率曲線過於陡峭(平緩),此時10年期國債價值相對5年期國債被低估(高估)。由於預期過於陡峭(平緩),收益率曲線會出現自我修復,從而帶動利差中樞修復。

然而,在實際操作中,經常會面臨利差突破軌道後繼續上漲(下跌)並沒有回歸的情況。其原因在於:一方面,利差中樞需要一段時間跨度的歷史數據來計算,時間跨度的選取具有經驗性和隨機性;另一方面,均值回歸理論基於市場有效性和投資者風險偏好假設,而利差影響因素包括宏觀基本面信息,傳統理論並不總是適用。

Nelson-Siegel模型

20世紀80年代,Nelson和Siegel提出了一個用參數表示的瞬時遠期利率的函數,該模型將利率期限結構分解為水平、斜率和曲率三個部分,分別可以解釋實際中的遠期利率市場預期、債券的風險溢價以及凸性偏離。相比傳統的多項式和指數樣條法,該模型更具有可解釋性,符合市場預期理論,並且只使用三個β參數,具有更高的靈活度來擬合不同類型的收益率曲線:

其中,β0的係數為1,是一個常數,可以理解為一個水平因子。β1從1變為0,代表曲線的斜率,β2先增後減,代表曲度。在國內外的研究中,主成分分析法作為數據降維和避免多重共線性的常用工具,可以通過線性組合構建一個如(1)所示的三因子公式模型。

本文主要從三個方面對現有方法進行改進:第一,單獨採用主成分分析對利差曲線擬合效果較差,僅能表示大致變化趨勢,不能滿足實際套利需要的預測精度。對因變量利差的邊界進行區間處理,使用二分類Logistc回歸模型進行擬合,加強了擬合程度和樣本外泛化能力。第二,拓展待定因子選取範圍,加入更多具有經濟學解釋意義的因子,利用相關係數進行初步篩選。第三,為了使整個模型更具有可解釋性,運用最大化方差法旋轉因子,使Nelson-Siegel模型內三個預測變量的整體貢獻方差達到最大。

主成分分析

本文選取10年期和5年期國債利差、國債指數歷史波動率、國債指數動量(歷史漲跌幅)和流動性(成交量)、匯率、Shibor等指標,篩選後得到共計12個解釋變量,通過歸一化和去極值後加入到模型中。

為了實現數據降維,同時最大程度減少原始數據信息的丟失,筆者引入主成分分析法,基本思路是,從p個相關的解釋變量中提起出k個不相關的主成分,每一個主成分都是原始變量的線性擬合,第一個主成分最大程度解釋了原始變量數據的方差,具有最大的特徵值。第二個主成分與第一個主成分之間不存在線性關係,它最大程度解釋了剩餘方差,以此類推。因此,參照公式(1)中的三個解釋變量,從原始數據中提取出前三個主成分,分別可以解釋樣本94%、5%和1%的方差。

最大方差法

通過主成分分析提取的三個主要成分,均由原始數據的因子線性組合而成,這樣的向量稱為載荷矩陣。多數情況下,估計出的因子載荷在各個因子上並不突出,在一定程度上影響了模型解釋度。由於因子載荷矩陣並不唯一,可以通過旋轉的方式突出因子的特徵,使各個因子載荷之間的距離儘量拉大,即方差最大化。理論上,因子旋轉後,每個主成分都包含了一些較大和較小的因子載荷,通過觀察較大載荷的因子,便於解釋其主成分所代表的原始信息。

Logistic回歸

跨品種套利聚焦利差的相對變化位置,而不是連續的利差預測曲線,離散型變量相對於連續型變量在模型預測方面提供了更靈活的空間,輸出結果與套利的方向操作有較大的兼容性。因此,下面對因變量10年期和5年期利差做二分類處理,擴大記為1,縮小記為0。

Logistic回歸不同於線性回歸,它不要求模型變量間具有線性的相關關係,不要求服從協方差矩陣相等和殘差項服從正態分布等,使得模型較為簡潔高效。通常來講,Logistic回歸基於極大似然估計方法,逐步選擇重要的解釋變量,無法避免多重共線性和對原始數據依附性的問題。由於在該案例中,原始數據已經由上述步驟所得的三個獨立的主成分代替,已經規避了類似問題,如以下公式所示:

筆者利用統計檢驗的方法,分別比較了單獨採用Logistic回歸、主成分分析+Logistic、主成分分析+因子旋轉+Logistic在樣本內和樣本外的表現。

實證研究顯示,在擬合程度和樣本外泛化能力兩個方面,後兩個模型均優於僅使用Logistic回歸的模型,結合因子旋轉的主成分Logistic模型,在樣本外預測準確率上略好於沒有採用因子旋轉的模型,同時考慮到因子旋轉後具有更強的實際解釋意義,所以主成分分析+因子旋轉+Logistic回歸整體表現更好。

表為檢驗方法統計

在經濟數據普遍具有高維和內在相關性的背景下,上述三個方法的結合使用在儘可能減少原始數據信息丟失的前提下,構建了具有獨立簡約含義和可操作性的利率模型。將模型產生的預測信號運用於10年期和5年期的跨品種套利,歷史回測顯示獲得了較好的收益表現。

相關焦點

  • 國債期貨擇時方法論探討
    對於數目較多相關性較強的宏觀數據,建模應用還是首先需要解決降維的問題,我們在此前的基本面量化研究中應用偏自相關回歸的方法論,在較為繁雜的基本面數據中基於指標對被解釋變量的解釋能力進行賦權降維,總體上可以實現較好的預測效果。
  • 吳廣奇:主成分分析法在黃金期貨量化策略中的應用
    原標題:主成分分析法在黃金期貨量化策略中的應用 摘要 【吳廣奇:主成分分析法在黃金期貨量化策略中的應用】我們在研究某些問題時,需要處理帶有很多變量的數據。
  • 我國國債期貨採用什麼交割方式?可交割券是如何規定的?
    目前對同一客戶號在同一會員處的2年期、5年期、10年期國債期貨的跨品種雙向持倉(合約在交割月份前一個交易日收盤後除外),按照交易保證金單邊較大者收取交易保證金。22、國債期貨的當日結算價如何確定?國債期貨合約的當日結算價為集中交易中合約最後一小時成交價格按照成交量的加權平均價。計算結果保留至小數點後三位。
  • 貝葉斯線性回歸在期貨交易中的應用
    本報告嘗試利用滬銅期貨的基本面周頻數據對滬銅期貨下一周的收益率分布進行預測,研究結果標明利用貝葉斯模型對期貨收益率預測有一定效果。根據該模型的預測結果對2016年3月至2017 年6月的純樣本外數據進行回測獲得年化收益17.8%,波動率22%,夏普率0.8。
  • 點寬專欄-SVM帶你玩轉期貨品種
    其中,策略優化後在滬深股指上表現有:年化收益率為27.76%,勝率高達60%策略研究 Logistic回歸:一種廣義線性回歸模型1.1 概念logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型
  • Logistic回歸之有序logistic回歸分析
    Logistic回歸分析(logit回歸)一般可分為3類,分別是二元logistic回歸分析、多分類Logistic回歸分析和有序Logistic回歸分析。logistic回歸分析類型如下所示。1、有序logistic回歸分析基本說明進行有序logistic回歸時,通常需要有以下步驟,分別是連接函數選擇,平行性檢驗,模型似然比檢驗,參數估計分析,模型預測準確效果共5個步驟。
  • Logistic回歸分析之二元Logistic回歸
    本次內容將針對二元logistic(logit)回歸進行說明,後續兩篇文章將分別講解有序logistic(logit)和多分類logistic(logit)回歸。 分析完成X與Y的差異關係之後,篩選出有差異的X,然後再放入模型中,進行二元logistic回歸;這樣做的目的有兩個,一是簡化模型,越簡單的模型越容易擬合且效果越好;二是做到心裡有數,提前了解到數據之間的大致關係情況。
  • 一文詳述:觀察性研究中的logistic回歸分析思路
    (感謝馮國雙教授的授權) 觀察性研究在研究設計中佔有非常重要的地位,實際應用中比較常見的是病例對照研究和隊列研究。儘管其應用廣泛,但在數據分析中卻存在不少問題。在分析時往往只考慮數據本身,而未能結合研究類型,從而導致結果的偏倚。甚至在已發表的文章中,也存在一些不嚴謹用語。
  • Logistic回歸—初步了解10個問題
    採用logistic回歸分析,將研究因素、混雜因素及其交互作用均體現於模型中,基於效應估計值改變量的方法,可在校正混雜因素的作用下,研究結局變量與主要因素間的聯繫。   3)預測與判別,非條件logistic回歸在臨床預測與判別分析中應用比較廣泛,對於隊列研究和現況調查研究,如果通過假設檢驗,確定所建立的回歸方程能很好地解釋變量間的關係,且結果具有較好的擬合優度,則給定自變量數值時,可通過非條件logistic回歸方計算出相應的概率預測值,從而對個體的結局類別作出概率性的判斷。
  • 重磅乾貨:全球商品期貨量化交易策略
    這篇報告介紹了海外部分主要投資於商品期貨的量化對衝基金,同時對國內商品期貨市場上的量化基金做了概述。  常見商品期貨交易策略除套期保值之外,以博取收益為目的的常見商品期貨交易策略包括套利策略、短線投機策略和中長線趨勢策略。套利策略我們主要介紹跨期套利、跨市場套利和跨品種套利。在這一部分,我們對可供套利的期貨市場和期貨品種均做了介紹。
  • 偏度指標在期權套利中的應用
    在傳統的BS模型假設中,即便期權的行權價不同,隱含波動率也還是一致的。  根據以上計算結果可以發現,豆粕期權的Skew指標有明顯的均值回歸特徵,即兩個期權的隱含波動率之間存在此消彼長的關係。如果Skew過高,也就是虛值看漲期權的價格比虛值看跌期權過高,這樣就有了套利空間,就可以賣出Delta為0.25的看漲期權、買入Delta為-0.25的看跌期權,同時買入標的期貨,以維持Delta中性,等待隱含波動率結構水平回歸帶來的收益。
  • PTA套利實戰教程:在不確定中尋找確定
    在此契機下,銀河期貨的男神馬思睿先生來替大家換個思路,聊聊那些年你錯過的PTA套利機會。    本次課程的講解分為以下幾個部分:第一個是對衝套利的基本概念;第二個是PTA產業鏈的套利基礎和原理解析;第三個是PTA產業鏈套利交易的實際應用;最後是對衝套利模型建立的基礎步驟。
  • 零基礎的同學如何用Stata做logistic回歸?
    同學們在做統計研究時,時常聽到身邊的朋友會提及一個詞:logistic回歸。聽的次數久了,同學們多半會思考:什麼是logistic回歸?如何在Stata中做logistic回歸呢?什麼是logistic回歸什麼是logistic回歸?
  • SPSS統計分析案例:多項logistic回歸分析
    小兵博客幾年前分享的二項logistic回歸分析案例非常受歡迎,在實際應用中,可能還會碰到因變量是多個分類的情況,並且不包含排序信息。比如視力分為輕度、中度、重度三個水平,此時如果想考察影響視力評價的指標,常用的二項logistic回歸已經無法勝任。幸好,SPSS軟體為我們提供了多項logistic回歸。
  • 一文掌握多分類logistic回歸
    ,則為多分類logistic回歸;如果Y是多個類別且類別之間可以對比程度大小(也稱為定量數據,或者有序定類數據),此時則使用有序logistic回歸。單獨進行多分類logistic回歸時,通常需要有以下步驟,分別是數據處理,模型似然比檢驗,參數估計分析和模型預測效果分析共4個步驟。
  • 一文讀懂條件Logistic回歸
    病歷對照研究或者傾向得分匹配研究(一種將研究數據處理成『隨機對照實驗數據』的方法)中常使用條件Logistic回歸進行分析。其與普通的二元logistic回歸區別在於,多出配對ID,即將配對組納入考慮範疇。1、案例背景某北方城市研究喉癌發病的危險因素,使用1:2匹配的病例對照研究方法進行調查。共有25對配對數據(每對3個,即25*3=75行數據)。
  • 什麼是期貨品種相關性
    什麼是期貨品種相關性 期貨品種相關性:相關係數是用以反映變量之間相關關係密切程度的統計指標。相關係數是按積差方法計算,同樣以兩變量與各自平均值的離差為基礎,通過兩個離差相乘來反映兩變量之間相關程度;著重研究線性的單相關係數。
  • 數據建模中分類與預測模型
    因此,利用量化平臺對多元化的數據進行提取,按照自身的分析模式搭建合理化的分析框架,自動化的得到針對基本面、技術面的分析結果的分析方法也開始逐漸火熱起來,這個結果根據需求既可以是定量的,也可以是定性的,目前這種量化建模的方式也已經在眾多私募、券商等中應用已久,但是對於大多數個體投資者而言,還是一個十分陌生的領域。
  • 鉛鋅企業利用組合套利規避虧損
    組合套利是指利用國內兩種商品間比值波動與國外相同兩種商品間比值波動的趨同性進行套利。當國內商品間比值的波動大於(或小於)國外商品間比值波動時,就出現了套利機會。這種方法可以有效規避單一市場跨品種套利的風險。目前有色金屬國內市場與國外市場緊密度越來越高,比值具有趨同性,另外國內、國外兩種環境容易導致比值波動短期內出現不統一現象,這就為投資者套利提供了機會。
  • 機器學習算法系列(一):logistic回歸
    七、Logistic回歸和SVM的關係一、Logistic分布定義:X是連續隨機變量,X服從logistic分布,則X具有下列的分布函數和密度函數:其中,μ為位置參數,γ為形狀參數曲線在中心附近增長速度較快,並且γ值越小,曲線在中心附近的增長速度越快。特別的,當μ=0,γ=1的時候就是sigmoid函數。