吳廣奇:主成分分析法在黃金期貨量化策略中的應用

2021-01-10 東方財富網

原標題:主成分分析法在黃金期貨量化策略中的應用

摘要

【吳廣奇:主成分分析法在黃金期貨量化策略中的應用】我們在研究某些問題時,需要處理帶有很多變量的數據。變量和數據雖然很多,但可能存在噪音和冗餘。然而,主成分分析法可以用少數變量來代表所有的變量,用來解釋研究者所要研究的問題,化繁為簡,抓住關鍵,也就是降維思想。(期貨日報)

  我們在研究某些問題時,需要處理帶有很多變量的數據。變量和數據雖然很多,但可能存在噪音和冗餘。然而,主成分分析法可以用少數變量來代表所有的變量,用來解釋研究者所要研究的問題,化繁為簡,抓住關鍵,也就是降維思想。本文以黃金期貨為例,通過對其基本面數據進行分析,提取了對黃金影響較大的10個基本面變量,使用主成分分析法對數據進行降維處理,並使用降維後的新變量構建黃金期貨的量化擇時策略。

  主成分分析法的核心思想

  我們在研究某些問題時,需要處理帶有很多變量的數據。比如,研究房價的影響因素,需要考慮的變量有物價水平、土地價格、利率、就業率等。變量和數據很多,但可能存在噪音和冗餘,因為這些變量中有些是相關的,那麼就可以從相關的變量中選擇一個,或者將幾個變量綜合為一個變量,作為代表。用少數變量來代表所有的變量,用來解釋所要研究的問題,就能化繁為簡,抓住關鍵,這也就是降維的思想。

  主成分分析法(Principal Component Analysis,PCA)就是一種運用線性代數的知識來進行數據降維的方法。它將多個變量轉換出少數幾個不相關的變量來,但轉換後的變量能比較全面地反映整個數據集。這是因為數據集中的原始變量之間存在一定的相關關係,可用較少的綜合變量來表達各原始變量之間的信息。

  具體來看,在數學變換中保持變量的總方差不變,使第一變量具有最大的方差,稱為第一主成分,第二變量的方差次大且和第一變量不相關,稱為第二主成分。依次類推,i個變量就有i個主成分。其中,Li為p維正交化向量(Li×Li=1),Zi之間互不相關且按方差由大到小排列,則稱Zi為X的第i個主成分。設X的協方差矩陣為Σ,則Σ必為半正定對稱矩陣,求特徵值λi(按從大到小排序)及其特徵向量。可以證明,λi所對應的正交化特徵向量,即為第i個主成分Zi所對應的係數向量Li,而Zi的方差貢獻率定義為λi/Σλj,通常要求提取的主成分的數量K滿足Σλk/Σλj>0.85。

  圖為相關變量線性轉換

  主成分分析法的核心思想是降維,而降維的基礎是變量之間的相關性。主成分分析法不要求所有變量都相關,但部分變量之間的相關性比較大才能滿足降維的條件,否則強制對不相關的變量進行降維,主成分分析法就失去了實際意義。因此,對於價格內在影響因素相關度較強的期貨品種,用主成分分析法進行分析研究是比較合適的,而對於影響因素相關度較弱的期貨品種不適合。

  那麼主成分分析法是如何降維的呢?我們從坐標變換的角度來獲得一個感性的認識。

  圖為主成分分析法降維正態分布

  在短軸上,觀測點數據的變化比較小,如果把這些點垂直地投影到短軸上,那麼有很多點的投影會重合,這相當於很多數據點的信息沒有被充分利用到。而在長軸上,觀測點的數據變化比較大。因此,如果坐標軸和橢圓的長短軸平行,那麼代表長軸的變量直接可以從數據集的原始變量中找到,它描述了數據的主要變化。而另一個原始變量就代表短軸的變量,描述的是數據的次要變化。

  在極端情況下,短軸退化成一個點,那麼就只能用長軸的變量來解釋數據點的所有變化,就可以把二維數據降至一維。不過,坐標軸通常並不和橢圓的長短軸平行,就像上圖所展示的那樣。因此,需要構建新的坐標系,使得新坐標系的坐標軸與橢圓的長短軸重合或平行。這需要用到坐標變換,把觀測點在原坐標軸的坐標轉換到新坐標系下,同時也把原始變量轉換為長軸的變量和短軸的變量,這種轉換是通過對原始變量進行線性組合的方式而完成的。

  舉例來說,一個觀測點在原X—Y坐標系中的坐標為(4,5),坐標基為(1,0)和(0,1),如果長軸為斜率是1的線,短軸為斜率是-1的線,新坐標系以長軸和短軸作為坐標軸,那麼新坐標基可以取為

  和

  。我們把兩個坐標基按行放置,作為變換矩陣,乘以原坐標,即對原坐標進行線性組合,可以得到該點在新坐標系下的坐標

  。可以看到,變換後長軸變量的值遠大於短軸變量的值。

  如果長軸變量解釋了數據集中的大部分變化,那麼就可以用長軸變量來代表原來的兩個變量,從而把二維數據降至一維。橢圓的長軸和短軸的長度相差越大,這種做法的效果也就越好。本文以黃金期貨為例,使用主成分分析法,對影響黃金期貨價格的基本面變量數據進行降維,構建其量化交易策略。

  影響黃金價格的主要因素

  黃金作為一種特殊的大宗商品,具有商品、貨幣和投資避險的多重屬性。本文從黃金的供需、經濟數據、金融資產三個維度中,選一些基本面因子對黃金價格的影響進行分析。

  首先來看黃金的供需。作為一個大宗商品,黃金的上遊供給量受到金礦開採以及廢金回收的影響,而主要的下遊需求可分為製造業需求(珠寶首飾、工業材料等)和金融投資需求。此外,像央行這樣的大型市場參與者的售金、買金行為也會影響市場供需格局。

  其次來看經濟數據。黃金作為金融投資品,受到所處時期經濟周期的影響,比如,經濟滯漲時期,黃金的表現通常較好,投資者也更願意將資金配置在黃金上。經濟數據除了描繪當前的經濟圖景外,也會影響各國央行的貨幣政策。而以美聯儲為代表的大國央行的貨幣政策,也對同時期黃金價格走勢產生比較大的影響。

  最後來看金融資產。一方面,一些金融資產的變化可以直接影響黃金價格和投資者偏好。比如,在利率較低的時期,黃金的持有成本相對較低,配置價值也相對較高。外匯的波動會直接影響以該貨幣計價的黃金價格等。另一方面,一些金融資產和黃金受到相同影響因素的影響,價格波動有著較高的相關度,並且能夠更好更快地反映當時市場的經濟和金融氛圍。

  根據以上分析,筆者選取了10個與黃金相關度較高的基本面指標進行分析回測,分別是美國10年期國債收益率、美國10年期國債實際收益率、美元指數、VIX恐慌指數、美國失業率、美國新增非農就業人數、美國CPI、美國PPI、美國ISM製造業PMI、各國央行和其他機構黃金需求。

  數據處理

  數據預處理

  商品期貨的基本面數據具有種類多、時間離散、公布時間不規律等特點,需要對其進行預處理,預處理的主要目的是將其轉化為可以對比分析的數據。對其進行數據公布頻率的分類,並將其在時間上進行對齊處理。在數據處理時,要注意美國數據的公布時間和國內數據公布時間的時區差異,以及月度和季度數據公布的滯後性。

  Z—Score模型

  由於基本面數據量綱不統一,需要將其處理成無量綱且可對比的數據。在基本面分析中,一般採用Z-Score的方法對基本面數據進行處理。Z-score模型是以多變量的統計方法為基礎,以破產企業為樣本,通過大量的實驗,對企業的運行狀況、破產與否進行分析、判別的系統。具體處理方法為,將原始數據減去一段時間的均值再除以這段時間數據的標準差。Z-Score數據能夠真實地反映一個分數距離平均數的相對標準距離,能確實反映原始數據的波動率信息。

  舉例來說,假設我們要比較A與B的考試成績,A的考卷滿分是100分(及格60分),B的考卷滿分是700分(及格420分)。很顯然,A考出的70分與B考出的70分代表著完全不同的意義,但從數值來講,A與B在數據表中都是用數字70代表各自的成績。那麼如何能夠用一個同等的標準來比較A與B的成績呢?Z-Score就可以解決這一問題。

  量化回測

  變量選取

  首先要確定降維後的變量個數,其次通過對其波動變量方差佔比進行分析,最後選出對變量集合波動貢獻較大的變量。

  圖為變量波動方差貢獻分布

  從波動的貢獻來看,波動率貢獻最大的前四個變量對數據整體波動率貢獻分別為25.24%、16.74%、12.85%和11.76%,均大於10%。考慮到後面兩個影響較少和儘量精簡模型輸入,選取最為重要的兩個變量。確定好最終的變量個數後,用主成分分析法對數據進行降維處理,降維後得到兩個新的數據序列。

  變量分析

  為方便識別,降維後的變量序列稱為principalcomponent1和principalcomponent2。對原始基本面數據變量進行編碼:fx為美國10年期國債收益率;realfx為美國10年期國債實際收益率;dollarindex為美元指數;vixindex為VIX恐慌指數;lossjob為美國失業率;offfarm為美國新增非農就業人數;uscpi為美國CPI環比;usppi為美國PPI環比;uspmi為美國ISM製造業PMI;balancedata為各國央行和其他機構黃金需求量。

  圖為原始變量和降維後變量關係(絕對值)

  從上圖可以看出,和降維後數據關係較為密切的變量為美國10年期國債收益率、美國10年期國債實際收益率、美國CPI環比和PPI環比等數據,這說明在這10個基本面的變量中,單個變量對其他的變量影響較大的為以上四個變量。在實際分析中,美國10年期國債收益率、美國10年期國債實際收益具有較高的相關性,CPI和PPI長期走勢趨於統一。因此,對基本面影響較大的兩個變量可以概括為美國10年期國債收益率和CPI。部分數據,如各國央行和其他機構黃金需求量公布頻率較低,經過數據處理後,整體波動不大,弱化了它對其他變量的影響。美元指數和VIX指數儘管公布頻率較高,但整體對基本面數據影響較小。

  數據回測

  對降維後的兩個變量進行處理,構建與黃金價格的關係,其較為直接的想法是對兩個變量進行賦權,構建成一個包含兩個變量的線形變量。

  綜合變量被設計成一個與黃金期貨價格正相關的變量。從原始變量和降維後變量關係圖中可以看出,principalcomponent1與美國10年期國債收益率相關度較高,由此可以判斷它與黃金價格為負相關關係;principalcomponent2與美國CPI、PPI相關度較高,由此可以判斷它與黃金價格為正相關關係。不過,在構建變量時,不能簡單地做權重分布,還要考慮方向問題。

  圖為降維後的變量走勢

  由於前期做了數據的Z-Score處理,數據本身具有均值回復的特徵,類似布林帶指標,設定一個閾值,當綜合指標低於閾值的反數時,做多黃金期貨;在綜合指標高於閾值時,做空黃金期貨。為充分反映趨勢,當做多時,綜合指標高於閾值時平倉;當做空時,綜合指標低於閾值的反數時平倉,平倉和開倉不同時進行,不做止損和止盈。

  數據回測中,採用黃金期貨指數,資金不加槓桿,策略的開平倉費率設為0.02%,數據結果僅供投資者參考。用年化波動率對收益淨值進行倉位控制,控制目標為年化波動率為10%,其收益走勢如下:

  圖為收益淨值和倉位控制後淨值

  該量化策略近10年時間共交易58次,做多38次,做空20次,持有時間波動較大,最近一次交易為2019年6月10日收盤做多,多單持有至今。策略不經倉位控制的年化收益為8.22%,最大回撤為23.20%;經倉位控制後年化收益為7.15%,最大回撤為10.36%。

  總結

  本文對黃金期貨的基本面數據進行分析,提取了對黃金影響較大的10個基本面變量,使用主成分分析法對數據進行降維處理,並使用降維後的新變量構建黃金期貨的量化擇時策略。

  通過數據回測,筆者發現,基本面數據對黃金的量化擇時(利用數量化的方法,通過對各種宏觀、微觀指標的量化分析,試圖找到影響大盤走勢的關鍵信息)起到一定效果,在不加槓桿的情況下,總體年化收益在7%以上。在數據降維後,研究發現,黃金基本面數據較為核心的影響因素為美國10年期國債收益率和CPI,美元指數和VIX指數對基本面數據的整體影響則較弱。

(文章來源:期貨日報)

(責任編輯:DF524)

相關焦點

  • 如何使用主成分分析法構建黃金期貨的量化擇時策略
    然而,主成分分析法可以用少數變量來代表所有的變量,用來解釋研究者所要研究的問題,化繁為簡,抓住關鍵,也就是降維思想。本文以黃金期貨為例,通過對其基本面數據進行分析,提取了對黃金影響較大的10個基本面變量,使用主成分分析法對數據進行降維處理,並使用降維後的新變量構建黃金期貨的量化擇時策略。 主成分分析法的核心思想 我們在研究某些問題時,需要處理帶有很多變量的數據。
  • 主成分Logistic回歸模型在國債期貨跨品種套利中的應用
    來源:期貨日報5年期和10年期國債期貨合約的跨品種套利,是國債期貨市場上較為常見的操作方式。傳統理論認為,5年期和10年期國債收益率具有一致性,存在著較為穩定的利差中樞。在國內外的研究中,主成分分析法作為數據降維和避免多重共線性的常用工具,可以通過線性組合構建一個如(1)所示的三因子公式模型。本文主要從三個方面對現有方法進行改進:第一,單獨採用主成分分析對利差曲線擬合效果較差,僅能表示大致變化趨勢,不能滿足實際套利需要的預測精度。
  • spss主成分怎麼進行分析?spss主成分分析法步驟
    spss 這款軟體功能非常多哦,還可以分析主成分哦,但是很多朋友不知道spss主成分怎麼進行分析?小編下面準備了spss主成分分析法詳細步驟,大家安裝 詳細步驟一步步操作就知道spss主成分怎麼進行分析?
  • 重磅乾貨:全球商品期貨量化交易策略
    這篇報告介紹了海外部分主要投資於商品期貨的量化對衝基金,同時對國內商品期貨市場上的量化基金做了概述。  常見商品期貨交易策略除套期保值之外,以博取收益為目的的常見商品期貨交易策略包括套利策略、短線投機策略和中長線趨勢策略。套利策略我們主要介紹跨期套利、跨市場套利和跨品種套利。在這一部分,我們對可供套利的期貨市場和期貨品種均做了介紹。
  • 貝葉斯線性回歸在期貨交易中的應用
    本報告嘗試利用滬銅期貨的基本面周頻數據對滬銅期貨下一周的收益率分布進行預測,研究結果標明利用貝葉斯模型對期貨收益率預測有一定效果。根據該模型的預測結果對2016年3月至2017 年6月的純樣本外數據進行回測獲得年化收益17.8%,波動率22%,夏普率0.8。
  • 國君策略:ESG評級體系的構建與投資策略應用
    3.ESG的實踐:負面剔除、正面篩選與指數投資ESG投資的應用包括負面剔除、正面篩選、指數投資。最初的ESG投資主要採取負面剔除策略,即基於企業行為與ESG標準,從投資組合中剔除特定行業或特定公司;隨著企業披露的ESG信息逐漸增多,投資者會選取行業內ESG表現較好的上市公司,納入其投資組合當中。現代化ESG投資策略則主要使用ESG評級指數。
  • 國債期貨擇時方法論探討
    其次,主成分分析法更適合處理板塊內指標的相關性問題,採用主成分分析的方法無法解決降維所得結果對因變量是否具有解釋能力的問題,因而還需要對各個降維成分進行預測能力的驗證,實際應用過程中可能存在因驗證標準選擇而對樣本外預測結果產生較大影響的情況,實際應用難度較高。
  • 隨機漫步的市場,文諦資產的量化多策略如何多維度獲取收益?
    放眼整個市場,量化CTA有以下突出優勢:1、與股市呈弱相關性:主要投資於商品期貨、期權及股指期貨,與股票投資形成互補;2、充分使用槓桿:保證金交易制度;3、穿越牛熊:可以進行多、空交易;4、廣泛的投資標的:全球150個市場的期貨、期權、黃金、外匯等廣範圍的標的。
  • 雙動量策略在商品量化中的應用
    策略摘要:CTA策略中最常用的莫過於趨勢策略,而趨勢策略中應用較多的則是動量策略。動量分為時間動量和截面動量,時間動量策略指的是前期上漲的品種在未來一段時間有可能繼續上漲,前期下跌的品種在未來一段時間有可能繼續下跌。
  • 小波分析法在期市中的應用
    在金融市場中,受各種突發事件的影響,金融數據存在許多噪音,特別是期貨數據,乾旱天氣、化工廠爆炸等偶然事件都足以引起市場的騷動。這些噪音嚴重影響了數據分析和交易決策,而去噪的不同決定了交易決策的不同,所以去噪成為交易中至關重要的一步。
  • 量化| 模型校正在量化金融中的應用
    原標題:量化 | 模型校正在量化金融中的應用 只做專業交易軟體 | 交易開拓者旗艦版 | TB-Plus | TB-Smart | >模型校正在量化金融中的應用 斯蒂文管理著一個交易組合包含著各種資產類 (asset class) 的金融產品。
  • 數據分析之主成分分析,spss主成分分析實例
    一、主成分分析概要主成分分析,在進行有多個指標的綜合評定時,客觀全面的綜合評價結果非常重要,然而往往多個指標之間通常存在信息不統一或者重複等眾多因素,各指標的權重往往很難確認。主成分分析方法能夠解決以上問題,主成分分析法是一種降維的統計方法,是考察多個變量間相關性一種多元統計方法。二、spss主成分分析操作流程導入數據。
  • 黃金期貨k線圖怎麼看 黃金期貨k線走勢圖分析
    期貨交易的種類是非常多,黃金期貨也是其中的一種,在交易中投資者關心的應該就是黃金期貨走勢圖解析,黃金期貨K線走勢圖的走勢顯示黃金期貨價格的變化情況,想要投資必然要學會看價格走勢圖,那麼黃金期貨走勢圖怎麼看呢?
  • 期貨市場經典書籍大優惠
    452證券分析601轉軌時期的中國期貨市場4612003亞太期貨研究論談503K線黃金定律252巴菲特的午餐會21.82巴菲特與索羅斯的投資習慣292布林線322大連商品交易所研究報告集243短線交易秘訣381對衝基金462多空交易日誌39.82多空交易日誌502技術分析實戰工具股指期貨403股指期貨實戰獲利絕技303海龜交易特訓班392華爾街財神452黃金投資與黃金期貨302匯市聖經192技術分析實戰工具
  • SPSS方法|主成分分析:降低指標維度,使複雜問題簡單化
    目前,這種方法已經在經濟等領域中得到廣泛的應用,選好數據就可以利用SPSS進行主成分分析。本次數據選取陝甘寧蒙晉生態環境指標做生態環境評價分析。03設置描述性,抽取,得分和選項:04查看主成分分析和分析:相關矩陣表明,各項指標之間具有強相關性,適合採用主成分分析法。
  • 數據建模中分類與預測模型
    因此,利用量化平臺對多元化的數據進行提取,按照自身的分析模式搭建合理化的分析框架,自動化的得到針對基本面、技術面的分析結果的分析方法也開始逐漸火熱起來,這個結果根據需求既可以是定量的,也可以是定性的,目前這種量化建模的方式也已經在眾多私募、券商等中應用已久,但是對於大多數個體投資者而言,還是一個十分陌生的領域。
  • 天算量化:「武器」匯聚交戰市場,揭秘量化之謎!
    來源:私募排排網研究院私募行業的蓬勃發展吸引了各個行業的菁英匯集,尤其是對於精英聚集的量化私募而言,在近兩年來備受市場關注,量化投資正在成為A股市場的新生力量,更新著A股的交易模式。作為國內最早一批結合人工智慧技術,採用非線性深度學習算法,進行股票和期貨量化投資的私募基金公司。
  • 電子鼻技術及其在茶葉香氣檢測中的應用及展望
    由於每個傳感器對某一類特徵氣體響應劇烈,可以確定樣品分析過程中樣品主要揮發出了哪一類特徵氣體。對於樣品區分分析,實驗可提取10個傳感器的特徵值,然後採用主成分分析法(PCA)、線性判別分析法(LDA)和傳感器區別貢獻率分析法(Loadings)作為主要區別分析方法。
  • 量化投資大神西蒙斯2019最新分享:量化策略、數學、職業與交易
    在這次採訪中,西蒙斯討論了他的量化投資方法,以及這一方法在他的職業生涯中是如何演變的。同時還談到了基礎交易以及他的管理風格是如何幫助文藝復興取得了如此成功。最後還有和觀眾精彩的問答環節。這次耗時6個月的修正被《量化投資——西蒙斯用公式打敗市場的故事》一書的作者稱為是大獎章基金的「遵義會議」,當時制定的投資策略一直被保留了下來,成為基金長盛不衰的立命之本。