摘要:
隨著計算機技術的興起,當前社會已經進入大數據資訊時代。資本市場隨著投資者的不斷湧入以及金融科技的不斷發展,交易時所涉及到的信息也逐漸繁雜。如果還是利用過往的分析模式,個人的力量就顯得愈加薄弱。因此,利用量化平臺對多元化的數據進行提取,按照自身的分析模式搭建合理化的分析框架,自動化的得到針對基本面、技術面的分析結果的分析方法也開始逐漸火熱起來,這個結果根據需求既可以是定量的,也可以是定性的,目前這種量化建模的方式也已經在眾多私募、券商等中應用已久,但是對於大多數個體投資者而言,還是一個十分陌生的領域。 因此,本文基於上期數據預處理部分之後,介紹如何在清洗過後的數據基礎之上建立分類與預測模型,為此種模型的構建方法進行簡單介紹,輔助投資者對自身分析邏輯中的分析框架進行量化分析,方便其多元化的交易分析。
一、分類與預測的介紹
數據建模中分類與預測模型主要是尋求合適的分類模型並在此基礎之上進行未來預測。分類主要是預測分類標號(離散屬性),通俗點而言就像在基本面分析中判定哪些是未來影響價格的因素,比如產量、季節因素、下遊產品價格等,這些因素除了其自身屬性的不同外還應該具備在同級影響因素中具備較低的相關性,也就是最終分類的因素都會對價格進行影響,但是彼此之間的影響相對較小。而預測主要就是建立連續值函數模型,預測給定自變量對應的因變量的值。
二、分析與預測模型的實現過程1.分類
分類是構造一個分類模型,輸入樣本的屬性值,輸出對應的類別,將每個樣本映射到先定義好的類別。
分類模型建立在已有類標記的數據集上,模型在已有樣本上的準確率可以方便地計算,所以分類屬於有監督的學習。
2.預測
預測是指建立兩種或兩種以上變量間相互依賴的函數模型,然後進行預測或控制。
3.實現過程
分類算法有兩步過程:第一步是學習步,通過歸納分析訓練樣本集來建立分類模型得到分類規則;第二步是分類步,先用已知的測試樣本集評估分類規則的準確率,如果準確率是可以接受的,則使用該模型對未知類標號的待測樣本集進行預測。
預測模型的實現也有兩步,第一步是通過訓練集建立預測屬性(數值型的)的函數模型,第二步在模型通過檢驗後進行預測或控制。
三、常用的分類與預測算法
常見的分類與預測算法如表1所示。由於對於新入學者而言,掌握人工神經網絡、貝葉斯網絡、支持向量機三種模型所要求的數理統計算法難度較高,牽扯到的數理知識也較為複雜,因此本文後面在介紹分類模型時主要介紹回歸分析與決策樹。
表1:主要分類與預測算法簡介
算法名稱算法描述回歸分析回歸分析是確定預測屬性(數值型)與其他變量間相互依賴的定量關係最常用的統計學方法,包括線性回歸、非線性回歸、Logistic回歸、嶺回歸、主成分回歸、偏最小二乘回歸等模型。決策樹決策樹採用自頂向下的遞歸方式,在內部節點進行屬性值的比較,並根據不同的屬性值從該節點向下分支,最終得到的葉節點是學習劃分的類人工神經網絡人工神經網絡是一種模擬大腦神經網絡結構和功能而建立的信息處理系統,表示神經網絡的輸入與輸出變量之間關係的模型。貝葉斯網絡貝葉斯網絡又稱信度網絡,是Bayes方法的擴展,是目前不確定知識表達和推理領域最有效的理論模型之一。支持向量機支持向量機是一種通過某種非線性映射,把低維的非線性可分轉化為高維的線性可分,在高維空間進行線性分析的算法。數據來源:徽商期貨研究所四、回歸分析
回歸分析是通過建立模型來研究變量之間相互關係的密切程度、結構狀態及進行模型預測的一種有效工具,在工商管理、經濟、社會、醫學和生物學等領域應用十分廣泛。從19世紀初高斯提出最小二乘估計起,回歸分析的歷史已有200多年。從經典的回歸分析方法到近代的回歸分析方法,按照研究方法劃分,回歸分析研究的範圍大致如表2所示。
表2:回歸分析研究的進展
回歸分析研究方法回歸方法的具體進展歷程線性回歸一元線性回歸多元線性回歸多個因變量與多個自變量的回歸回歸診斷如何從數據推斷回歸模型基本假設的合理性基本假設不成立時如何對數據進行修正判斷回歸方程擬合的效果選擇回歸函數的形式回歸變量選擇自變量選擇的標準逐步回歸分析法參數估計方法改進偏最小二乘回歸嶺回歸主成分回歸非線性回歸一元非線性回歸分段回歸多元非線性回歸含有定性變量的回歸自變量含有定性變量的情況因變量含有定性變量的情況數據來源:徽商期貨研究所在數據挖掘環境下,自變量與因變量具有相關關係,自變量的值是已知的,因變量是要預測的。
線性回歸模型是相對簡單的回歸模型,但是通常因變量和自變量之間呈現某種曲線關係,就需要建立非線性回歸模型。
Logistic回歸屬於概率型非線性回歸,分為二分類和多分類的回歸模型。對於二分類的Logistic回歸,因變量y只有「是」、「否」兩個取值,記為1和0。假設在自變量x1,x2,…,xn作用下,y取「是」的概率是p,則取「否」的概率是1-p,研究的是當y取「是」發生的概率p與自變量x1,x2,…,xn的關係。
當自變量之間出現多重非線性時,用最小二乘估計的回歸係數將會不準確,消除多重共線性的參數改進的估計方法主要有嶺回歸和主成分回歸。
五、決策樹
決策樹方法在分類、預測、規則提取等領域有著廣泛應用。20世紀70年代後期和80年代初期,機器學習研究者J.Ross Quinlan提出了ID3算法以後,決策樹在機器學習、數據挖掘領域得到極大的發展。Quinlan後來又提出了C4.5,成為新的監督學習算法。1984年,記為統計學家提出了CART分類算法。ID3和CART算法幾乎同時被提出,但都是採用類似的方法從訓練樣本中學習決策樹。
決策樹是一種線性結構,它的每一個葉節點對應著一個分類,非葉節點對應著在某個屬性上的劃分,根據樣本在該屬性上的不同取值將其劃分成若干個子集。對於非純的葉節點,多數類的標號給出到達這個節點的樣本所屬的類。構造決策樹的核心問題是在每一步如何選擇適當的屬性對樣本做拆分。對一個分類問題,從已知類標記的訓練樣本中學習並構造出決策樹是一個自上而下,分而治之的過程。
常用的決策樹算法見表3.
表3:決策樹算法分類
決策樹算法名稱算法描述ID3算法其核心是在決策樹的各級節點上,使用信息增益方法作為屬性的選擇標準,來幫助確定生成每個節點時所應採用的合適屬性。C4.5算法C4.5決策樹生成算法相對於ID3算法的重要改進是使用信息增益率來選擇節點屬性。C4.5算法可以克服ID3算法存在的不足:ID3算法只適用於離散的描述屬性,而C4.5算法既能夠處理離散的描述屬性,也可以處理連續的描述屬性。CART算法CART決策樹是一種十分有效的非參數分類和回歸方法,通過構建樹、修剪樹、評估樹來構建一個二叉樹。當終結點是連續變量時,該樹為回歸樹;當終結點是分類變量時,該樹為分類數。數據來源:徽商期貨研究所六、分類與預測算法評價
分類與預測模型對訓練集進行預測而得到的準確率並不能很好地反映預測模型未來的性能,為了有效判斷一個預測模型的性能表現,需要一組沒有參與預測模型建立的數據集,並在該數據集上評價預測模型的準確率,這組獨立的數據集叫做測試集。模型預測效果評價,通常用相對/絕對誤差、平均絕對誤差、均方誤差、均方根誤差、Kappa統計等指標來衡量。
【徽商期貨有限責任公司月度分析報告由徽商期貨研究所組織撰寫,供業務人員及在徽商期貨進行期貨交易的投資者參考。儘管本刊所載信息我們認為是由可靠來源取得或編制,徽商期貨並不保證本刊所載信息或數據的準確性、有效性或完整性。本刊所載資料不應視為閣下對任何期貨商品交易的直接依據。在選擇期貨投資以及對期貨商品做出交易決策之前,建議向徽商期貨專業人士諮詢。未經徽商期貨授權,任何人不得以任何形式將本刊內容全部或部分發布、複製。】
(責任編輯:邵一迪 HF116)