數據建模中分類與預測模型

2021-01-13 和訊期貨

  摘要:

  隨著計算機技術的興起,當前社會已經進入大數據資訊時代。資本市場隨著投資者的不斷湧入以及金融科技的不斷發展,交易時所涉及到的信息也逐漸繁雜。如果還是利用過往的分析模式,個人的力量就顯得愈加薄弱。因此,利用量化平臺對多元化的數據進行提取,按照自身的分析模式搭建合理化的分析框架,自動化的得到針對基本面、技術面的分析結果的分析方法也開始逐漸火熱起來,這個結果根據需求既可以是定量的,也可以是定性的,目前這種量化建模的方式也已經在眾多私募、券商等中應用已久,但是對於大多數個體投資者而言,還是一個十分陌生的領域。 因此,本文基於上期數據預處理部分之後,介紹如何在清洗過後的數據基礎之上建立分類與預測模型,為此種模型的構建方法進行簡單介紹,輔助投資者對自身分析邏輯中的分析框架進行量化分析,方便其多元化的交易分析。

  一、分類與預測的介紹

  數據建模中分類與預測模型主要是尋求合適的分類模型並在此基礎之上進行未來預測。分類主要是預測分類標號(離散屬性),通俗點而言就像在基本面分析中判定哪些是未來影響價格的因素,比如產量、季節因素、下遊產品價格等,這些因素除了其自身屬性的不同外還應該具備在同級影響因素中具備較低的相關性,也就是最終分類的因素都會對價格進行影響,但是彼此之間的影響相對較小。而預測主要就是建立連續值函數模型,預測給定自變量對應的因變量的值。

  二、分析與預測模型的實現過程1.分類

  分類是構造一個分類模型,輸入樣本的屬性值,輸出對應的類別,將每個樣本映射到先定義好的類別。

  分類模型建立在已有類標記的數據集上,模型在已有樣本上的準確率可以方便地計算,所以分類屬於有監督的學習。

  2.預測

  預測是指建立兩種或兩種以上變量間相互依賴的函數模型,然後進行預測或控制。

  3.實現過程

  分類算法有兩步過程:第一步是學習步,通過歸納分析訓練樣本集來建立分類模型得到分類規則;第二步是分類步,先用已知的測試樣本集評估分類規則的準確率,如果準確率是可以接受的,則使用該模型對未知類標號的待測樣本集進行預測。

  預測模型的實現也有兩步,第一步是通過訓練集建立預測屬性(數值型的)的函數模型,第二步在模型通過檢驗後進行預測或控制。

  三、常用的分類與預測算法

  常見的分類與預測算法如表1所示。由於對於新入學者而言,掌握人工神經網絡、貝葉斯網絡、支持向量機三種模型所要求的數理統計算法難度較高,牽扯到的數理知識也較為複雜,因此本文後面在介紹分類模型時主要介紹回歸分析與決策樹。

  表1:主要分類與預測算法簡介

算法名稱算法描述回歸分析回歸分析是確定預測屬性(數值型)與其他變量間相互依賴的定量關係最常用的統計學方法,包括線性回歸、非線性回歸、Logistic回歸、嶺回歸、主成分回歸、偏最小二乘回歸等模型。決策樹決策樹採用自頂向下的遞歸方式,在內部節點進行屬性值的比較,並根據不同的屬性值從該節點向下分支,最終得到的葉節點是學習劃分的類人工神經網絡人工神經網絡是一種模擬大腦神經網絡結構和功能而建立的信息處理系統,表示神經網絡的輸入與輸出變量之間關係的模型。貝葉斯網絡貝葉斯網絡又稱信度網絡,是Bayes方法的擴展,是目前不確定知識表達和推理領域最有效的理論模型之一。支持向量機支持向量機是一種通過某種非線性映射,把低維的非線性可分轉化為高維的線性可分,在高維空間進行線性分析的算法。數據來源:徽商期貨研究所

  四、回歸分析

  回歸分析是通過建立模型來研究變量之間相互關係的密切程度、結構狀態及進行模型預測的一種有效工具,在工商管理、經濟、社會、醫學和生物學等領域應用十分廣泛。從19世紀初高斯提出最小二乘估計起,回歸分析的歷史已有200多年。從經典的回歸分析方法到近代的回歸分析方法,按照研究方法劃分,回歸分析研究的範圍大致如表2所示。

  表2:回歸分析研究的進展

回歸分析研究方法回歸方法的具體進展歷程線性回歸一元線性回歸多元線性回歸多個因變量與多個自變量的回歸回歸診斷如何從數據推斷回歸模型基本假設的合理性基本假設不成立時如何對數據進行修正判斷回歸方程擬合的效果選擇回歸函數的形式回歸變量選擇自變量選擇的標準逐步回歸分析法參數估計方法改進偏最小二乘回歸嶺回歸主成分回歸非線性回歸一元非線性回歸分段回歸多元非線性回歸含有定性變量的回歸自變量含有定性變量的情況因變量含有定性變量的情況數據來源:徽商期貨研究所

  在數據挖掘環境下,自變量與因變量具有相關關係,自變量的值是已知的,因變量是要預測的。

  線性回歸模型是相對簡單的回歸模型,但是通常因變量和自變量之間呈現某種曲線關係,就需要建立非線性回歸模型。

  Logistic回歸屬於概率型非線性回歸,分為二分類和多分類的回歸模型。對於二分類的Logistic回歸,因變量y只有「是」、「否」兩個取值,記為1和0。假設在自變量x1,x2,…,xn作用下,y取「是」的概率是p,則取「否」的概率是1-p,研究的是當y取「是」發生的概率p與自變量x1,x2,…,xn的關係。

  當自變量之間出現多重非線性時,用最小二乘估計的回歸係數將會不準確,消除多重共線性的參數改進的估計方法主要有嶺回歸和主成分回歸。

  五、決策樹

  決策樹方法在分類、預測、規則提取等領域有著廣泛應用。20世紀70年代後期和80年代初期,機器學習研究者J.Ross Quinlan提出了ID3算法以後,決策樹在機器學習、數據挖掘領域得到極大的發展。Quinlan後來又提出了C4.5,成為新的監督學習算法。1984年,記為統計學家提出了CART分類算法。ID3和CART算法幾乎同時被提出,但都是採用類似的方法從訓練樣本中學習決策樹。

  決策樹是一種線性結構,它的每一個葉節點對應著一個分類,非葉節點對應著在某個屬性上的劃分,根據樣本在該屬性上的不同取值將其劃分成若干個子集。對於非純的葉節點,多數類的標號給出到達這個節點的樣本所屬的類。構造決策樹的核心問題是在每一步如何選擇適當的屬性對樣本做拆分。對一個分類問題,從已知類標記的訓練樣本中學習並構造出決策樹是一個自上而下,分而治之的過程。

  常用的決策樹算法見表3.

  表3:決策樹算法分類

決策樹算法名稱算法描述ID3算法其核心是在決策樹的各級節點上,使用信息增益方法作為屬性的選擇標準,來幫助確定生成每個節點時所應採用的合適屬性。C4.5算法C4.5決策樹生成算法相對於ID3算法的重要改進是使用信息增益率來選擇節點屬性。C4.5算法可以克服ID3算法存在的不足:ID3算法只適用於離散的描述屬性,而C4.5算法既能夠處理離散的描述屬性,也可以處理連續的描述屬性。CART算法CART決策樹是一種十分有效的非參數分類和回歸方法,通過構建樹、修剪樹、評估樹來構建一個二叉樹。當終結點是連續變量時,該樹為回歸樹;當終結點是分類變量時,該樹為分類數。數據來源:徽商期貨研究所

  六、分類與預測算法評價

  分類與預測模型對訓練集進行預測而得到的準確率並不能很好地反映預測模型未來的性能,為了有效判斷一個預測模型的性能表現,需要一組沒有參與預測模型建立的數據集,並在該數據集上評價預測模型的準確率,這組獨立的數據集叫做測試集。模型預測效果評價,通常用相對/絕對誤差、平均絕對誤差、均方誤差、均方根誤差、Kappa統計等指標來衡量。

  【徽商期貨有限責任公司月度分析報告由徽商期貨研究所組織撰寫,供業務人員及在徽商期貨進行期貨交易的投資者參考。儘管本刊所載信息我們認為是由可靠來源取得或編制,徽商期貨並不保證本刊所載信息或數據的準確性、有效性或完整性。本刊所載資料不應視為閣下對任何期貨商品交易的直接依據。在選擇期貨投資以及對期貨商品做出交易決策之前,建議向徽商期貨專業人士諮詢。未經徽商期貨授權,任何人不得以任何形式將本刊內容全部或部分發布、複製。】

(責任編輯:邵一迪 HF116)

相關焦點

  • 預測建模、監督機器學習和模式分類概覽
    機器學習和模式分類預測建模是建立一個能夠進行預測的模型的通用概念。通常情況下,這樣的模型包括一個機器學習算法,以便從訓練數據集中學習某些屬性做出這些預測。預測建模可以進一步分成兩個子集:回歸和模式分類。回歸模型基於變量和趨勢之間的關係的分析,以便做出關於連續變量的預測,如天氣預報的最高溫度的預測。
  • 淺談數據分析和數據建模
    3、數據類型選擇數據類型分為連續型和離散型,建模分析時需要確定數據類型。進行業務收入趨勢分析、銷售額預測分析、RFM分析時,一般採用連續型變量。信用評級、分類預測時一般採用離散變量。4、缺失值處理數據分析過程中會面對很多缺失值,其產生原因不同,有的是由於隱私的原因,故意隱去。
  • 大講堂 | 預測時間敏感的機器學習模型建模與優化
    原標題:大講堂 | 預測時間敏感的機器學習模型建模與優化 雷鋒網AI研習社訊:機器學習模型現在已經廣泛應用在越來越多的領域比如地震監測,闖入識別,高頻交易;同時也開始廣泛的應用在行動裝置中比如通過邊緣計算。這些真實世界的應用在原有的模型精度基礎之上帶來很多實際約束比如預測要在很短或規定時間內完成。
  • 數據挖掘模型的衰減是什麼意思?為什麼要經常要重新建模?
    數據挖掘模型建好後,我們通常會關注建模時的準確率查全率等指標,但是常常會忽略模型另一個重要指標:模型的衰減程度,也就是模型在實際應用中預測能力的變化(一般都會越用越差)。為什麼會發生模型衰減呢?我們知道數據挖掘的本質是發現過去事物發生的歷史規律然後對未來進行預測,因此模型能夠準確預測的前提就是,要預測的未來必須是歷史規律的延續。但是在幾乎所有的商業場景中,市場是在不斷變化的,數據也在不斷變化的,也就是說歷史規律也是在不斷的變化。
  • ...基於SEIR模型的北京市新冠肺炎疫情建模與復工影響預測」課題
    「工程經濟學」在線課程開始之後,通過向同學們介紹疫情發生後的疾病預測建模、政府出臺不同防控政策效應分析等熱點研究問題,我鼓勵選課同學建立在線研究小組來進行學習與研討。同學們的學習能力和熱情都很高,短短半個月的時間內閱讀了傳染病模型論文,收集公開數據,建立模型並結合實證分析,得出了一些初步的結果。
  • 複雜系統自動建模綜述:描述、預測與理論發現
    其次,隨著技術的發展,我們已經積累了關於複雜系統運轉的大量數據,特別是系統所產生的時間序列數據,而傳統人工建模方法很難與這種結構的數據相結合,換言之,傳統建模方法難以提取數據中隱藏的大量信息、知識。不過,AI中的一些算法卻非常擅長於從時間序列數據等中學習提取模型,同時,當前的硬體已經能夠支持我們藉助一些深度學習的算法對較大量級的數據進行學習分析。
  • MemTrax機器學習分類模型有效應用於認知障礙的診斷支持
    我們主要研究目標是:驗證MemTrax 測試結果-識別正確率和反應時間,相關人口統計學和健康特徵能否有效地用於機器學習開發的預測模型對蒙特婁認知評估 (MoCA) 界定的認知健康進行分類(正常人群與 MCI患者)。以及上述機器學習模型能否有效地應用於臨床診斷確定的認知障礙患者嚴重程度(輕重度與嚴重性)的預測。
  • 大數據分析為什麼要學習R中的線性建模
    對於大數據分析師來說,能夠建立線性模型是絕對必要的,但是數據分析人員甚至業餘愛好者也可以從線性建模的功能中受益匪淺。R中的線性建模,這是大數據分析師中的新課程,它將從頭開始教你此技能。你準備好動手開始建模嗎?
  • 數據建模:個人信用分是如何計算出來的?
    三、特徵刪選很多新手喜歡用越多的變量來建模,以為多多益善,其實不然,變量篩選的目在於去除對於模型預測準確提升無效甚至影響模型預測效果的無用變量, 比如兩個相關變量的同時存在往往會導致準確性下降。特徵的選擇有很多方式,比如IV值的判斷,這裡以隨機森林來示例,隨機森林算法能夠輸出每個變量對模型預測的重要性大小,重要性越大代表該變量對於提升模型預測準確度所做貢獻就越大,反之如果重要度值為負,就代表該變量加入會降低模型預測準確度,所以在該步驟直接選擇基於模型輸出結果來完成變量篩選,以下是示例:經過隨機森林初步篩選,和變量預測探索分析,最終五個維度共輸入XX個變量分別進入模型訓練
  • arima模型的建模步驟_基於ARIMA預測股指期貨價格走勢
    百度百科本文主要使用ARIMA模型實現對股指期貨價格走勢的預測,而使用ARIMA的模型主要包括以下四大步驟02—數據獲取和平穩性檢驗ARIMA 模型是在平穩的時間序列基礎上建立起來的,因此時間序列的平穩性是建模的重要前提。檢驗時間序列模型平穩的方法一般採用 ADF 單位根檢驗模型去檢驗。
  • 獨家 | 機器學習中的四種分類任務(附代碼)
    在機器學習中,分類是指針對輸入數據中的給定示例預測其類別標籤的預測性建模問題。從建模的角度來看,分類需要一個訓練數據集,其中包含許多可供學習的輸入和輸出示例。對於分類預測建模問題進行建模,有許多不同類型的分類算法可供使用。關於如何對某一問題選擇一個最合適的算法,目前沒有很好的理論。反而我們通常建議相關人員通過受控試驗來探究什麼樣的算法和算法配置在給定的分類問題上能實現最佳性能。分類模型的好壞通常用分類預測算法的結果進行評估。分類準確率是一種流行的度量標準,用於根據預測的類別標籤評估模型的性能。
  • ICLR2020 | 分類器其實是基於能量的模型?判別式分類器設計新思路
    儘管 EBM 模型目前來說還難以使用,但它們相比於其它生成式模型能更自然地應用在判別式的框架中,並有助於使用現代的分類器架構。 這篇論文有以下貢獻: 1. 提出了一種用於聯合建模標籤和數據的全新且直觀的框架;2. 新提出的模型在生成式建模與判別式建模方面都顯著優於之前的最佳混合模型;3.
  • 乾貨|時間序列預測類問題下的建模方案探索實踐
    時間序列分析主要針對時間序列類問題的兩個領域,一個是對歷史區間數據的分析,通過對過往數據特徵的提煉總結來進行異常檢測和分類;另一類就是對未來數據的分析,根據過去時間點的數據對未來一個時間點或者幾個時間點的狀態或實際值進行預測。
  • 未來十年大數據工程師即將失業?自動化建模平臺已實現零基礎建模
    這樣就可以在不同的業務場景中,針對不同的群體,快速建立大量不同的模型。飛貸金融科技即將在 11 月初上線公測其自動化建模平臺,InfoQ 記者專訪飛貸金融科技副總裁兼首席數據官林慶治,提前揭秘該平臺背後的技術細節。在日常的建模工作中,我們都或多或少會思考一個問題:建模可不可以被自動化?自動建模與機器學習的未來會如何發展?
  • 神經影像個體差異預測模型的十個簡單規則
    首先,將來自單個或多個數據集的神經影像數據和相關的表型數據(可能是二分類的,例如組成員身份,或者是連續的,例如IQ或症狀)分離為獨立的訓練數據和測試數據。接下來,將訓練數據提交給預測建模算法。選擇的算法僅使用訓練數據,從數據中選擇最相關的特徵,並對這些特徵進行匯總以產生數學函數或模型,從而將高維神經影像數據映射到低維表型數據。
  • 二分類Logistic回歸:SPSS詳細操作及模型預測
    然後利用Logistic模型判斷年齡(age)、體重(weight)、性別(gender)和最大攝氧量(VO2max)能否預測心臟病患病(heart_disease)情況。  部分數據如下圖,變量caseno為每個研究對象的唯一編碼。
  • 不用代碼,教你Excel構建數據分析預測模型!
    你可以在Excel中執行建模,只需幾個步驟。下面是一個教程,介紹如何在Excel中構建線性回歸模型以及如何解釋結果。Excel真的能構建預測模型?這通常是我提起這個話題時的第一反應。當我演示如何利用Excel的靈活性為我們的數據科學和分析項目構建預測模型時,接下來是一個令人懷疑的眼神。
  • Nature深度用數據模型預測可怕結果
    在「基於方程(equation-based)」的模型中,個體被劃分進不同群體。但是當群體被分割地更小、更具代表性、更能反映現實時,模型也就更加複雜。此外還有一種「基於Agent(agent-based)」的建模方法。在這個模型中,每個人都可以按照其特定的規則移動,就如同系列電子遊戲《模擬人生(The Sims)》中的虛擬人物一樣。
  • 數據清洗在新能源功率預測中的研究綜述和展望
    這些不良數據嚴重影響預測模型的參數估計,造成預測精度低、預測偏差大等後果。因此在功率預測前,有必要進行有效的數據清洗處理。目前針對新能源功率預測的數據預處理方面的綜述較少,因此有必要對新能源功率預測背景下的數據清洗方法進行綜述和展望。本文從異常值剔除和缺失值重構兩個方面,詳細地闡述、分析和歸納了新能源異常數據的類別和清洗方法。
  • 機器學習入門案例:鳶尾花數據集分類 繪製PR曲線
    案例使用鳶尾花數據集進行分類預測,並繪製評價分類性能的PR曲線圖 認識分類任務和數據集 Iris(鳶尾花)數據集