「一種有效學習的方式,就是把你學得的東西再分享給別人。」
文:藍兔子讀難NOTES
圖: 配圖 來源於網絡
編碼:0009
[Quantitative Methods]
[Sampling and estimation]
數學作為一種工具,應用在金融領域,一般用於對目標資產進行估計和預測,從而協助投資者進行買入和賣出決策。正如我們前面所說,統計學分為描述性統計學和推斷性統計學。描述性統計學通過一些統計量來描述數據的特徵,如我們一般用均值來代表收益,用方差來代表風險。而推斷性統計學在描述性統計學的基礎上,利用描述性統計學得出的結論(通常是對樣本的描述),來推斷總體參數。
在前面數理統計基礎那一篇文章中,我們所講的內容主要就是描述性統計學的內容。而這篇文章,我們就進入了推斷性統計學的內容。下一篇文章,我們將會進行假設檢驗的講解。這篇文章主要的內容為抽樣和估計,通過從總體中抽取樣本獲得樣本統計量進行分析,從而反推總體的參數,對其進行估計。
引言
現實生活中,特別是在金融領域,我們每分每秒都在形成大量的交易數據。我們如何通過這麼多的數據來評判整個全球市場的運行情況呢?近期頻上熱門的「熔斷」想必大家都聽說過吧。實不相瞞,某隻股票熔斷見識過,而交易所熔斷,還真是孤陋寡聞第一次呢。
不過話說回來,某一隻具體的股票熔斷標準很好制定,漲跌幅定個值就行,那整個交易所的熔斷要怎麼制定呢?這就有點採樣和估計的感覺了,我們先從該交易所的股票中選幾隻股票出來,對其進行分析,再用分析得出的樣本統計量來評判整個股票市場的運行情況。如果抽樣估計結果達到了熔斷標準,那麼不管每一個具體股票的情況如何,都piaji,整個交易所都得熔斷。
實際上,目前美股熔斷是以標普500指數為準,熔斷閾值分為三級:一級市場熔斷,下跌達到7%;二級市場熔斷,下跌達到13%;三級市場熔斷,下跌達到20%。下跌是以指數點位相對於前一日收盤點位的下跌幅度為準[1]。下面回到正題,我們來看看CFA一級的推斷性統計學採樣和估計相關的內容。
術語與概念
採樣(sampling):從總體中抽取樣本的過程。之所以要抽取樣本而不是直接對總體進行估計,因為有時候總體可能非常大,根本不可能實施,或者實施起來的時間、人力和財力成本不划算。在描述性統計學那篇文章中,我們說過,用於描述總體特徵的統計量我們叫做參數,而用於描述樣本特徵的數據我們叫做樣本統計量。從總體中獲得樣本的過程叫做抽樣,而從樣本統計量推斷總體參數的過程叫做估計。
抽樣是一個非常關鍵的過程,如果一開始抽樣都有問題,後面做得再好也是白搭。在實際抽樣中,我們最常見的抽樣方法有兩種:
簡單隨機抽樣(simple random sampling):如其名字一般簡單,沒有任何套路,每一個個體被抽到的概率相等;分層隨機抽樣(stratified random sampling):分成兩步,第一步先將被抽樣的總體分層,第二步再在每一層進行簡單隨機抽樣。樣本抽出來以後,我們還要對樣本進行評估,因為無論我們如何抽,由於抽出的結果都不是原總體,所以總和原總體存在誤差。在對樣本進行評估時,我們考慮兩個概念:
抽樣誤差(sampling error):如上文所說,無論如何抽,樣本始終都不是原總體,所以同原總體存在差別,由樣本得出的樣本統計量和總體參數之間的差別就是抽樣誤差。抽樣分布(sampling distribution):抽樣過程會抽出什麼樣的一個樣本是不確定的,抽一次樣就相當於拋一次骰子,結果是一個隨機變量,隨機變量存在一個分布。例如拋骰子就是一個結果為1-6,且每個結果出現概率相等的離散均勻分布。數據類型,所謂數據類型,和程式設計師大哥的什麼整型和浮點型是不一樣的,這裡的數據類型有兩種:
時間序列(time-series):也可以理解為縱向數據,是同一個對象在時間線上的數據,比如華夏五千年,中國的經濟發展變化。截面序列(cross-sectional):橫向數據,多個對象在同一時間的數據,比如2020年2月22日這天,全球各國的新型冠狀病毒感染人數。
抽樣
前面介紹了相關的術語和概念,這裡進一步來講抽樣的問題。在進行抽樣時,有一個非常關鍵的參數需要考慮,那就是樣本容量(sample size)。雖然我們之前一直在說樣本容量,但是樣本容量該如何確認呢,樣本容量是否越大越好呢?顯然不是的,樣本容量的選擇要結合實際情況,大樣本能獲得更接近總體參數的樣本統計量,但其耗費的成本也會上升。
在抽樣時,還需要注意以下幾個問題:
數據挖掘偏差(data-mining bias):有道是林子大了什麼鳥都有,數據挖掘偏差指的就是對歷史數據過分挖掘,找出了一些看似有影響,實則沒什麼意義的數據。樣本選擇偏差(sample selection bias):這個好理解,抽樣都沒選對對象。為什麼淘寶賣降落傘的沒有差評呢?沒有差評說明他們的降落傘質量好嗎?通過抽取購買者的評論,能認定客戶都滿意嗎?不能吧!這就是倖存者偏差(survivorship bias),後面還會經常出現的一個詞。前視偏差(look-ahead bias):你要調查某個公司5月的表現,你依靠財報來進行,然後他們的財報要6月才出,這種尷尬就叫做前視偏差。時間段偏差(time-period bias):典型的部分不代表總體的情況,你不能拿第二次世界大戰時全球的經濟增長來代表人類近代的經濟增長。接下來,我們說一個非常重要的定理:中心極限定理(central limit theorem)。之前說過,我們在進行抽樣時,抽樣的結果是一個隨機變量,它服從一定的分布。具體是什麼樣的一個分布呢,中心極限定理進行了解釋:對任意一個總體進行簡單隨機抽樣,如果樣本容量足夠大(30個以上),抽樣的樣本均值服從正態分布。具體的來講,如果總體的均值和方差已知,分別為
和
,且簡單隨機抽樣的樣本容量大於30,則有其樣本服從正態分布,且正態分布的抽樣分布均值等於
,樣本方差等於
/n,其中n為樣本容量。
上圖來源於簡書[2]。
估計
說完抽樣,下面來說估計。估計分為兩種,一種是點估計(point estimate),一種是區間估計(confidence interval estimate)。
所謂點估計,我們估計的結果是一個點,最常見的就是利用樣本的平均值來估計總體的平均值。比如抽取某一個班同學的平均身高來代表全校同學的平均身高。
在進行估計時,我們期望儘可能的利用樣本去準確的估計總體,這就有了估計量的三個理想特徵:
無偏性(unbiasedness):理想估計量,以均值為例,樣本均值的期望值應該等於總體均值;有效性(efficiency):在無偏的基礎上,可能有多個滿足的統計量,應該選擇樣本方差最小的那一個;一致性(consistency):隨著樣本容量的增加,樣本統計量應該也越來越接近總體參數。
所謂區間估計,其估計的是一個能覆蓋總體參數的區間,並且給出了該區間能覆蓋總體參數的概率。這裡特別說明一下,區間估計不是估計總體參數落在某區間的概率,而是這個區間能覆蓋總體參數的概率,總體參數無論是否知道,它是一個固定的值。
上面所說的概率指的就是置信水平,用(1-α)表示,其中α為顯著性水平(significance level)。因此可以看出,(1-α)的置信水平和α的顯著性水平所代表的概率是一樣的。
區間估計的方法,就是在點估計的基礎上,上下偏移一個量,這個量就是置信因子*標準誤。
(點估計量-置信因子*標準誤,點估計量+置信因子*標準誤)
其中:
點估計量不解釋;置信因子,取決於總體分布和α,以正態分布為例,α=1%時,1-α=99%,置信因子=2.58;α=5%時,1-α=95%,置信因子=1.95。換句話說,即當分布的概率在置信水平時,對應的標準差範圍。標準誤:其實就近似於標準差,當總體方差已知時,可以使用:
如果總體的方差未知,則要使用:
綜上,最終的區間估計為:
方差已知(z分布):
方差未知(t分布):
注意,以上一個是z分布,一個是t分布。方差已知時,用z分布,n為樣本容量,方差未知時,用t分布,如果是t分布,查表使用自由度,自由度為n-1。
最後,再送各位同學一句口訣:方差已知用z,方差未知用t,樣本容量夠大(30為界),tz皆可,非正態分布小樣本不可估計。
部分資料來源:
[1] 南方財富網 . 美股熔斷以哪個指數為準?美股熔斷的標準
[2] statr. 中心極限定理的最最通俗解釋
兔紙的相關文章
CFA一級數量分析-貨幣的時間價值
CFA一級數量分析-數理統計基礎與收益
CFA一級數量分析-概率論基礎
CFA一級數量分析-常見概率分布-上
CFA一級數量分析-常見概率分布-下