更多CFA官方教材詳解,請關注「邊際實驗室」。
「邊際實驗室」是一家專注於金融科技、金融大數據領域的工作室,同時提供CFA、FRM等金融考試內容的免費講解。
測試多元回歸的顯著性
之前,我們說明了如何分別對回歸係數進行假設檢驗。如果我們現在想測試整個回歸的顯著性應該怎麼辦?
作為一個整體,自變量是否有助於解釋因變量?為了解決這個問題,我們檢驗了回歸中所有斜率係數同時等於0的原假設。在本節中,我們進一步討論通過回歸的方差分析來衡量模型的解釋程度等問題。
如果回歸模型中沒有任何自變量有助於解釋因變量,則斜率係數應全部等於0。但是,在多元回歸中,我們基於每個斜率係數均等於零的t檢驗方法而檢驗所有斜率係數等於0的原假設是沒有意義的,因為這種檢驗未考慮自變量之間相互作用的影響。多重共線性就是指的這樣一種情況,即使各個估計斜率係數的t統計量都不顯著,我們也可以拒絕所有斜率係數等於0的假設。
為了檢驗多元回歸模型中所有斜率係數都等於零的原假設(H0:b1= b2 = ... = bk = 0),至少一個斜率係數不等於0的備擇假設,我們必須使用F檢驗。
F檢驗被視為對回歸的整體意義的檢驗。
為了正確計算零假設的檢驗統計量,我們需要四個輸入項:
■觀察值總數,n;
■估計的回歸係數數目k+ 1,其中k是斜率係數的數目;
■平方誤或殘差之和:
縮寫為SSE,也稱為殘差平方和(無法解釋的變化);
■回歸平方和:
縮寫為RSS。該值是Y由回歸方程解釋的均值的變化(能夠解釋的變化)。
用於確定斜率係數是否等於0的F檢驗基於上述四個值計算F統計量。F統計量用于衡量回歸方程對因變量變化的解釋程度;它是平均回歸平方和與平均殘差平方和之比。
我們通過將回歸平方總和除以估計的斜率係數數目k來計算平均的回歸平方和。我們通過將殘差平方總和除以n-(k+1)來計算平均殘差平方和。這些計算中的兩個除數是F統計量的自由度。對於n個觀測值和k個斜率係數,斜率係數均等於0的原假設的F檢驗表示為Fk,n–(k+ 1)。下標表示檢驗的分子應具有k個自由度(分子自由度),分母應具有n-(k+1)個自由度(分母自由度)。
F統計量的公式為
其中,MSR是平均回歸平方和,MSE是平均殘差平方和。
在回歸輸出的ANOVA表中,MSR和MSE是MSS列下的第一和第二個數值。如果回歸模型很好地解釋了因變量的變化,則MSR/ MSE之比將很大。
當回歸模型中的自變量無法解釋因變量的變化時,該F檢驗能告訴我們什麼?在這種情況下,回歸模型中的每個預測值^Yi均是因變量Y的平均值,回歸平方和為0。因此,當自變量根本無法解釋因變量時,用於檢驗原假設(所有斜率係數等於0)的F統計量的值為0。如果F的結果大於F分布的α臨界值,那麼我們在α顯著性水平上拒絕原假設。請注意,我們使用單尾F檢驗。
我們可以使用之前所講的案例來說明該檢驗,在案例中,我們檢驗納斯達克做市商數量的自然對數和股票市值的自然對數是否解釋買賣價差除以價格的自然對數。
假設我們將此檢驗的顯著性水平設置為α=0.05(即如果為零,我們錯誤拒絕原假設的概率為5%)。下圖顯示了此回歸的方差計算結果。
該模型具有兩個斜率係數(k= 2),因此該F檢驗的分子有兩個自由度。在樣本中有2587個觀測值時,F檢驗的分母中的自由度數為n-(k+1)=2,587-3 =2,584。殘差平方和是2172.8870。平方回歸總和是3728.1334。因此,該模型中兩個斜率係數等於0的原假設的F檢驗為
在斜率係數等於0的零假設下,該檢驗統計量顯示了F2,2584的隨機變量分布。在0.05顯著性水平的圖表中,我們查看第二列,該列顯示了具有2個分子自由度的F分布。在該列底部附近,我們發現拒絕原假設所需的F檢驗臨界值在3.00和3.07之間。
F檢驗統計量的實際值是2216.75,要大得多,因此我們拒絕兩個獨立變量的係數都等於0的原假設。事實上,圖表中「F顯著性水平」下的p值為0。p值表示可以拒絕原假設的最小顯著性水平,幾乎為0。因此F統計量的值較大表示錯誤拒絕原假設的可能性很小(第I類錯誤)。
修正R方
在之前我們有關相關性和回歸的講解中,我們講到了決定係數R2,作為判斷回歸擬合程度是否良好的方法。
但是,在多元線性回歸中,R2不適合作為評價擬合優度的指標。R2被定義為
(總變化 - 無法解釋的變化)/(總變化)
分子等於回歸平方和,RSS。如果我們向模型添加新的回歸變量,那麼如果新的自變量解釋了模型中原來無法解釋的變化,則無法解釋的變化量將減少,而RSS將會增加。
當新的自變量與因變量相關,並且與模型中其他自變量無線性關係時,就會發生這種減少。因此,我們可以通過增加許多額外的自變量來增加R2,這些變量可能只是在很小的程度上解釋了先前無法解釋的變量,在統計上並不顯著。
一些分析師使用另一種度量方法來計算擬合程度,稱為修正R2或ˉR2。當將一個新的變量添加到回歸中時,這種擬合度不會自動增加,因為修正R2進行了自由度調整。調整後的R2通常是統計軟體包中多元回歸輸出的一部分。
修正R2和R2之間的關係是
其中n是觀測值的數量,k是自變量的數量(斜率係數的數量)。注意,如果k≥1,則R2會大於修正R2。當添加新的自變量時,如果添加該變量會導致R2的少量增加,則ˉR2會減少。實際上,儘管R2總是非負數,但ˉR2可能為負。如果我們使用ˉR2比較兩個回歸模型的結果,則這兩個模型需要以相同的方式定義因變量,並且用於估計模型的樣本量是相等的。例如,如果因變量是GDP(國內生產總值)或ln(GDP),即使因變量是相同的,ˉR2的值也會不一致。此外,我們應該注意到,較高的ˉR2並不一定意味著在回歸對變量進行了準確的解釋。原因是,較高的ˉR2可能反映了用於估計回歸的數據集的特徵。要評估回歸模型,我們需要考慮許多其他因素。
文/邊際實驗室,轉載請務必註明出處