CFA教材輔導:測試多元回歸的顯著性/修正R方

2020-12-17 邊際實驗室

更多CFA官方教材詳解,請關注「邊際實驗室」。

「邊際實驗室」是一家專注於金融科技、金融大數據領域的工作室,同時提供CFA、FRM等金融考試內容的免費講解。

測試多元回歸的顯著性

之前,我們說明了如何分別對回歸係數進行假設檢驗。如果我們現在想測試整個回歸的顯著性應該怎麼辦?

作為一個整體,自變量是否有助於解釋因變量?為了解決這個問題,我們檢驗了回歸中所有斜率係數同時等於0的原假設。在本節中,我們進一步討論通過回歸的方差分析來衡量模型的解釋程度等問題。

如果回歸模型中沒有任何自變量有助於解釋因變量,則斜率係數應全部等於0。但是,在多元回歸中,我們基於每個斜率係數均等於零的t檢驗方法而檢驗所有斜率係數等於0的原假設是沒有意義的,因為這種檢驗未考慮自變量之間相互作用的影響。多重共線性就是指的這樣一種情況,即使各個估計斜率係數的t統計量都不顯著,我們也可以拒絕所有斜率係數等於0的假設。

為了檢驗多元回歸模型中所有斜率係數都等於零的原假設(H0:b1= b2 = ... = bk = 0),至少一個斜率係數不等於0的備擇假設,我們必須使用F檢驗。

F檢驗被視為對回歸的整體意義的檢驗。

為了正確計算零假設的檢驗統計量,我們需要四個輸入項:

■觀察值總數,n;

■估計的回歸係數數目k+ 1,其中k是斜率係數的數目;

■平方誤或殘差之和:

縮寫為SSE,也稱為殘差平方和(無法解釋的變化);

■回歸平方和:

縮寫為RSS。該值是Y由回歸方程解釋的均值的變化(能夠解釋的變化)。

用於確定斜率係數是否等於0的F檢驗基於上述四個值計算F統計量。F統計量用于衡量回歸方程對因變量變化的解釋程度;它是平均回歸平方和與平均殘差平方和之比。

我們通過將回歸平方總和除以估計的斜率係數數目k來計算平均的回歸平方和。我們通過將殘差平方總和除以n-(k+1)來計算平均殘差平方和。這些計算中的兩個除數是F統計量的自由度。對於n個觀測值和k個斜率係數,斜率係數均等於0的原假設的F檢驗表示為Fk,n–(k+ 1)。下標表示檢驗的分子應具有k個自由度(分子自由度),分母應具有n-(k+1)個自由度(分母自由度)。

F統計量的公式為

其中,MSR是平均回歸平方和,MSE是平均殘差平方和。

在回歸輸出的ANOVA表中,MSR和MSE是MSS列下的第一和第二個數值。如果回歸模型很好地解釋了因變量的變化,則MSR/ MSE之比將很大。

當回歸模型中的自變量無法解釋因變量的變化時,該F檢驗能告訴我們什麼?在這種情況下,回歸模型中的每個預測值^Yi均是因變量Y的平均值,回歸平方和為0。因此,當自變量根本無法解釋因變量時,用於檢驗原假設(所有斜率係數等於0)的F統計量的值為0。如果F的結果大於F分布的α臨界值,那麼我們在α顯著性水平上拒絕原假設。請注意,我們使用單尾F檢驗。

我們可以使用之前所講的案例來說明該檢驗,在案例中,我們檢驗納斯達克做市商數量的自然對數和股票市值的自然對數是否解釋買賣價差除以價格的自然對數。

假設我們將此檢驗的顯著性水平設置為α=0.05(即如果為零,我們錯誤拒絕原假設的概率為5%)。下圖顯示了此回歸的方差計算結果。

該模型具有兩個斜率係數(k= 2),因此該F檢驗的分子有兩個自由度。在樣本中有2587個觀測值時,F檢驗的分母中的自由度數為n-(k+1)=2,587-3 =2,584。殘差平方和是2172.8870。平方回歸總和是3728.1334。因此,該模型中兩個斜率係數等於0的原假設的F檢驗為

在斜率係數等於0的零假設下,該檢驗統計量顯示了F2,2584的隨機變量分布。在0.05顯著性水平的圖表中,我們查看第二列,該列顯示了具有2個分子自由度的F分布。在該列底部附近,我們發現拒絕原假設所需的F檢驗臨界值在3.00和3.07之間。

F檢驗統計量的實際值是2216.75,要大得多,因此我們拒絕兩個獨立變量的係數都等於0的原假設。事實上,圖表中「F顯著性水平」下的p值為0。p值表示可以拒絕原假設的最小顯著性水平,幾乎為0。因此F統計量的值較大表示錯誤拒絕原假設的可能性很小(第I類錯誤)。

修正R方

在之前我們有關相關性和回歸的講解中,我們講到了決定係數R2,作為判斷回歸擬合程度是否良好的方法。

但是,在多元線性回歸中,R2不適合作為評價擬合優度的指標。R2被定義為

(總變化 - 無法解釋的變化)/(總變化)

分子等於回歸平方和,RSS。如果我們向模型添加新的回歸變量,那麼如果新的自變量解釋了模型中原來無法解釋的變化,則無法解釋的變化量將減少,而RSS將會增加。

當新的自變量與因變量相關,並且與模型中其他自變量無線性關係時,就會發生這種減少。因此,我們可以通過增加許多額外的自變量來增加R2,這些變量可能只是在很小的程度上解釋了先前無法解釋的變量,在統計上並不顯著。

一些分析師使用另一種度量方法來計算擬合程度,稱為修正R2或ˉR2。當將一個新的變量添加到回歸中時,這種擬合度不會自動增加,因為修正R2進行了自由度調整。調整後的R2通常是統計軟體包中多元回歸輸出的一部分。

修正R2和R2之間的關係是

其中n是觀測值的數量,k是自變量的數量(斜率係數的數量)。注意,如果k≥1,則R2會大於修正R2。當添加新的自變量時,如果添加該變量會導致R2的少量增加,則ˉR2會減少。實際上,儘管R2總是非負數,但ˉR2可能為負。如果我們使用ˉR2比較兩個回歸模型的結果,則這兩個模型需要以相同的方式定義因變量,並且用於估計模型的樣本量是相等的。例如,如果因變量是GDP(國內生產總值)或ln(GDP),即使因變量是相同的,ˉR2的值也會不一致。此外,我們應該注意到,較高的ˉR2並不一定意味著在回歸對變量進行了準確的解釋。原因是,較高的ˉR2可能反映了用於估計回歸的數據集的特徵。要評估回歸模型,我們需要考慮許多其他因素。

文/邊際實驗室,轉載請務必註明出處

相關焦點

  • 多元線性回歸t檢驗專題及常見問題 - CSDN
    多元線性回歸模型通常用來研究一個應變量依賴多個自變量的變化關係,如果二者的以來關係可以用線性形式來刻畫,則可以建立多元線性模型來進行分析。1.t檢驗t檢驗是對單個變量係數的顯著性檢驗,一般看p值; 如果p值小於0.05表示該自變量對因變量解釋性很強。
  • 基於R軟體實現多元線性回歸
    一個多元線性回歸在R中的實現示例在一元回歸中,只包含一個預測變量和響應變量間的關係。與此相比,當存在兩個或以上的預測變量時,稱為多元回歸(Multiple Regression)。如果只考慮變量間的線性關係時,就是多元線性回歸(Multiple Linear Regression)。
  • 多元線性回歸、逐步回歸、邏輯回歸的總結
    需要的用到的知識儲備:下面分別從普通多元線性回歸、逐步回歸、邏輯回歸進行介紹。前面用Python實現的只是一元回歸,由於R語言實現線性回歸很方便,所以我會著重介紹原理。多元線性回歸不論是單變量還是多元線性回歸分析,他們都是直接或間接(有時候需要通過變量代換)程線性的關係。
  • R語言和Python實現回歸分析
    r的取值範圍是[-1,1],r=1表示完全正相關!r=-1表示完全負相關!r=0表示完全不相關。為什麼要對相關係數進行顯著性檢驗?由此可見,R方總是小於調整R方的且調整R方可能為負;並且只有R方趨近1時,調整R方才有出馬的意義!因此判斷多重共線性也多了一個方法:選擇其中一個自變量將其作為因變量,重新擬合,求
  • 使用Matlab解決多元線性回歸問題
    回歸分析按照涉及的變量的多少,分為一元回歸和多元回歸分析;在線性回歸中,按照因變量的多少,可分為簡單回歸分析和多重回歸分析;按照自變量和因變量之間的關係類型,可分為線性回歸分析和非線性回歸分析其中βi為最小二乘法估計值。
  • 一元(多元)線性回歸分析之R語言實現
    上篇介紹了《一元(多元)線性回歸分析之Excel實現》,本篇來探討一下回歸分析在R語言中的實現,我們將從更專業的角度對模型進行一些解讀。
  • 高頓CFA:CFA官方教材費用詳解!
    高頓君在貼吧裡看到,有同學諮詢「cfa官方教材費用」相關問題,高頓君總結cfa官方教材內容供大家參考:   首先,同學們要先明白cfa官方教材分為電子版和紙質版。
  • 機器學習:回歸分析——多元線性回歸分析
    從前面的學習中我們知道:社會經濟現象的變化往往受到多個因素的影響,因此一般要進行多元回歸分析。我們把包括兩個或兩個以上自變量的回歸稱為多元線性回歸。所以相比一元線性回歸,多元線性回歸的實際意義更大。本節我們將使用來自UIC數據集中的能效數據集(ENB2012_data.xlsx)進行演示,探索如何使用Python對數據集進行多元回歸分析。
  • 對比R語言和Python,教你實現回歸分析
    r的取值範圍是[-1,1],r=1表示完全正相關!r=-1表示完全負相關!r=0表示完全不相關。為什麼要對相關係數進行顯著性檢驗?由此可見,R方總是小於調整R方的且調整R方可能為負;並且只有R方趨近1時,調整R方才有出馬的意義!因此判斷多重共線性也多了一個方法:選擇其中一個自變量將其作為因變量,重新擬合,求
  • eviews 線性回歸模型 - CSDN
    掌握多元線性回歸模型的估計方法、掌握多重共線性模型的識別和修正。多元線性回歸模型,並識別和修正多重共線性。普通最小二乘法、簡單相關係數檢驗法、綜合判斷法、逐步回歸法。最小二乘估計的原理、t檢驗、F檢驗、擬合優度R方值。
  • eviews線性回歸模型 - CSDN
    掌握多元線性回歸模型的估計方法、掌握多重共線性模型的識別和修正。多元線性回歸模型,並識別和修正多重共線性。普通最小二乘法、簡單相關係數檢驗法、綜合判斷法、逐步回歸法。最小二乘估計的原理、t檢驗、F檢驗、擬合優度R方值。
  • 細說回歸分析
    常見回歸算法 有線性和非線性,這裡我們就重點說下線性回歸線性回歸,顧名思義,就是用一條直線去擬合樣本的趨勢。包括一元線性回歸和多元線性回歸,在實踐中,多元應用的較多。什麼是「元」?實際上就是自變量X,一個X就是一元線性回歸,多個X就是多元線性回歸。
  • R數據分析:一般線性回歸的做法和解釋
    對於模型,首先我們應該看整個模型的顯著性,也就是模型的F檢驗,可以看到兩個模型都有意義,然後我們再看R方和調整的R方,可以看到我們的模型賊好,然後我們再看每個變量的顯著性。Error為它的標準誤,t value為檢驗係數顯著性的t統計量,Pr(>|t|)為p值,通過Pr(>|t|)我們可以知道該係數是不是顯著地不等於0。還有模型整體表現的指標:這個是殘差的變異,越小越好。然後是R方和調整的R方,R方為這個模型能解釋的變異比例,調整的R方考慮了自變量個數。如果我們做簡單線性回歸的話R方和調整的R方就是一樣的。
  • eviews線性回歸模型專題及常見問題 - CSDN
    掌握多元線性回歸模型的估計方法、掌握多重共線性模型的識別和修正。多元線性回歸模型,並識別和修正多重共線性。普通最小二乘法、簡單相關係數檢驗法、綜合判斷法、逐步回歸法。最小二乘估計的原理、t檢驗、F檢驗、擬合優度R方值。
  • 多元回歸:理解機器學習
    性能度量P也是一個程序,程序的輸入是測試數據集,因為我們更加關注模型在未觀測數據上的性能如何,因為這將決定機器學習程序在實際應用中的性能。下面通過一個多元回歸案例,深入理解機器學習。由此,人口增長率與國民總收入、人均GDP、消費價格指數的線性關係可以假設用下面的多元線性回歸模型來表示:
  • (案例)線性/非線性回歸分析Matlab算例
    [b,bint,r,rint,stats]=regress(y',X,0.05); fprintf('一元線性回歸模型參數為:\n')bfprintf('回歸模型擬合度係數R2為:\n')R2=stats(1)fprintf('回歸模型顯著性檢驗F統計量為:\n')F=stats(2)fprintf('回歸模型顯著性檢驗P值為:\n')PVAL=stats(3)fprintf('回歸模型在置信度區間下殘差分布圖為
  • CFA level2 量化分析 簡單線性回歸介紹 R4
    這章是簡單的線性回歸,包含兩個變量,一個自變量和一個因變量。要能夠建立簡單的線性回歸模型,並解釋其成立的假設和所存在的局限性。然後,就是要會使用模型和給定的自變量去預測因變量,還要理解ANOVA表和檢驗回歸的顯著性水平。很大一部分都是中學數學的內容,用一堆數,得到一個一元一次方程後,再給出一個新的x,帶進去計算y,不同的是加了顯著性水平等。
  • 一文讀懂多元回歸分析
    多元回歸分析是多變量分析的基礎,也是理解監督類分析方法的入口!實際上大部分學習統計分析和市場研究的人的都會用回歸分析,操作也是比較簡單的,但能夠知道多元回歸分析的適用條件或是如何將回歸應用於實踐,可能還要真正領會回歸分析的基本思想和一些實際應用手法!
  • R語言 | 回歸分析(一)
    當方差分析出現顯著性差異後,我們進行事後檢驗來進一步確定是哪一個因素出現了顯著性差異,調用TukeyHSD( )函數可以完成事後檢驗,還有其他事後檢驗函數可以使用。回歸係數我們都已經確定好了,那該如何確定擬合的模型可以很好地反映搜集到的數據呢?換句話說,我們該怎麼用它來進行顯著性檢驗呢?這裡使用最小二乘法(least squares)進行檢驗。
  • 2020年CFA官方教材怎麼下載?CFA備考有哪些教材?
    2020年CFA考試快要來臨,在備考過程中肯定是需要教材資料來幫助自己學習的,2020年CFA考生在報名時,CFA考生的考試費中會包含一個2020年CFA電子版官方教材,建議CFA考生在備考過程中學習CFA官方教材。