許栩原創專欄《從入門到高手:線性回歸分析詳解》第8章,顯著性驗證,總體驗證的F檢驗與個體驗證的t檢驗。
上一章,我講述了回歸方程的精度,在回歸分析中,我們求出回歸方程後,除了確認回歸方程的精度外,我們要需要對回歸方程進行顯著性驗證,以確認回歸方程的有效性。
本章,我同樣分如下三個小節對顯著性驗證進行講解,歡迎閱讀與探討。我的《線性回歸分析》專欄總目錄見下圖。
1、什麼是顯著性驗證?
2、回歸方程的總體顯著性驗證(F檢驗)。
3、回歸係數的個體顯著性驗證(t檢驗)。
一、什麼是顯著性驗證?
如果回歸模型用於需求預測是有效的(顯著的),那麼,回歸模型不僅僅是對我們建模時所用到的數據有效,對其他數據也應該用樣有效。證明回歸模型對其他數據同樣有效的過程,就是顯著性驗證(significance testing),也稱有效性驗證。如果驗證的結果反饋對其他數據無效,那麼,代表我們的回歸模型(回歸方程)出現了問題,我們需要調整自變量或重新建模。
以上是我給顯著性驗證的一個粗暴定義。
顯著性驗證的定義其實非常複雜,也有些難懂(比如下面引用的百科定義)。在本專欄的兩點說明中,有一點我提到「儘可能減少原理性講述」,本著這個思路,我給出了如上的簡化定義。因為,我們不是研究回歸分析這個學科或學術,我們只是將回歸分析應用於需求預測。所以,對於應用回歸分析的我們來說,懂得這個粗暴定義應該足夠了。
【顯著性驗證百科定義】顯著性驗證,是事先對總體(隨機變量)的參數或總體分布形式做出一個假設,然後利用樣本信息來判斷這個假設是否合理,即判斷總體的真實情況與原假設是否有顯著性差異。
顯著性驗證的方法一般有兩種,一是測算回歸方程總體顯著性的F檢驗,二是測算變量解釋係數(即回歸係數)個體顯著性的t檢驗。
進行F檢驗或t檢驗,都需要知道一個概念,顯著性水平。什麼是顯著性水平呢?顯著性水平是估計總體參數落在某一區間內,可能犯錯誤的概率,用α表示。
有點繞吧,我將其翻譯成簡單點的:顯著性水平就是對這個模型運行結果沒有把握的程度,與之相對應的是置信度。比如說,用回歸分析對火鍋店的業績進行預測,對預測結果,有80%的把度,這80%就是置信度,20%(1-80%)則是顯著性水平。(置信度與置信區間我將在下一章詳細講述。)
接下來我分別介紹F檢驗和t檢驗這兩種顯著性驗證方法。
二、回歸方程的總體顯著性驗證(F檢驗)。
如本專欄說明所說,「儘可能減少原理性講述」,F檢驗和t檢驗,我都不進行原理性講解,只介紹計算方法和判定標準。
F檢驗測算的是回歸方程的總體顯著性,我們以Excel的數據分析工具進行F檢驗。(原始數據仍使用本專欄模擬的「回歸火鍋店」的數據。)
我們看上圖。上圖是以5%的顯著性水平(置信度95%),用Excel的數據分析工具中的回歸分析計算的結果。結果顯示,F統計值為15.19。
那麼,F統計值為15.19,這個15.19,是高還是低呢?在回歸方程的總體顯著性驗證中怎麼評估呢?這就需要根據F檢驗的評價標準而定。
F檢驗的評價標準及怎麼去評價,我們分兩步進行。