在用多元線性回歸模型進行統計推斷之前,我們需要知道該模型的基礎假設。假設我們有n個因變量Y及自變量X1,X2,...,Xk的值,我們想推斷多元回歸方程Yi= b0 + b1X1i + b2X2i + ... + bkXki +εi。
為了從多元線性回歸模型中得出有效的推論,我們需要進行以下六個假設,這些假設是經典的多元線性回歸模型有效的前提:
1、因變量Y和自變量X1,X2,...,Xk之間的關係是線性的。
2、自變量(X1,X2,...,Xk)不是隨機的。而且,兩個或多個自變量之間不存在精確的線性關係。
3、以自變量為條件的殘差的期望值為0:E(ε|X1,X2,…,Xk)=0。
4、殘差項的方差對於所有觀察值都是相同的:E(εi^2)=σε^2。
5、殘差項在各個觀測值之間是不相關的:E(εiεj)=0,j≠i。
6、殘差項是正態分布的。
請注意,這些假設與一元線性回歸模型的假設幾乎完全相同。除了假設2,該假設說兩個或多個自變量或自變量組合之間不存在確切的線性關係。如果違反了假設2,那麼我們將無法計算線性回歸的估計值。另外,即使兩個或多個自變量或自變量組合之間不存在確切的線性關係,如果兩個或多個自變量或自變量組合之間相關性很高的話,線性回歸也會存在問題。相關性很高的現象被稱為多重共線性,我們將在後面的內容中討論。
儘管多元線性回歸的公式看上去似乎僅適用於橫截面數據,因為觀測的符號是相同的(i=1,…,n),但實際上也適用於時間序列數據。例如,如果我們分析一個公司多個時間段的數據,則通常使用符號Yt,X1t,X2t,…,Xkt,其中第一個下標表示變量,第二個下標表示第t個時間段。
案例 解釋跨國公司估值的因子
Kyaw,Manley和Shetty(2011)研究了哪些因子會影響跨國公司的估值。他們想知道政治風險、透明度和地域多元化是否影響了跨國公司的估值。他們使用了1998年至2003年間450家美國跨國公司的數據。這些公司的估值使用託賓q來衡量,託賓q是一種常用的公司估值方法,其計算方法是公司股權的市場價值及長期債務的帳面價值之和與權益及長期債務的帳面價值之和的比率。作者對代表政治風險、透明度和地域多元化的變量對跨國公司的託賓q進行了回歸。其中還包括一些可能影響公司估值的其他變量,包括公司規模、槓桿率和beta。回歸的等式如下:
託賓qi,t= b0 + b1(規模i,t)+b2(槓桿i,t)+b3(Betai,t)+b4(政治風險,t)+b5(透明度,t)+b6(地域分布i,t)+εi,t
其中託賓qi,t= 年度t時跨國公司i的託賓q,託賓q的計算公式為(權益+長期債務的帳面價值)/(權益的帳面價值+長期債務的帳面價值)
規模i,t= 年度t時跨國公司i的總銷售額的自然對數,以百萬美元為單位
槓桿i,t= 年度t時跨國公司i的總債務與總資產的比率
Betai,t= 年度t時跨國公司i的貝塔值
政治風險i,t=年度t時跨國公司i在國際業務中潛在風險比例,計算公式為[1–(公司開展業務的安全國家數/公司開展業務的國家總數)],使用歐洲貨幣局的國家風險編碼
透明度i,t=年度t時跨國公司i的「透明度百分比」,使用標準普爾透明度披露中的調查數據
地域分布i,t= 年度t時跨國公司i在國外的銷售額佔其在當年總銷售額的百分比
下表顯示了分析結果
假設我們使用上圖中的結果來檢驗原假設:跨國公司的規模對其價值沒有影響。我們的原假設是規模變量的係數等於0(H0:b1= 0),而我們的備擇假設是規模變量的係數不等於0(Ha:b1≠0)。
檢驗假設為的t統計量是
通過450個觀測值和7個係數,t統計量具有450– 7 =443個自由度。在0.05的顯著性水平下,t的臨界值約為1.97。規模係數的t統計量絕對值為3.12,這表明我們可以拒絕大小與羅賓q價值無關的原假設。實際上,在0.01的顯著性水平下,t的臨界值約為2.6。
因為規模i,t是銷售額的自然對數,所以規模i,t增加1等於銷售額增長2.72倍。因此,規模i,t的估計係數約為–0.7意味著回歸中其他五個自變量保持不變時,跨國公司銷售額每增長2.72倍(規模i,t增長1),羅賓qi,t就下降0.7。
假設我們要檢驗原假設:地域分布與託賓q不相關,即H0:b6= 0,相應備擇假設為Ha:b6≠0。
檢驗該假設的t統計量是
在0.05的顯著性水平下,t檢驗的臨界值為1.97。因此,在顯著性水平為0.05的情況下,我們可以否定原假設,即地域分布對跨國公司的估值沒有影響。地域分布的係數為0.021,這意味著如果其他自變量保持不變,跨國公司國外銷售額所佔百分比增加1,跨國公司羅賓q將預期增長0.021。