線性回歸的統計假設 - CSDN

2021-01-12 CSDN技術社區

在用多元線性回歸模型進行統計推斷之前,我們需要知道該模型的基礎假設。假設我們有n個因變量Y及自變量X1,X2,...,Xk的值,我們想推斷多元回歸方程Yi= b0 + b1X1i + b2X2i + ... + bkXki +εi。

為了從多元線性回歸模型中得出有效的推論,我們需要進行以下六個假設,這些假設是經典的多元線性回歸模型有效的前提:

1、因變量Y和自變量X1,X2,...,Xk之間的關係是線性的。

2、自變量(X1,X2,...,Xk)不是隨機的。而且,兩個或多個自變量之間不存在精確的線性關係。

3、以自變量為條件的殘差的期望值為0:E(ε|X1,X2,…,Xk)=0。

4、殘差項的方差對於所有觀察值都是相同的:E(εi^2)=σε^2。

5、殘差項在各個觀測值之間是不相關的:E(εiεj)=0,j≠i。

6、殘差項是正態分布的。

請注意,這些假設與一元線性回歸模型的假設幾乎完全相同。除了假設2,該假設說兩個或多個自變量或自變量組合之間不存在確切的線性關係。如果違反了假設2,那麼我們將無法計算線性回歸的估計值。另外,即使兩個或多個自變量或自變量組合之間不存在確切的線性關係,如果兩個或多個自變量或自變量組合之間相關性很高的話,線性回歸也會存在問題。相關性很高的現象被稱為多重共線性,我們將在後面的內容中討論。

儘管多元線性回歸的公式看上去似乎僅適用於橫截面數據,因為觀測的符號是相同的(i=1,…,n),但實際上也適用於時間序列數據。例如,如果我們分析一個公司多個時間段的數據,則通常使用符號Yt,X1t,X2t,…,Xkt,其中第一個下標表示變量,第二個下標表示第t個時間段。

案例 解釋跨國公司估值的因子

Kyaw,Manley和Shetty(2011)研究了哪些因子會影響跨國公司的估值。他們想知道政治風險、透明度和地域多元化是否影響了跨國公司的估值。他們使用了1998年至2003年間450家美國跨國公司的數據。這些公司的估值使用託賓q來衡量,託賓q是一種常用的公司估值方法,其計算方法是公司股權的市場價值及長期債務的帳面價值之和與權益及長期債務的帳面價值之和的比率。作者對代表政治風險、透明度和地域多元化的變量對跨國公司的託賓q進行了回歸。其中還包括一些可能影響公司估值的其他變量,包括公司規模、槓桿率和beta。回歸的等式如下:

託賓qi,t= b0 + b1(規模i,t)+b2(槓桿i,t)+b3(Betai,t)+b4(政治風險,t)+b5(透明度,t)+b6(地域分布i,t)+εi,t

其中託賓qi,t= 年度t時跨國公司i的託賓q,託賓q的計算公式為(權益+長期債務的帳面價值)/(權益的帳面價值+長期債務的帳面價值)

規模i,t= 年度t時跨國公司i的總銷售額的自然對數,以百萬美元為單位

槓桿i,t= 年度t時跨國公司i的總債務與總資產的比率

Betai,t= 年度t時跨國公司i的貝塔值

政治風險i,t=年度t時跨國公司i在國際業務中潛在風險比例,計算公式為[1–(公司開展業務的安全國家數/公司開展業務的國家總數)],使用歐洲貨幣局的國家風險編碼

透明度i,t=年度t時跨國公司i的「透明度百分比」,使用標準普爾透明度披露中的調查數據

地域分布i,t= 年度t時跨國公司i在國外的銷售額佔其在當年總銷售額的百分比

下表顯示了分析結果

假設我們使用上圖中的結果來檢驗原假設:跨國公司的規模對其價值沒有影響。我們的原假設是規模變量的係數等於0(H0:b1= 0),而我們的備擇假設是規模變量的係數不等於0(Ha:b1≠0)。

檢驗假設為的t統計量是

通過450個觀測值和7個係數,t統計量具有450– 7 =443個自由度。在0.05的顯著性水平下,t的臨界值約為1.97。規模係數的t統計量絕對值為3.12,這表明我們可以拒絕大小與羅賓q價值無關的原假設。實際上,在0.01的顯著性水平下,t的臨界值約為2.6。

因為規模i,t是銷售額的自然對數,所以規模i,t增加1等於銷售額增長2.72倍。因此,規模i,t的估計係數約為–0.7意味著回歸中其他五個自變量保持不變時,跨國公司銷售額每增長2.72倍(規模i,t增長1),羅賓qi,t就下降0.7。

假設我們要檢驗原假設:地域分布與託賓q不相關,即H0:b6= 0,相應備擇假設為Ha:b6≠0。

檢驗該假設的t統計量是

在0.05的顯著性水平下,t檢驗的臨界值為1.97。因此,在顯著性水平為0.05的情況下,我們可以否定原假設,即地域分布對跨國公司的估值沒有影響。地域分布的係數為0.021,這意味著如果其他自變量保持不變,跨國公司國外銷售額所佔百分比增加1,跨國公司羅賓q將預期增長0.021。

相關焦點

  • 線性回歸假設檢驗 - CSDN
    對 xxx 的線性回歸是有效的, lrg3)get_lr_stats(x4_in, y4_in, lrg4)四個模型參數幾乎一樣( get_lr_stats 在Python_一元線性回歸及回歸顯著性中)但是並非全都是線性回歸>>> get_lr_stats(x1_in, y1_in, lrg1)一元線性回歸方程為: y=3.000090909090906 + 0.5000909090909094*x相關係數(R^2): 0.6665424595087752;回歸分析(SSR): 27.51000090909094
  • 多重線性回歸實例 - CSDN
    在上一期SPSS的推文中我們講了一些關於線性回歸的基本知識,還利用一個簡單的實例進行了簡單線性回歸的分析,今天我們就來講講多重線性回歸(也叫多元線性回歸),有關多元線性回歸的概念我在上一期的推文中也已經講過,這裡就不提了。可瀏覽上一篇SPSS的推文:SPSS第二期——線性回歸(上),兩篇對照起來看,或許能學到更多知識。
  • spss線性回歸 回歸方程 - CSDN
    ,用到的分析方法就是線性回歸,決定猛學習一下,再來評判視頻裡的結論。>線性回歸,首先應用於定距變量之間,本質上是分析一個因變量和一組自變量之間的相關關係,既可以解釋,也可以做預測。就是一個用線性回歸解釋相關性的問題。
  • 多元線性回歸的模型解釋、假設檢驗、特徵選擇
    線性回歸是最流行和討論最多的模型之一,它無疑是深入機器學習(ML)的入門之路。這種簡單、直接的建模方法值得學習,這是進入ML的第一步。在繼續討論之前,讓我們回顧一下線性回歸可以大致分為兩類。簡單線性回歸:當只有一個輸入變量時,它是線性回歸最簡單的形式。
  • 的方法 線性回歸方程檢驗專題及常見問題 - CSDN
    回歸方程建立及回歸參數的區間估計,但是它們都是建立在假定因變量和自變量線性相關的基礎上。解:運用Excel對數據進行回歸分析,得到回歸方程和決定係數R平方;回歸係數的檢驗上面回歸方程的檢驗是利用b=0時,回歸方程的特性建立F統計量,進而進行假設檢驗。也可以構造另一個統計量t,如下:利用上述t統計量即可對b進行假設檢驗。
  • 多元線性回歸預測spss - CSDN
    回歸一直是個很重要的主題。因為在數據分析的領域裡邊,模型重要的也是主要的作用包括兩個方面,一是發現,一是預測。而很多時候我們就要通過回歸來進行預測。關於回歸的知識點也許不一定比參數檢驗,非參數檢驗多,但是複雜度卻絕對在其上。回歸主要包括線性回歸,非線性回歸以及分類回歸。本文主要討論多元線性回歸(包括一般多元回歸,含有虛擬變量的多元回歸,以及一點廣義差分的知識)。
  • eviews 線性回歸模型 - CSDN
    分享經典書籍: A Modern Approach to Regression with R.pdf  連結: https://pan.baidu.com/s/14NJt7CrOpUUe2hYyrJn_rg  提取碼: 7fv6  多元線性回歸
  • 多元線性回歸spss操作 - CSDN
    以照護需求得分為因變量,以可能為影響失能老年人照護需求得分的因素為自變量,採用多元線性回歸篩選出影響失能老年人選擇照護服務需求的因素。本例納入的自變量有年齡、經濟來源、健康自評、失能程度、慢性病患病種類、慢性疼痛、跌倒經歷,賦值方式如表1:
  • eviews線性回歸模型專題及常見問題 - CSDN
    分享經典書籍: A Modern Approach to Regression with R.pdf  連結: https://pan.baidu.com/s/14NJt7CrOpUUe2hYyrJn_rg  提取碼: 7fv6  多元線性回歸
  • 多元線性回歸係數檢驗 - CSDN
    多元線性回歸模型通常用來研究一個應變量依賴多個自變量的變化關係,如果二者的以來關係可以用線性形式來刻畫,則可以建立多元線性模型來進行分析。1.t檢驗t檢驗是對單個變量係數的顯著性檢驗,一般看p值; 如果p值小於0.05表示該自變量對因變量解釋性很強。
  • spss 方法 線性回歸專題及常見問題 - CSDN
    以照護需求得分為因變量,以可能為影響失能老年人照護需求得分的因素為自變量,採用多元線性回歸篩選出影響失能老年人選擇照護服務需求的因素。本例納入的自變量有年齡、經濟來源、健康自評、失能程度、慢性病患病種類、慢性疼痛、跌倒經歷,賦值方式如表1:
  • spss多元線性回歸模型專題及常見問題 - CSDN
    先說一句題外話,如果當年在大學裡數理統計等課程結合SPSS,SAS,R等軟體來講,應該效果會好很多。最近做了一些用SPSS進行線性回歸的實驗,還是感覺很多細節把握不好,這裡結合我的實驗結果,以及網上別人的介紹總結一下,先貼幾張SPSS的輸出:
  • SPSS多元線性回歸分析
    該研究想建立變量(pH、SOM、SAN等)與產量之間的回歸方程,此時我們可以考慮採用多元線性回歸分析。值得注意的是,多元線性回歸分析需要數據滿足以下4個假設:(1)需要至少2個自變量,且自變量之間互相獨立(本次6個);(2)因變量為為連續變量(本案例產量為連續變量);(3)數據具有方差齊性、無異常值和正態分布的特點(檢驗方法);(4)自變量間不存在多重共線性。
  • 多元線性回歸t檢驗專題及常見問題 - CSDN
    多元線性回歸模型通常用來研究一個應變量依賴多個自變量的變化關係,如果二者的以來關係可以用線性形式來刻畫,則可以建立多元線性模型來進行分析。1.t檢驗t檢驗是對單個變量係數的顯著性檢驗,一般看p值; 如果p值小於0.05表示該自變量對因變量解釋性很強。
  • 經典線性回歸模型假定 - CSDN
    回歸問題就是擬合輸入變量x與數值型的目標變量y之間的關係,而線性回歸就是假定了x和y之間的線性關係,公式如下:          如下圖所示,我們可以通過繪製繪製(x,y)的散點圖的方式來查看x和y之間是否有線性關係,線性回歸模型的目標是尋找一條穿過這些散點的直線,讓所有的點離直線的距離最短。
  • 回歸系列(一)|怎樣正確地理解線性回歸
    作者:丁點helper 來源:丁點幫你線性回歸,可能是統計學上運用最廣泛的一類方法了,之所以說它是一類方法,是因為它包括了我們熟知的各種模型:簡單線性回歸、多重線性回歸、Logistic回歸等等。確實如此,線性回歸,尤其是一般線性模型(一個Y,多個X)使用起來沒什麼障礙,但大家是否完全理解清楚了所有應該掌握的內容(非數學計算)可能有待思考,這個系列的文章我們以「線性回歸」為主題,希望能讓大家對這個問題的認識能再全面一丁點。
  • 一文教你全面掌握用Python實現線性回歸
    預估係數假設僅有一個自變量和因變量,那麼線性回歸表達如下:一個自變量和因變量線性模型的方程式在上圖的方程中,兩個β就是係數。在模型中預測結果需要用到這些係數。那麼,如何算出這些參數呢?為此,需要最小化最小二乘法或者誤差平方和。當然,線性模型也不是完美的,也不能準確預測出所有數據,這就意味著實際值和預測值間存在差異。
  • t檢驗回歸方程專題及常見問題 - CSDN
    ^2} \thicksim \chi^2_{N-p-1}σ2σ^OLS2​​∼χN−p−12​(詳情請見:【統計學習系列】多元線性回歸模型(三)——參數估計量的性質)。圖片來源:百度圖片)當 t 統計量落入這個區域時,我們都應該拒絕原假設H0,並認為 βi 不等於0,自變量 Xi 與因變量 Y 存在統計意義下顯著的線性相關關係(Statistically Significant Linear Correlation)。
  • 線性回歸
    在統計學中,線性回歸(Linear Regression)是利用稱為線性回歸方程的最小平方函數對一個或多個自變量和因變量之間關係進行建模的一種回歸分析
  • 多元線性回歸例題 - CSDN
    %多元線性回歸求解clearclcx=[120731808012512581.190133.02731808012512581.190129.63731808012512581.190158.77731808012512581.190145.32731808012512581.190