正態分布 線性回歸 - CSDN

2021-01-12 CSDN技術社區

採用最小二乘法進行線性回歸時,需要滿足特定的條件:

正態性:一定範圍內,給定任意x值,對應的y均服從正態分布

獨立:即誤差項間不存在相關,一般時間序列數據會存在自相關

線性:因變量和自變量有線性關係

同方差性:即模型誤差項的方差相等。

這些假設都與誤差項有關,所以我們可以從誤差的估計量殘差來解決,即我們常用到的殘差分析、殘差圖等。殘差圖就是以某種殘差(殘差、標準化殘差、學生化殘差等)為縱坐標,以任何其他的量為橫軸的散點圖,如果數據能較好滿足回歸條件,那麼殘差圖會是一個在水平線周圍隨機均勻分布的散點圖。另外我們也可通過假設檢驗的手段進行回歸診斷。

殘差圖診斷

1.正態性:如果滿足此條件,那麼殘差值將服從正態分布。可以採用殘差的qq圖來判斷

2.線性:可以採用殘差和預測值散點圖,如果滿足線性,那麼殘差值與預測值沒有任何關聯。

3.同方差性:可以看學生化殘差圖和預測值的散點圖,如果滿足同方差性假設,那麼散點大致落在±2的區域,且不呈任何趨勢。

對於回歸中的殘差診斷圖,SAS程序會自動生成並展示在結果裡。

假設檢驗診斷:

正太性:可以輸出殘差,使用univariate過程步進行正態檢驗。或者使用transreg過程box-cox轉換方法

同方差性:SAS裡提供white檢驗和bp法。

線性:可以使用網上的boxTdiwell變換的宏程序。該宏的運行還需使用另外一個gskip宏程序才能運行。兩個宏程序下載地址:

boxTdiwell:http://www.datavis.ca/sas/macros/boxtid.sas

gskip:http://www.datavis.ca/sas/macros/util/gskip.sas

自相關:DW檢驗,SAS程序裡加入dw選項,後文不再介紹

下面我們使用sashelp.class的數據擬合一個簡單線性回歸模型進行說明。

擬合模型:

proc reg data=sashelp.class; model height=age;run;

一、SAS生成的部分診斷圖(rstudent為學生化殘差):可以看出基本滿足回歸條件

二、假設檢驗診斷程序:

1.正態性

程序:

*正態box-cox變換;proc transreg data=sashelp.class test; model BoxCox(height) = identity(age);run;

結果:

可以看到參數lambda=1(lamabda=1表示不轉換,lambda=0時表示對因變量進行對數轉換,轉換的規則為y的lambda次方)在95%的置信區間內,可以認為滿足正態的條件,不考慮進行轉換。如果轉換,lambda的值可以考慮取紅色方塊的值。

2.線性

程序:

*載入兩個宏程序,boxTidwell線性檢驗與轉換;%INCLUDE "C:\Users\Administrator\Desktop\boxTidwell.sas";%INCLUDE "C:\Users\Administrator\Desktop\gskip.sas";%boxtid(data=sashelp.class,yvar=height,xvar=age,xtrans=age,id=name)

結果:

可以看出結果p=0.7282,可以認為滿足線性,如果p<0.05,則使用power的值對自變量進行轉換,因為power的值接近-0.5,所以它建議使用-0.5次方(0.5次方即開根號)進行轉換,該處理方法也適用於上。

3.同方差性

程序:

*parms語句指定係數,const為常數項,beta為age回歸係數,white為white檢驗,breusch為bp檢驗,括號1代表截距,age代表自變量;proc model data=sashelp.class; parms const beta; height=const+age*beta; fit height /white breusch=(1 age);run;quit;

結果:可以看出兩種方法都表示滿足同方差性。

另外在R軟體裡有更多的關於回歸診斷的函數,我們可以在SAS裡調用R軟體來幫助我們判斷。程序如下:

*開啟調用R的選項;proc options option=rlang;run;*iml模塊調用R;proc iml;  run exportdatasettoR("sashelp.class", "test"); *將sas數據導入到R裡; submit/r; *開始調用R;  #R裡的car包有很多做診斷的函數,可以對模型進行線性、正態性、同方差性等檢驗 library(car)  mod = lm(Height ~ Age, data = test)  #基礎包plot()函數可以生成4幅診斷圖  plot(mod) #qqPlot()函數可以對正態性檢驗,如果不滿足,可以使用powerTransform()函數對因變量進行box-cox正態轉換 summary(powerTransform(mod))  #boxTidwell()函數對模型進行線性檢驗,並給出自變量轉換參數來讓模型滿足線性 boxTidwell(Height ~ Age, data = test)  #ncvTest()函數對模型進行同方差檢驗,spreadLevelPlot()可以對不滿足同方差模型提供因變量轉換參數  ncvTest(mod) spreadLevelPlot(mod) endsubmit; *結束調用;quit;

結果:

相關焦點

  • 數據正態分布的意義 - CSDN
    什麼是正態分布關於什麼是正態分布,早在中學時老師就講過了。通俗來講,就是當我們把數據繪製成頻率直方圖,所構成曲線的波峰位於中間,兩邊對稱,並且隨著往兩側延伸逐漸呈下降趨勢,這樣的曲線就可以說是符合數學上的正態分布。由於任何特徵的頻率總和都為100%或1,所以該曲線和橫軸之間部分的面積也為100%或1,這是正態分布的幾何意義。
  • 值 多元線性回歸模型專題及常見問題 - CSDN
    多元線性回歸模型通常用來研究一個應變量依賴多個自變量的變化關係,如果二者的以來關係可以用線性形式來刻畫,則可以建立多元線性模型來進行分析。1.模型簡介1.1模型的結構多元線性回歸模型通常用來描述變量y和x之間的隨機線性關係,即:
  • 線性回歸的統計假設 - CSDN
    在用多元線性回歸模型進行統計推斷之前,我們需要知道該模型的基礎假設。假設我們有n個因變量Y及自變量X1,X2,...,Xk的值,我們想推斷多元回歸方程Yi= b0 + b1X1i + b2X2i + ... + bkXki +εi。
  • 正態分布的常用數據 - CSDN
    #尋找真知派#如上一篇文章所述,樣本所屬總體服從正態分布是數據分析和數據挖掘等數據處理的重要前提。如果我們採集的樣本並不能確認其總體是否服從正態分布,那麼數據處理的結果就是不可靠的。因此,對樣本數據進行正態分布檢驗十分必要。
  • 偏度與峰度的正態性分布判斷
  • 線性回歸假設檢驗專題及常見問題 - CSDN
    首先假設模型的 a, b, σ(假設1:隨機擾動項服從的正態分布的方差)是已知的。這時候我們可以看到 y 是由 ax + b + 隨機值 構成,那麼就說明 y 本身就是一個隨機值。而且也可以很清楚的證明 yi是服從 期望為 10a+b 方差為 σ2的正態分布。所以,有 相同的玩偶個數,不同的成本 這種情況出現正是因為 成本分別是同一正態分布的兩次獨立觀測值。
  • 簡單線性回歸(一)
    回歸分析(regression analysis )是研究一個變量如何隨另一些變量變化的方法。例如,學習成績會受努力的時間,方法,個人的智慧,教育資源等因素影響;疾病的發生與生活環境,方式,遺傳因素,自身體質等影響。常見的回歸分析有 線性回歸、非線性回歸、多重線性回歸、Logistic回歸等等。
  • 一元線性回歸顯著性檢驗專題及常見問題 - CSDN
    假設:正態性假設                        (12)  在正態假設下,原假設H0 : β1 = 0 成立時,較小時,相關係數的波動較大,|r| 接近於1,n 較大時,|r|易偏小,n 較小時,不能僅憑 r 判定 x 與 y 之間有密切的線性關係)  另外補充一點,Pearson相關係數的適用範圍:  ① 兩個變量之間是線性關係,都是連續數據;  ② 兩個變量的總體是正態分布
  • 簡單線性回歸(二)
    線性回歸相關知識:簡單線性回歸(一)線性回歸步驟線性回歸需滿足的條件①因變量Y與自變量X呈線性關係②每個個體觀察值之間互相獨立③在一定範圍內,任意給定X值,其對應的隨機變量Y均服從正態分布④在一定範圍內,不同X值所對應的隨機變量Y的方差相等某研究者測量了16名成年男子的體重(Kg)和臀圍(cm)數據,欲探求成年男子的體重與臀圍是否可以建立線性回歸模型。
  • SPSS-線性相關與多重線性回歸
    對服從正態分布的定量資料,我們探討線性相關,對計數和等級資料,我們探討秩相關,今天的內容,便是定量資料的相關與回歸。1 簡單線性相關與回歸:例:探討身高與前臂長的相關性① 繪製散點圖(直觀的反應兩者關係):② 求相關係數(兩變量相關關係的方向及密切程度):
  • 回歸內生性 - CSDN
    回歸分析是數據分析中最基礎也是最重要的分析工具,絕大多數的數據分析問題,都可以使用回歸的思想來解決。回歸分析的任務就是,通過研究自變量X和因變量Y的相關關係,嘗試去解釋Y的形成機制,進而達到通過X去預測Y的目的。
  • 權重不確定的概率線性回歸
    針對不確定性建立概率線性回歸模型在本節中,我們將建立一個考慮不確定性的概率線性回歸模型。這個模型與確定性線性回歸非常相似。但是,與之前只使用一個單一的全連接層不同,我們需要再添加一個層作為最後一層。最後一層將最終輸出值從確定性轉換為概率分布。在本例中,我們將創建最後一層,它將輸出值轉換為正態分布的概率值。下面是它的實現。
  • spss線性回歸自變量因變量專題及常見問題 - CSDN
    轉載自公眾號:青年智囊SPSS多元線性回歸在回歸分析中,如果有兩個或兩個以上的自變量,就稱為多元回歸。事實上,一種現象常常是與多個因素相聯繫的,由多個自變量的最優組合共同來預測或估計因變量,比只用一個自變量進行預測或估計更有效,更符合實際,因此多元線性回歸被廣泛運用。今天大家一起來學習吧!
  • 從正態分布到冪率分布
    《連結》和《爆發》提到過,世界由兩個法則構成,一個是高斯法則,也就是正態分布。另一個是冪律法則,可以理解為二八法則,比如20%的人口佔據了80%的社會財富。 我們的世界中絕大部分事物它們發生情況的分布是正態分布(Normal distribution),即在某些情況下發生的可能性是很大的(紅色很高的山峰)。
  • 線性回歸分析思路總結!簡單易懂又全面!
    線性回歸是一種研究影響關係的方法,在實際研究裡非常常見。本文就來梳理下線性回歸分析的分析流程,閒話少說,我們開始吧!線性回歸回歸分析實質上就是研究一個或多個自變量X對一個因變量Y(定量數據)的影響關係情況。
  • R筆記:多重線性回歸(二)_適用條件考察
    並對模型參數進行了估計,但建立回歸方程實際上是整個回歸分析裡面最簡單的一部分,數據適不適合採用線性回歸,回歸模型對數據的擬合性如何還需要更進一步的考察驗證。線性回歸基本適用條件:獨立、線性、正態和方差齊同,本次筆記在上次筆記建立多重回歸模型lmfit後考察這幾個適用條件。線性回歸適用條件和模型的診斷多涉及殘差分析。
  • 在回歸分析中t檢驗_回歸分析的t檢驗如何做 - CSDN
    數據分布形態一組或一系列數字,落在坐標圖裡的形態特徵。比如:正態分布。數據分布形態的測度主要以正態分布為標準進行衡量。正態分布及三大分布(1)正態分布正態分布的特徵:a. 正態分布有兩個參數,即均數μ和標準差σ,可記作N(μ,σ2):均數μ決定正態曲線的中心位置;標準差σ決定正態曲線的陡峭或扁平程度。σ越小,曲線越陡峭;σ越大,曲線越扁平。b. u變換:為了便於描述和應用,常將正態變量作數據轉換。
  • 回歸方程的顯著性檢驗 - CSDN
    假設:正態性假設 (方便檢驗計算)t 檢驗  用t 檢驗來檢驗回歸係數的顯著性。這樣,總平方和SST 中,能夠由自變量解釋的部分為SSR,不能由自變量解釋的部分為SSE,從而,回歸平方和SSR越大,回歸的效果就越好,可以據此構造F 檢驗統計量為                       (12)  在正態假設下,原假設H0 : β1 = 0 成立時,,當時,拒絕原假設。
  • 神說,要有正態分布,於是高斯就創造了正態分布 - 徐曉亞然
    一般正態分布正態分布的密度函數N(0,σ2)就是上述的表現形式。那麼前面說的最小二乘法跟正態分布又有啥關係呢?因此,正態分布跟最小二乘法的關係實在非比尋常!由於高斯的傑出工作,正態分布又叫高斯分布。高斯基於正態分布給出的最小二乘法,大大拓寬了正態分布的應用,這個密度函數在整個數理統計領域遠遠要超過其他任何分布。實際上正態分布也是存在最廣泛的分布,甚至可以沒有之一!
  • 這些線性回歸知識是底線!
    ,但在開始介紹之前還是要回顧下線性回歸的公式和假設。線性回歸假設回歸函數E(Y |X)在輸入中是線性的。因此,Y滿足以下條件:公式中ε代表誤差。線性假設是線性回歸中唯一必須的假設——稍後本文會添加更多假設以推斷更多結果。雖然以上公式似乎看上去簡單,但要找到係數並不容易(β值)。我們將此稱為帶有『^』的β值為係數估計值。