excel做回歸分析 - CSDN

2021-01-15 CSDN技術社區

一、什麼是回歸分析法

「回歸分析」是解析「注目變量」和「因於變量」並明確兩者關係的統計方法。此時,我們把因子變量稱為「說明變量」,把注目變量稱為「目標變量址(被說明變量)」。清楚了回歸分析的目的後,下面我們以回歸分析預測法的步驟來說明什麼是回歸分析法:

回歸分析是對具有因果關係的影響因素(自變量)和預測對象(因變量)所進行的數理統計分析處理。只有當變量與因變量確實存在某種關係時,建立的回歸方程才有意義。因此,作為自變量的因素與作為因變量的預測對象是否有關,相關程度如何,以及判斷這種相關程度的把握性多大,就成為進行回歸分析必須要解決的問題。進行相關分析,一般要求出相關關係,以相關係數的大小來判斷自變量和因變量的相關的程度。

二、回歸分析的目的

回歸分析的目的大致可分為兩種:

第一,「預測」。預測目標變量,求解目標變量y和說明變量(x1,x2,…)的方程。

y=a0+b1x1+b2x2+…+bkxk+誤差(方程A)

把方程A叫做(多元)回歸方程或者(多元)回歸模型。a0是y截距,b1,b2,…,bk是回歸係數。當k=l時,只有1個說明變量,叫做一元回歸方程。根據最小平方法求解最小誤差平方和,非求出y截距和回歸係數。若求解回歸方程.分別代入x1,x2,…xk的數值,預測y的值。

第二,「因子分析」。因子分析是根據回歸分析結果,得出各個自變量對目標變量產生的影響,因此,需要求出各個自變量的影響程度。

希望初學者在閱讀接下來的文章之前,首先學習一元回歸分析、相關分析、多元回歸分析、數量化理論I等知識。

根據最小平方法,使用Excel求解y=a+bx中的a和b。那麼什麼是最小平方法?

分別從散點圖的各個數據標記點,做一條平行於y軸的平行線,相交於圖中直線(如下圖)

平行線的長度在統計學中叫做「誤差」或者『殘差」。誤差(殘差)是指分析結果的運算值和實際值之間的差。接這,求平行線長度曲平方值。可以把平方值看做邊長等於平行線長度的正方形面積(如下圖)

最後,求解所有正方形面積之和。確定使面積之和最小的a(截距)和b(回歸係數)的值(如下圖)。

使用Excel求解回歸方程;「工具」→「數據分析」→「回歸」,具體操作步驟將在後面的文章中具體會說明。

線性回歸的步驟不論是一元還是多元相同,步驟如下:

1、散點圖判斷變量關係(簡單線性);

2、求相關係數及線性驗證;

3、求回歸係數,建立回歸方程;

4、回歸方程檢驗;

5、參數的區間估計;

6、預測;

一元線性回歸操作和解釋

摘要

一元線性回歸可以說是數據分析中非常簡單的一個知識點,有一點點統計、分析、建模經驗的人都知道這個分析的含義,也會用各種工具來做這個分析。這裡面想把這個分析背後的細節講講清楚,也就是後面的數學原理。

什麼是一元線性回歸

回歸分析(Regression Analysis)是確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法。在回歸分析中,只包括一個自變量和一個因變量,且二者的關係可用一條直線近似表示,這種回歸分析稱為一元線性回歸分析。舉個例子來說吧:

比方說有一個公司,每月的廣告費用和銷售額,如下表所示:

案例數據

如果我們把廣告費和銷售額畫在二維坐標內,就能夠得到一個散點圖,如果想探索廣告費和銷售額的關係,就可以利用一元線性回歸做出一條擬合直線:

擬合直線

這條線是怎麼畫出來的

對於一元線性回歸來說,可以看成Y的值是隨著X的值變化,每一個實際的X都會有一個實際的Y值,我們叫Y實際,那麼我們就是要求出一條直線,每一個實際的X都會有一個直線預測的Y值,我們叫做Y預測,回歸線使得每個Y的實際值與預測值之差的平方和最小,即(Y1實際-Y1預測)^2+(Y2實際-Y2預測)^2+ …… +(Yn實際-Yn預測)^2的和最小(這個和叫SSE,後面會具體講)。

現在來實際求一下這條線:

我們都知道直線在坐標系可以表示為Y=aX+b,所以(Y實際-Y預測)就可以寫成(Y實際-(aX實際+b)),於是平方和可以寫成a和b的函數。只需要求出讓Q最小的a和b的值,那麼回歸線的也就求出來了。

簡單插播一下函數最小值怎麼求:

首先,一元函數最小值點的導數為零,比如說Y=X^2,X^2的導數是2X,令2X=0,求得X=0的時候,Y取最小值。

那麼實質上二元函數也是一樣可以類推。不妨把二元函數圖象設想成一個曲面,最小值想像成一個凹陷,那麼在這個凹陷底部,從任意方向上看,偏導數都是0。

因此,對於函數Q,分別對於a和b求偏導數,然後令偏導數等於0,就可以得到一個關於a和b的二元方程組,就可以求出a和b了。這個方法被稱為最小二乘法。下面是具體的數學演算過程,不願意看可以直接看後面的結論。

先把公式展開一下:

Q函數表達式展開

然後利用平均數,把上面式子中每個括號裡的內容進一步化簡。例如

Y^2的平均

則:

上式子兩邊×n

於是

Q最終化簡結果

然後分別對Q求a的偏導數和b的偏導數,令偏導數等於0。

Q分別對a和b求偏導數,令偏導數為0

進一步化簡,可以消掉2n,最後得到關於a,b的二元方程組為

關於a,b的 二元方程組

最後得出a和b的求解公式:

最小二乘法求出直線的斜率a和斜率b

有了這個公式,對於廣告費和銷售額的那個例子,我們就可以算出那條擬合直線具體是什麼,分別求出公式中的各種平均數,然後帶入即可,最後算出a=1.98,b=2.25

最終的回歸擬合直線為Y=1.98X+2.25,利用回歸直線可以做一些預測,比如如果投入廣告費2萬,那麼預計銷售額為6.2萬

評價回歸線擬合程度的好壞

我們畫出的擬合直線只是一個近似,因為肯定很多的點都沒有落在直線上,那麼我們的直線擬合程度到底怎麼樣呢?在統計學中有一個術語叫做R^2(coefficient ofdetermination,中文叫判定係數、擬合優度,決定係數,系統不能上標,這裡是R^2是「R的平方」),用來判斷回歸方程的擬合程度。

首先要明確一下如下幾個概念:

總偏差平方和(又稱總平方和,SST,Sum of Squaresfor Total):是每個因變量的實際值(給定點的所有Y)與因變量平均值(給定點的所有Y的平均)的差的平方和,即,反映了因變量取值的總體波動情況。如下:

SST公式

回歸平方和(SSR,Sum of Squares forRegression):因變量的回歸值(直線上的Y值)與其均值(給定點的Y值平均)的差的平方和,即,它是由於自變量x的變化引起的y的變化,反映了y的總偏差中由於x與y之間的線性關係引起的y的變化部分,是可以由回歸直線來解釋的。

SSR公式

殘差平方和(又稱誤差平方和,SSE,Sum of Squaresfor Error):因變量的各實際觀測值(給定點的Y值)與回歸值(回歸直線上的Y值)的差的平方和,它是除了x對y的線性影響之外的其他因素對y變化的作用,是不能由回歸直線來解釋的。

這些概念還是有些晦澀,我個人是這麼理解的:

就拿廣告費和銷售額的例子來說,其實廣告費只是影響銷售額的其中一個比較重要的因素,可能還有經濟水平、產品質量、客戶服務水平等眾多難以說清的因素在影響最終的銷售額,那麼實際的銷售額就是眾多因素相互作用最終的結果,由於銷售額是波動的,所以用上文提到的每個月的銷售額與平均銷售額的差的平方和(即總平方和)來表示整體的波動情況。

回歸線只表示廣告費一個變量的變化對於總銷售額的影響,所以必然會造成偏差,所以才會有實際值和回歸值是有差異的,因此回歸線只能解釋一部分影響

那麼實際值與回歸值的差異,就是除了廣告費之外其他無數因素共同作用的結果,是不能用回歸線來解釋的。

因此SST(總偏差)=SSR(回歸線可以解釋的偏差)+SSE(回歸線不能解釋的偏差)

那麼所畫回歸直線的擬合程度的好壞,其實就是看看這條直線(及X和Y的這個線性關係)能夠多大程度上反映(或者說解釋)Y值的變化,定義

R^2=SSR/SST 或 R^2=1-SSE/SST, R^2的取值在0,1之間,越接近1說明擬合程度越好

假如所有的點都在回歸線上,說明SSE為0,則R^2=1,意味著Y的變化100%由X的變化引起,沒有其他因素會影響Y,回歸線能夠完全解釋Y的變化。如果R^2很低,說明X和Y之間可能不存在線性關係

還是回到最開始的廣告費和銷售額的例子,這個回歸線的R^2為0.73,說明擬合程度還湊合。

四、相關係數R和判定係數R^2的區別

判定係數R^2來判斷回歸方程的擬合程度,表示擬合直線能多大程度上反映Y的波動。

在統計中還有一個類似的概念,叫做相關係數R(這個沒有平方,學名是皮爾遜相關係數,因為這不是唯一的一個相關係數,而是最常見最常用的一個),用來表示X和Y作為兩個隨機變量的線性相關程度,取值範圍為【-1,1】。

當R=1,說明X和Y完全正相關,即可以用一條直線,把所有樣本點(x,y)都串起來,且斜率為正,

當R=-1,說明完全負相關,及可以用一條斜率為負的直線把所有點串起來。

如果在R=0,則說明X和Y沒有線性關係,注意,是沒有線性關係,說不定有其他關係。

就如同這兩個概念的符號表示一樣,在數學上可以證明,相關係數R的平方就是判定係數。

變量的顯著性檢驗

變量的顯著性檢驗的目的:剔除回歸係數中不顯著的解釋變量(也就是X),使得模型更簡潔。在一元線性模型中,我們只有有一個自變量X,就是要判斷X對Y是否有顯著性的影響;多元線性回歸中,驗證每個Xi自身是否真的對Y有顯著的影響,不顯著的就應該從模型去掉。

變量的顯著性檢驗的思想:用的是純數理統計中的假設檢驗的思想。對Xi參數的實際值做一個假設,然後在這個假設成立的情況下,利用已知的樣本信息構造一個符合一定分布的(如正態分布、T分布和F分布)的統計量,然後從理論上計算得到這個統計量的概率,如果概率很低(5%以下),根據「小概率事件在一次實驗中不可能發生」的統計學基本原理,現在居然發生了!(因為我們的統計量就是根據已知的樣本算出來的,這些已知樣本就是一次實驗)肯定是最開始的假設有問題,所以就可以拒絕最開始的假設,如果概率不低,那就說明假設沒問題。

其實涉及到數理統計的內容,真的比較難一句話說清楚,我舉個不恰當的例子吧:比如有一個口袋裡面裝了黑白兩種顏色的球一共20個,然後你想知道黑白球數量是否一致,那麼如果用假設檢驗的思路就是這樣做:首先假設黑白數量一樣,然後隨機抽取10個球,但是發現10個都是白的,如果最開始假設黑白數量一樣是正確的,那麼一下抽到10個白的的概率是很小的,但是這麼小概率的事情居然發生了,所以我們有理由相信假設錯誤,黑白的數量應該是不一樣的……

總之,對於所有的回歸模型的軟體,最終給出的結果都會有參數的顯著性檢驗,忽略掉難懂的數學,我們只需要理解如下幾個結論:

T檢驗用於對某一個自變量Xi對於Y的線性顯著性,如果某一個Xi不顯著,意味著可以從模型中剔除這個變量,使得模型更簡潔。

F檢驗用於對所有的自變量X在整體上看對於Y的線性顯著性

T檢驗的結果看P-value,F檢驗看Significant F值,一般要小於0.05,越小越顯著(這個0.05其實是顯著性水平,是人為設定的,如果比較嚴格,可以定成0.01,但是也會帶來其他一些問題,不細說了)

下圖是用EXCEL對廣告費和銷售額的例子做的回歸分析的結果(EXCEL真心是個很強大的工具,用的出神入化一樣可以變成超神),可以看出F檢驗是顯著的(Significance F為0.0017),變量X的T檢驗是顯著的(P-value為0.0017),這倆完全一樣也好理解,因為我們是一元回歸,只有一個自變量X。

用Excel做線性回歸分析

還有一點是intercept(截距,也就是Y=aX+b中的那個b)的T檢驗沒有通過,是不顯著的,一般來說,只要F檢驗和關鍵變量的T檢驗通過了,模型的預測能力就是OK的。

最後推薦一個很好的統計學課程

這門課是統計學入門課程,將涵蓋統計學所有的主要知識,包括:隨機變量、均值方差標準差、統計圖表、概率密度、二項分布、泊松分布、正態分布、大數定律、中心極限定理、樣本和抽樣分布、參數估計、置信區間、伯努利分布、假設檢驗和p值、方差分析、回歸分析等內容。

一共80多條視頻,全長800多分鐘,只能說這是我看過的最好的統計學教程,沒有之一,如果本科能看到這個水平的教程,我也不會靠考場上的紙條過這門課了。

其實如果懂一點真正的統計學,生活中會多一些看問題的角度,還是挺有意思的。

一元線性回歸就說到這裡,謝謝大家!

使用Excel數據分析工具進行多元回歸分析

在「數據」工具欄中就出現「數據分析」工具庫,如下圖所示:

給出原始數據,自變量的值在A2:I21單元格區間中,因變量的值在J2:J21中,如下圖所示:

假設回歸估算表達式為:

試使用Excel數據分析工具庫中的回歸分析工具對其回歸係數進行估算並進行回歸分析:

點擊「數據」工具欄中中的「數據分析」工具庫,如下圖所示:

在彈出的「數據分析」-「分析工具」多行文本框中選擇「回歸」,然後點擊 「確定」,如下圖所示:

彈出「回歸」對話框並作如下圖的選擇:

上述選擇的具體方法是:

在「Y值輸入區域」,點擊右側摺疊按鈕,選取函數Y數據所在單元格區域J2:J21,選完後再單擊摺疊按鈕返回;這過程也可以直接在「Y值輸入區域」文本框中輸入J2:J21;

在「X值輸入區域」,點擊右側摺疊按鈕,選取自變量數據所在單元格區域A2:I21,選完後再單擊摺疊按鈕返回;這過程也可以直接在「X值輸入區域」文本框中輸入A2:I21;

置信度可選默認的95%。

在「輸出區域」如選「新工作表」,就將統計分析結果輸出到在新表內。為了比較對照,我選本表內的空白區域,左上角起始單元格為K10.點擊確定後,輸出結果如下:

第一張表是「回歸統計表」(K12:L17):

其中:

Multiple R:(復相關係數R)R2的平方根,又稱相關係數,用來衡量自變量x與y之間的相關程度的大小。本例R=0.9134表明它們之間的關係為高度正相關。(Multiple:複合、多種)

R Square:複測定係數,上述復相關係數R的平方。用來說明自變量解釋因變量y變差的程度,以測定因變量y的擬合效果。此案例中的複測定係數為0.8343,表明用用自變量可解釋因變量變差的83.43%

Adjusted R Square:調整後的複測定係數R2,該值為0.6852,說明自變量能說明因變量y的68.52%,因變量y的31.48%要由其他因素來解釋。( Adjusted:調整後的)

標準誤差:用來衡量擬合程度的大小,也用於計算與回歸相關的其它統計量,此值越小,說明擬合程度越好

觀察值:用於估計回歸方程的數據的觀察值個數。

第二張表是「方差分析表」:主要作用是通過F檢驗來判定回歸模型的回歸效果。

該案例中的Significance F(F顯著性統計量)的P值為0.00636,小於顯著性水平0.05,所以說該回歸方程回歸效果顯著,方程中至少有一個回歸係數顯著不為0.(Significance:顯著)

第三張表是「回歸參數表」:

K26:K35為常數項和b1~b9的排序默認標示.

L26:L35為常數項和b1~b9的值,據此可得出估算的回歸方程為:

該表中重要的是O列,該列的O26:O35中的 P-value為回歸係數t統計量的P值。

值得注意的是:其中b1、b7的t統計量的P值為0.0156和0.0175,遠小於顯著性水平0.05,因此該兩項的自變量與y相關。而其他各項的t統計量的P值遠大於b1、b7的t統計量的P值,但如此大的P值說明這些項的自變量與因變量不存在相關性,因此這些項的回歸係數不顯著

轉載於:http://blog.sina.com.cn/s/blog_a20c88b601014j9x.html

相關焦點

  • 檢驗回歸係數的顯著性excel_excel相關係數顯著性檢驗 - CSDN
    Excel數據分析工具庫是個很強大的工具,可以滿足基本的統計分析,這裡介紹用Excel數據分析工具庫中的回歸做回歸分析。本文僅作為學習筆記之用,歡迎各位交流指正。
  • Excel裡的這個工具,做財務分析一定要學會
    有過編制預算經驗的朋友,應該會很熟悉,在預測技術裡,回歸分析應用非常廣泛,是用來進行定量數據分析的方法。線性回歸分析是一種統計方法,用於確定某個變量(或一組變量)對另一個變量的影響。
  • 我用Excel發現了數據分析的本質:回歸分析
    最近很多人都問我,為什麼感覺數據分析越學越亂,經常是學了一大堆名詞,真正遇到問題的時候卻更多是直接套用模型,很難將這些理論聯繫起來。這其實就回歸到了一個至關重要的問題:數據分析的本質是什麼?事物都是萬變不離其宗的,一切外在的方法都是為了事物本質而服務的,數據分析自然也不例外,今天我們就來探討一下數據分析的本質。
  • 在回歸分析中t檢驗_回歸分析的t檢驗如何做 - CSDN
    使數據從原來停留在說明過去變為驅動現在,我以為預測對企業的作用從兩個方向:A.宏觀是對趨勢的預測,給企業做大勢分析,B.微觀是對個體的精準分析,給企業做個性化精準營銷(3).從結構上,大數據更多的體現在海量非結構化數據本身與處理方法的整合大數據與小數據判斷原則:
  • excel製作回歸方程曲線的方法
    excel中可以製作回歸曲線,讓我們更方便的了解一個函數公式,下面我們就來看看excel製作回歸方程曲線的方法。方法/步驟使用Excel打開數據表,已經存有一些數據,這些數據是為了說明整個製作回歸方程曲線過程而生成的數據,在實際工作中,請嚴格按照工作要求收集數據。首先生成散點圖。選中這三列(5225012 com)。
  • 如何用EXCEL線性回歸分析法快速做數據分析預測
    回歸分析法,即二元一次線性回歸分析預測法先以一個小故事開始本文的介紹。十三多年前,筆者就職於深圳F集團時,曾就做年度庫存預測報告,與筆者新入職一臺籍高管Edwin分別按不同的方法模擬預測下一個年度公司總存貨庫存。令我吃驚的是,本人以完整的數據推算做依據,做出的報告結果居然與僅入職數周,數據不齊全的Edwin制定的報告結果吻合度達到99%以上。仍清楚記得,筆者曾用得是標準的周轉天數計算公式反推法,而Edwin用的正是本文重點介紹的二元一次線性回歸分析法。
  • excel假設檢驗 - CSDN
    賈俊平 | 統計學 第七版 第八章說明:大樣本前提下,兩樣本均值之差的抽樣分布近似服從正態分布Excel操作:加載數據,選擇「數據分析」功能--Z檢驗雙樣本均值差檢驗選擇了99個樣本,算作大樣本檢驗:變量輸入:變量1和變量2數據分別輸入兩列或兩行
  • Python數據分析|線性回歸
    Python數據分析學習筆記,今天分享下利用Python對業務進行數據預處理,並利用線性回歸進行數據預測。壹 數據導入Python下載及環境配置這裡就不贅述了哈,網上教程非常多,我們直接一開始就進入乾貨,打它一個開門見山。
  • 回歸分析spss步驟 - CSDN
    我們的教程中曾詳細講述了SPSS線性回歸分析,儘管線性回歸可以滿足絕大多數的數據分析,但是在現實情況中,並不能適用於所有的數據,當因變量和自變量之間的關係我們無法確定是否為線性或者其他非線性類型的模型關係時候,那麼我們就需要用到曲線回歸,來確定因變量和自變量之間到底最適合什麼樣的模型。
  • python多重線性回歸分析
    一個簡單的線性回歸模型測試。定義:線性回歸是利用數理統計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。表達形式為y =aX+b,b為誤差服從均值為0的正態分布,a為截距。
  • 單變量回歸分析spss - CSDN
    簡單線性回歸模型用於分析1個自變量對1個因變量的影響,或者說是由1個自變量預測1個因變量。但是事物間的聯繫往往是多方面的,因變量的變化往往不是由單個自變量的變化造成的。探索多個自變量對1個因變量的影響時,可以採用:多重線性回歸分析。
  • 零一數據 [21天小白學成大師]第五天 學會用EXCEL做預測
    原創:有點瘦的胖子零一需要預測的場景太多這裡就不一一贅述了,在師傅的指導下,我對excel的認知水平又提升了一大截,學會了用excel做多元回歸分析。這個預測方法不僅適用絕大部分行業,並且也適用沒有業務基礎的小白操作。附上師父的一句教誨:相信相信的力量。
  • spss多變量回歸分析 - CSDN
    它是「不發聲」的過程變量,通過設置啞變量,可將多分類變量進行二值化的處理,從而結局多分類特別是無需多分類變量無法納入回歸分析模型的尷尬局面。回歸分析的棘手問題--非線性關係1回歸分析要求自變量與應變量存在著線性關係回歸分析主要探討自變量x與研究結局變量y的關係,無論線性回歸,logistic回歸或者
  • 多元有序logistic回歸分析 - CSDN
    如果研究X對於Y的影響,Y為定量數據則可以使用線性回歸分析。如果Y是定類數據,此時則需要使用Logit(logistic)回歸分析。回歸模型分析結果匯總,以及模型預測準確率表。其原假設是模型的回歸係數全部均為0,因此如果P值小於0.05,則說明拒絕原假設,即說明模型有效;反之如果P值大於0.05則說明接受原假設,即說明模型回歸係數全部均應該為0,模型無意義。AIC和BIC值用於多次分析時的對比;兩個值越低越好;如果多次進行分析,可對比此兩個值的變化情況,說明模型構建的優化過程。
  • CFA L2 知識點:數量分析-線性回歸和假設(Day 2)
    今天的學習內容是數量分析裡面的線性回歸分析部分,內容包括線性回歸方程、線性回歸方程的求解、假設。本著學以致用的精神,在excel中做了線性回歸分析的模型。對應考綱Los4b :explain the assumptions underlying linear regression and interpret regression coefficients。
  • 如何用Matlab/Python/Stata做簡單回歸分析
    (4)求出常見的回歸描述量:例如中心化R方、調整後R方 NO.2 |數據來源: 數據採用的是Pieters & Bijmolt(1997)的關於Consumer Memory for Television Advertising調查結果。
  • ArcGIS將Excel經緯度數據轉換為shp點數據
    一、操作準備 1.1 軟體 ArcMap10.4.1 1.2 數據 excel數據(全國機場點數據.xls) ★excel數據中要含有經緯度。
  • f值 mse p值 ssr 線性回歸 - CSDN
    回歸分析--多元回歸介紹一下多元回歸分析中的統計量總觀測值 總自變量 自由度:回歸自由度 ,殘差自由度  SST總平方和                  SSR回歸平方和
  • 回歸分析兩個因變量 - CSDN
    (2)分析(Analyze)>>回歸(Regression)>>二分類logistic(Binary Logistic…)因變量(Dependent):選入冠心病[Y]協變量(Covariates):選入自變量[X1]-[X8]篩選變量方法(Method):進入(Enter):強行引入,全部變量一次進入模型
  • 回歸分析t檢驗公式_線性回歸t檢驗公式 - CSDN
    【可解釋的方差】     MSM( Mean of Squares for Model)  = SSR /DFM第五:線性回歸和方差分析1、方差分析中的分析變量實際上就是線性回歸中的因變量,方差分析中的分組變量就是線性回歸中的自變量。