【獨家】一文讀懂回歸分析

2021-02-19 數據派THU

本文字數為10000字,閱讀全文約需25分鐘

本文為回歸分析學習筆記。

前言

1.「回歸」一詞的由來

我們不必在「回歸」一詞上費太多腦筋。英國著名統計學家弗朗西斯·高爾頓(Francis Galton,1822—1911)是最先應用統計方法研究兩個變量之間關係問題的人。「回歸」一詞就是由他引入的。他對父母身高與兒女身高之間的關係很感興趣,並致力於此方面的研究。高爾頓發現,雖然有一個趨勢:父母高,兒女也高;父母矮,兒女也矮,但從平均意義上說,給定父母的身高,兒女的身高卻趨同於或者說回歸於總人口的平均身高。換句話說,儘管父母雙親都異常高或異常矮,兒女身高並非也普遍地異常高或異常矮,而是具有回歸於人口總平均高的趨勢。更直觀地解釋,父輩高的群體,兒輩的平均身高低於父輩的身高;父輩矮的群體,兒輩的平均身高高於其父輩的身高。用高爾頓的話說,兒輩身高的「回歸」到中等身高。這就是回歸一詞的最初由來。

回歸一詞的現代解釋是非常簡潔的:回歸時研究因變量對自變量的依賴關係的一種統計分析方法,目的是通過自變量的給定值來估計或預測因變量的均值。它可用於預測、時間序列建模以及發現各種變量之間的因果關係。

使用回歸分析的益處良多,具體如下:

1) 指示自變量和因變量之間的顯著關係;

2) 指示多個自變量對一個因變量的影響強度。

回歸分析還可以用於比較那些通過不同計量測得的變量之間的相互影響,如價格變動與促銷活動數量之間的聯繫。這些益處有利於市場研究人員,數據分析人員以及數據科學家排除和衡量出一組最佳的變量,用以構建預測模型。

2.為什麼使用回歸分析


1)更好地了解

對某一現象建模,以更好地了解該現象並有可能基於對該現象的了解來影響政策的制定以及決定採取何種相應措施。基本目標是測量一個或多個變量的變化對另一變量變化的影響程度。示例:了解某些特定瀕危鳥類的主要棲息地特徵(例如:降水、食物源、植被、天敵),以協助通過立法來保護該物種。

2)建模預測

對某種現象建模以預測其他地點或其他時間的數值。基本目標是構建一個持續、準確的預測模型。示例:如果已知人口增長情況和典型的天氣狀況,那麼明年的用電量將會是多少?

3)探索檢驗假設

還可以使用回歸分析來深入探索某些假設情況。假設您正在對住宅區的犯罪活動進行建模,以更好地了解犯罪活動並希望實施可能阻止犯罪活動的策略。開始分析時,您很可能有很多問題或想要檢驗的假設情況。

回歸分析的作用主要有以下幾點:

1)挑選與因變量相關的自變量;

2)描述因變量與自變量之間的關係強度;

3)生成模型,通過自變量來預測因變量;

4)根據模型,通過因變量,來控制自變量。

回歸分析方法


現在有各種各樣的回歸技術可用於預測,這些技術主要包含三個度量:自變量的個數、因變量的類型以及回歸線的形狀。


1.回歸分析方法


1)線性回歸

線性回歸它是最為人熟知的建模技術之一。線性回歸通常是人們在學習預測模型時首選的少數幾種技術之一。在該技術中,因變量是連續的,自變量(單個或多個)可以是連續的也可以是離散的,回歸線的性質是線性的。線性回歸使用最佳的擬合直線(也就是回歸線)建立因變量 (Y) 和一個或多個自變量 (X) 之間的聯繫。用一個等式來表示它,即:

                             Y=a+b*X + e

其中a 表示截距,b 表示直線的傾斜率,e 是誤差項。這個等式可以根據給定的單個或多個預測變量來預測目標變量的值。

一元線性回歸和多元線性回歸的區別在於,多元線性回歸有一個以上的自變量,而一元線性回歸通常只有一個自變量。

線性回歸要點:

1)自變量與因變量之間必須有線性關係;

2)多元回歸存在多重共線性,自相關性和異方差性;

3)線性回歸對異常值非常敏感。它會嚴重影響回歸線,最終影響預測值;

4) 多重共線性會增加係數估計值的方差,使得估計值對於模型的輕微變化異常敏感,結果就是係數估計值不穩定;

5)在存在多個自變量的情況下,我們可以使用向前選擇法,向後剔除法和逐步篩選法來選擇最重要的自變量。

2)Logistic回歸

Logistic回歸可用於發現 「事件=成功」和「事件=失敗」的概率。當因變量的類型屬於二元(1 / 0、真/假、是/否)變量時,我們就應該使用邏輯回歸。這裡,Y 的取值範圍是從 0 到 1,它可以用下面的等式表示:

odds= p/ (1-p) = 某事件發生的概率/ 某事件不發生的概率

ln(odds) = ln(p/(1-p))

logit(p) = ln(p/(1-p)) =b0+b1X1+b2X2+b3X3....+bkXk

如上,p表述具有某個特徵的概率。在這裡我們使用的是的二項分布(因變量),我們需要選擇一個最適用於這種分布的連結函數。它就是Logit 函數。在上述等式中,通過觀測樣本的極大似然估計值來選擇參數,而不是最小化平方和誤差(如在普通回歸使用的)。

Logistic要點:

1)Logistic回歸廣泛用於分類問題;

2)Logistic回歸不要求自變量和因變量存在線性關係。它可以處理多種類型的關係,因為它對預測的相對風險指數使用了一個非線性的 log 轉換;

3)為了避免過擬合和欠擬合,我們應該包括所有重要的變量。有一個很好的方法來確保這種情況,就是使用逐步篩選方法來估計Logistic回歸;

4)Logistic回歸需要較大的樣本量,因為在樣本數量較少的情況下,極大似然估計的效果比普通的最小二乘法差;

5) 自變量之間應該互不相關,即不存在多重共線性。然而,在分析和建模中,我們可以選擇包含分類變量相互作用的影響;

6)如果因變量的值是定序變量,則稱它為序Logistic回歸;

7)如果因變量是多類的話,則稱它為多元Logistic回歸。


3)Cox回歸

Cox回歸的因變量就有些特殊,它不經考慮結果而且考慮結果出現時間的回歸模型。它用一個或多個自變量預測一個事件(死亡、失敗或舊病復發)發生的時間。Cox回歸的主要作用發現風險因素並用於探討風險因素的強弱。但它的因變量必須同時有2個,一個代表狀態,必須是分類變量,一個代表時間,應該是連續變量。只有同時具有這兩個變量,才能用Cox回歸分析。Cox回歸主要用於生存資料的分析,生存資料至少有兩個結局變量,一是死亡狀態,是活著還是死亡;二是死亡時間,如果死亡,什麼時間死亡?如果活著,從開始觀察到結束時有多久了?所以有了這兩個變量,就可以考慮用Cox回歸分析。


4)poisson回歸

通常,如果能用Logistic回歸,通常也可以用poission回歸,poisson回歸的因變量是個數,也就是觀察一段時間後,發病了多少人或是死亡了多少人等等。其實跟Logistic回歸差不多,因為logistic回歸的結局是是否發病,是否死亡,也需要用到發病例數、死亡例數。

5)Probit回歸

Probit回歸意思是「概率回歸」。用於因變量為分類變量數據的統計分析,與Logistic回歸近似。也存在因變量為二分、多分與有序的情況。目前最常用的為二分。醫學研究中常見的半數致死劑量、半數有效濃度等劑量反應關係的統計指標,現在標準做法就是調用Pribit過程進行統計分析。


6)負二項回歸

所謂負二項指的是一種分布,其實跟poission回歸、logistic回歸有點類似,poission回歸用於服從poission分布的資料,logistic回歸用於服從二項分布的資料,負二項回歸用於服從負二項分布的資料。如果簡單點理解,二項分布可以認為就是二分類數據,poission分布就可以認為是計數資料,也就是個數,而不是像身高等可能有小數點,個數是不可能有小數點的。負二項分布,也是個數,只不過比poission分布更苛刻,如果結局是個數,而且結局可能具有聚集性,那可能就是負二項分布。簡單舉例,如果調查流感的影響因素,結局當然是流感的例數,如果調查的人有的在同一個家庭裡,由於流感具有傳染性,那麼同一個家裡如果一個人得流感,那其他人可能也被傳染,因此也得了流感,那這就是具有聚集性,這樣的數據儘管結果是個數,但由於具有聚集性,因此用poission回歸不一定合適,就可以考慮用負二項回歸。


7)weibull回歸

中文有時音譯為威布爾回歸。關於生存資料的分析常用的是cox回歸,這種回歸幾乎統治了整個生存分析。但其實夾縫中還有幾個方法在頑強生存著,而且其實很有生命力。weibull回歸就是其中之一。cox回歸受歡迎的原因是它簡單,用的時候不用考慮條件(除了等比例條件之外),大多數生存數據都可以用。而weibull回歸則有條件限制,用的時候數據必須符合weibull分布。如果數據符合weibull分布,那麼直接套用weibull回歸自然是最理想的選擇,它可以給出最合理的估計。如果數據不符合weibull分布,那如果還用weibull回歸,那就套用錯誤,結果也就會缺乏可信度。weibull回歸就像是量體裁衣,把體形看做數據,衣服看做模型,weibull回歸就是根據某人實際的體形做衣服,做出來的也就合身,對其他人就不一定合身了。cox回歸,就像是到商場去買衣服,衣服對很多人都合適,但是對每個人都不是正合適,只能說是大致合適。至於到底是選擇麻煩的方式量體裁衣,還是選擇簡單到商場直接去買現成的,那就根據個人傾向,也根據具體對自己體形的了解程度,如果非常熟悉,自然選擇量體裁衣更合適。如果不大了解,那就直接去商場買大眾化衣服相對更方便些。


8)主成分回歸

主成分回歸是一種合成的方法,相當於主成分分析與線性回歸的合成。主要用於解決自變量之間存在高度相關的情況。這在現實中不算少見。比如要分析的自變量中同時有血壓值和血糖值,這兩個指標可能有一定的相關性,如果同時放入模型,會影響模型的穩定,有時也會造成嚴重後果,比如結果跟實際嚴重不符。當然解決方法很多,最簡單的就是剔除掉其中一個,但如果實在捨不得,覺得刪了太可惜,那就可以考慮用主成分回歸,相當於把這兩個變量所包含的信息用一個變量來表示,這個變量我們稱它叫主成分,所以就叫主成分回歸。當然,用一個變量代替兩個變量,肯定不可能完全包含他們的信息,能包含80%或90%就不錯了。但有時候我們必須做出抉擇,你是要100%的信息,但是變量非常多的模型?還是要90%的信息,但是只有1個或2個變量的模型?打個比方,你要診斷感冒,是不是必須把所有跟感冒有關的症狀以及檢查結果都做完?還是簡單根據幾個症狀就大致判斷呢?我想根據幾個症狀大致能確定90%是感冒了,不用非得100%的信息不是嗎?模型也是一樣,模型是用於實際的,不是空中樓閣。既然要用於實際,那就要做到簡單。對於一種疾病,如果30個指標能夠100%確診,而3個指標可以診斷80%,我想大家會選擇3個指標的模型。這就是主成分回歸存在的基礎,用幾個簡單的變量把多個指標的信息綜合一下,這樣幾個簡單的主成分可能就包含了原來很多自變量的大部分信息。這就是主成分回歸的原理。


9)嶺回歸

當數據之間存在多重共線性(自變量高度相關)時,就需要使用嶺回歸分析。在存在多重共線性時,儘管最小二乘法(OLS)測得的估計值不存在偏差,它們的方差也會很大,從而使得觀測值與真實值相差甚遠。嶺回歸通過給回歸估計值添加一個偏差值,來降低標準誤差。

上面,我們看到了線性回歸等式:

y=a+ b*x

這個等式也有一個誤差項。完整的等式是:

y=a+b*x+e (誤差項),  [誤差項是用以糾正觀測值與預測值之間預測誤差的值]

=> y=a+y= a+ b1x1+ b2x2+....+e, 針對包含多個自變量的情形。

在線性等式中,預測誤差可以劃分為 2 個分量,一個是偏差造成的,一個是方差造成的。預測誤差可能會由這兩者或兩者中的任何一個造成。在這裡,我們將討論由方差所造成的誤差。嶺回歸通過收縮參數 λ(lambda)解決多重共線性問題。請看下面的等式:

在這個等式中,有兩個組成部分。第一個是最小二乘項,另一個是 β2(β-平方)和的 λ 倍,其中 β 是相關係數。λ 被添加到最小二乘項中用以縮小參數值,從而降低方差值。

嶺回歸要點:

1)除常數項以外,嶺回歸的假設與最小二乘回歸相同;

2) 它收縮了相關係數的值,但沒有達到零,這表明它不具有特徵選擇功能;

3)這是一個正則化方法,並且使用的是 L2 正則化。

10)偏最小二乘回歸

偏最小二乘回歸也可以用於解決自變量之間高度相關的問題。但比主成分回歸和嶺回歸更好的一個優點是,偏最小二乘回歸可以用於例數很少的情形,甚至例數比自變量個數還少的情形。所以,如果自變量之間高度相關、例數又特別少、而自變量又很多,那就用偏最小二乘回歸就可以了。它的原理其實跟主成分回歸有點像,也是提取自變量的部分信息,損失一定的精度,但保證模型更符合實際。因此這種方法不是直接用因變量和自變量分析,而是用反映因變量和自變量部分信息的新的綜合變量來分析,所以它不需要例數一定比自變量多。偏最小二乘回歸還有一個很大的優點,那就是可以用於多個因變量的情形,普通的線性回歸都是只有一個因變量,而偏最小二乘回歸可用於多個因變量和多個自變量之間的分析。因為它的原理就是同時提取多個因變量和多個自變量的信息重新組成新的變量重新分析,所以多個因變量對它來說無所謂。

11)多項式回歸

對於一個回歸等式,如果自變量的指數大於1,那麼它就是多項式回歸等式。如下等式所示:

y=a+b*x^2

在這種回歸技術中,最佳擬合線不是直線。而是一個用於擬合數據點的曲線。

多項式回歸要點:

1)雖然存在通過高次多項式得到較低的錯誤的趨勢,但這可能會導致過擬合。需要經常畫出關係圖來查看擬合情況,並確保擬合曲線正確體現了問題的本質。下面是一個圖例,可以幫助理解:

2)須特別注意尾部的曲線,看看這些形狀和趨勢是否合理。更高次的多項式最終可能產生怪異的推斷結果。

12)逐步回歸

該回歸方法可用於在處理存在多個自變量的情形。在該技術中,自變量的選取需要藉助自動處理程序,無須人為幹預。通過觀察統計的值,如 R-square、t-stats和 AIC 指標,來識別重要的變量,可以實現這一需求。逐步回歸通過同時添加/去除基於指定標準的協變量來擬合模型。下面列出了一些最常用的逐步回歸方法:

1)標準逐步回歸法需要做兩件事情,即根據需要為每個步驟添加和刪除預測因子;

2)向前選擇法從模型中最重要的預測因子開始,然後為每一步添加變量;

3)向後剔除法從模型中所有的預測因子開始,然後在每一步刪除重要性最低的變量。

這種建模技術的目的是使用最少的預測因子變量來最大化預測能力。這也是處理高維數據集的方法之一。

13)套索回歸 

與嶺回歸類似,套索也會對回歸係數的絕對值添加一個罰值。此外,它能降低偏差並提高線性回歸模型的精度。看看下面的等式:

套索回歸與嶺回歸有一點不同,它在懲罰部分使用的是絕對值,而不是平方值。這導致懲罰(即用以約束估計的絕對值之和)值使一些參數估計結果等於零。使用的懲罰值越大,估計值會越趨近於零。這將導致我們要從給定的n個變量之外選擇變量。

套索回歸要點:

1)除常數項以外,這種回歸的假設與最小二乘回歸類似;

2)它將收縮係數縮減至零(等於零),這確實有助於特徵選擇;

3)這是一個正則化方法,使用的是 L1 正則化;

4)如果一組預測因子是高度相關的,套索回歸會選出其中一個因子並且將其它因子收縮為零。

14)ElasticNet 回歸

ElasticNet 回歸是套索回歸和嶺回歸的組合體。它會事先使用 L1 和 L2 作為正則化矩陣進行訓練。當存在多個相關的特徵時,Elastic-net 會很有用。嶺回歸一般會隨機選擇其中一個特徵,而 Elastic-net 則會選擇其中的兩個。同時包含嶺回歸和套索回歸的一個切實的優點是,ElasticNet 回歸可以在循環狀態下繼承嶺回歸的一些穩定性。

ElasticNet 回歸要點:

1)在高度相關變量的情況下,它會產生群體效應;

2)選擇變量的數目沒有限制;

3)它可以承受雙重收縮。

2.如何選擇回歸模型

當只了解一兩種回歸技術的時候,情況往往會比較簡單。然而,當我們在應對問題時可供選擇的方法越多,選擇正確的那一個就越難。類似的情況下也發生在回歸模型中。

掌握多種回歸模型時,基於自變量和因變量的類型、數據的維數以及數據的其它基本特徵去選擇最合適的技術非常重要。以下是要選擇正確的回歸模型時需要考慮的主要因素:

1)數據探索是構建預測模型的不可或缺的部分。在選擇合適的模型前,比如識別變量的關係和影響,應該首先執行這一步驟。

2)比較不同模型的擬合優點,我們可以分析不同的指標參數,如統計意義的參數,R-square,調整 R-square,AIC,BIC以及誤差項,另一個是 Mallows』 Cp 準則。這個主要是通過將所選的模型與所有可能的子模型(或仔細挑選的一組模型)進行對比,檢查可能出現的偏差。

3)交叉驗證是評估預測模型最好的方法。使用該方法,需將數據集分成兩份(一份用於訓練,一份用於驗證)。使用觀測值和預測值之間的均方差即可快速衡量預測精度。

4)如果數據集中存在是多個混合變量,那就不應選擇自動模型選擇方法,因為我們並不願意將所有變量同時放在同一個模型中。

5)所選擇的回歸技術也取決於你的目的。可能會出現這樣的情況,一個不太強大的模型與具有高度統計學意義的模型相比,更易於實現。

6) 回歸正則化方法(套索,嶺和ElasticNet)在高維數據和數據集變量之間存在多重共線性的情況下運行良好。

診斷回歸分析結果


為了理解、解釋、預測某個問題,我們會進行回歸分析。但事實上,選擇一組優質的自變量並不是那麼容易。通常我們會根據一些常識、理論基礎、某些研究、專家的意見、參考文獻等等選擇一組自變量,來進行自變量的篩選。因此,我們需要診斷回歸分析的質量——回歸分析的結果診斷。

1.自變量與因變量是否具有預期的關係

每個自變量都會有一個係數,係數具有+/-號,來表示自變量與因變量的關係。從工具的得到的報告中,我們看到的係數的正負,每個自變量應該是我們期望的關係。如果有非常不符合邏輯的係數,我們就應該考慮剔除它了。

當然,有時也可能得到與常識不同的結論。舉個例子,假如我們在研究森林火災,我們通常認為降雨充沛的區域火災的發生率會相對較低,也就是所謂的負相關,但是,這片森林火災頻發的原因可能是閃電雷擊,這樣降雨量這個自變量可能就不是常識中的負相關的關係了。

因此,我們除了驗證自變量的係數與先驗知識是否相符外,還有繼續結合其他項檢查繼續診斷,從而得出更可靠的結論。

2.自變量對模型是否有幫助

自變量對模型有無幫助說的就是自變量是否有顯著性。那如何了解這些自變量是否有顯著性呢?

如果自變量的係數為零(或非常接近零),我們認為這個自變量對模型沒有幫助,統計檢驗就用來計算係數為零的概率。如果統計檢驗返回一個小概率值(p值),則表示係數為零的概率很小。如果概率小於0.05,匯總報告上概率(Probability) 旁邊的一個 星號(*) 表示相關自變量對模型非常重要。換句話說,其係數在95%置信度上具有統計顯著性。

利用空間數據在研究區域內建模的關係存在差異是非常常見的,這些關係的特徵就是不穩定。我們就需要通過 穩健概率(robust probability) 了解一個自變量是否具有統計顯著性。


3.殘差是否有空間聚類

殘差在空間上應該是隨機分布的,而不應該出現聚類。這項檢查我們可以使用 空間自相關工具(Spatial Autocorrelation Tool)工具進行檢查。


4.模型是否出現了傾向性

我們常說,不要戴著「有色眼鏡」看人。同樣,回歸分析模型中,也不要帶有「成見」,不能具有傾向性,否則,這不是個客觀合理的模型。

我們都知道正態分布是個極好的分布模式,如果我們正確的構建了回歸分析模型,那麼模型的殘差會符合完美的正態分布,其圖形為鐘形曲線。

當模型出現偏差時,可能我們看到的圖形也是詭異的,這樣我們就無法完全信任所預測的結果。

5.自變量中是否存在冗餘

在我們建模的過程中,應儘量去選擇表示各個不同方面的自變量,也就是儘量避免傳達相同或相似信息的自變量。要清楚,引入了冗餘變量的模型是不足以信任的。

6.評估模型的性能

最後需要做的是,評估模型的性能。 矯R2值是評估自變量對因變量建模的重要度量。

這項檢查應該放到最後。一旦我們通過了前面的所有檢驗,接下來就可以進行評估矯正R2值。

R2值的範圍介於0和1之間,以百分比形式表示。假設正在為犯罪率建模,並找到一個通過之前所有五項檢查的模型,其校正 R2 值為0.65。這樣就可以了解到模型中的自變量說明犯罪率是65%。在有些科學領域,能夠解釋複雜現象的 23% 就會讓人興奮不已。在其他領域,一個R2值可能需要更靠近80%或90%才能引起別人的注意。不管採用哪一種方式,校正R2值都會幫我們判斷自己模型的性能。

另一項輔助評估模型性能的重要診斷是修正的Akaike信息準則/Akaike’sinformation criterion (AIC)。AIC值是用於比較多個模型的一項有用度量。例如,可能希望嘗試用幾組不同的自變量為學生的分數建模。在一個模型中僅使用人口統計變量,而在另一個模型選擇有關學校和教室的變量,如每位學生的支出和師生比。只要所有進行比較的模型的因變量(在本示例中為學生測試分數)相同,我們就可以使用來自每個模型的 AIC值確定哪一個的表現更好。模型的AIC值越小,越適合觀測的數據。

回歸設計常用軟體


目前,用於回歸設計的統計軟體較多,無論是對回歸方案設計,還是對試驗數據處理和回歸設計成果的應用分析,都有相應的軟體支撐,或是自編自用的專業軟體,或是具有商業性質的統計軟體包,多種多樣,各有特色。為了便於回歸設計的更好應用,這裡簡要地介紹挑選或評價統計軟體的基本思考以及幾種回歸設計常用的統計軟體,以利相關人員簡捷地選用。

1.統計軟體的選用原則

在挑選或評價統計軟體時,應從以下幾個方面加以考慮:

1)可用性

一個軟體如果能為用戶提供良好的用戶界面、靈活的處理方式和簡明的語句或命令,就稱這個軟體可用性強。隨著統計軟體在可用性方面的不斷進步,很多統計軟體的語法規則簡明、靈活、學用方便,這是人們非常歡迎的。

2)數據管理

數據錄人、核查、修改、轉換和選擇,統稱為數據管理。好的軟體,如SAS( statistical analysis system),SPSS(statistical package for thesocial science) 等的數據管理功能已近似大眾化的資料庫軟體。統計軟體與資料庫軟體之間建立接口,使數據管理不斷深人,用起來非常方便。

3)文件管理

數據文件、程序文件、結果文件等一些文件的建立、存取、修改、合併等,統稱為文件管理。它的功能越強,操作就越簡單,越方便。由於作業系統本身文件管理功能較強。因此,從統計軟體直接調用作業系統的命令可大大增強其文件管理功能。現在好的統計軟體已設計了這類調用指令。

4)統計分析

統計分析是統計軟體的核心。統計分析方法的電腦程式的數量和種類決定了數據處理的深度。有些軟體,如SAS,BMDP( biomedical computer programs)等。所包括的分析過程,足夠科研與管理之需。由於統計量的選擇,參數估計的方法等是多種多樣的,用戶往往希望統計分析過程儘可能多地提供選項,這樣可以提高統計分析的靈活性和深度。

5)容量

儘管處理的數據量與計算機硬體有直接關係,然而,軟體的設計和程序編寫技巧仍起很大作用。軟體好,在一定程度上可以彌補硬體的不足,而低水平的軟體會浪費很好的硬體配置。通常,統計軟體應至少能同時進行不小於10個變量的上千個數據點的分析、綜合、對比與預測。

2.SAS軟體系統

SAS軟體系統於20世紀70年代由美國SAS研究所開發。SAS軟體是用於決策支援的大型集成資訊系統,但該軟體系統最早的功能限於統計分析;至今,統計分析功能也仍是它的重要模組和核心功能。SAS已經遍布全世界,重要應用領域涵蓋政府的經濟決策與企業的決策支援應用等,使用的單位遍及金融、醫藥衛生、生產、運輸、通訊、科學研究、政府和教育等領域;在資料處理和統計分析領域,SAS系統被譽統計軟體界的巨無霸。

SAS 是一個模塊化、集成化的大型應用軟體系統。它由數十個專用模塊構成,功能包括數據訪問、數據儲存及管理、應用開發、圖形處理、數據分析、報告編制、運籌學方法、計量經濟學與預測等等。 SAS系統基本上可以分為四大部分:SAS資料庫部分;SAS分析核心;SAS開發呈現工具;SAS對分布處理模式的支持及其數據倉庫設計。 SAS系統主要完成以數據為中心的四大任務:數據訪問;數據管理;數據呈現;數據分析。

SAS 是由大型機系統發展而來,其核心操作方式就是程序驅動,經過多年的發展,現在已成為一套完整的計算機語言,其用戶界面也充分體現了這一特點:它採用MDI (多文檔界面),用戶在PGM視窗中輸入程序,分析結果以文本的形式在OUTPUT視窗中輸出。使用程序方式,用戶可以完成所有需要做的工作,包括統計分析、預測、建模和模擬抽樣等。但是,這使得初學者在使用SAS時必須要學習SAS語言,入門比較困難。

3.Excel軟體


在回歸設計的實踐中,一些計算機軟體可以解決多元回歸分析的求解問題,但常常是數據的輸入和軟體的操作運用要經過專門訓練。Excel軟體為回歸分析的求解給出了非常方便的操作過程,而且目前Excel軟體幾乎在每臺計算機上都已經安裝。

Excel是一個面向商業、科學和工程計算的數據分析軟體,它的主要優點是具有對數據進行分析、計算、匯總的強大功能。除了眾多的函數功能外,Excel的高級數據分析工具則給出了更為深入、更為有用、針對性更強的各類經營和科研分析功能。高級數據分析工具集中了Excel最精華、對數據分析最有用的部分,其分析工具集中在Excel主菜單中的「工具」子菜單內,回歸分析便為其中之一。

Excel是以電子表格的方式來管理數據的,所有的輸入、存取、提取、處理、統計、模型計算和圖形分析都是圍繞電子表格來進行的。

4.Statistica軟體


Statistica是由統計軟體公司(Statsoft)開發、專用於科技及工業統計的大型軟體包。它除了具有常規的統計分析功能外,還包括有因素分析、質量控制、過程分析、回歸設計等模塊。利用其回歸設計模塊可以進行回歸正交設計、正交旋轉組合設計、正交多項式回歸設計、A最優及D最優設計等。該軟體包還可以進行對試驗結果的統計檢驗、誤差分析、試驗水平估計和各類統計圖表、曲線、曲面的分析計算工作。


5.SPSS軟體

 

SPSS是世界上最早採用圖形菜單驅動界面的統計軟體,它最突出的特點就是操作界面極為友好,輸出結果美觀漂亮。它將幾乎所有的功能都以統一、規範的界面展現出來,使用Windows的窗口方式展示各種管理和分析數據方法的功能,對話框展示出各種功能選擇項。用戶只要掌握一定的Windows操作技能,精通統計分析原理,就可以使用該軟體為特定的科研工作服務。SPSS採用類似EXCEL表格的方式輸入與管理數據,數據接口較為通用,能方便的從其他資料庫中讀入數據。其統計過程包括了常用的、較為成熟的統計過程,完全可以滿足非統計專業人士的工作需要。輸出結果十分美觀,存儲時則是專用的SPO格式,可以轉存為HTML格式和文本格式。對於熟悉老版本編程運行方式的用戶,SPSS還特別設計了語法生成窗口,用戶只需在菜單中選好各個選項,然後按"粘貼"按鈕就可以自動生成標準的SPSS程序。極大的方便了中、高級用戶。

6.R軟體


R語言是統計領域廣泛使用的,誕生於1980年左右的S語言的一個分支。 R語言是S語言的一種實現。S語言是由AT&T貝爾實驗室開發的一種用來進行數據探索、統計分析、作圖的解釋型語言。

R是一套完整的數據處理、計算和製圖軟體系統。其功能包括:數據存儲和處理系統;數組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統計分析工具;優秀的統計製圖功能;簡便而強大的程式語言:可操縱數據的輸入和輸入,可實現分支、循環,用戶可自定義功能。

與其說R是一種統計軟體,還不如說R是一種數學計算的環境,因為R並不是僅僅提供若干統計程序、使用者只需指定資料庫和若干參數便可進行一個統計分析。R的思想是:它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動的進行數據分析,甚至創造出符合需要的新的統計計算方法。

R是一個免費的自由軟體,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免費下載和使用的。在R主頁那兒可以下載到R的安裝程序、各種外掛程序和文檔。在R的安裝程序中只包含了8個基礎模塊,其他外在模塊可以通過CRAN獲得。


學習資料


1.書籍


1)《實用回歸分析》(何曉群)

該書從數據出發,不是從假設、定理出發;從歸納出發,不是從演繹出法;強調案例分析;重統計思想的闡述,弱化數學證明的推導。

2)《應用多元統計分析》(高惠璇)

書中介紹了各種常用的多元統計分析方法的統計背景和實際意義,說明該方法的統計思想、數學原理及解題步驟,還列舉了各方面的應用實例。該書將多元統計方法的介紹與在計算機上實現這些方法的統計軟體(SAS系統)結合起來,不僅可以學到統計方法的理論知識,還知道如何解決實際問題。

 

作者簡介

慕生鵬,數據派研究部志願者。北京林業大學計算數學專業碩士在讀學生。

日常喜歡長跑,健身等活動。對數據的分析、學習很感興趣。日常會藉助網絡等資源,自助學習各類數據的分析方法。希望在數據的分析算法方面,不斷地加強功底。

轉載須知

如需轉載,請在開篇顯著位置註明作者和出處(轉自:數據派ID:DatapiTHU),並在文章結尾放置數據派醒目二維碼。有原創標識文章,請發送【文章名稱-待授權公眾號名稱及ID】至聯繫郵箱,申請白名單授權並按要求編輯。

發布後請將連結反饋至聯繫郵箱(見下方)。未經許可的轉載以及改編者,我們將依法追究其法律責任。

公眾號底部菜單有驚喜哦!

加入組織請查看「聯合會」

往期內容請查看「最火文章」

相關焦點

  • 獨家 | 一文讀懂Adaboost
    算法分析通過2.2算法的偽代碼我們可以分析一下Adaboost算法。分析算法的性能(收斂性、複雜度):在此處的分析中,我們忽略基礎模型優化的複雜度,默認基礎模型是非常簡單的模型。【集成學習】系列往期回顧:獨家 | 一文讀懂集成學習(附學習資源) 參考資料:1. 李航.《統計學習方法》2. 周志華.《機器學習》3. 曹瑩,苗啟廣,劉家辰,高琳. AdaBoost 算法研究進展與展望.
  • 獨家 | 一文讀懂Hadoop(三):Mapreduce
    讀者可以通過閱讀「一文讀懂Hadoop」系列文章,對Hadoop技術有個全面的了解,它涵蓋了Hadoop官網的所有知識點,並且通俗易懂,英文不好的讀者完全可以通過閱讀此篇文章了解Hadoop。本期獨家內容「一文讀懂Hadoop」系列文章先介紹Hadoop,繼而分別詳細介紹HDFS、MAPREDUCE、YARN的所有知識點,分為四期內容在近幾天推送。敬請關注後續內容。
  • 一文讀懂多元回歸分析
    一、多元回歸分析簡介用回歸方程定量地刻畫一個應變量與多個自變量間的線性依存關係,稱為多元回歸分析(multiple linear
  • 廣義線性回歸分析模型Logistic,一文讀懂它!
    作者:丁點helper來源:丁點幫你前文我們已經講解了相關與回歸的基礎知識,並且重點討論了多重線性回歸的應用與診斷分析。今天的文章,我們來看看日常學習和科研中應用同樣廣泛的另一類回歸分析——Logistic回歸。
  • 【獨家】手把手教線性回歸分析(附R語言實例)
    本文將介紹如何將回歸方法應用到你自己的數據中,主要介紹學習內容:一、理解回歸回歸主要關注確定一個唯一的因變量(dependent variable)(需要預測的值)和一個或多個數值型的自變量(independent variable
  • 一文讀懂條件Logistic回歸
    病歷對照研究或者傾向得分匹配研究(一種將研究數據處理成『隨機對照實驗數據』的方法)中常使用條件Logistic回歸進行分析。其與普通的二元logistic回歸區別在於,多出配對ID,即將配對組納入考慮範疇。
  • 一文讀懂最新門限回歸模型命令之thresholdreg與thresholdtest
    本文將為大家介紹Hansen提出來的門限回歸新命令
  • Stata+R:分位數回歸一文讀懂
    連享會·推文專輯:Stata資源 | 數據處理 | Stata繪圖 | Stata程序結果輸出 | 回歸分析 | 時間序列 | 面板數據 | 離散數據交乘調節 | DID | RDD  |  因果推斷 |  SFA-TFP-DEA文本分析+爬蟲 | 空間計量 | 學術論文 | 軟體工具連享會學習群-常見問題解答匯總:👉  WD 主頁:https
  • 一文讀懂電容傳感器
    藍色標題,獲取文章】 10、一文讀懂光纖傳感器 11、一文讀懂溫溼度傳感器 12
  • 一文讀懂outreg2之描述與回歸分析輸出結果大全
    描述性統計通常對收集來的數據進行直接的頻率、頻數等描述,描述性統計分析一般對樣本的最小值、最大值、平均值、標準偏差等進行分析,這些數據有助於了解樣本數據特徵,能夠清晰的看到各個統計量的分布情況。多個回歸方程的合併輸出sysuse auto,clearreg price weight est store m1reg price mpg rep78  weight
  • 一文帶你快速學會回歸分析
    編寫的過程讓我想起曾見到過的一個問題「為什麼要同時使用相關分析和回歸分析?」相信很多人也有這樣的疑問,既然都是研究變量間的關係方法,已經進行過相關分析為什麼還要使用回歸分析呢?相關與回歸的區別其實,相關分析與回歸分析的研究目的並不相同。
  • 一文讀懂磁傳感器(必須收藏)
    【點擊藍色標題,獲取文章】 >、一文讀懂接近傳感器 3、一文讀懂磁傳感器 4、一文讀懂流量傳感器
  • 一文詳述:觀察性研究中的logistic回歸分析思路
    病例對照研究中的logistic回歸 從數據分析的角度來看,病例對照研究大致有兩大類目的:一是探索危險因素,二是驗證危險因素。共線性是大多數回歸模型都需要考慮的一個問題,一旦發現該問題,需要採取不同措施來解決。常見的解決方案包括刪除某一自變量、主成分分析、Lasso回歸等。 例2:某研究分析乳腺增生的危險因素,自變量同時包括妊娠次數(三分類變量,用1、2、3表示相應次數)和流產次數(三分類變量,用0、1、2表示相應次數)。
  • 一文讀懂「2020限塑令」!
    一文讀懂「2020限塑令」!06 16:58 來源:澎湃新聞·澎湃號·政務 一張圖讀懂限塑令新規
  • 獨家 | 一文讀懂特徵工程
    選擇信息量大的、有差別性的、獨立的特徵是模式識別、分類和回歸問題的關鍵一步,其終極目的在於最大限度地從原始數據中提取特徵以供算法和模型使用。特徵工程的好壞將會影響整個模型的預測性能,另一方面,相比一些複雜的算法,靈活地處理好數據經常會取到意想不到的效益。
  • 一文輕鬆看懂線性回歸分析的交互作用!
    作者:丁點helper來源:丁點幫你前幾天的文章,我們聚焦在回歸分析,今天來看看在回歸分析中常常要研究的一類難點問題——交互作用的探究。交互(interaction),字面上不太好理解,但是從數學表達上卻很簡單。
  • 一文讀懂傅立葉分析
    1816年他回到巴黎,六年後他當選了科學院的秘書,並發表了《熱的分析理論》一文,此文是建立在牛頓的熱傳導理論的速率和溫度差成正比的基礎上。 1830年5月16日他因痴迷熱學,大夏天穿棉襖烤火,活生生地熱死了...病逝於巴黎,1831年他的遺稿被整理出版成書。讓我們先看看為什麼會有傅立葉變換?
  • 一文讀懂 Gage R&R
    如果你的目的是如何做GRR,那麼你只需要兩點即可: 1)了解如何設計測量過程;2)會使用專門的Excel表或者Minitab 分析軟體進行分析。一、「生產」數據要對測量系統的重複性和再現性進行分析,需要精心設計一個過程;參考AIAG MSA手冊,推薦按以下步驟進行:Step 1:召集團隊,介紹GageR&RStep 2:選擇分布在公差範圍內的10個零件(零件間差異要代表過程正常的波動
  • 一文讀懂Python裝飾器
    打開APP 一文讀懂Python裝飾器 工程師3 發表於 2018-04-28 10:48:00
  • 一文讀懂地理加權回歸模型 (GWR) 操作及R語言應用(二)
    🌈2021年寒假Stata研討班:高級計量經濟學及Stata應用研討班在R語言裡面進行地理加權回歸,主要使用的是兩個模塊的函數,分別是spgwr和GWmodel這兩個包。當存在一些目標函數(例如,模型可以預測)時,可以使用交叉驗證和相關方法找到最優帶寬地理加權模型(GW model)包括的功能有:地理加權匯總統計(GW summary statistics),地理加權主成分分析(GW principal comp- onents analysis,即GW PCA),地理加權回歸(GW regression