轉貼自簡書:https://www.jianshu.com/p/bbe0c702b5ad
回歸,最初是遺傳學中的一個名詞,是由生物學家兼統計學家高爾頓首先提出來的。他在研究人類的身高時,發現高個子回歸於人口的平均身高,而矮個子則從另一個方向回歸於人口的平均身高。
回歸分析是研究自變量和因變量之間數量變化關係的一種分析方法,它主要是通過建立因變量Y與影響它的自變量X之間的回歸模型,衡量自變量X對因變量Y的影響能力,進而可以預測因變量Y的發展趨勢。例如,銷售額對廣告費用存在依存關係,通過對這一依存關係的分析,在制定下一期廣告費用的情況下,可以預測將實現的銷售額。
文/黃成甲
相關性分析與回歸分析的聯繫與區別
相關性分析與回歸分析的聯繫是:兩者均為研究及測度兩個或兩個以上變量之間關係的方法。在實際工作中,一般先進行相關分析,計算相關係數,然後建立回歸模型,最後用回歸模型進行推算或預測。
相關分析與回歸分析的區別是:
(1)相關分析研究的都是隨機變量,並且不分因變量和自變量;回歸分析研究的變量要定義出自變量和因變量,並且自變量是確定的普通變量,因變量是隨機變量。
(2)相關分析主要是描述兩個變量之間相關關係的密切程度;回歸分析不僅可以揭示變量X對變量Y的影響程度,還可以根據回歸模型進行預測。
回歸分析模型主要包括線性回歸及非線性回歸兩種。線性回歸又分為簡單線性回歸、多重線性回歸;而非線性回歸,需要進行對數轉化等方式,將其轉化為線性回歸的形式進行研究。
線性回歸分析的步驟如下:
(1)根據預測目標,確定自變量和因變量
圍繞業務問題,明晰預測目標,從經驗、常識、以往歷史數據研究等角度,初步確定自變量和因變量。
(2)繪製散點圖,確定回歸模型類型
通過繪製散點圖的方式,從圖形化的角度初步判斷自變量和因變量之間是否具有線性相關關係,同時進行相關分析,根據相關係數判斷自變量與因變量之間的相關程度和方向,從而確定回歸模型的類型。
(3)估計模型參數,建立回歸模型
採用最小二乘法進行模型參數的估計,建立回歸模型。
(4)對回歸模型進行檢驗
回歸模型可能不是一次即可達到預期的,通過對整個模型及各個參數的統計顯著性檢驗,逐步優化和最終確立回歸模型。
(5)利用回歸模型進行預測
模型通過檢驗後,應用到新的數據中,進行因變量目標值的預測。
簡單線性回歸分析
簡單線性回歸也稱為一元線性回歸,就是回歸模型中只含一個自變量,它主要用來處理一個自變量與一個因變量之間的線性關係。簡單線性回歸模型為:
Y=a+bX+ε
式中,Y:因變量,X:自變量,a:常數項,是回歸直線在縱坐標軸上的截距;b:回歸係數,是回歸直線的斜率;ε:隨機誤差,即隨機因素對因變量所產生的影響。
常數項a就是截距,回歸係數b就是斜率,表面自變量對因變量的影響程度。那麼如何得到最佳的a和b,使得儘可能多的(X,Y)數據點落在或者更加靠近這條擬合出來的直線上,最小二乘法就是一個較好的計算方法。
最小二乘法,又稱最小平方法,通過最小化誤差的平方和尋找數據的最佳函數匹配。最小二乘法名字的緣由有兩個:一是要將誤差最小化;二是將誤差最小化的方法是使誤差的平方和最小化。最小二乘法在回歸模型上的應用,就是要使得觀測點和估計點的距離的平方和達到最小,使得儘可能多的(X,Y)數據點或者更加靠近這條擬合出來的直線上。
最小二乘法
在對回歸模型進行校驗時,判斷係數R²也稱擬合優度或決定係數,即相關係數R的平方,用於表示擬合得到的模型能解釋因變量變化的百分比,R²越接近1,表示回歸模型擬合效果越好。
簡單線性回歸主要採用R²衡量模型擬合效果,而調整後R²用於修正因自變量個數的增加而導致模型擬合效果過高的情況,它多用于衡量多重線性回歸分析模型的擬合效果。
線性回歸方差分析表的主要作用是通過F檢驗來判斷回歸模型的回歸效果,即檢驗因變量與所有自變量之間的線性關係是否顯著,用線性模型來描述它們之間的關係是否恰當。主要有平方和(SS)、自由度(df)、均方(MS)、F(F統計量)、顯著性(P值)五大指標。通常只需要關注F和顯著性(P值)兩個指標,其中主要參考顯著性(P值),因為計算出F統計量,還需要查找統計表(F分布臨界值表),並與之進行比較大小才能得出結果,而顯著性(P值)可直接與顯著性水平α(0.01,0.05)比較得出結果。
顯著性(P值)是在顯著性水平α(常用取值0.01或0.05)下F的臨界值,一般我們以此來衡量檢驗結果是否具有顯著性,如果顯著性(P值)>0.05,則結果不具有顯著的統計學意義;如果0.01<顯著性(P值)<0.05,則結果具有顯著的統計學意義;如果顯著性(P值)<0.01,則結果具有極其顯著的統計學意義。
線性回歸模型回歸係數表
線性回歸模型回歸係數表,主要用於回歸模型的描述和回歸係數的顯著性檢驗。即研究回歸模型中的每個自變量與因變量之間是否存在顯著的線性關係,也就是研究自變量能否有效地解釋因變量的線性變化,它們能否保留在線性回歸模型中。
第1列的常量、廣告費用,分別為回歸模型中的常量與自變量X,第2列的B分別為常量a(截距)、回歸係數b(斜率),據此可以寫出簡單線性回歸模型:Y=377+14.475X,第5,6列分別是回歸係數t校驗和相應的顯著性(P值),顯著性(P值)同樣與顯著性水平α進行比較,本例中回歸係數顯著性(P值)=0.000<0.01,說明回歸係數b具有極其顯著的統計學意義,即因變量「銷售量」和自變量「廣告費用」之間存在極其顯著的線性關係。
第4列的標準化係數用來測量自變量對因變量的重要性,只有將因變量和自變量標準化到統一的量綱下才能進行重要性的比較與衡量,本例中標準化係數為0.816,與相關係數結果是一致的。如果進行模型的使用與預測,還是需要使用非標準化係數。
多重線性回歸分析
簡單線性回歸模型只考慮單因素影響,事實上,影響因變量的因素往往不止一個,可能會有多個影響因素,這就需要用到多重線性回歸分析。多重線性回歸與多元線性回歸區別就看因變量或自變量的個數,多重線性回歸是指包含兩個或兩個以上自變量的線性回歸模型,而多元線性回歸是指包含兩個或兩個以上因變量的線性回歸模型。所以,多重線性回歸模型為:
多重線性回歸
多重線性回歸分析採用矩陣散點圖。
矩陣散點圖
5種自變量步進方法:
變量選擇方法
多重線性回歸中涉及多個自變量,建議採用「步進」方法較為穩健,一般也稱之為逐步回歸法,是「後退」、「前進」兩種方法的結合。逐步回歸會根據每個自變量對模型的貢獻對自變量進行依次篩選,逐步剔除那些沒有顯著統計學意義的自變量,直至再也沒有不顯著的自變量從回歸模型中剔除為止,這是一個模型自動優化的過程,在多重線性回歸中應用較廣。
線性回歸模型匯總表
多重線性回歸模型的擬合效果主要看第4列,調整後R方,它主要用于衡量在多重線性回歸模型建立過程中加入其它自變量後模型擬合優度的變化。本例中調整後R方為0.732,也就是說,「廣告費用」,「客流量」兩個自變量合起來能夠解釋模型變化的73.2%,模型擬合效果良好。
線性回歸方差分析表
線性回歸方差分析表,模型1的方差分析結果,F檢驗的顯著性(P值)=0.000<0.01,即認為模型1在0.01顯著性水平下,由自由變量「客流量」、「廣告費用」和因變量「銷售額」建立起來的線性關係具有極其顯著的統計學意義。
線性回歸模型回歸係數表
第1列常量、廣告費用、客流量分別為回歸模型中的常量與自變量x1和x2,第2列的B值分別為常量a(截距)、偏回歸係數b1和b2;據此可以寫出多重線性回歸模型:
Y=363.31+7.229X1+16.38X2,第4列為標準化係數,用來測量自變量對因變量的重要性,,本例子X1,X2標準化係數分別為0.407,0.499,也就是說,客流量對銷售額的影響要大於廣告費用對銷售額的影響。
第5,6列分別是偏回歸係數t檢驗和相應的顯著性(P值),限制性(P值)同樣與顯著性水平α進行比較,本例中偏回歸係數b1顯著性(P值)=0.012<0.05,說明偏回歸係數b1具有顯著的統計學意義,偏回歸係數b2顯著性(P值)=0.003<0.01,說明偏回歸係數b2具有極其顯著的統計學意義,即因變量「銷售額」和自變量「廣告費用」、「客流量」之間至少存在顯著的線性關係。
回歸分析用於什麼
(1)更好的了解
對某一現象建模,以更好地了解該現象並有可能基於對該現象的了解來影響政策的制定以及決定採取何種相應措施。基本目標是測量一個或多個變量的變化對另一變量變化的影響程度。示例:了解某些特定瀕危鳥類的主要棲息地特徵(例如:降水、食物源、植被、天敵),以協助通過立法來保護該物種。
(2)建模預測
對某種現象建模以預測其他地點或其他時間的數值。基本目標是構建一個持續、準確的預測模型。示例:如果已知人口增長情況和典型的天氣狀況,那麼明年的用電量將會是多少?
(3)探索檢驗假設
還可以使用回歸分析來深入探索某些假設情況。假設您正在對住宅區的犯罪活動進行建模,以更好地了解犯罪活動並希望實施可能阻止犯罪活動的策略。開始分析時,您很可能有很多問題或想要檢驗的假設情況。
回歸分析的作用主要有以下幾點:
1)挑選與因變量相關的自變量;
2)描述因變量與自變量之間的關係強度;
3)生成模型,通過自變量來預測因變量;
4)根據模型,通過因變量,來控制自變量。
回歸分析方法
1)線性回歸
線性回歸它是最為人熟知的建模技術之一。線性回歸通常是人們在學習預測模型時首選的少數幾種技術之一。在該技術中,因變量是連續的,自變量(單個或多個)可以是連續的也可以是離散的,回歸線的性質是線性的。線性回歸使用最佳的擬合直線(也就是回歸線)建立因變量
(Y) 和一個或多個自變量 (X) 之間的聯繫。用一個等式來表示它,即:
Y=a+b*X + e
其中a 表示截距,b 表示直線的傾斜率,e 是誤差項。這個等式可以根據給定的單個或多個預測變量來預測目標變量的值。
一元線性回歸和多元線性回歸的區別在於,多元線性回歸有一個以上的自變量,而一元線性回歸通常只有一個自變量。
線性回歸要點:
1)自變量與因變量之間必須有線性關係;
2)多元回歸存在多重共線性,自相關性和異方差性;
3)線性回歸對異常值非常敏感。它會嚴重影響回歸線,最終影響預測值;
4)多重共線性會增加係數估計值的方差,使得估計值對於模型的輕微變化異常敏感,結果就是係數估計值不穩定;
5)在存在多個自變量的情況下,我們可以使用向前選擇法,向後剔除法和逐步篩選法來選擇最重要的自變量。
2)Logistic回歸
Logistic回歸可用於發現 「事件=成功」和「事件=失敗」的概率。當因變量的類型屬於二元(1 / 0、真/假、是/否)變量時,我們就應該使用邏輯回歸。這裡,Y 的取值範圍是從 0 到 1,它可以用下面的等式表示:
odds= p/ (1-p) = 某事件發生的概率/ 某事件不發生的概率
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) =b0+b1X1+b2X2+b3X3....+bkXk
如上,p表述具有某個特徵的概率。在這裡我們使用的是的二項分布(因變量),我們需要選擇一個最適用於這種分布的連結函數。它就是Logit 函數。在上述等式中,通過觀測樣本的極大似然估計值來選擇參數,而不是最小化平方和誤差(如在普通回歸使用的)。
Logistic要點:
1)Logistic回歸廣泛用於分類問題;
2)Logistic回歸不要求自變量和因變量存在線性關係。它可以處理多種類型的關係,因為它對預測的相對風險指數使用了一個非線性的 log 轉換;
3)為了避免過擬合和欠擬合,我們應該包括所有重要的變量。有一個很好的方法來確保這種情況,就是使用逐步篩選方法來估計Logistic回歸;
4)Logistic回歸需要較大的樣本量,因為在樣本數量較少的情況下,極大似然估計的效果比普通的最小二乘法差;
5)自變量之間應該互不相關,即不存在多重共線性。然而,在分析和建模中,我們可以選擇包含分類變量相互作用的影響;
6)如果因變量的值是定序變量,則稱它為序Logistic回歸;
7)如果因變量是多類的話,則稱它為多元Logistic回歸。
3)Cox回歸
Cox回歸的因變量就有些特殊,它不經考慮結果而且考慮結果出現時間的回歸模型。它用一個或多個自變量預測一個事件(死亡、失敗或舊病復發)發生的時間。Cox回歸的主要作用發現風險因素並用於探討風險因素的強弱。但它的因變量必須同時有2個,一個代表狀態,必須是分類變量,一個代表時間,應該是連續變量。只有同時具有這兩個變量,才能用Cox回歸分析。Cox回歸主要用於生存資料的分析,生存資料至少有兩個結局變量,一是死亡狀態,是活著還是死亡;二是死亡時間,如果死亡,什麼時間死亡?如果活著,從開始觀察到結束時有多久了?所以有了這兩個變量,就可以考慮用Cox回歸分析。
4)poisson回歸
通常,如果能用Logistic回歸,通常也可以用poission回歸,poisson回歸的因變量是個數,也就是觀察一段時間後,發病了多少人或是死亡了多少人等等。其實跟Logistic回歸差不多,因為logistic回歸的結局是是否發病,是否死亡,也需要用到發病例數、死亡例數。
5)Probit回歸
Probit回歸意思是「概率回歸」。用於因變量為分類變量數據的統計分析,與Logistic回歸近似。也存在因變量為二分、多分與有序的情況。目前最常用的為二分。醫學研究中常見的半數致死劑量、半數有效濃度等劑量反應關係的統計指標,現在標準做法就是調用Pribit過程進行統計分析。
6)負二項回歸
所謂負二項指的是一種分布,其實跟poission回歸、logistic回歸有點類似,poission回歸用於服從poission分布的資料,logistic回歸用於服從二項分布的資料,負二項回歸用於服從負二項分布的資料。如果簡單點理解,二項分布可以認為就是二分類數據,poission分布就可以認為是計數資料,也就是個數,而不是像身高等可能有小數點,個數是不可能有小數點的。負二項分布,也是個數,只不過比poission分布更苛刻,如果結局是個數,而且結局可能具有聚集性,那可能就是負二項分布。簡單舉例,如果調查流感的影響因素,結局當然是流感的例數,如果調查的人有的在同一個家庭裡,由於流感具有傳染性,那麼同一個家裡如果一個人得流感,那其他人可能也被傳染,因此也得了流感,那這就是具有聚集性,這樣的數據儘管結果是個數,但由於具有聚集性,因此用poission回歸不一定合適,就可以考慮用負二項回歸。
7)weibull回歸
中文有時音譯為威布爾回歸。關於生存資料的分析常用的是cox回歸,這種回歸幾乎統治了整個生存分析。但其實夾縫中還有幾個方法在頑強生存著,而且其實很有生命力。weibull回歸就是其中之一。cox回歸受歡迎的原因是它簡單,用的時候不用考慮條件(除了等比例條件之外),大多數生存數據都可以用。而weibull回歸則有條件限制,用的時候數據必須符合weibull分布。如果數據符合weibull分布,那麼直接套用weibull回歸自然是最理想的選擇,它可以給出最合理的估計。如果數據不符合weibull分布,那如果還用weibull回歸,那就套用錯誤,結果也就會缺乏可信度。weibull回歸就像是量體裁衣,把體形看做數據,衣服看做模型,weibull回歸就是根據某人實際的體形做衣服,做出來的也就合身,對其他人就不一定合身了。cox回歸,就像是到商場去買衣服,衣服對很多人都合適,但是對每個人都不是正合適,只能說是大致合適。至於到底是選擇麻煩的方式量體裁衣,還是選擇簡單到商場直接去買現成的,那就根據個人傾向,也根據具體對自己體形的了解程度,如果非常熟悉,自然選擇量體裁衣更合適。如果不大了解,那就直接去商場買大眾化衣服相對更方便些。
8)主成分回歸
主成分回歸是一種合成的方法,相當於主成分分析與線性回歸的合成。主要用於解決自變量之間存在高度相關的情況。這在現實中不算少見。比如要分析的自變量中同時有血壓值和血糖值,這兩個指標可能有一定的相關性,如果同時放入模型,會影響模型的穩定,有時也會造成嚴重後果,比如結果跟實際嚴重不符。當然解決方法很多,最簡單的就是剔除掉其中一個,但如果實在捨不得,覺得刪了太可惜,那就可以考慮用主成分回歸,相當於把這兩個變量所包含的信息用一個變量來表示,這個變量我們稱它叫主成分,所以就叫主成分回歸。當然,用一個變量代替兩個變量,肯定不可能完全包含他們的信息,能包含80%或90%就不錯了。但有時候我們必須做出抉擇,你是要100%的信息,但是變量非常多的模型?還是要90%的信息,但是只有1個或2個變量的模型?打個比方,你要診斷感冒,是不是必須把所有跟感冒有關的症狀以及檢查結果都做完?還是簡單根據幾個症狀就大致判斷呢?我想根據幾個症狀大致能確定90%是感冒了,不用非得100%的信息不是嗎?模型也是一樣,模型是用於實際的,不是空中樓閣。既然要用於實際,那就要做到簡單。對於一種疾病,如果30個指標能夠100%確診,而3個指標可以診斷80%,我想大家會選擇3個指標的模型。這就是主成分回歸存在的基礎,用幾個簡單的變量把多個指標的信息綜合一下,這樣幾個簡單的主成分可能就包含了原來很多自變量的大部分信息。這就是主成分回歸的原理。
9)嶺回歸
當數據之間存在多重共線性(自變量高度相關)時,就需要使用嶺回歸分析。在存在多重共線性時,儘管最小二乘法(OLS)測得的估計值不存在偏差,它們的方差也會很大,從而使得觀測值與真實值相差甚遠。嶺回歸通過給回歸估計值添加一個偏差值,來降低標準誤差。
上面,我們看到了線性回歸等式:
y=a+ b*x
這個等式也有一個誤差項。完整的等式是:
y=a+b*x+e (誤差項), [誤差項是用以糾正觀測值與預測值之間預測誤差的值]
=> y=a+y= a+ b1x1+ b2x2+....+e, 針對包含多個自變量的情形。
在線性等式中,預測誤差可以劃分為 2 個分量,一個是偏差造成的,一個是方差造成的。預測誤差可能會由這兩者或兩者中的任何一個造成。在這裡,我們將討論由方差所造成的誤差。嶺回歸通過收縮參數 λ(lambda)解決多重共線性問題。請看下面的等式:
在這個等式中,有兩個組成部分。第一個是最小二乘項,另一個是 β2(β-平方)和的 λ 倍,其中 β 是相關係數。λ 被添加到最小二乘項中用以縮小參數值,從而降低方差值。
嶺回歸要點:
1)除常數項以外,嶺回歸的假設與最小二乘回歸相同;
2)它收縮了相關係數的值,但沒有達到零,這表明它不具有特徵選擇功能;
3)這是一個正則化方法,並且使用的是 L2 正則化。
10)偏最小二乘回歸
偏最小二乘回歸也可以用於解決自變量之間高度相關的問題。但比主成分回歸和嶺回歸更好的一個優點是,偏最小二乘回歸可以用於例數很少的情形,甚至例數比自變量個數還少的情形。所以,如果自變量之間高度相關、例數又特別少、而自變量又很多,那就用偏最小二乘回歸就可以了。它的原理其實跟主成分回歸有點像,也是提取自變量的部分信息,損失一定的精度,但保證模型更符合實際。因此這種方法不是直接用因變量和自變量分析,而是用反映因變量和自變量部分信息的新的綜合變量來分析,所以它不需要例數一定比自變量多。偏最小二乘回歸還有一個很大的優點,那就是可以用於多個因變量的情形,普通的線性回歸都是只有一個因變量,而偏最小二乘回歸可用於多個因變量和多個自變量之間的分析。因為它的原理就是同時提取多個因變量和多個自變量的信息重新組成新的變量重新分析,所以多個因變量對它來說無所謂。
11)多項式回歸
對於一個回歸等式,如果自變量的指數大於1,那麼它就是多項式回歸等式。如下等式所示:
y=a+b*x^2
在這種回歸技術中,最佳擬合線不是直線。而是一個用於擬合數據點的曲線。
多項式回歸要點:
1)雖然存在通過高次多項式得到較低的錯誤的趨勢,但這可能會導致過擬合。需要經常畫出關係圖來查看擬合情況,並確保擬合曲線正確體現了問題的本質。下面是一個圖例,可以幫助理解:
2)須特別注意尾部的曲線,看看這些形狀和趨勢是否合理。更高次的多項式最終可能產生怪異的推斷結果。
12)逐步回歸
該回歸方法可用於在處理存在多個自變量的情形。在該技術中,自變量的選取需要藉助自動處理程序,無須人為幹預。通過觀察統計的值,如
R-square、t-stats和 AIC
指標,來識別重要的變量,可以實現這一需求。逐步回歸通過同時添加/去除基於指定標準的協變量來擬合模型。下面列出了一些最常用的逐步回歸方法:
1)標準逐步回歸法需要做兩件事情,即根據需要為每個步驟添加和刪除預測因子;
2)向前選擇法從模型中最重要的預測因子開始,然後為每一步添加變量;
3)向後剔除法從模型中所有的預測因子開始,然後在每一步刪除重要性最低的變量。
這種建模技術的目的是使用最少的預測因子變量來最大化預測能力。這也是處理高維數據集的方法之一。
13)套索回歸
與嶺回歸類似,套索也會對回歸係數的絕對值添加一個罰值。此外,它能降低偏差並提高線性回歸模型的精度。看看下面的等式:
套索回歸與嶺回歸有一點不同,它在懲罰部分使用的是絕對值,而不是平方值。這導致懲罰(即用以約束估計的絕對值之和)值使一些參數估計結果等於零。使用的懲罰值越大,估計值會越趨近於零。這將導致我們要從給定的n個變量之外選擇變量。
套索回歸要點:
1)除常數項以外,這種回歸的假設與最小二乘回歸類似;
2)它將收縮係數縮減至零(等於零),這確實有助於特徵選擇;
3)這是一個正則化方法,使用的是 L1 正則化;
4)如果一組預測因子是高度相關的,套索回歸會選出其中一個因子並且將其它因子收縮為零。
14)ElasticNet 回歸
ElasticNet
回歸是套索回歸和嶺回歸的組合體。它會事先使用 L1 和 L2 作為正則化矩陣進行訓練。當存在多個相關的特徵時,Elastic-net
會很有用。嶺回歸一般會隨機選擇其中一個特徵,而 Elastic-net
則會選擇其中的兩個。同時包含嶺回歸和套索回歸的一個切實的優點是,ElasticNet 回歸可以在循環狀態下繼承嶺回歸的一些穩定性。
ElasticNet 回歸要點:
1)在高度相關變量的情況下,它會產生群體效應;
2)選擇變量的數目沒有限制;
3)它可以承受雙重收縮。
2.如何選擇回歸模型
當只了解一兩種回歸技術的時候,情況往往會比較簡單。然而,當我們在應對問題時可供選擇的方法越多,選擇正確的那一個就越難。類似的情況下也發生在回歸模型中。
掌握多種回歸模型時,基於自變量和因變量的類型、數據的維數以及數據的其它基本特徵去選擇最合適的技術非常重要。以下是要選擇正確的回歸模型時需要考慮的主要因素:
1)數據探索是構建預測模型的不可或缺的部分。在選擇合適的模型前,比如識別變量的關係和影響,應該首先執行這一步驟。
2)比較不同模型的擬合優點,我們可以分析不同的指標參數,如統計意義的參數,R-square,調整
R-square,AIC,BIC以及誤差項,另一個是 Mallows』 Cp
準則。這個主要是通過將所選的模型與所有可能的子模型(或仔細挑選的一組模型)進行對比,檢查可能出現的偏差。
3)交叉驗證是評估預測模型最好的方法。使用該方法,需將數據集分成兩份(一份用於訓練,一份用於驗證)。使用觀測值和預測值之間的均方差即可快速衡量預測精度。
4)如果數據集中存在是多個混合變量,那就不應選擇自動模型選擇方法,因為我們並不願意將所有變量同時放在同一個模型中。
5)所選擇的回歸技術也取決於你的目的。可能會出現這樣的情況,一個不太強大的模型與具有高度統計學意義的模型相比,更易於實現。
6)回歸正則化方法(套索,嶺和ElasticNet)在高維數據和數據集變量之間存在多重共線性的情況下運行良好。
診斷回歸分析結果
為了理解、解釋、預測某個問題,我們會進行回歸分析。但事實上,選擇一組優質的自變量並不是那麼容易。通常我們會根據一些常識、理論基礎、某些研究、專家的意見、參考文獻等等選擇一組自變量,來進行自變量的篩選。因此,我們需要診斷回歸分析的質量——回歸分析的結果診斷。
1.自變量與因變量是否具有預期的關係
每個自變量都會有一個係數,係數具有+/-號,來表示自變量與因變量的關係。從工具的得到的報告中,我們看到的係數的正負,每個自變量應該是我們期望的關係。如果有非常不符合邏輯的係數,我們就應該考慮剔除它了。
當然,有時也可能得到與常識不同的結論。舉個例子,假如我們在研究森林火災,我們通常認為降雨充沛的區域火災的發生率會相對較低,也就是所謂的負相關,但是,這片森林火災頻發的原因可能是閃電雷擊,這樣降雨量這個自變量可能就不是常識中的負相關的關係了。
因此,我們除了驗證自變量的係數與先驗知識是否相符外,還有繼續結合其他項檢查繼續診斷,從而得出更可靠的結論。
2.自變量對模型是否有幫助
自變量對模型有無幫助說的就是自變量是否有顯著性。那如何了解這些自變量是否有顯著性呢?
如果自變量的係數為零(或非常接近零),我們認為這個自變量對模型沒有幫助,統計檢驗就用來計算係數為零的概率。如果統計檢驗返回一個小概率值(p值),則表示係數為零的概率很小。如果概率小於0.05,匯總報告上概率(Probability)旁邊的一個星號(*)表示相關自變量對模型非常重要。換句話說,其係數在95%置信度上具有統計顯著性。
利用空間數據在研究區域內建模的關係存在差異是非常常見的,這些關係的特徵就是不穩定。我們就需要通過穩健概率(robust probability)了解一個自變量是否具有統計顯著性。
3.殘差是否有空間聚類
殘差在空間上應該是隨機分布的,而不應該出現聚類。這項檢查我們可以使用空間自相關工具(Spatial Autocorrelation Tool)工具進行檢查。
4.模型是否出現了傾向性
我們常說,不要戴著「有色眼鏡」看人。同樣,回歸分析模型中,也不要帶有「成見」,不能具有傾向性,否則,這不是個客觀合理的模型。
我們都知道正態分布是個極好的分布模式,如果我們正確的構建了回歸分析模型,那麼模型的殘差會符合完美的正態分布,其圖形為鐘形曲線。
當模型出現偏差時,可能我們看到的圖形也是詭異的,這樣我們就無法完全信任所預測的結果。
5.自變量中是否存在冗餘
在我們建模的過程中,應儘量去選擇表示各個不同方面的自變量,也就是儘量避免傳達相同或相似信息的自變量。要清楚,引入了冗餘變量的模型是不足以信任的。
6.評估模型的性能
最後需要做的是,評估模型的性能。矯R2值是評估自變量對因變量建模的重要度量。
這項檢查應該放到最後。一旦我們通過了前面的所有檢驗,接下來就可以進行評估矯正R2值。
R2值的範圍介於0和1之間,以百分比形式表示。假設正在為犯罪率建模,並找到一個通過之前所有五項檢查的模型,其校正
R2值為0.65。這樣就可以了解到模型中的自變量說明犯罪率是65%。在有些科學領域,能夠解釋複雜現象的 23%
就會讓人興奮不已。在其他領域,一個R2值可能需要更靠近80%或90%才能引起別人的注意。不管採用哪一種方式,校正R2值都會幫我們判斷自己模型的性能。
另一項輔助評估模型性能的重要診斷是修正的Akaike信息準則/Akaike’sinformation
criterion
(AIC)。AIC值是用於比較多個模型的一項有用度量。例如,可能希望嘗試用幾組不同的自變量為學生的分數建模。在一個模型中僅使用人口統計變量,而在另一個模型選擇有關學校和教室的變量,如每位學生的支出和師生比。只要所有進行比較的模型的因變量(在本示例中為學生測試分數)相同,我們就可以使用來自每個模型的
AIC值確定哪一個的表現更好。模型的AIC值越小,越適合觀測的數據。
回歸設計常用軟體
目前,用於回歸設計的統計軟體較多,無論是對回歸方案設計,還是對試驗數據處理和回歸設計成果的應用分析,都有相應的軟體支撐,或是自編自用的專業軟體,或是具有商業性質的統計軟體包,多種多樣,各有特色。為了便於回歸設計的更好應用,這裡簡要地介紹挑選或評價統計軟體的基本思考以及幾種回歸設計常用的統計軟體,以利相關人員簡捷地選用。
1.統計軟體的選用原則
在挑選或評價統計軟體時,應從以下幾個方面加以考慮:
1)可用性
一個軟體如果能為用戶提供良好的用戶界面、靈活的處理方式和簡明的語句或命令,就稱這個軟體可用性強。隨著統計軟體在可用性方面的不斷進步,很多統計軟體的語法規則簡明、靈活、學用方便,這是人們非常歡迎的。
2)數據管理
數據錄人、核查、修改、轉換和選擇,統稱為數據管理。好的軟體,如SAS(
statistical analysis system),SPSS(statistical package for thesocial
science) 等的數據管理功能已近似大眾化的資料庫軟體。統計軟體與資料庫軟體之間建立接口,使數據管理不斷深人,用起來非常方便。
3)文件管理
數據文件、程序文件、結果文件等一些文件的建立、存取、修改、合併等,統稱為文件管理。它的功能越強,操作就越簡單,越方便。由於作業系統本身文件管理功能較強。因此,從統計軟體直接調用作業系統的命令可大大增強其文件管理功能。現在好的統計軟體已設計了這類調用指令。
4)統計分析
統計分析是統計軟體的核心。統計分析方法的電腦程式的數量和種類決定了數據處理的深度。有些軟體,如SAS,BMDP(
biomedical computer
programs)等。所包括的分析過程,足夠科研與管理之需。由於統計量的選擇,參數估計的方法等是多種多樣的,用戶往往希望統計分析過程儘可能多地提供選項,這樣可以提高統計分析的靈活性和深度。
5)容量
儘管處理的數據量與計算機硬體有直接關係,然而,軟體的設計和程序編寫技巧仍起很大作用。軟體好,在一定程度上可以彌補硬體的不足,而低水平的軟體會浪費很好的硬體配置。通常,統計軟體應至少能同時進行不小於10個變量的上千個數據點的分析、綜合、對比與預測。
2.SAS軟體系統
SAS軟體系統於20世紀70年代由美國SAS研究所開發。SAS軟體是用於決策支援的大型集成資訊系統,但該軟體系統最早的功能限於統計分析;至今,統計分析功能也仍是它的重要模組和核心功能。SAS已經遍布全世界,重要應用領域涵蓋政府的經濟決策與企業的決策支援應用等,使用的單位遍及金融、醫藥衛生、生產、運輸、通訊、科學研究、政府和教育等領域;在資料處理和統計分析領域,SAS系統被譽統計軟體界的巨無霸。
SAS
是一個模塊化、集成化的大型應用軟體系統。它由數十個專用模塊構成,功能包括數據訪問、數據儲存及管理、應用開發、圖形處理、數據分析、報告編制、運籌學方法、計量經濟學與預測等等。
SAS系統基本上可以分為四大部分:SAS資料庫部分;SAS分析核心;SAS開發呈現工具;SAS對分布處理模式的支持及其數據倉庫設計。
SAS系統主要完成以數據為中心的四大任務:數據訪問;數據管理;數據呈現;數據分析。
SAS
是由大型機系統發展而來,其核心操作方式就是程序驅動,經過多年的發展,現在已成為一套完整的計算機語言,其用戶界面也充分體現了這一特點:它採用MDI
(多文檔界面),用戶在PGM視窗中輸入程序,分析結果以文本的形式在OUTPUT視窗中輸出。使用程序方式,用戶可以完成所有需要做的工作,包括統計分析、預測、建模和模擬抽樣等。但是,這使得初學者在使用SAS時必須要學習SAS語言,入門比較困難。
3.Excel軟體
在回歸設計的實踐中,一些計算機軟體可以解決多元回歸分析的求解問題,但常常是數據的輸入和軟體的操作運用要經過專門訓練。Excel軟體為回歸分析的求解給出了非常方便的操作過程,而且目前Excel軟體幾乎在每臺計算機上都已經安裝。
Excel是一個面向商業、科學和工程計算的數據分析軟體,它的主要優點是具有對數據進行分析、計算、匯總的強大功能。除了眾多的函數功能外,Excel的高級數據分析工具則給出了更為深入、更為有用、針對性更強的各類經營和科研分析功能。高級數據分析工具集中了Excel最精華、對數據分析最有用的部分,其分析工具集中在Excel主菜單中的「工具」子菜單內,回歸分析便為其中之一。
Excel是以電子表格的方式來管理數據的,所有的輸入、存取、提取、處理、統計、模型計算和圖形分析都是圍繞電子表格來進行的。
4.Statistica軟體
Statistica是由統計軟體公司(Statsoft)開發、專用於科技及工業統計的大型軟體包。它除了具有常規的統計分析功能外,還包括有因素分析、質量控制、過程分析、回歸設計等模塊。利用其回歸設計模塊可以進行回歸正交設計、正交旋轉組合設計、正交多項式回歸設計、A最優及D最優設計等。該軟體包還可以進行對試驗結果的統計檢驗、誤差分析、試驗水平估計和各類統計圖表、曲線、曲面的分析計算工作。
5.SPSS軟體
SPSS是世界上最早採用圖形菜單驅動界面的統計軟體,它最突出的特點就是操作界面極為友好,輸出結果美觀漂亮。它將幾乎所有的功能都以統一、規範的界面展現出來,使用Windows的窗口方式展示各種管理和分析數據方法的功能,對話框展示出各種功能選擇項。用戶只要掌握一定的Windows操作技能,精通統計分析原理,就可以使用該軟體為特定的科研工作服務。SPSS採用類似EXCEL表格的方式輸入與管理數據,數據接口較為通用,能方便的從其他資料庫中讀入數據。其統計過程包括了常用的、較為成熟的統計過程,完全可以滿足非統計專業人士的工作需要。輸出結果十分美觀,存儲時則是專用的SPO格式,可以轉存為HTML格式和文本格式。對於熟悉老版本編程運行方式的用戶,SPSS還特別設計了語法生成窗口,用戶只需在菜單中選好各個選項,然後按"粘貼"按鈕就可以自動生成標準的SPSS程序。極大的方便了中、高級用戶。
6.R軟體
R語言是統計領域廣泛使用的,誕生於1980年左右的S語言的一個分支。 R語言是S語言的一種實現。S語言是由AT&T貝爾實驗室開發的一種用來進行數據探索、統計分析、作圖的解釋型語言。
R是一套完整的數據處理、計算和製圖軟體系統。其功能包括:數據存儲和處理系統;數組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統計分析工具;優秀的統計製圖功能;簡便而強大的程式語言:可操縱數據的輸入和輸入,可實現分支、循環,用戶可自定義功能。
與其說R是一種統計軟體,還不如說R是一種數學計算的環境,因為R並不是僅僅提供若干統計程序、使用者只需指定資料庫和若干參數便可進行一個統計分析。R的思想是:它可以提供一些集成的統計工具,但更大量的是它提供各種數學計算、統計計算的函數,從而使使用者能靈活機動的進行數據分析,甚至創造出符合需要的新的統計計算方法。
R是一個免費的自由軟體,它有UNIX、LINUX、MacOS和WINDOWS版本,都是可以免費下載和使用的。在R主頁那兒可以下載到R的安裝程序、各種外掛程序和文檔。在R的安裝程序中只包含了8個基礎模塊,其他外在模塊可以通過CRAN獲得。
學習資料
1.書籍
1)《實用回歸分析》(何曉群)
該書從數據出發,不是從假設、定理出發;從歸納出發,不是從演繹出法;強調案例分析;重統計思想的闡述,弱化數學證明的推導。
2)《應用多元統計分析》(高惠璇)
書中介紹了各種常用的多元統計分析方法的統計背景和實際意義,說明該方法的統計思想、數學原理及解題步驟,還列舉了各方面的應用實例。該書將多元統計方法的介紹與在計算機上實現這些方法的統計軟體(SAS系統)結合起來,不僅可以學到統計方法的理論知識,還知道如何解決實際問題。
作者:黃成甲
連結:https://www.jianshu.com/p/bbe0c702b5ad
來源:簡書
簡書著作權歸作者所有,任何形式的轉載都請聯繫作者獲得授權並註明出處。