講講逐步回歸

2021-02-19 俊紅的數據分析之路

總第178篇/張俊紅
01.前言

前面我們講過了多元線性回歸。這一篇我們來講講逐步回歸。什麼是逐步回歸呢？就是字面意思，一步一步進行回歸。

我們知道多元回歸中的元是指自變量，多元就是多個自變量，即多個x。這多個x中有一個問題需要我們考慮，那就是是不是這多個x都對y有作用。答案就是有的時候都管用，有的時候部分管用。那對於那些沒用的部分我們最好是不讓它加入到回歸模型裡面。我們把這個篩選起作用的變量或者剔除不起作用變量的過程叫做變量選擇。

我們剛提到自變量有用沒用，那怎麼來評判一個自變量到底有用沒用呢？判斷依據就是對自變量進行顯著性檢驗。具體方法是將一個自變量加入到模型中時，有沒有使殘差平方和顯著減少，如果有顯著減少則說明這個變量是有用的，可以把這個變量加入到模型中，否則說明時無用的，就可以把這個變量從模型中刪除。有沒有顯著減少的判斷標準就是根據F統計量來判斷。

關於判斷F統計量的顯著性我們在方差分析裡面講過，大家可以去看看。

變量選擇主要有：向前選擇、向後踢出、逐步回歸、最優子集等，我們這一篇主要講前三種。

02.向前選擇

向前選擇可以理解成從零開始選擇，因為模型最開始的時候是沒有自變量的，具體的步驟如下：

Step1：拿現有的k個變量分別和y建立回歸模型，最後會得到k個模型以及每個模型中變量對應的F統計量和其p_value，然後從顯著的模型中挑選出F統計量最大模型對應的自變量，將該自變量加入到模型中，如果k個模型都不顯著，則選擇結束。

Step2：通過第一步我們已經得到了一個顯著性變量，並把這個變量加入到了模型中。接下來再在已經加入一個變量的模型裡面繼續分別加入剩下的變量，能夠得到k-1個模型，然後在這k-1個模型裡面挑選F值最大且顯著的變量繼續加入模型。如果沒有顯著變量，則選擇結束。

重複執行上面兩步，直到沒有顯著性變量可以加入到模型為止，這就是向前選擇。

03.向後剔除

向後剔除是與向前選擇相對應的方法，是向前選擇的逆方法，具體的步驟如下：

Step1：將所有的自變量都加入到模型中，建立一個包含k個自變量的回歸模型。然後分別去掉每一個自變量以後得到k個包含k-1個變量的模型，比較這k個模型，看去掉哪個變量以後讓模型的殘差平方和減少的最少，即影響最小的變量，就把這個變量從模型中刪除。

Step2：通過第一步我們已經刪除了一個無用的變量，第二步是在已經刪除一個變量的基礎上，繼續分別刪除剩下的變量，把使模型殘差平方和減少最小的自變量從模型中刪除。

重複上面的兩個步驟，直到刪除一個自變量以後不會使殘差顯著減少為止。這個時候，留下來的變量就都是顯著的了。

04逐步回歸

逐步回歸是向前選擇和向後踢除兩種方法的結合。是這兩種方法的交叉進行，即一遍選擇，一邊剔除。

逐步回歸在每次往模型中增加變量時用的是向前選擇，將F統計量最大的變量加入到模型中，將變量加入到模型中以後，針對目前模型中存在的所有變量進行向後剔除，一直循環選擇和剔除的過程，直到最後增加變量不能夠導致殘差平方和變小為止。

關於逐步回歸的Python實現，網上有很多現成代碼的，只要原理清楚了，代碼就很好懂了。

你還可以看：

多元回歸分析

相關焦點

逐步回歸分析法及其應用

文章系統介紹了逐步回歸分析，並分析了逐步回歸分析在經濟研究（建模與預測）中的應用步驟與需要注意的問題。目前，國內外對於逐步回歸分析的研究主要停留在理論敘述，不少學者提出了修正逐步回歸法的新方法，如類逐步回歸法、基於單元步的逐步回歸法、「宜取回歸方程」的逐步回歸法等。趙希男（1994）提出並在理論上證明可將逐步回歸算法從靜態系統拓廣到其他系統（動態系統、分布參數等系統）。傳統的逐步回歸法通常用於靜態系統，即自變量為非隨機變量時。
多元線性回歸、逐步回歸、邏輯回歸的總結

做回歸分析。包括簡單多變量回歸、逐步回歸、邏輯回歸！對了，上次，用Python寫的兩篇回歸擬合分別是：基於最小二乘法的——線性回歸擬合（一）基於梯度下降法的——線性回歸擬合（二）多元回歸分析，生活中用的很多，因為一個因素可能與很多其它因素有關！言歸正傳，這裡考慮用R語言裡面的相關函數做回歸分析。
統計學乾貨 I 逐步回歸

這多個x中有一個問題需要我們考慮，所以是不是這多個x都對y有作用？答案就是有的時候都管用，有的時候部分管用。那對於那些沒用的部分我們最好是不讓它加入到回歸模型裡面。我們把這個篩選起作用的變量或者剔除不起作用變量的過程叫做變量選擇。我們剛提到自變量有用沒用，那怎麼來評判一個自變量到底有用沒用呢？判斷依據就是對自變量進行顯著性檢驗。
逐步回歸分析到底可不可靠?

本文並不是介紹逐步回歸本身，而是說一下個人對逐步回歸的看法。後面文章再陸續說明逐步回歸的一些思想和技術。
第四十二講 R-逐步回歸

於是我們引入了逐步回歸。逐步回歸的基本思想是將變量逐個引入模型，每引入一個預測變量（解釋變量）後都要進行F檢驗，並對已經選入的預測變量逐個進行t檢驗，當原來引入的預測變量由於後面預測變量的引入變得不再顯著時，則將其刪除。以確保每次引入新的變量之前回歸方程中只包含顯著性變量。
回歸分析篩選自變量,不推薦逐步回歸法?那我應該怎麼辦?

，在其中，特別關注是是否需要逐步回歸技術的問題。更重要的是，被稱為很巧妙的逐步回歸法，它基本上沒有什麼卵用！在之前，鄭老師的推文：多因素回歸要不要做逐步回歸法？美國top雜誌《內科學年鑑》給出答案。裡面說，醫學論文不要用逐步回歸法！好多朋友問我：為什麼？那我們應該用什麼方法來建模型？
R與生物專題 | 第四十八講 R-逐步回歸

在「R與生物統計專題」中，我們會從介紹R的基本知識展開到生物統計原理及其在R中的實現。
R邏輯回歸逐步選擇變量的實現

本文是Python邏輯回歸逐步選擇變量的實現的續文-用R實現Stepwise。 R中可以使用step()函數進行變量逐步選擇，其通過AIC值來選擇模型和變量。在Python邏輯回歸逐步選擇變量的實現一文中，比較詳細的說明了逐步選擇變量的方法以及SAS的實現結果，並接著用python實現類似SAS的結果，本文採用R來實現類似的結果。
退伍證,逐步回歸應有的價值!

退伍證新增使用功能，逐步回歸應有的價值！一、持退伍證可免費乘坐公交車、渡船等。退伍證，逐步回歸應有的價值！戰友，請一定保存好！！
R數據分析:逐步回歸的做法和原理,案例剖析

那麼今天要寫的就是回歸時篩選變量的逐步法：The stepwise regression (or stepwise selection) consists of iteratively adding and removing predictors, in the predictive model, in order to find the subset of variables
多因素回歸要不要做逐步回歸法? 美國top雜誌《內科學年鑑》給出答案

鄭老師：自變量篩選方面，最好不是數據驅動法，無論P值<0.05，還是<0.2，納入多因素回歸，都是一種懶人的做法。1.2 逐步回歸法?這是諸位比較關心的事情。這段英文翻譯過來就是應該避免使用逐步回歸方法進行多因素回歸。鄭老師：本人在11月17日舉行的「2019年杭州真實世界研究培訓班」也明確指出，先單因素後多因素+逐步回歸的方法是一種垃圾方法，不推薦。推薦使用DAG的方法和效應改變方法，具體可以後續關注本培訓班的視頻。劃重點來了！！！
商務部表示中國經濟明年逐步向潛在增長水平回歸的可能性較大

對此，中國商務部新聞發言人高峰稱，今年以來，中國克服新冠肺炎疫情的衝擊，經濟運行逐步恢復常態，中國有望成為今年全球主要經濟體中唯一實現正增長的經濟體。明年逐步向潛在增長水平回歸的可能性較大：「明年世界經濟不穩定不確定因素較多，中國經濟運行有挑戰，同時也有不少有利因素，逐步向潛在增長水平回歸的可能性較大。中方將進一步提升開放型經濟水平，在更高層次上擴大市場開放。
浙江國有民辦「第一中學」將逐步回歸公辦

新華網浙江頻道6月17日電(記者餘靖靜)浙江省教育廳16日宣布，建校45年的杭州外國語學校在改為"國有民辦"體制8年後，將逐步恢復其公辦身份。　　"杭州外國語學校是一所在全省乃至全國有影響的學校，調整其辦學體制旨在為規範全省基礎教育辦學秩序、營造學校之間公平競爭環境奠定一個基礎。"浙江省教育廳副廳長張緒培說。
8000億「麻辣粉」緩解債市情緒貨幣政策逐步回歸常態化

貨幣政策逐步回歸正常化　　除了量上的擴大，此次MLF操作利率保持不變，多位業內人士預計，20日公布的1年期LPR(貸款市場報價利率)也將保持不變。　　實際上，本月MLF操作利率不動符合市場普遍預期，而且未來幾個月MLF利率調整的可能性都不大。
講講共線性問題

在其他算法中，例如決策樹和貝葉斯，前者的建模過程是逐步遞進，每次拆分只有一個變量參與，這種建模機制含有抗多重共線性幹擾的功能；後者乾脆假定變量之間是相互獨立的，因此從表面上看，也沒有多重共線性的問題。但是對於回歸算法，不論是一般回歸，邏輯回歸，或存活分析，都要同時考慮多個預測因子，因此多重共線性是不可避免需要面對的，在很多時候，多重共線性是一個普遍的現象。
供暖鍋爐逐步起爐,好空氣不變丨雨夾雪過後,晴好天氣回歸

供暖鍋爐逐步起爐，好空氣不變丨雨夾雪過後，晴好天氣回歸 2020-10-15 00:00 來源：澎湃新聞·澎湃號·政務
國家統計局:明年經濟逐步向潛在增長水平回歸可能性較大消費仍是...

付凌暉指出，隨著經濟逐步恢復常態運行，相信全年保持一個較好的增長水平是值得期待的。明年我們經濟運行有不少有利因素，經濟逐步向潛在增長水平回歸可能性較大。此外，由於今年的基數較低，從速度上來看，增長可能會比較快，但是並不說明經濟出現了明顯的變化。
【算法】逐步在Python中構建Logistic回歸

筆者邀請您，先思考：1邏輯回歸算法怎麼理解？
多重線性回歸實例 - CSDN

在上一期SPSS的推文中我們講了一些關於線性回歸的基本知識，還利用一個簡單的實例進行了簡單線性回歸的分析，今天我們就來講講多重線性回歸(也叫多元線性回歸)，有關多元線性回歸的概念我在上一期的推文中也已經講過，這裡就不提了。可瀏覽上一篇SPSS的推文：SPSS第二期——線性回歸(上)，兩篇對照起來看，或許能學到更多知識。
新增社融規模保持穩定貨幣政策逐步回歸常態

新增社融規模保持穩定貨幣政策逐步回歸常態2020/12/11 15:36:19　來源:中國產業發展研究網　【字體：大中小】【收藏本頁】【列印】【關閉】核心提示：信貸投放保持強勁，穩槓桿意圖更加明晰，人民銀行昨日發布數據顯示，11月新增社會融資規模穩定同比增長，環比也有一定回升。

講講逐步回歸

相關焦點

逐步回歸分析法及其應用

多元線性回歸、逐步回歸、邏輯回歸的總結

統計學乾貨 I 逐步回歸

逐步回歸分析到底可不可靠?

第四十二講 R-逐步回歸

回歸分析篩選自變量,不推薦逐步回歸法?那我應該怎麼辦?

R與生物專題 | 第四十八講 R-逐步回歸

R邏輯回歸逐步選擇變量的實現

退伍證,逐步回歸應有的價值!

R數據分析:逐步回歸的做法和原理,案例剖析

多因素回歸要不要做逐步回歸法? ​美國top雜誌《內科學年鑑》給出答案

商務部表示 中國經濟明年逐步向潛在增長水平回歸的可能性較大

浙江國有民辦「第一中學」將逐步回歸公辦

8000億「麻辣粉」緩解債市情緒 貨幣政策逐步回歸常態化

講講共線性問題

供暖鍋爐逐步起爐,好空氣不變丨雨夾雪過後,晴好天氣回歸

國家統計局:明年經濟逐步向潛在增長水平回歸可能性較大 消費仍是...

【算法】逐步在Python中構建Logistic回歸

多重線性回歸實例 - CSDN

新增社融規模保持穩定 貨幣政策逐步回歸常態

多因素回歸要不要做逐步回歸法? 美國top雜誌《內科學年鑑》給出答案

商務部表示中國經濟明年逐步向潛在增長水平回歸的可能性較大

8000億「麻辣粉」緩解債市情緒貨幣政策逐步回歸常態化

國家統計局:明年經濟逐步向潛在增長水平回歸可能性較大消費仍是...

新增社融規模保持穩定貨幣政策逐步回歸常態