統計學乾貨 I 逐步回歸

2021-02-18 愛數據原統計網

這一篇我們來講講逐步回歸。什麼是逐步回歸呢?就是字面意思,一步一步進行回歸。

我們知道多元回歸中的元是指自變量,多元就是多個自變量,即多個x。這多個x中有一個問題需要我們考慮,所以是不是這多個x都對y有作用?答案就是有的時候都管用,有的時候部分管用。那對於那些沒用的部分我們最好是不讓它加入到回歸模型裡面。我們把這個篩選起作用的變量或者剔除不起作用變量的過程叫做變量選擇。

我們剛提到自變量有用沒用,那怎麼來評判一個自變量到底有用沒用呢?判斷依據就是對自變量進行顯著性檢驗。具體方法是將一個自變量加入到模型中時,有沒有使殘差平方和顯著減少,如果有顯著減少則說明這個變量是有用的,可以把這個變量加入到模型中,否則說明是無用的,就可以把這個變量從模型中刪除。有沒有顯著減少的判斷標準就是根據F統計量來判斷。

變量選擇主要有:向前選擇、向後剔除、逐步回歸、最優子集等,我們這一篇主要講前三種。

向前選擇可以理解成從零開始選擇,因為模型最開始的時候是沒有自變量的,具體的步驟如下:

Step1:拿現有的k個變量分別和y建立回歸模型,最後會得到k個模型以及每個模型中變量對應的F統計量和其p_value,然後從顯著的模型中挑選出F統計量最大模型對應的自變量,將該自變量加入到模型中,如果k個模型都不顯著,則選擇結束。

Step2:通過第一步我們已經得到了一個顯著性變量,並把這個變量加入到了模型中。接下來再在已經加入一個變量的模型裡面繼續分別加入剩下的變量,能夠得到k-1個模型,然後在這k-1個模型裡面挑選F值最大且顯著的變量繼續加入模型。如果沒有顯著變量,則選擇結束。

重複執行上面兩步,直到沒有顯著性變量可以加入到模型為止,這就是向前選擇。

向後剔除是與向前選擇相對應的方法,是向前選擇的逆方法,具體的步驟如下:

Step1:將所有的自變量都加入到模型中,建立一個包含k個自變量的回歸模型。然後分別去掉每一個自變量以後得到k個包含k-1個變量的模型,比較這k個模型,看去掉哪個變量以後讓模型的殘差平方和減少的最少,即影響最小的變量,就把這個變量從模型中刪除。

Step2:通過第一步我們已經刪除了一個無用的變量,第二步是在已經刪除一個變量的基礎上,繼續分別刪除剩下的變量,把使模型殘差平方和減少最小的自變量從模型中刪除。

重複上面的兩個步驟,直到刪除一個自變量以後不會使殘差顯著減少為止。這個時候,留下來的變量就都是顯著的了。

逐步回歸是向前選擇和向後剔除兩種方法的結合。是這兩種方法的交叉進行,即一遍選擇,一邊剔除。

逐步回歸在每次往模型中增加變量時用的是向前選擇,將F統計量最大的變量加入到模型中,將變量加入到模型中以後,針對目前模型中存在的所有變量進行向後剔除,一直循環選擇和剔除的過程,直到最後增加變量不能夠導致殘差平方和變小為止。

關於逐步回歸的Python實現,網上有很多現成代碼的,只要原理清楚了,代碼就很好懂了。

End.

作者:張俊紅

絞盡腦汁寫出的簡歷投遞了幾十次卻石沉大海?

HR問起經歷,看著拼湊來的簡歷說不出123...

愛數據學院,解決你的簡歷「難題」

找對病症 一招擊破

資深HR+職場老師,帶你深入了解

數據領域篩選標準

針對求職崗位個性化輔導

深挖你的實戰經歷。

本周將抽取25名小夥伴

進行免費的1v1簡歷診斷

掃描下方二維碼獲取修改資格

相關焦點

  • 逐步回歸分析法及其應用
    因此,多元回歸分析在現代經濟學,尤其是其分支學科計量經濟學中常常得到應用。隨著統計學與計量經濟學軟體的開發與應用,經濟研究者在經濟學的實證分析過程中越來越多的採用逐步回歸分析的方法來建立多元回歸模型。因此,研究逐步回歸分析及其在經濟學研究中的應用具有理論與實踐意義。
  • 回歸分析篩選自變量,不推薦逐步回歸法?那我應該怎麼辦?
    」的回歸建模方法,在其中,特別關注是是否需要逐步回歸技術的問題。更重要的是,被稱為很巧妙的逐步回歸法,它基本上沒有什麼卵用!在之前,鄭老師的推文:多因素回歸要不要做逐步回歸法?美國top雜誌《內科學年鑑》給出答案。裡面說,醫學論文不要用逐步回歸法!好多朋友問我:為什麼?那我們應該用什麼方法來建模型?
  • 逐步回歸分析到底可不可靠?
    本文並不是介紹逐步回歸本身,而是說一下個人對逐步回歸的看法。後面文章再陸續說明逐步回歸的一些思想和技術。
  • 多因素回歸要不要做逐步回歸法? ​美國top雜誌《內科學年鑑》給出答案
    它裡面有一份詳細的投稿論文的統計學要求,我認為很多的東西是我們國內雜誌社應該學習的,特翻譯過來並進行解讀。 我將分為4篇推文說明內科學年鑑的統計學要求。鄭老師:自變量篩選方面,最好不是數據驅動法,無論P值<0.05,還是<0.2,納入多因素回歸,都是一種懶人的做法。1.2 逐步回歸法?這是諸位比較關心的事情。
  • 生存分析之Cox回歸
    模型結構與參數釋義可參見顏虹等主編的《醫學統計學》,如下。對此不感興趣而只關心操作和結果解讀的,可直接越過。當前筆記演示用STATA演示Cox回歸操作。STATA在進行Cox回歸分析前首先需要聲明生存時間變量,另外比例風險假定是進行Cox回歸的前提條件,需要進行考察和檢驗。
  • 乾貨|簡單理解邏輯回歸基礎
    在二元分類中,我們常常用0和1來限定y值,繼續套用上面那個分瓜的例子,我們假設x(i) 表示西瓜的特徵,那麼y就被稱作西瓜的標籤(也就是類別),y的0值往往被稱作西瓜的「負類」,1值便稱作西瓜的「正類」。有時候我們還會用「+」和「-」來代替1和0,像是在圖上的時候,這樣會表現的更清楚。
  • 第四十二講 R-逐步回歸
    於是我們引入了逐步回歸。逐步回歸的基本思想是將變量逐個引入模型,每引入一個預測變量(解釋變量)後都要進行F檢驗,並對已經選入的預測變量逐個進行t檢驗,當原來引入的預測變量由於後面預測變量的引入變得不再顯著時,則將其刪除。以確保每次引入新的變量之前回歸方程中只包含顯著性變量。
  • 講講逐步回歸
    總第178篇/張俊紅01.前言前面我們講過了多元線性回歸。這一篇我們來講講逐步回歸。什麼是逐步回歸呢?
  • 乾貨 手把手帶你入門回歸分析,兩個實例一學就會
    除了資料相互之間進行比較的統計學方法外,臨床研究中還存在另外一種情況:研究2組資料之間是否相互聯繫。先看一個具體例子: 12名大一女生體重與肺活量這裡,如果我們想要研究肺活量是否隨體重變化而變化,就要用到統計學上一種重要的統計方法:回歸分析。先看一個簡單的方程式:ŷ=a+bx。
  • R與生物專題 | 第四十八講 R-逐步回歸
    在「R與生物統計專題」中,我們會從介紹R的基本知識展開到生物統計原理及其在R中的實現。
  • 多元線性回歸、逐步回歸、邏輯回歸的總結
    做回歸分析。包括簡單多變量回歸、逐步回歸、邏輯回歸!對了,上次,用Python寫的兩篇回歸擬合分別是:基於最小二乘法的——線性回歸擬合(一)基於梯度下降法的——線性回歸擬合(二)多元回歸分析,生活中用的很多,因為一個因素可能與很多其它因素有關!言歸正傳,這裡考慮用R語言裡面的相關函數做回歸分析。
  • 統計學留學專業設置介紹
    統計學留學專業設置介紹統計學的分支其實十分多元化,統計學大致可以分為兩類,一類是偏向於理論研究的,另一類是偏向於實際應用的。前者主要包括統計系或者數學系下的統計學,後者包含數理統計、生物統計、環境統計、金融統計、經濟統計、遺傳統計、農業統計等等。
  • 乾貨 | 對數線性模型之 Logistic 回歸、SoftMax 回歸和最大熵模型
    首先以概率的方式解釋了logistic回歸為什麼使用sigmoid函數和對數損失,然後將二分類擴展到多分類,導出sigmoid函數的高維形式softmax函數對應softmax回歸,最後最大熵模型可以看作是softmax回歸的離散型版本,logistic回歸和softmax回歸處理數值型分類問題,最大熵模型對應處理離散型分類問題。
  • 中南財大乾貨分享:432統計學專業解析,了解多少?
    一、432統計學適用學院及專業學院:統計與數學學院專業:應用統計(專業學位)二、2014 — 2019年報錄比情況三、432統計學考點以及題型題型:單項選擇題、多項選擇題、簡答題、計算與分析題考點:統計學130分,佔比87%;概率論20分,佔比13%。
  • 【算法】逐步在Python中構建Logistic回歸
    2 如何用Python平臺做邏輯回歸?logistic回歸是一種機器學習分類算法,用於預測分類因變量的概率。 在邏輯回歸中,因變量是一個二進位變量,包含編碼為1(是,成功等)或0(不,失敗等)的數據。 換句話說,邏輯回歸模型基於X的函數預測P(Y = 1)。
  • 第三十一講 R-機器學習與回歸概述
    其實不然,我們比較熟悉的回歸分析,以及之前的Cox比例風險模型,都算是機器學習的範疇。只是,機器學習的範疇遠大於回歸分析。我們在生物統計學中常用的多元線性回歸分析和多元邏輯回歸分析都只是機器學習的一小部分內容。
  • Logistic回歸—初步了解10個問題
    6   Logistic回歸自變量篩選   在進行多因素logistic回歸分析時,目前國內常用方法是先進性單因素分析,將有統計學意義的自變量納入多因素分析,有經驗的研究者會將P值放大到0.2或者0.25;或者將單因素分析無統計學意義
  • 11個回歸分析方法測度原理
    傳統的化學計量學算法處理回歸建模問題在擬合訓練樣本時,要求「殘差平方和」最小,這樣將有限樣本數據中的誤差也擬合進了數學模型,易產生「過擬合」問題,針對傳統方法這一不足之處,SVR採用「ε不敏感函數」來解決「過擬合」問題,即f(x)用擬合目標值yk時,取:f(x) =∑SVs(αi-α*i)K(xi,x) 上式中αi和α*i為支持向量對應的拉格朗日待定係數,K(xi
  • 社會統計學,讓我想對2019說句MLGB!
    為了幫助廣大量化研究愛好者們都能夠快速入門統計學,讓廣大學友們都能夠少走彎路,能夠全面、系統的進行社會統計學的學習!區別效度四、多元回歸1. 多元回歸基礎2. 多元回歸運用3. 共線性診斷4. 偏相關與半偏相關5. 回歸分析法選擇6. 細膩變量的轉換與解釋五、路徑分析1. 路徑分析2.
  • Ridge 回歸和 Lasso 回歸的完整教程
    請參考一下代碼:#Initialize a dataframe to store the results:col = ['rss','intercept'] + ['coef_x_%d'%i for i in range(1,16)]ind = ['model_pow_%d'%i for i in range(1,16)]coef_matrix_simple