逐步回歸分析到底可不可靠?

2021-02-18 小白學統計

本文並不是介紹逐步回歸本身,而是說一下個人對逐步回歸的看法。後面文章再陸續說明逐步回歸的一些思想和技術。下面仍是本書的內容(順便說一下,沒有意外的話,本書預計2018年1月1日出版,趕在新年第一天吧):

在多因素分析中,一個十分常見而又令初學者非常迷惑的問題就是,如何篩選有意義的影響因素。當變量較多的時候,各個變量之間的關係錯綜複雜,並不是簡單根據單因素分析結果來確定是否有統計學意義,而是需要一定的分析策略。

首先明確一個問題,什麼是變量篩選?估計很多人都會不以為然,竟然問這麼簡單的問題。好吧,我們先來舉個例子:

某研究欲分析心功能分級(自變量)與心理健康(因變量)的關係,研究者通過量表測量了心理健康得分,並評價了心功能分級,同時調查了性別、年齡、BMI、吸菸、飲酒等變量。

那現在問一下:對於這一研究,要做變量篩選嗎?

一定要注意,這裡不是變量篩選的問題,而是校正混雜因素的問題。因為研究者已經有了非常明確的研究因素(心功能分級),調查其它指標只是考慮到這些因素可能會影響自變量與因變量的真實關係,所以對其校正。所以,這種情況下就不是因素篩選。

再看另一個例子:

某研究欲分析焦慮的危險因素有哪些,研究者通過量表測量了焦慮得分,並調查了性別、年齡、體重、家庭收入、人際關係等變量。

這一研究是較為典型的變量篩選,研究者並不清楚哪些因素可能與焦慮有關,只是做一些探索性的研究,這時可以考慮變量篩選。但要注意,這時候就不要說混雜因素之類的字眼。沒有主要研究因素,何來混雜因素?

所以,在多因素分析前,一定要先明確你的研究目的。因為在統計軟體中,不管你是分析主要研究因素和混雜因素,還是所有因素都作為探索性危險因素,它們的操作都是相同的,都是把變量納入相應的界面。如果你沒有一個正確的統計分析思路指導,很容易陷入混亂,不知道該如何解釋你的結果。統計軟體給我們帶來便利的同時,也帶來了很多風險。一定要記住:統計軟體只是輔助我們計算結果而已,分析思路才是最關鍵的,如果沒有正確的分析思路,無論用什麼統計軟體,結果都只會是「garbage in,garbage out」。

關於變量篩選,我想可能很多人第一反應就是用逐步回歸法(stepwisemethod)。很多統計學教材都介紹了向前選擇法(forwardselection)、向後剔除法(backwardelimination)和逐步法三種變量篩選策略,也有不少人都為弄不懂到底該選擇哪種方法而頭疼。

這裡先說一個大是大非的問題:到底要不要用逐步回歸(包括向前法和向後法)?下面是幾位國際知名統計學家的觀點:

Andrew Gelman在回答關於逐步回歸的問題時說道:

Stepwise regression is one of thesethings, like outlier detection and pie charts, which appear to be popular amongnon-statisticans but are considered by statisticians to be a bit of a joke. Forexample, Jennifer and I don’t mention stepwise regression in our book, not evenonce.

James和McCulloch(1990)的文章提到:

Many authors have documented the folly of using stepwiseprocedures with any multivariate method,……,Clearly, stepwise regression is not able toselect from a set of variables those that are most influential.

Wilkinson(1987)用了比較強烈的語氣來表達這一觀點:

For a given data set, an automatic stepwise programcannot necessarily find:a) the best fitting model; b) the real model, or c)alternative plausible models. Furthermore, the order variables enter or leave astepwise program is usually of no theoretical significance.

我本人是不推薦使用逐步回歸的(當然並非所有統計學家都認同這一點),事實上,在我以往的書中,我基本上也不介紹逐步回歸篩選。因為逐步回歸是一種非常機械的變量篩選方式,試想,你把數據都扔到電腦裡,靠電腦給你一個專業結果,除非你的電腦已經進化到像鋼鐵俠的管家「賈維斯」一樣智能,否則聽起來確實像是一個笑話。

那為什麼我在這本書中還要專門來介紹包括逐步回歸在內的變量篩選技術呢?因為逐步回歸本身並沒有錯,統計學家之所以不推薦,不是因為逐步回歸本身的問題,而是因為逐步回歸太容易在軟體中實現,以至於缺少經驗的分析人員往往會輕易地根據這一結果做出最終結論,認為已經找到了最優模型,而事實上卻並非如此。

正如Andrew說的,儘管專業統計學家並不推薦使用逐步回歸,但在非統計專業人員中,這種方式還是非常受歡迎的,因為簡便。這裡我並不打算以專業人士的身份跟你說,你不要用逐步回歸,逐步回歸未必可靠。而是要給你一些建議,如果你採用逐步回歸,應該注意些什麼問題。

相關焦點

  • 回歸分析篩選自變量,不推薦逐步回歸法?那我應該怎麼辦?
    醫學研究,探討影響因素時(當然,也可以用於控制混雜因素,主要還是用於探討 影響因素),一般建回歸模型,用的是先單因素後多因素的方法,也就是先一個一個自變量與因變量做單因素回歸,把P值較小(比如P<0.2)納入多因素回歸模型,再結合逐步回歸法進行自變量篩選分析。
  • 男人可不可靠,感覺不會騙人
    你想真切看清一個人,或者說你想知道對方可不可靠,感覺不會騙人。在交往的過程中,女人很容易被表面的一些美妙所迷惑,從而忽略男人的不可靠。可是表面呈現得再好,也掩蓋不了不可靠帶來的傷害。女人要知道,那些肉眼看不清的東西,都會通過感覺告訴你。所以說,男人可不可靠,感覺不會騙人。
  • R數據分析:逐步回歸的做法和原理,案例剖析
    逐步法又分三種策略:前進:就是把變量按照貢獻大小一個一個的往回歸模型中放,直到所有自變量都是顯著的為止。後退:就是把所有的自變量都放進去然後把貢獻小的自變量一個一個的往出來取,直到所有的自變量都顯著。那麼模型到底怎麼選出來的呢?summary(step.model$finalModel)
  • 講講逐步回歸
    總第178篇/張俊紅01.前言前面我們講過了多元線性回歸。這一篇我們來講講逐步回歸。什麼是逐步回歸呢?
  • 多元線性回歸、逐步回歸、邏輯回歸的總結
    在這個高級語言層出不窮的年代,這樣做顯然不明智,所以我考慮用優秀的數據分析工具——R語言(不敢說最優秀,雖然心裡是這麼想的,我怕有人要罵我!)做回歸分析。包括簡單多變量回歸、逐步回歸、邏輯回歸!對了,上次,用Python寫的兩篇回歸擬合分別是:基於最小二乘法的——線性回歸擬合(一)基於梯度下降法的——線性回歸擬合(二)多元回歸分析,生活中用的很多,因為一個因素可能與很多其它因素有關!言歸正傳,這裡考慮用R語言裡面的相關函數做回歸分析。
  • 逐步回歸分析法及其應用
    文章系統介紹了逐步回歸分析,並分析了逐步回歸分析在經濟研究(建模與預測)中的應用步驟與需要注意的問題。回歸分析是用於研究多個變量之間相互依賴的關係,而逐步回歸分析往往用於建立最優或合適的回歸模型,從而更加深入地研究變量之間的依賴關係。目前,逐步回歸分析被廣泛應用於各個學科領域,如醫學、氣象學、人文科學、經濟學等。
  • 八字算命可不可靠?
    八字算命可不可靠——從邏輯後承談起葉子萱廈門大學 人文學院對於 「八字算命可不可靠」可以從中國哲學儒家角度探討所以,首先,從邏輯角度入手,要談論「八字算命可不可靠」的邏輯供理論依據:一是邏輯後承,一是邏輯後承的特徵。在了解邏輯後承及其特徵之後,再對「算命」,「八字算命」是什麼,「八字算命」對「命」怎樣提供和提供了什麼前提?最後在邏輯後承的特徵保真性,必然性以及相關性獨立性的比對中,推導出論文結論。一、邏輯後承邏輯是研究推理及其有效性的學科,主要在於提供區分有效推理與無效推理的標準。
  • 外匯託管可不可靠,外匯天眼為你揭曉
    外匯託管的平臺暴雷頻繁,外匯交易者開始疑惑外匯託管到底還可不可靠呢?  首先,外匯託管是什麼意思?正常情況下,外匯託管是指交易時間不充足或者盈利能力不高的交易者將自己的外匯帳戶交給專業公司或者職業操盤團隊託管。而受託管方會收取一定交易佣金或盈利提成作為報酬。所以對於缺乏時間或經驗、或者無法獨立做出交易決定的人來說,託管帳戶是一個不錯的選擇。
  • 北大青鳥學校可不可靠,還得看教學質量好不好?
    那麼,北大青鳥學校到底好不好,可不可靠呢?很多人選擇學校,最喜歡上網了解這家學校名氣大不大,校園環境好不好,負面信息多不多,卻往往忽略學校兩個最為重要的因素,一個就是教學質量水平如何,另一個就是畢業學員就業率如何?可能有些家長與學生會關注一下學校的師資力量水平,其實呢,對於學校老師水平如何,你在網上又能查到什麼呢?
  • 機器學習:回歸分析——多元線性回歸分析
    所以相比一元線性回歸,多元線性回歸的實際意義更大。本節我們將使用來自UIC數據集中的能效數據集(ENB2012_data.xlsx)進行演示,探索如何使用Python對數據集進行多元回歸分析。數據集中的自變量有8個,即X1~X8,因變量為Y1(供熱負荷能效)與Y2(供冷負荷能效),實例將分析8個自變量和供熱負荷能效(Y1)之間的回歸模型。
  • 統計學乾貨 I 逐步回歸
    這一篇我們來講講逐步回歸。
  • 10種 Regression 回歸分析的方法,到底該用哪個?
    到底該在什麼情況下使用哪種回歸對數據進行分析呢? 到目前為止一共存在著數百種回歸的類型。
  • 男人可不可靠,發生關係後的表現,一看便知
    但事實上,女人還需慎重考慮,男人可不可靠,發生關係後的表現,一看便知,別自欺欺人了。看他對你的態度是否會更加體貼有的男人和你在一起,不過是逢場作戲,甚至只是為了得到你而已。某些男人一開始就是懷著目的和你交往,所以在剛相處的時候,他一定會使勁渾身解數來討好你,企圖得到你的愛意。然而,當他和你發生關係之後,這個男人就會變得冷漠,還會想要遠離你。
  • Logistic回歸分析-分類因變量最常用且首先考慮的分析方法
    一、重要概念一)基本表達式 當因變量為分類變量時,最常用且首先考慮的回歸分析方法應為logistics回歸,也稱為logit回歸,因logistic回歸模型表達式為,由表達式可知logit P與變量間存在線性關係,P/(1-P)稱為發生比(odds)即觀測事件發生的概率與未發生的概率的比值。
  • 11個回歸分析方法測度原理
    而偏最小二乘法則把它們有機的結合起來了,在一個算法下,可以同時實現回歸建模(多元線性回歸)、數據結構簡化(主成分分析)以及兩組變量之間的相關性分析(典型相關分析)。 偏最小二乘法在統計應用中的重要性體現在以下幾個方面:偏最小二乘法是一種多因變量對多自變量的回歸建模方法。偏最小二乘法可以較好的解決許多以往用普通多元回歸無法解決的問題。
  • 古琴到底可不可以自學?第一彈,從概率學角度分析
    古琴到底可不可以自學?這個問題絕對沒有標準答案,但我們卻可以從以下幾個方面進行分析。首先可以用概率學的觀點來分析。從古到今,遍閱琴人琴家,自學成才者寥寥無幾。伯牙老師是成連,孔子學琴於師襄。唐代的董庭蘭學琴於陳懷古、歐陽修學琴於孫道滋。耶律楚才學琴於弭大用、苗秀實、萬松老人。
  • 一個男人可不可靠,取決於這兩個字
    其實,要想判斷一個男人可不可靠,並非一件難事,也並非沒有辦法。一個男人能不能夠給你安全感,完全不取決於他的身高。一個男人可不可靠,取決於這兩個字:心高。《簡愛》中有這樣一句話:「這世上有不少高大而窩囊的男人,當然也會有矮小而昂揚的男人。
  • R邏輯回歸逐步選擇變量的實現
    從留言內容來看,還是有很多朋友在使用R作為主要分析工具的
  • 生存分析之Cox回歸
    正如連續資料的單因素分析常用t檢驗、方差分析,對應的多因素分析是多重線性回歸,分類資料的單因素分析方法卡方分析,對應的多因素分析有logistic回歸,生存分析的常用單因素(或少數因素)的分析有Life Tables法、Kaplan-Meier法,對應的多因素模型則常用Cox回歸模型(Cox風險比例模型)。
  • 第四十二講 R-逐步回歸
    於是我們引入了逐步回歸。逐步回歸的基本思想是將變量逐個引入模型,每引入一個預測變量(解釋變量)後都要進行F檢驗,並對已經選入的預測變量逐個進行t檢驗,當原來引入的預測變量由於後面預測變量的引入變得不再顯著時,則將其刪除。以確保每次引入新的變量之前回歸方程中只包含顯著性變量。