本文並不是介紹逐步回歸本身,而是說一下個人對逐步回歸的看法。後面文章再陸續說明逐步回歸的一些思想和技術。下面仍是本書的內容(順便說一下,沒有意外的話,本書預計2018年1月1日出版,趕在新年第一天吧):
在多因素分析中,一個十分常見而又令初學者非常迷惑的問題就是,如何篩選有意義的影響因素。當變量較多的時候,各個變量之間的關係錯綜複雜,並不是簡單根據單因素分析結果來確定是否有統計學意義,而是需要一定的分析策略。
首先明確一個問題,什麼是變量篩選?估計很多人都會不以為然,竟然問這麼簡單的問題。好吧,我們先來舉個例子:
某研究欲分析心功能分級(自變量)與心理健康(因變量)的關係,研究者通過量表測量了心理健康得分,並評價了心功能分級,同時調查了性別、年齡、BMI、吸菸、飲酒等變量。
那現在問一下:對於這一研究,要做變量篩選嗎?
一定要注意,這裡不是變量篩選的問題,而是校正混雜因素的問題。因為研究者已經有了非常明確的研究因素(心功能分級),調查其它指標只是考慮到這些因素可能會影響自變量與因變量的真實關係,所以對其校正。所以,這種情況下就不是因素篩選。
再看另一個例子:
某研究欲分析焦慮的危險因素有哪些,研究者通過量表測量了焦慮得分,並調查了性別、年齡、體重、家庭收入、人際關係等變量。
這一研究是較為典型的變量篩選,研究者並不清楚哪些因素可能與焦慮有關,只是做一些探索性的研究,這時可以考慮變量篩選。但要注意,這時候就不要說混雜因素之類的字眼。沒有主要研究因素,何來混雜因素?
所以,在多因素分析前,一定要先明確你的研究目的。因為在統計軟體中,不管你是分析主要研究因素和混雜因素,還是所有因素都作為探索性危險因素,它們的操作都是相同的,都是把變量納入相應的界面。如果你沒有一個正確的統計分析思路指導,很容易陷入混亂,不知道該如何解釋你的結果。統計軟體給我們帶來便利的同時,也帶來了很多風險。一定要記住:統計軟體只是輔助我們計算結果而已,分析思路才是最關鍵的,如果沒有正確的分析思路,無論用什麼統計軟體,結果都只會是「garbage in,garbage out」。
關於變量篩選,我想可能很多人第一反應就是用逐步回歸法(stepwisemethod)。很多統計學教材都介紹了向前選擇法(forwardselection)、向後剔除法(backwardelimination)和逐步法三種變量篩選策略,也有不少人都為弄不懂到底該選擇哪種方法而頭疼。
這裡先說一個大是大非的問題:到底要不要用逐步回歸(包括向前法和向後法)?下面是幾位國際知名統計學家的觀點:
Andrew Gelman在回答關於逐步回歸的問題時說道:
Stepwise regression is one of thesethings, like outlier detection and pie charts, which appear to be popular amongnon-statisticans but are considered by statisticians to be a bit of a joke. Forexample, Jennifer and I don’t mention stepwise regression in our book, not evenonce.
James和McCulloch(1990)的文章提到:
Many authors have documented the folly of using stepwiseprocedures with any multivariate method,……,Clearly, stepwise regression is not able toselect from a set of variables those that are most influential.
Wilkinson(1987)用了比較強烈的語氣來表達這一觀點:
For a given data set, an automatic stepwise programcannot necessarily find:a) the best fitting model; b) the real model, or c)alternative plausible models. Furthermore, the order variables enter or leave astepwise program is usually of no theoretical significance.
我本人是不推薦使用逐步回歸的(當然並非所有統計學家都認同這一點),事實上,在我以往的書中,我基本上也不介紹逐步回歸篩選。因為逐步回歸是一種非常機械的變量篩選方式,試想,你把數據都扔到電腦裡,靠電腦給你一個專業結果,除非你的電腦已經進化到像鋼鐵俠的管家「賈維斯」一樣智能,否則聽起來確實像是一個笑話。
那為什麼我在這本書中還要專門來介紹包括逐步回歸在內的變量篩選技術呢?因為逐步回歸本身並沒有錯,統計學家之所以不推薦,不是因為逐步回歸本身的問題,而是因為逐步回歸太容易在軟體中實現,以至於缺少經驗的分析人員往往會輕易地根據這一結果做出最終結論,認為已經找到了最優模型,而事實上卻並非如此。
正如Andrew說的,儘管專業統計學家並不推薦使用逐步回歸,但在非統計專業人員中,這種方式還是非常受歡迎的,因為簡便。這裡我並不打算以專業人士的身份跟你說,你不要用逐步回歸,逐步回歸未必可靠。而是要給你一些建議,如果你採用逐步回歸,應該注意些什麼問題。