一圖一話87:回歸-Regression,到底是什麼

2021-02-11 非典型質量人員

最近看到好多人又在討論「六西格瑪是什麼」「如何全面實踐六西格瑪管理」等問題,個人覺得一個概念經過長時間洗禮與演化,已經與最初的「What」有了明顯的區別。不過,萬變不離其宗,追根溯源對任何一個概念與使用都是必須的。


回歸這個詞最早是被高爾頓提出的,這個人是誰呢,他是達爾文的表兄。他最著名的發現之一是發現了父親的身高和兒子的身高之間存在著某種給定的關係。通過進一步的研究發現了:事實上子輩的平均身高是其父輩平均身高以及他們所處族群平均身高的加權平均和,他把這種趨勢平均化的現象寫到了自己1886年的論文中。論文的全名叫:Regression towards Mediocrity in Hereditary Stature(連結:http://galton.org/essays/1880-1889/galton-1886-jaigi-regression-stature.pdf). 

這篇論文當年被發在了大不列顛以及愛爾蘭人類研究學院期刊上。我們現今把論文中的這種「回歸」現象稱為:均值回歸或者平庸回歸(reversion to the mean/reversion to mediocrity)

高爾頓對此研究後得出的解釋是自然界有一種約束力,使人類身高在一定時期是相對穩定的。如果父 母身高(或矮了),其子女比他們更高(矮),則人類身材將向高、矮兩個極端分化。自然界不這樣做,它讓身高有一種回歸到中心的作用。例如,父母平均身高 72 英寸,這超過了平均值68英寸,表明這些父母屬於高的一類,其兒子也傾向屬於高的一類(其平均身高71 英寸 大於子代69 英寸),但不像父母離子代那麼遠(71-69<72-68)。反之,父母平均身高64 英寸,屬於矮的一類,其兒子也傾向屬於矮的一類(其平均67 英寸,小於子代的平均數69 英寸),但不像父母離中心那麼遠(69 -67< 68-64)。

因此,身高有回歸於中心的趨勢,由於這個性質,高爾頓就把「回歸」這個詞引進到問題的討論中,這就是「回歸」名稱的由來,逐漸背後人沿用成習了。

One conspiracy theory points to the workings of a secret committee called the ICSSNN. The International Committee for Sadistic Statistical Nomenclature and Numerophobia was formed solely to befuddle and subjugate the masses. Its mission: To select the most awkward, obscure, and confusing name possible for each statistical concept.

A whistle-blower recently released the following transcript of a secretly recorded ICSSNN meeting:

"This statistical analysis seems pretty straightforward…"

「What does it do?」

「It describes the relationship between one or more 'input' variables and an 'output' variable. It gives you an equation to predict values for the 'output' variable, by plugging in values for the input variables."

「Oh dear. That sounds disturbingly transparent.」

「Yes. We need to fix that—call it something grey and nebulous. What do you think of 'regression'?」

「What’s 'regressive' about it? 

「Nothing at all. That’s the point!」

「Re-gres-sion. It does sound intimidating. I』d be afraid to try that alone.」

「Are you sure it’s completely unrelated to anything?  Sounds a lot like 'digression.' Maybe it’s what happens when you add up umpteen sums of squares…you forget what you were talking about.」

「Maybe it makes you regress and relive your traumatic memories of high school math…until you  revert to a fetal position?」

「No, no. It’s not connected with anything concrete at all.」

「Then it’s perfect!」

 「I don’t know...it only has 3 syllables. I』d feel better if it were at least 7 syllables and hyphenated.」

「I agree. Phonetically, it’s too easy…people are even likely to pronounce it correctly. Could we add an uvular fricative, or an interdental retroflex followed by a sustained turbulent trill?」

最初高爾頓"回歸"的概念和現在的已經不一樣了。前者是實際值向均值"回歸"(其實只是擬合直線斜率更靠近0);後者是實際值向預測值、擬合直線"回歸",是更符合"回歸"定義的。理論上來說,回歸就是在某些損失函數下,建立響應變量的期望與協變量之間的關係,本質上是一個優化問題。實際操作過程中,回歸就是擬合函數。這個過程是建立在,我們收集到的數據是」已有」的模型的實例,這樣一個假設下。把」已有」這個詞換個統計大牛們喜歡的高級說法就是Oracle,是不是有了宗教的感覺了……統計教材裡出現最多的就是線性模型,這主要是因為其簡單明了。你也可以換基換link function來實現非多項式回歸和非線性回歸。對於p>n的情況,你也可以考慮加懲罰項來做稀疏估計。線性模型可能不是最好的,但卻是最容易推廣的。那麼回到該問題,什麼是回歸?回歸就是人們希望從現有數據中去揣摩造物主的小心思,去擬合那些誰也不知道具體形式但又確實影響實際的」神喻」。

文章都看完了不點個 嗎

相關焦點

  • 多元回歸中partial regression plot 與partial residual plot 有何區別?
    於是我便查了一下相關材料,真是不查不知道,一查嚇一跳,原來partial regression plot (偏回歸圖)和 partial residual plot(偏殘差圖)在實際應用中已經混淆到了令人髮指的地步了。鄙人試圖通過此文,明確這種圖的原理,意義和用法的差異, 以防止大家繼續受到此問題的困擾。
  • 用R進行Lasso regression回歸分析
    glmnet是由史丹福大學的統計學家們開發的一款R包,用於在傳統的廣義線性回歸模型的基礎上添加正則項,以有效解決過擬合的問題,支持線性回歸,邏輯回歸,泊松回歸,cox回歸等多種回歸模型,連結如下https://cran.r-project.org/web/packages/glmnet/index.html對於正則化,提供了以下3種正則化的方式
  • 地理加權回歸模型(GWR, Geographically Weighted Regression)
    回歸係數隨位置發生變化,針對每個給定的位置分別進行求解。求解時確定以下三件事:確定帶寬(即以任意一點為中心,鄰域的範圍);鄰域對該點影響的大小即權重,通過核函數確定。遵循原則為越近的數據點所待估計點的權重越高;距離類型,如歐式距離。常用的核函數如下所示,其中參數b為核函數的帶寬(bandwidth)。
  • 多元回歸分析(multiple linear regression)和判別分析(discriminant analysis)
    研究多個因素間關係及具有這些因素的個體之間的一系列統計分析方法稱為多元(因素)分析。主要包括:多元線性回歸,判別分析,聚類分析,主成分分析,因子分析,典型相關,logistic 回歸,Cox 回歸。本期和下一期公眾號文章將挑選幾個常用的多元統計方法為進行介紹。
  • 偏回歸圖與偏殘差圖
    在《線性回歸中的線性考察》一文的最後,我們提到了偏回歸圖與偏殘差圖是不一樣的。
  • 簡單線性回歸(一)
    回歸分析(regression analysis )是研究一個變量如何隨另一些變量變化的方法。例如,學習成績會受努力的時間,方法,個人的智慧,教育資源等因素影響;疾病的發生與生活環境,方式,遺傳因素,自身體質等影響。常見的回歸分析有 線性回歸、非線性回歸、多重線性回歸、Logistic回歸等等。
  • 為啥一定要用殘差圖檢查你的回歸分析?
    先說殘差圖究竟是什麼鬼。殘差圖是指以殘差為縱坐標,以任何其他指定的量為橫坐標的散點圖。(上圖僅是殘差的示意圖,非殘差圖,殘差圖可見下文)用普通最小二乘法(OLS)做回歸分析的人都知道,回歸分析後的結果一定要用殘差圖(residual plots)來檢查,以驗證你的模型。你有沒有想過這究竟是為什麼?
  • SPSS超詳細操作:分層回歸(hierarchical multiple regression)
    針對這種情況,我們可以使用分層回歸分析(hierarchical multiple regression),但需要先滿足以下8項假設:那麼,進行分層回歸分析時,如何考慮和處理這8項假設呢?3.1 假設1-2假設1和假設2分別要求因變量是連續變量、自變量不少於2個。這與研究設計有關,需根據實際情況判斷。
  • 逐步回歸(stepwise regression)完整指南
    回歸是一種統計方法,可讓我們了解自變量和因變量之間的關係。逐步回歸是回歸分析中一種篩選變量的過程,我們可以使用逐步回歸從一組候選變量中構建回歸模型,讓系統自動識別出有影響的變量。理論說明逐步回歸,是通過逐步將自變量輸入模型,如果模型具統計學意義,並將其納入在回歸模型中。同時移出不具有統計學意義的變量。最終得到一個自動擬合的回歸模型。其本質上還是線性回歸。一、研究背景研究人員針對血壓與年齡,體重,體表面積,持續時間,脈搏率、壓力水平之間是否存在關係進行研究。
  • 一文讀懂多元回歸分析
    一、多元回歸分析簡介用回歸方程定量地刻畫一個應變量與多個自變量間的線性依存關係,稱為多元回歸分析(multiple linear
  • Stata: 拉索回歸和嶺回歸 (Ridge, Lasso) 簡介
    Solution path to Lasso Regression緊接著,我們使用 K 折交叉驗證的方法來選擇最佳的調整參數。Cross Validation, K=10打星號處的 λ=2688.3717,這是使 MSPE 最小的調整參數,與此對應的估計結果如下圖所示:
  • StatQuest - 正則化之嶺回歸_Ridge Regression
    問題或建議,請公眾號留言;內容目錄前言為什麼要做Ridge Regression如何去做Ridge Regression關於λ對於離散型數據對於邏輯回歸對於其他小結https://www.bilibili.com/video/BV1jE411D7YM前言之所以最近又回過頭來看統計學了,是因為TCGA系列到了最後建模的時候,需要用到lasso回歸
  • 淺談「多元線性回歸中的殘差分析」
  • 盤點10大回歸類型:總有一款深得你心
    嶺回歸需要使用如下公式來評估參數:3. 套索回歸Lasso-regression套索回歸與嶺回歸類似,但回歸係數可為0(模型中排除了一些符號)。4.邏輯回歸Logistic regression邏輯回歸廣泛應用於臨床試驗、量化,或者欺詐分析——當測試藥物或信用卡交易的信息可以二進位形式(是/否)獲得時。線性回歸固有的缺點它也有,如低誤差容忍度、依賴數據集,但總的來說,邏輯回歸更好,並且可以簡化為線性回歸類型來簡化計算。
  • 多元回歸樹分析Multivariate Regression Trees,MRT
    MRT是一種強大而可靠的分類方法,即使被劃分的變量含有缺失值,或者響應變量與解釋變量是非線性關係,或解釋變量之間存在高階相互關係,經過交叉驗證等一系列篩選過程,多元回歸樹都能夠發揮很好的預測作用。圖2. 內置蜘蛛數據的多元回歸樹分析分組結果從圖中可以看出蜘蛛數據所在的樣方被分成3組,首先被herb變量分成2組,然後第一組又被twigs變量分成了兩組。
  • 論文推薦王苗苗:無縫線性回歸與預測模型
    the errors of independent variables when predicting the corresponding dependent variables.This paper puts forward a seamless linear regression and prediction model which estimates regression parameters
  • SPSS方法|嶺回歸分析
    當自變量之間存在較強的多重共線性時,求得的多重線性回歸模型很不穩定; 尤其是某些自變量回歸係數的正負號與實際問題的專業背景不吻合時,嶺回歸分析可以很好地解決這一問題。2確定 k 值① 嶺跡圖嶺跡法主要是通過將 β( k) 的分量 βi( k) 的嶺跡畫在同一幅圖上, 從圖中選擇儘可能小的 k 值, 使得各回歸係數的嶺估計大體穩定, 即各分量在圖上的嶺跡曲線趨於平行於X 軸。
  • R筆記:多重線性回歸(二)_適用條件考察
    書接上回……我們在<<多重線性回歸(一)_模型擬合>>一文中已經建立了回歸模型lmfit
  • 用Excel求解回歸方程的3種方法:LINEST、散點圖和數據分析工具
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第四章,一元線性回歸分析。實際場景中,對需求影響的因素很多,也就是說自變量很多,很少能用單一的變量,也即一元回歸分析來做好預測。回歸分析在預測裡的應用,主要是多元回歸。
  • rlm:Robust regression by iterated reweighted least squares(IRLS)
    Outlier:在線性回歸中,離群值是具有較大殘差的觀測值。Leverage:在預測變量上具有極值的觀測值是具有高槓桿的點。槓桿是衡量一個自變量偏離其均值的程度。高槓桿點對回歸係數的估計有很大的影響。Influence:如果移除觀測結果會使回歸係數的估計發生很大的變化,那麼該觀測結果就是有影響的。影響力可以被認為是槓桿和離群值的產物。Cook’s distance:測量槓桿信息和殘差的方法。