高爾頓對此研究後得出的解釋是自然界有一種約束力,使人類身高在一定時期是相對穩定的。如果父 母身高(或矮了),其子女比他們更高(矮),則人類身材將向高、矮兩個極端分化。自然界不這樣做,它讓身高有一種回歸到中心的作用。例如,父母平均身高 72 英寸,這超過了平均值68英寸,表明這些父母屬於高的一類,其兒子也傾向屬於高的一類(其平均身高71 英寸 大於子代69 英寸),但不像父母離子代那麼遠(71-69<72-68)。反之,父母平均身高64 英寸,屬於矮的一類,其兒子也傾向屬於矮的一類(其平均67 英寸,小於子代的平均數69 英寸),但不像父母離中心那麼遠(69 -67< 68-64)。
因此,身高有回歸於中心的趨勢,由於這個性質,高爾頓就把「回歸」這個詞引進到問題的討論中,這就是「回歸」名稱的由來,逐漸背後人沿用成習了。
One conspiracy theory points to the workings of a secret committee called the ICSSNN. The International Committee for Sadistic Statistical Nomenclature and Numerophobia was formed solely to befuddle and subjugate the masses. Its mission: To select the most awkward, obscure, and confusing name possible for each statistical concept.
A whistle-blower recently released the following transcript of a secretly recorded ICSSNN meeting:
"This statistical analysis seems pretty straightforward…"
「What does it do?」
「It describes the relationship between one or more 'input' variables and an 'output' variable. It gives you an equation to predict values for the 'output' variable, by plugging in values for the input variables."
「Oh dear. That sounds disturbingly transparent.」
「Yes. We need to fix that—call it something grey and nebulous. What do you think of 'regression'?」
「What’s 'regressive' about it?
「Nothing at all. That’s the point!」
「Re-gres-sion. It does sound intimidating. I』d be afraid to try that alone.」
「Are you sure it’s completely unrelated to anything? Sounds a lot like 'digression.' Maybe it’s what happens when you add up umpteen sums of squares…you forget what you were talking about.」
「Maybe it makes you regress and relive your traumatic memories of high school math…until you revert to a fetal position?」
「No, no. It’s not connected with anything concrete at all.」
「Then it’s perfect!」
「I don’t know...it only has 3 syllables. I』d feel better if it were at least 7 syllables and hyphenated.」
「I agree. Phonetically, it’s too easy…people are even likely to pronounce it correctly. Could we add an uvular fricative, or an interdental retroflex followed by a sustained turbulent trill?」
最初高爾頓"回歸"的概念和現在的已經不一樣了。前者是實際值向均值"回歸"(其實只是擬合直線斜率更靠近0);後者是實際值向預測值、擬合直線"回歸",是更符合"回歸"定義的。理論上來說,回歸就是在某些損失函數下,建立響應變量的期望與協變量之間的關係,本質上是一個優化問題。實際操作過程中,回歸就是擬合函數。這個過程是建立在,我們收集到的數據是」已有」的模型的實例,這樣一個假設下。把」已有」這個詞換個統計大牛們喜歡的高級說法就是Oracle,是不是有了宗教的感覺了……統計教材裡出現最多的就是線性模型,這主要是因為其簡單明了。你也可以換基換link function來實現非多項式回歸和非線性回歸。對於p>n的情況,你也可以考慮加懲罰項來做稀疏估計。線性模型可能不是最好的,但卻是最容易推廣的。那麼回到該問題,什麼是回歸?回歸就是人們希望從現有數據中去揣摩造物主的小心思,去擬合那些誰也不知道具體形式但又確實影響實際的」神喻」。文章都看完了不點個 嗎