從R方談到平方和分解,談到OLS是在幹啥...

2021-02-08 Qpac


其實首先的問題來源於,


OLS中的R^2可以小於0嗎 


前幾天一些原因被這個問題困倒(ง •_•)ง...



嗯。有可能!


因此想要先說說總平方和的分解,畢竟



這裡,SSR是殘差平方和,SST是總平方和。也就是R^2代表的是模型解釋的部分佔方差的多少比例。


最理想的情況,若完全沒有殘差,模型完美擬合,那麼R^2=1;最差的情況,如果回歸模型就是被解釋變量的均值。那其實完全沒有解釋力,殘差平方和等於總平方和,R^2=0。


當然,這裡是說有截距項的回歸模型!如果沒有截距,就有可能小於0。


繞回來,到底怎麼對總平方和進行分解。


說起下面這個多元回歸模型,它表示有n個樣本,p個解釋變量(包括截距)。

那麼,根據OLS估計殘差的性質,即殘差與Y^正交,可以得到下式。

即,

由於殘差均值為0,其和也為0。因此,

故,

即,

SST,SSE,SSR均大於等於0。至此,應該說R^2是不會小於0的。


但是在過原點回歸中,殘差均值可能並不為0。這會導致SST≠SSE+SSR。甚至可能SSR>SST。這就可能使R^2<0。



其實一般而言,無特殊情況,模型都是建議加上截距項的。舉個慄子,下面這種情況過原點回歸和有截距項的回歸就完全不一樣,甚至回歸係數是相反的。直觀從數據上看,過原點回歸顯然也不太合理。



不過剛剛進行分解的時候,一開始就用到了殘差與Y^正交的結論。因此又想到,


殘差為什麼與Y^正交?



理解這個問題,我們就可以更好理解OLS到底幹的是一件啥事。讓我們通過幾何的方式去理解。


先上結論,本質上說,OLS是使得Y被投影到由X的列張成的超平面上從而得到Y^。這樣,||Y-Y^||^2最小,即滿足最小二乘。



接下來解釋為什麼...上圖其實是一個簡化版的圖,在三維空間中比較好展示。我們先說說一般情況,如下圖,

Y^這個n維向量其實是X的列的線性組合,且X是給定的,因此方程其實是說,Y^就在X的列張成的超平面上。由於p<n(一般而言要求樣本量大於解釋變量數),且X的列線性無關(不然就有多重共線性),因此X的列張成的超平面其實是n維線性空間上的一個p維子空間。並且,可以理解,該超平面過原點(係數全為0那麼Y^就為0)。


因此,上上面那張三維的圖其實可以理解為是n=3,p=2的情況。三個坐標軸分別代表y_1,y_2,y_3,而Y^一定在一個過原點的超平面上。因此,如果想要達到最小二乘的目標,其實只需要把Y投影到由X的列張成的超平面上,並得到Y^。這樣,||Y-Y^||^2便達到最小,即Y-Y^垂直於該超平面。因此,Y-Y^顯然與Y^正交;由於Y^是X的線性組合,因此同時也與X正交。


也就是說,OLS使得估計出的殘差與解釋變量不相關,也與Y^不相關。


當然也還可以從正規方程的角度理解這事


最小二乘的解滿足如下正規方程,

也即,

因此,Y^其實就是投影矩陣P乘Y,這即是剛剛說到的投影的含義。

另外,移項就會發現,正規方程其實也與如下方程等價,

這其實也是說,殘差與解釋變量正交,也與Y^正交。這就與上文呼應!





參考資料


[1]http://staff.ustc.edu.cn/~zwp/teach/MVA/Lec9_slides.pdf


[2]http://mezeylab.cb.bscb.cornell.edu/labmembers/documents/supplement%205%20-%20multiple%20regression.pdf



相關焦點

  • 聽說,談到查詢,MATCH和INDEX更配哦!
    我們在上一期講VLOOKUP的時候提到了MATCH和INDEX的組合應用,本篇我們就來具體講解一下這對好基友,是怎麼保持這麼多年好友誼的。我們經常在平時的聊天中聽到別人講XX和XXmatch不match,開門見山,我們來一起看看MATCH到底是啥意吧。
  • 回歸分析中R方和調整R方的區別
    而且,我遇到了兩個重要的指標:除了MAE/MSE/RMSE,有R方和調整R方。這兩者有什麼區別?我應該用哪一個?R方和調整R方是兩個評估指標,對於任何一個數據科學的追求者來說,這兩個指標可能會讓他們感到困惑。它們對評估回歸問題都非常重要,我們將深入了解和比較它們。它們各有利弊,我們將在本文中詳細討論。
  • 親人之間,談到錢就傷感情;情人之間,談到感情就傷錢
    親人之間,談到錢就傷感情;情人之間,談到感情就傷錢1:多一些經歷並不是壞事,能熬過現在這些時刻,都感謝曾經最難熬的那段日子。5:這個世界,你不努力,任何機會都和你沒有半毛錢的關係!男人不努力,一輩子做苦力,女人不努力,一輩子受委屈。6:我想你了,是那種打電話也解決不了的想,是那種一輩子都開不了口的想;真愛就像鬼,聽說的人多,遇見的人少,在這個世界上,唯一不會背叛你的,只有自己的父母和口袋裡的錢。
  • 為什麼萬有引力和距離的平方成反比,就是R方在分母上
    為什麼萬有引力和距離的平方成反比,就是R方在分母上1.對萬有引力而言,元素有這麼幾個。3.顯然,萬有引力要和質量成正比。3.1即F=C*m*M,C為常數。4.直觀F=GmM與半徑R有一個函數關係。4.1最簡單的函數關係就是正比和反比。4.2考慮反比,但是是幾次方呢?
  • 奇異值分解及其應用
    兩者有著很緊密的關係,我在接下來會談到,特徵值分解和奇異值分解的目的都是一樣,就是提取出一個矩陣最重要的特徵。先談談特徵值分解吧:特徵值如果說一個向量v是方陣A的特徵向量,將一定可以表示成下面的形式:總結一下,特徵值分解可以得到特徵值與特徵向量,特徵值表示的是這個特徵到底有多重要,而特徵向量表示這個特徵是什麼,可以將每一個特徵向量理解為一個線性的子空間,我們可以利用這些線性的子空間幹很多的事情。不過,特徵值分解也有很多的局限,比如說變換的矩陣必須是方陣。奇異值下面談談奇異值分解。
  • 都可以表示「提到、談到」,refer to和mention之間有什麼區別?
    英語思維之細品單詞系列今天我們要細品的單詞是「mention」和「refer to」。我們先來看一下「mention」的詞典解釋:mention [menn] vt.提到,談到;提及,論及;說起例句:1. Sorry, I won't mention it again.對不起,我再也不提它了。2. Did she mention where she was going?
  • R語言和Python實現回歸分析
    r的取值範圍是[-1,1],r=1表示完全正相關!r=-1表示完全負相關!r=0表示完全不相關。為什麼要對相關係數進行顯著性檢驗?最小二乘法是一種數學優化技術,它通過最小化誤差的平方和尋找數據的最佳函數匹配。
  • e度名師指導:從分數的乘除法談到計算內功的修煉
    下面是重慶奧數網編輯整理的重慶學而思名師分享的從分數的乘除法談到計算內功的修煉,供大家參考。     分解質因數是孩子們面臨的主要困難。     體現在:     1.孩子們在約分的時候,如果分母恰好是分子的倍數,這時他們都能做對,因為他們習慣的是做除法。但是當分子和分母沒有倍數關係而是一般的非互質情況的時候,他們就不能正確面對了。
  • 一文讓你通俗理解奇異值分解
    兩者有著很緊密的關係,接下來會談到特徵值分解和奇異值分解的目的都是一樣,就是提取出一個矩陣最重要的特徵。先談特徵值分解。1.1 特徵值 如果說一個向量v是方陣A的特徵向量,將一定可以表示成下面的形式:總結一下,特徵值分解可以得到特徵值與特徵向量,特徵值表示的是這個特徵到底有多重要,而特徵向量表示這個特徵是什麼,可以將每一個特徵向量理解為一個線性的子空間,我們可以利用這些線性的子空間幹很多的事情。不過,特徵值分解也有很多的局限,比如說變換的矩陣必須是方陣。下面我們就可以自然過渡到奇異值分解的引入。
  • 強大的矩陣奇異值分解(SVD)及其應用
    在上篇文章中便是基於特徵值分解的一種解釋。特徵值和奇異值在大部分人的印象中,往往是停留在純粹的數學計算中。而且線性代數或者矩陣論裡面,也很少講任何跟特徵值與奇異值有關的應用背景。奇異值分解是一個有著很明顯的物理意義的一種方法,它可以將一個比較複雜的矩陣用更小更簡單的幾個子矩陣的相乘來表示,這些小矩陣描述的是矩陣的重要的特性。
  • 歐文談到自己和杜蘭特的組合:我們就像7-11便利店
    虎撲12月15日訊 今日,籃網球員凱裡-歐文接受媒體採訪,在談到自己和杜蘭特的關係時說道:「這將是一場全新的表演。我們將在這裡建立和衝擊無數的榮譽,而這只是開始,這其中就包括7-11。」7-11這裡指的是凱裡·歐文和凱文·杜蘭特的球衣號碼,歐文希望他們能像每個人都喜歡的便利店7-11一樣提供給大家想要的。上賽季常規賽,歐文場均出場32.9分鐘,可以得到27.4分5.2籃板6.4助攻1.4搶斷。
  • 對比R語言和Python,教你實現回歸分析
    r的取值範圍是[-1,1],r=1表示完全正相關!r=-1表示完全負相關!r=0表示完全不相關。為什麼要對相關係數進行顯著性檢驗?最小二乘法是一種數學優化技術,它通過最小化誤差的平方和尋找數據的最佳函數匹配。
  • Guazar談到了「視頻門」事件
    說到谷阿扎,LPL的觀眾一定不陌生,為了吸引觀眾,虎牙平臺在LPL2平臺上安裝了這樣一個女主播,由於某些部分傲慢自大,LPl的觀眾親切地稱她為「球王」,而備受關注的顧阿扎一躍成為LP和虎牙平臺上最受歡迎的女性主持人也全力支持她,她的身影在很多電子競技節目中都能看到。
  • 趙麗穎談到了網絡評價,心態真的是respect,一直活得很清醒!
    趙麗穎在雜誌採訪中談到了網絡評價,短暫的沉默後笑著說道,「出道十多年了,如果我老在糾結這個問題,你說我還幹不幹了?如果接受不了,就不要幹了。每個藝人站在聚光燈下為世人表演,就逃不開大家的建議和看法,褒貶不一,有擁戴支持聲,就不乏貶低吐槽聲。通透清醒,淡然灑脫,靠作品說話,馳騁演藝圈十餘年,有如今的底氣和輝煌,都是她用努力換來的。走紅離不開運氣,但是如果能長紅,那必然是各方面都十分優秀,而趙麗穎便是傑出代表。
  • 通俗易懂的講解奇異值分解(SVD)和主成分分析(PCA)
    我們可以通過矩陣乘積(AA和AA)的方式從方程的兩邊來分別消除V和U來獲得,具體方法如下:這些步驟看起來是不是很熟悉…的確,通過對對稱矩陣AA和AA進行奇異值分解,這個結果看起來幾乎與對對稱矩陣進行特徵分解是相同的
  • 普拉蒂尼給弗格森的表彰信,談到了梅西,被曼徹斯特大學校刊收錄
    普拉蒂尼給弗格森的表彰信,談到了梅西,被曼徹斯特大學校刊收錄 作者:老同事說事雖然弗格森從來不是正兒八經的大學生
  • 老司機談到東契奇:我將在達拉斯有一尊雕像,他喜歡給自己拍照
    獨行俠傳奇明星德克-諾維茨基參加了一個電視節目,老司機談到了他的繼任者東契奇。諾維茨基說東契奇是獨行俠的未來,他的才華將使他能夠領導獨行俠繼續創造的榮耀,並說了一些軼事。談到這位後起之秀,諾維茨基說得比老闆庫班還多。
  • 吳亦凡接受採訪被問當初退團EXO原因,還談到了和前團員的關係
    最近,吳亦凡美國接受電臺採訪,主持人談到現在K-POP很火,問吳亦凡是什麼原因讓他決定離開韓國,然後獨自摸索著來美國做自己喜歡的音樂:吳亦凡回答說:「首先,我不是韓國人,我是中國人,所以韓國不是我的家。」他還坦言說,在那裡工作,有時候會覺得有些壓力。
  • 【回歸分析】R、R平方與調整後的R平方
    二、R平方,判定係數。判定係數,又叫決定係數,是指在線性回歸中,回歸可解釋離差平方和與總離差平方和之比值,其數值等於相關係數R的平方。全部期間點的回歸可解釋離差平方和除以總離差平方和,即為判定係數R平方。不過,判定係數不用這麼複雜計算,直接將相關係數R進行平方即可。判定係數是一個解釋性係數,在回歸分析中,其主要作用是評估回歸模型對因變量y產生變化的解釋程度,也即判定係數R平方是評估回歸模型好壞的指標。
  • EXCEL分解混合成本
    量本利分析是企業研究成本、產銷量與利潤之間依存關係和變化規律的重要手段。但量本利分析的前提是應用變動成本法,按成本性態將混合成本(全部成本)分解為變動成本和固定成本兩部分。混合成本分解的方法通常有技術測定法、會計法、高低點法、散布圖法和線性回歸法。