作者:掛枝兒 原文:https://zhuanlan.zhihu.com/p/110886609
我們在做邏輯回歸或是其他線性模型的時候,經常會遇到一個模型衡量指標叫做
,網上很多一個普遍的解釋是:
表達了2個變量間關係的解釋程度百分比程度 / 擬合曲線對於模型variance的減少百分比
用一個例子來理解一下。下圖有藍色的樣本分布點,紅線是我們的擬合曲線,灰線是平均值曲線
R方的公式是:
上圖中分母和分子的左側從數字上,可以理解為樣本點到均值線的差平方和。分子的右側代表預測結果與樣本均值差的平方和。根據圖像,我們其實可以將:
分子理解成:
樣本標籤本身的var - 將模型結果納入考量後的var
分母理解成:
不考慮預測結果,樣本標籤本身的var
如果我們的擬合曲線與模型均值相同,那麼我們的
=0,也就是說模型對於樣本毫無解釋能力,如果去藍線的話,
將是一個非常接近於81%的數字,代表藍線為均值線減少了81%的variance,模型結果可以解釋81%的樣本結果。
但需要注意的是,
並不能指定強關聯的方向性,也就是說可能是正向的也可能是反向的。
那麼邏輯回歸的
是怎麼回事呢?回歸問題可以用量化的方差來計算,邏輯回歸怎麼計算呢?怎麼定義
呢?
我們用LL(Over Probabilty)來代替上式的var(mean)
LL(Over Probabilty)的計算方式是:
得到概率後,我們將結果根據樣本量log求和即可:
最後就可以計算
R^2的指標就介紹到這裡,這是一個很好的量化模型結果對於響應變量解釋程度的指標,那麼接下來,我們怎麼知道這個是不是隨機造成造成的呢?怎麼樣確信這個結果不是偶然?
該F檢驗和P值出場了我其實一開始只想知道p-value在線性方程組裡是怎麼計算出來了,後來查到了是必須要通過F值才能夠得到.F檢驗的公式形象化的理解就是:
pfit-pmean可以叫做:自由度,其實就是擬合方程的係數量-平均值的係數量(一般就是1)
n-pfit就是樣本量數量-擬合方程的係數數量。要減去pfit的原因是隨著你方程中的係數項越多,你也需要更多的樣本數量才能夠去擬合方程。比如你需要2個點才能確定一條直線,3個點來確定一個平面。
從上面的式子也看得出,這是一個分子大分母就小,分子小分母就大的式子,我甚至覺得長得有點像odds....
那麼這個式子又怎麼得到我們的P值呢?
P值是檢驗樣置信度的一個指標,一般我們認為p
我們可以古典查表法,當然實務肯定也是用Python模塊計算
總結:
R^2可以量化模型響應變量與因變量間的關係強弱p-value檢驗可以決定擬合方程的可靠程度。
—END—