機器學習與統計學:R方代表什麼?和P值的關係是什麼?

2020-11-21 騰訊網

作者:掛枝兒 原文:https://zhuanlan.zhihu.com/p/110886609

我們在做邏輯回歸或是其他線性模型的時候,經常會遇到一個模型衡量指標叫做

,網上很多一個普遍的解釋是:

表達了2個變量間關係的解釋程度百分比程度 / 擬合曲線對於模型variance的減少百分比

用一個例子來理解一下。下圖有藍色的樣本分布點,紅線是我們的擬合曲線,灰線是平均值曲線

R方的公式是:

上圖中分母和分子的左側從數字上,可以理解為樣本點到均值線的差平方和。分子的右側代表預測結果與樣本均值差的平方和。根據圖像,我們其實可以將:

分子理解成:

樣本標籤本身的var - 將模型結果納入考量後的var

分母理解成:

不考慮預測結果,樣本標籤本身的var

如果我們的擬合曲線與模型均值相同,那麼我們的

=0,也就是說模型對於樣本毫無解釋能力,如果去藍線的話,

將是一個非常接近於81%的數字,代表藍線為均值線減少了81%的variance,模型結果可以解釋81%的樣本結果。

但需要注意的是,

並不能指定強關聯的方向性,也就是說可能是正向的也可能是反向的。

那麼邏輯回歸的

是怎麼回事呢?回歸問題可以用量化的方差來計算,邏輯回歸怎麼計算呢?怎麼定義

呢?

我們用LL(Over Probabilty)來代替上式的var(mean)

LL(Over Probabilty)的計算方式是:

得到概率後,我們將結果根據樣本量log求和即可:

最後就可以計算

R^2的指標就介紹到這裡,這是一個很好的量化模型結果對於響應變量解釋程度的指標,那麼接下來,我們怎麼知道這個是不是隨機造成造成的呢?怎麼樣確信這個結果不是偶然?

F檢驗和P值出場了我其實一開始只想知道p-value在線性方程組裡是怎麼計算出來了,後來查到了是必須要通過F值才能夠得到.F檢驗的公式形象化的理解就是:

pfit-pmean可以叫做:自由度,其實就是擬合方程的係數量-平均值的係數量(一般就是1)

n-pfit就是樣本量數量-擬合方程的係數數量。要減去pfit的原因是隨著你方程中的係數項越多,你也需要更多的樣本數量才能夠去擬合方程。比如你需要2個點才能確定一條直線,3個點來確定一個平面。

從上面的式子也看得出,這是一個分子大分母就小,分子小分母就大的式子,我甚至覺得長得有點像odds....

那麼這個式子又怎麼得到我們的P值呢?

P值是檢驗樣置信度的一個指標,一般我們認為p

我們可以古典查表法,當然實務肯定也是用Python模塊計算

總結:

R^2可以量化模型響應變量與因變量間的關係強弱p-value檢驗可以決定擬合方程的可靠程度。

—END—

相關焦點

  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。2,統計學意義(P值或sig值) 結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。
  • StatQuest生物統計學 - 線性擬合的R2和p值
    數據擬合後的效果由兩個參數來衡量:一個是R2,另一個是p值。R2是擬合所能解釋的數據波動的比例由於隨機誤差和變量效應的存在,對於任何任何測定數據相應變量Y,它的值都可以由變量效應X以及隨機誤差來表示:Y=X+Error或者Y=X1+X2+X3+...+Error。
  • 統計學中的P值與顯著性的意義
    一、P值是什麼?
  • 統計學中p值的含義和顯著差異性分析
    統計學意義(p值)結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成的。
  • 你真的懂p值嗎? 說人話的統計學
    ►辛辛苦苦做了實驗收了數據,正想大步邁向SCI高分文章,你是否不知數據分析該如何下手? ►投出了文稿,卻等來了審稿人對統計方法似是而非的挑刺,你是否不清楚該如何應對?►別擔心,你不是一個人在戰鬥!►在本系列中,我們將和你一起,探討最實用、最關鍵的統計學知識和方法。我們將指出常見的統計學誤區和陷阱,回答那些你一直想問但不好意思問的問題。
  • 當統計學遇上大數據——P值消亡
    為什麼P值沒有達到人們的期望?它的問題到底在哪?現在和數說君一起來梳理一下P值和假設檢驗的歷史,並從中尋找答案吧。二、P值和假設檢驗的歷史1.KarlPearson        很多統計學家誤以為關於P值的正式文獻是費雪發表的,其實不然,最早在文獻中正式闡述P值及其計算的,是統計學家Karl Pearson,你可能不了解他,但是他的Pearson卡方檢驗你一定知道,這篇關於卡方檢驗的文章當時被發表在《哲學雜誌》上,文章中一同被介紹的,還有一個被叫做「P值」的東東,見史料。
  • 驚爆| p值不是什麼?【連載3】
    點擊查看 【引言】昨日轉載美國德州大學奧斯汀校區政府系林澤民教授2016年在臺灣政大社科院的演講《看電影學統計:p值的陷阱》,他首先講的p值是什麼?今天刊出的是p值不是什麼?由於這部分的文字比較長,將分三期刊出。
  • P值之死|當統計學遇上大數據
    為什麼P值沒有達到人們的期望?它的問題到底在哪?現在和數說君一起來梳理一下P值和假設檢驗的歷史,並從中尋找答案吧。二、P值和假設檢驗的歷史1.KarlPearson很多統計學家誤以為關於P值的正式文獻是費雪發表的,其實不然,最早在文獻中正式闡述P值及其計算的,是統計學家Karl Pearson,你可能不了解他,但是他的Pearson卡方檢驗你一定知道,這篇關於卡方檢驗的文章當時被發表在《哲學雜誌》上,文章中一同被介紹的,還有一個被叫做「P值」的東東,見史料。
  • 機器學習算法一覽(附python和R代碼)
    不過,這篇文章並沒有闡述這些算法背後的統計學原理,有時候從實踐入手也是很好的學習路徑。如果你希望了解的是這些統計學原理,那麼這篇文章的內容可能並不適合你。 一般說來,機器學習有三種算法: 1.這個孩子其實是認為身高和體格與人的體重有某種相關。而這個關係就像是前一段的Y和X的關係。
  • f檢驗的p值大於 - CSDN
    F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。2,統計學意義(P值或sig值)結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯 是總體中各變量關聯的可靠指標。
  • f檢驗求p值 - CSDN
    F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。2,統計學意義(P值或sig值)結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯 是總體中各變量關聯的可靠指標。
  • 乾貨|統計學的P值危機
    A、P值經常被誤解,統計的顯著性不等於實際的顯著性。今年3月份Nature發表了三個統計學家的一封公開信《科學家們起來反對統計學意義》(Scientists rise up against statistical significance),標題如戰鬥檄文令人振奮。
  • 統計學的卡方檢驗方法是什麼呢?用幾個生活實例帶你揭秘!
    作者 | 文文醬的數據課堂 來源 | 知乎專欄 卡方檢驗,統計學的方法,現在機器學習看變量的時候也會用到。 很多不知道的人,一聽到這個名詞,會馬上聯想到,啊?還要拿張卡來檢驗嗎?
  • 隨手學統計:繞不過的 p 值
    原假設:我們認為品茶女士沒有品茶能力觀察結果:品茶女士把 8 杯茶都品了出來p 值:0.014這裡 p 值代表的含義是:如果品茶女士沒有品茶能力,那麼她品出 8 杯茶的概率是0.014。對,這個 p 值(概率)很小很小!
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    今天談的當然是不一樣的題目,雖然它是一個很重要、很嚴肅的題目,但我希望大家可以輕鬆一點,所以也要放兩部電影片段給大家看,一部是《玉蘭花》,另一部則是《班傑明的奇幻旅程》,這兩部電影都有助於我們來了解今天要談論的主題:p 值的陷阱。  科學的統計學危機:p 值有什麼問題?  為什麼要談論 p 值的問題?
  • 當統計學遇上大數據——P值消亡 | 網際網路數據資訊網-199IT | 中文...
    為什麼P值沒有達到人們的期望?它的問題到底在哪?現在和數說君一起來梳理一下P值和假設檢驗的歷史,並從中尋找答案吧。二、P值和假設檢驗的歷史1.KarlPearson        很多統計學家誤以為關於P值的正式文獻是費雪發表的,其實不然,最早在文獻中正式闡述P值及其計算的,是統計學家Karl Pearson,你可能不了解他,但是他的Pearson卡方檢驗你一定知道,這篇關於卡方檢驗的文章當時被發表在《哲學雜誌》上,文章中一同被介紹的,還有一個被叫做「P值」的東東,見史料。
  • 機器學習才不只是統計學的美化!
    然而,機器學習真的只是被美化的統計學嗎?哈佛大學數據科學碩士、機器學習從業者Joe Davison認為,遠不止如此。他從統計學和機器學習分別出發,對比了兩者的不同之處,希望讓人們正確認知機器學習和人工智慧。這篇博客在海外科技網站Medium上獲得了超過7.4k的認同。
  • 【統計學】讓人糾結的P值
    關於統計學的爭議最多的就是P值,就是這個大寫斜體的P值。無數文章曾經都寫過這個「無效假設檢驗」話題。無效假設檢驗是統計學的基本原理和基石,是指根據於某種實際需要,對未知的或不完全知道的統計總體提出一些假設。然後由樣本的實際結果,經過一定的計算,作出在概率意義上應當接受那種假設的測驗。一般的描述是,你假設兩組處理是不同的,然後用檢測數據進行統計學計算(經常說分析)。
  • 統計學 P值到底是個什麼東西
    那麼,P值到底是幹什麼的?只是上帝派來玩弄我們的嗎?它到底是真有用還是我們想的太多了?本文簡單談一下自己的一些小看法。 簡單說一下P值的歷史,P值是由統計學界最牛的人Fisher老先生(相當於物理領域的牛頓級別人物)提出並推動的,這來源於他以及以後由奈曼和皮爾遜發展的假設檢驗思想。
  • 卡方檢驗和精確概率法及兩兩比較
    如果不服從正態分布,採用中位數(四分位數間距)進行統計描述,組間比較採用非參數檢驗(Kruskal-Wallis秩和檢驗),當組間總的有統計學差異,進一步採用Dunn法(也可以是其它方法)進行多重比較。