你真的懂p值嗎? 說人話的統計學

2021-02-18 SAS中文論壇

轉自:協和八

►面對文獻裡五花八門的統計學名詞、層出不窮的測試和模型,你是否後悔當年的統計課上不該睡大覺?

►辛辛苦苦做了實驗收了數據,正想大步邁向SCI高分文章,你是否不知數據分析該如何下手?

►投出了文稿,卻等來了審稿人對統計方法似是而非的挑刺,你是否不清楚該如何應對?

►別擔心,你不是一個人在戰鬥!

►在本系列中,我們將和你一起,探討最實用、最關鍵的統計學知識和方法。我們將指出常見的統計學誤區和陷阱,回答那些你一直想問但不好意思問的問題。還會在統計學表面的蕪雜之中為你闡明最本質的思維方法。我們的目標是,讓你擁有一雙善用統計學的巧手,和一雙能辨清濫用統計學的慧眼。你會發現,成為統計達人也可以很輕鬆!

►有人說:「統計學就是個p!」此p可不像彼「屁」,可以一放了之。作為假設檢驗的核心工具,它經常決定著一個發現的價值、一篇論文的成敗。你一定忘不了做課題時為p歡喜為p憂的經歷:得到p小於0.05時欣喜若狂,得到p大於0.05時灰心喪氣。可以,你真的懂p值嗎?它到底是什麼?

►隨便翻開一本統計學課本,我們會看到這樣的定義:

p值是在假定原假設為真時,得到與樣本相同或者更極端的結果的概率。

►你的反應多半會是:「說人話!」

►好好好,那咱們來舉個例子:假設明天就要宿舍衛生檢查了,可同住一屋的藍精靈和格格巫都不想搞衛生,在一番謙(si)讓(bi)之後,格格巫掏出一塊看起來很無辜的鋼蹦兒,提議這事兒交給老天爺決定:正面藍精靈做,反面他做。被格格巫坑過或試圖坑過不止一次的藍精靈心想,這鋼蹦兒會不會不太對勁,拋出來正反面的可能性不一樣大?於是藍精靈拿到鋼蹦兒,跑到牆角自己先拋了五遍,結果傻眼了——五遍都是正面!格格巫的陰謀就這樣再一次被挫敗了……

►這事兒跟p值有半毛錢關係嗎?有!

►回到剛才你讀過的定義上,咱們來細想一下,藍精靈同學如果學過統計學的話會是怎麼考慮的。

►首先,本著疑罪從無的原則,善良的藍精靈假定格格巫的鋼蹦兒是均勻的,也就是拋出來正面和反面的概率都是0.5。這就是定義裡的「原假設」。

►而藍精靈的「樣本」是,拋5次鋼蹦兒,得到了5個正面。由於只拋了5次,不可能得到比5次更多的正面了,因此在這個例子裡不存在比樣本「更極端的結果」。

►那麼,什麼是「與樣本相同」的結果?這取決於藍精靈是否對這枚鋼蹦兒偏向某一邊有特定的假設。藍精靈想起,格格巫提出的辦法是如果反面就由他搞衛生,那就應該沒有鋼蹦兒偏向反面的可能性。所以他認為,要是這塊鋼蹦兒不均勻,就只可能偏向正面。在這種情況下,「與樣本相同的結果」就只有5次正面這一種。

►所以,如果鋼蹦兒是均勻的,連拋5次得到都是正面的概率就是0.5的5次方,也就是0.03125,這就是我們所說的p值。換句話說,這種結果得玩兒32次才會出現1次。即使不做這樣的計算,藍精靈從日常生活的經驗中,也能感覺到,對於一塊均勻的鋼蹦來說,得到這樣的結果實在不太可能了。與其相信這樣的小概率事件真的發生了,我們覺得更合理的解釋是這塊鋼蹦兒根本就不是均勻的。多小的p值算是小?在統計學中,最常用的界線是0.05,因為這個樣本對應的p值小於0.05,所以藍精靈拒絕了原假設,也就是人們常說的「具有統計學意義上的顯著性」,認為格格巫拿出了一塊偏向正面的鋼蹦兒。

好了,現在我們再念一遍p值的定義:

p值是在假定原假設為真時,得到與樣本相同或者更極端的結果的概率。

►是不是更像一點兒人話了?

►之所以費半天勁來解釋這一句話,是因為p值的定義中蘊含了顯著性檢驗的基本思維方法,這種思維方法幾乎被運用在所有主流的統計學分析之中。對它的準確理解,不僅是通向掌握各種具體的統計學測試的大門,更影響著我們對統計分析結果的解讀。

►如果你還是覺得有點繞不過來,不妨回憶一下高中數學證明題的大殺器——反證法。在反證法中,為了證明某個命題是錯誤的,我們首先假設它成立。在這個前提下,我們根據已知條件推導出與此前提或者其他公理、定理相矛盾的結論。由此我們認為,我們的假設一上來就錯了。

►根據p值進行統計推斷的思想跟反證法是一脈相承的。但是,兩者有一個關鍵的區別。由於隨機性的存在,在統計推斷中,我們無法像在反證法中一樣斬釘截鐵地認定原假設是錯誤的,我們只能根據「小概率事件在一次隨機實驗中不會發生」的原理做出能否推翻原假設的決策。

►回到藍精靈和格格巫擲鋼蹦兒的例子,即便是一塊真正均勻的鋼蹦兒,也有0.03125的概率連續出現5個正面。藍精靈之所以能夠拒絕認為鋼蹦兒均勻,並非因為他確切地知道鋼蹦兒有問題,而是他所擁有的數據非常不支持鋼蹦兒均勻的假設。換言之,藍精靈是有可能錯怪了格格巫的,只是錯怪的可能性足夠小而已。

►所以p值到底是個啥?它是基於特定假設和實際樣本進行統計推斷的一個工具。某種意義上說,p值體現了如果原假設成立,一個人看到樣本時的奇怪程度。p值越小,我們獲得的樣本在原假設成立的前提下越不可能出現。而當p值小到一定程度時,我們不得不認定,我們的前提是錯誤的,因為可能性這麼小的事件實在是太難發生了。

►如果你看完了上面這個部分,覺得已經看懂了p值的定義,可以把文章關掉了的話,我要高呼一聲:且慢!p值是目前科學界廣泛使用的主流統計學方法中最重要的一個概念,同時也可能是被誤讀最多的一個概念。翻開各學科的文獻,很容易就發現對p值的錯誤理解和表述,即便是發表在Nature、NEJM之類最頂級期刊的文章偶爾也不能免俗。所以,弄清楚p值是什麼和p值不是什麼同樣重要。下面,我們就來一起認清楚這些個大坑:

✓p值不是原假設為真的概率,也不是備選假設為假的概率

►神馬?剛才不是說p值很低的時候,拒絕原假設,認為備選假設是真的嗎?那難道不是說p值代表原假設有多真嗎?不是。這個問題最簡單的解釋是,對於任何一個假設,它為真的概率都是固定的。然而,我們已經知道p值是根據具體的樣本數據計算得出的,同樣的實驗重複做幾次,每次得到不同的樣本,p值也自然會有區別。因此,p值不可能是原假設為真或備選假設為假的概率。

►如果我們想得再深一點兒,回憶之前我們描述的顯著性檢驗的思維框架,p值越低,樣本提供的證據越不支持原假設,低到一定程度的時候我們認為原假設是假的,而備選假設是真的。p值只描述樣本與原假設的相悖程度,原假設的真與假是我們以此為根據做出的一個判斷。p值並不能描述原假設和備選假設本身為真的概率。

►那麼說,我們做實驗收數據做分析忙活兒了半天,卻依然不能知道我們的假設具體有多大可能是真的?很遺憾,對這個問題的回答是肯定的。我們今天所廣泛使用的一整套統計推斷和假設檢驗方法及其思想體系(被稱為「頻率學派」),是由活躍於上世紀的英國統計學家費希爾開創的。p值能做的,就是在特定的零假設條件下對數據特徵進行分析。但是,我們如果要對這些假設本身作出判斷,光憑數據本身還不夠,我們還需要了解現實世界中除了我們感興趣的假設以外其他假設存在的概率。實際上,假設成立與否的概率是統計學科中另一個近年來日漸受到重視的流派——貝葉斯學派——試圖解決的問題,也有不少統計學家呼籲科學界應當用貝葉斯方法補充甚至替代如今以p值為中心的方法。這些已經遠遠超出今天的主題,我們暫時就不展開討論了。

✓p值並不能代表你所發現的效應(或差異)的大小

►正如我們說過的,p值只關心數據與原假設之間有多不一致。但是,如果某種效應或差異存在,p值並不能準確地告訴我們效應的大小,更不能告訴我們這效應是否具有實際意義。比如說,我們開發了一種降血壓藥物。在臨床試驗中,我們比較受試者在服藥前後血壓的降低,得到了p值小於0.05的顯著結果。這意味著什麼呢?我們可以有信心地認為,這種藥物能夠降低受試者的血壓。但是,光從p值中,我們無法知道藥物到底能使血壓降低多少。事實上,也許藥物僅僅能夠使受試者的血壓降低微乎其微的程度(如2mm/Hg),如果我們有足夠多的受試者,我們同樣能夠得到很小的p值,但是這樣的效應並沒有顯著的臨床意義,也沒有實際的商業價值。

►因此,在科學文獻中,當我們報告統計測試的結果時,不能僅僅給出p值,還需要給出相應的效應大小(取決於具體的測試,比如均值的差、回歸係數、OR值等)及其置信區間,這樣才能使讀者更全面、準確地評估研究發現的意義。

✓為什麼是0.05?

►我們前面提到,在顯著性檢驗中,當p值小到一定程度時,我們就認為原假設不成立。可是為什麼這條線就劃在了0.05這裡?這個問題有一個很無趣的答案:這是費希爾老爺子隨口一說的。為了避免像錯怪格格巫一樣的錯誤,我們希望儘可能保守一些,因此顯著性的界限也應該比較小。但是另一方面,這個界限也不能太小,不然社會投入到科研的資源無法滿足能得到顯著性結果的樣本量。
►費希爾的隨口一說之中似乎也包含了某種神奇的直覺。有學者提出,對於過去近百年中生物醫學和社會科學(運用統計學方法最普遍的學科)研究中常見的效應大小和樣本量而言,0.05這個界限恰好在任何實驗都做不出顯著性結果和假陽性發現滿天飛之間找到了一點微妙的平衡。當然,科學研究在不斷地發展,當代的許多新領域(如基因組學)中的海量數據和測試已經對0.05這條金標準作出了挑戰,統計學家也發展出了新的對策。這裡我們先按下不表,在後續文章中將會一一道來。

►另外,0.05的存在也是「前計算機時代」的一個歷史遺留產品。九十年代以前,計算機和統計軟體還沒有被廣泛使用,人們進行統計學分析時,往往需要藉助統計學表格,把根據樣本算出的統計量與表格中的臨界值進行比較。由於篇幅所限,表格自然不能列出所有的p值,因此當時的人們都傾向於報告p<0.05的結果。隨著統計軟體的流行,如今獲得精確的p值已不是難事,人們也不再採用這樣模糊的表述了。但是0.05這個門檻兒卻成為了一種文化,被科學界保留了下來。

參考資料:

1. Reinhart, Alex. "Statistics done wrong." (2014).

2. Nuzzo, R. (2014). Statistical errors. Nature, 506(7487), 150-152.

3. Anonymous. 「Why P=0.05?」 http://www.jerrydallal.com/lhsp/p05.htm



如果您覺得我們的內容對您還有點兒用,可以嘗試長按上圖二維碼打賞我們!^_^

相關焦點

  • 算術平均數:簡單背後有乾坤 說人話的統計學·協和八
    一個人說,這個物體的真實長度是11.16cm;另外一個說,不對,我覺得應該是11.22cm。你會更願意相信哪個人?說到底,其實它和我們在第一集《你真的懂p值嗎?》(戳這裡重溫該集)裡講過的「反證法」是一回事。對真值μ的不同估計可以看成是不同的假說,而在這些假說的基礎上,我們實際得到的數據出現的概率P(數據|假說)(即似然函數likelihood)就不同,由此我們選出那個能使P(數據|假說)最大的估計值(一般記為)作為我們最願意相信的一個。
  • P值不重要!P值不重要!!P值不重要!!!
    本文首發於2016-04-28,朝花夕拾忙碌紛雜的3月和4月即將過去,在最近幾個月當中,聽到最多的一句話是「師兄,畢不了業了,p值>0.05」,「師兄,畢不了業了,結果是陰性的」,「師兄,畢不了業了,結果沒有統計學差異」,而且這些話都是帶哭腔說出來的,做夢半夜都能被嚇醒——我變成了二師兄。
  • 統計學指標P值還可信嗎?
    統計學指標P值還可信嗎? 統計作為研究方法,是許多科研結果能成立的關鍵,統計中的計算好掌握,然而統計方法的概念卻有許多陷阱,一不小心就會踏入泥沼而不可自拔。
  • 統計學白上了?Nature:800名科學家聯名反對統計學意義,放棄P值「決定論」
    正如標題所言這三位號召科學家放棄追求「統計學意義」,並且停止用統計學中常見的P值作為判斷標準。p值是指在一個概率模型中,統計摘要(如兩組樣本均值差)與實際觀測數據相同,或甚至更大這一事件發生的概率。換言之,是檢驗假設零假設成立或表現更嚴重的可能性。p值若與選定顯著性水平(0.05或0.01)相比更小,則零假設會被否定而不可接受。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    投影片上這些論點,大部分是說我們在傳統統計檢定的執行上,對 p 值有各種誤解跟誤用。現在很多人談到"p 值的危險"、"p 值的陷阱"、"p 值的誤用"、還有"p 值的誤解"。甚至有些學術期刊,也開始改變他們的編輯政策。像有本叫作 Basic and Applied Social Psychology 的心理學期刊,已經決定以後文章都不能使用 p 值,大家能夠想像嗎?
  • 怎樣理解p=0.06的統計學意義?
    如果作者拿marginally significantly p=0.06作為統計學意義的證據說事,那麼0.07行不行?如果0.07行,0.1行不行?從國際學術界的主流觀點看,Marginal association做統計就沒有意義。   網友: 心理系的主任,對統計學不一定特別了解吧。
  • 怎樣理解 p=0.06 的統計學意義?
    如果作者拿marginally significantly p=0.06作為統計學意義的證據說事,那麼0.07行不行?如果0.07行,0.1行不行?從國際學術界的主流觀點看,Marginal association做統計就沒有意義。   網友: 心理系的主任,對統計學不一定特別了解吧。
  • 統計學中一直提到的P值究竟是什麼?
    點擊上方藍字「誰說菜鳥不會數據分析」關注➕星標公眾號更多乾貨不錯過!本文轉載自:統計網結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。
  • 乾貨|統計學的P值危機
    A、P值經常被誤解,統計的顯著性不等於實際的顯著性。今年3月份Nature發表了三個統計學家的一封公開信《科學家們起來反對統計學意義》(Scientists rise up against statistical significance),標題如戰鬥檄文令人振奮。
  • 當統計學遇上大數據——P值消亡
    有一天,我走進統計學的神殿 ,將所有謊言都裝進原假設的盒子裡,        「P值為零」,        一個聲音傳來,        「但你已經不能再拒絕,因為,P值已經死了」
  • 800名科學家聯名反對統計學意義,放棄P值「決定論」!
    首先明確必須停止的事:我們不應該僅僅因為p值大於某個臨界值,比如0.05或者因為零在置信區間,而下結論說兩組之間『沒有差異』或者『沒有關聯』。他們還發現95%的置信區間跨越了從微不足道的風險降低3%到非常顯著的風險增加48%(p值為0.091)。而對比前一組,聲稱結果呈現顯著性的研究,風險比也是1.2。他們的研究只是更加精確,風險間隔區間在9%到33%之間(p值為0.0003)。
  • 隨手學統計:繞不過的 p 值
    小概率原理簡單的說就是,一個事件如果發生的概率很小的話,那麼它在一次試驗中是幾乎不可能發生的,但在多次重複試驗中幾乎是必然發生的。統計學上一般認為,事件發生概率 p < 0.05 即為小概率事件。當你為自己終於搞懂了什麼是原假設、什麼是 p 值而高興時,我們必須要在這個時候對你說一個很殘酷的事實,這麼多年來你也許把 p 值用錯了!
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。
  • 搞定統計學必知:P值、T檢驗、卡方檢驗、假設檢驗……
    結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。
  • 美國頂級學術期刊宣布禁用p值,原來p值很危險
    因為在近十多年來,不只是政治學界,而是很多學門,特別是在科學領域,有很多文章討論傳統統計檢定方法、尤其是 p 值統計檢定的問題,甚至有位很有名的統計學者,Andrew Gelman 寫了篇文章,叫作《科學的統計學危機》(The Statistical Crisis in Science),說是危機一點都不言過其實。這就是為何我說:今天要討論的其實是很嚴肅的問題。
  • 假設檢驗:使用p值來接受或拒絕你的假設
    統計學意義信心水平重要程度P值將這些概念分解成小部分,這樣你就能理解它們的動機和用途。當你讀完這些,假設檢驗的基礎知識就會很清楚了!!注意:當我們檢驗一個假設時,我們假設原假設是真的,直到樣本中有足夠的證據證明它是假的。在這種情況下,我們拒絕原假設而支持替代假設。如果樣本不能提供足夠的證據讓我們拒絕零假設,我們不能說零假設是真的,因為它僅僅基於樣本數據。零假設成立需要研究整個總體數據。
  • 大學統計學白上了?800多科學家聯名反對「統計學意義」,P值該廢了
    【考研】2019年考研調劑信息匯總,持續更新中……三位統計學家在Nature上發布公開信,號召科學家放棄追求「統計學意義」,這封公開信一周之內吸引了超過800名研究人員共同籤署。大學裡好不容易聽懂的統計學,會變成一件沒「意義」的事情嗎?
  • 【驚爆】 美國頂級學術期刊宣布禁用p值【連載1】
    因為在近十多年來,不只是政治學界,而是很多學門,特別是在科學領域,有很多文章討論傳統統計檢定方法、尤其是 p 值統計檢定的問題,甚至有位很有名的統計學者,Andrew Gelman 寫了篇文章,叫作《科學的統計學危機》(The Statistical Crisis in Science),說是危機一點都不言過其實。這就是為何我說:今天要討論的其實是很嚴肅的問題。
  • 當統計學遇上大數據——P值消亡 | 網際網路數據資訊網-199IT | 中文...
    有一天,我走進統計學的神殿 ,將所有謊言都裝進原假設的盒子裡,        「P值為零」,        一個聲音傳來,        「但你已經不能再拒絕,因為,P值已經死了」        從此,這個世界上充斥著謊言
  • 統計學 P值到底是個什麼東西
    那麼,P值到底是幹什麼的?只是上帝派來玩弄我們的嗎?它到底是真有用還是我們想的太多了?本文簡單談一下自己的一些小看法。 簡單說一下P值的歷史,P值是由統計學界最牛的人Fisher老先生(相當於物理領域的牛頓級別人物)提出並推動的,這來源於他以及以後由奈曼和皮爾遜發展的假設檢驗思想。