計算個「P值」,咱也不太懂,咱也不敢信

2020-12-13 中國小麥研究聯盟

在我們之前的推送中,展示過一個「P值可能具有誤導性」的例子:三位同學對同一基因在兩組樣本中的表達量的差異進行測定分析;其中,兩位同學的結論是差異不顯著,另一位同學的結論與它們相反(三個實驗重複夠嗎?再談「error bar「。)。當增加了樣本數量後,t檢驗計算的到的P值具有顯著性。這個例子反映出:對於方差較大的分布,採樣個數不足夠多時,「本來顯著差異」的兩組樣本可能得到「並不顯著的P值」。

相反的,我們還常常遇到這樣的情況:對於來自相同分布的兩組樣本,如果很多次採集數據並進行假設檢驗,「本不應顯著的」兩組樣本也會出現P值很小的「顯著結果」(「P-hacking」)。如下圖,我們對來自相同正態分布n(5,5)的x和y進行仿真,每次模擬三個重複,並進行t檢驗;假設我們有這麼一個「勞模」進行了1000次(x軸)獨立實驗,並各自計算出p值(y軸);其中,紅線為p=0.05的閾值線。從圖上看出,1000次實驗中,有很多次已經出現p<0.05的情況了。實際上,這種情況下「P-value」服從[0,1]區間的「均勻分布」;在隨機情況下,1000次實驗出現也能出現大約50次「P<0.05的情況」。

第一個例子,本來顯著差異的情況,P值竟然不顯著;第二個例子,本來不該顯著差異的,P值居然顯著了。對於統計小白來說,計算個「P值」,「咱也看不懂,咱也不敢信」。

對於第一種情況,根據我們之前的討論說明,需要增加樣本的個數,來降低對均值估計的標準誤差。對於第二種情況,進行了很多次假設檢驗的時候,就要進行「多檢驗矯正」(multiple-testing correction),也就是計算FDR或者q-value了(本文暫不進行深入討論)。

近年來學術界已經對「P值的局限性」進行了很多的討論,例如建議在科學研究中限制使用「P值」甚至「放棄使用P值」云云。實際上,「P值」也很冤枉,人家這個概念本身沒有錯(有嚴格推導);只是我們很多研究者在使用的時候,存在著「深深的誤解」。問題到底出在哪裡呢?

我們在計算P值時,使用的是」無效假設顯著性檢驗(null-hypothesis significance testing, NHST)」分析框架。這種框架下的核心問題是「有差異嗎」?但我們知道很多科學結論是沒辦法用這種「非黑即白」的模式來表述的,我們還要關心的是「有多大差別」。但在目前的大環境中,沒有得到「顯著差異」結論的研究在發表時可能還是會遇到困難。所以這篇推送更多的是為大家提供一些思路,如果不用P值還能用什麼?

為大家介紹一篇今年7月發表在Nature Methods 上的文章,題目為「Moving beyond P values: data analysis with estimation graphics」。這篇文章從估計統計學(Estimation statistics)的角度提供了一種可視化試驗數據的方法:Estimation Plot。

我們先來看看傳統的可視化方法有什麼問題。如下圖,對於常見的處理/對照兩組數據,我們常常用柱狀圖(高度為均值)加誤差線(Error bar)來展示。這種可視化方法的問題在於:(1)看不到每個數據點,(2)沒有展示具體的組間效應量(effect size)以及對這個效應量估計的準確度和置信度,(3)使用一顆基於二分法進行差異分類的」星標」(給讀者一種「非黑即白」的印象)。

接下來文章作者提出的「Estimation Plot模式」用於看這兩組數據的差別。針對前面提到的問題,作者在新的可視化方法中都一一作出了改進。(1)左半部分把柱狀圖換成了有規律排列的散點圖(swarm plot),可以看到每個數據點和總體分布規律。(2)右半部分是用自助法得到的效應量的分布和95%置信區間(bootstrap 95% confidence interval)。

左半部分很好理解,右半部分要怎麼看呢?首先要明確,右半部分的作用是對效應量進行估計。在本例中效應量是平均值的差,兩條水平線分別代表兩組數據的平均值,它們之間的距離即效應量。為了方便觀察,最右側有一條相同單位長度的坐標軸,以對照組均值為零點。灰色曲線代表使用自助法得到的對效應量分布的估計,黑色豎線是這個分布的95%置信區間,即真實的效應值大概率會在這個範圍之內。綜合右半部分的信息,我們可以對效應值的大小和準確度有一個直觀的認知。用一張表來總結這種方法的優點:

這種方法不僅可以代替處理/對照這樣的未配對學生t檢驗(Unpaired Student’s t-test),還可以用在配對數據(Paired Student’s t-test)、單因素方差分析和多重比較(One-way ANOVA + multiple comparisons)等假設檢驗形式上。

為方便大家使用,作者為這個項目建立了一個網頁(https://www.estimationstats.com/),只需提供數據即可出圖。同時也提供了相同功能的Matlab,Python,R 的包。各位感興趣的老師、同學可以試一試。

綜上所述,小編做如下總結:習慣於僅依靠單一的統計量(均值、P值、標準差、效應量)下結論是危險的,而是應該在理解統計概念的基礎上綜合不同統計量進行討論。

參考文獻:

Moving beyond P values: data analysis with estimation graphics, Nature Methods, (2019) 16:565–566

Scientists rise up against statistical significance, Nature, (2019)567:305-307

相關焦點

  • 咱也不敢問是什麼梗 抖音咱也不知道咱也不敢問
    朋友圈最近都在用的「咱也不知道咱也不敢問」其實最早出自抖音,好像是一開始有一系列的搞笑視頻,後來慢慢的下面的留言評論多了,就形成了這麼一句流行語,意思其實沒有多深奧,運用在平時遇到一些無法解釋的現象的時候,當然更多的時候是一種調侃,其實多是明知故問,比如舉個例子,朋友圈有人發,咱也不知道為啥這個口紅這麼貴
  • 咱也不知道咱也不敢問出處哪裡 梗的含義及來源介紹
    抖音咱也不知道咱也不敢問是什麼梗?其實具體的意思大家也別想的太深奧了,這就是一種調侃的語氣詞,有明知故問的意思。  最近抖音上時常看見有人評論,「」咱啥也不知道,咱誰也不敢問的的語句,這句話對於多數人來說都是比較摸不著頭腦的,畢竟這麼長的梗還能這麼火的梗還是比較少見到的。
  • 咱也不知道咱也不敢問是什麼梗?你了解嗎?來看看就知道了!
    最近我們發現突然有一句話特別火,主要的詞語就是咱也不知道,咱也不敢問,而且用這種句式,後續也出現了許多其他的句子。但是大家也不要把這句話的意思想的太深奧了,他就是帶有一種調侃的意思的。當你遇到一些自己不理解的事情,或者不知道的事情,看不慣的事情,都是可以用這句話的。比如我們看到一位明星景甜就用過這句話,就是因為熱搜裡有一個景甜走紅毯被保安催促的這個消息,後來她的發文裡面就說:紅毯一分鐘,攝影在哪控?
  • 抖音咱也不敢問咱也不敢說是什麼梗 哪來的怎麼用例子介紹
    抖音咱也不敢問咱也不敢說是什麼梗?在抖音很多視頻的評論裡很多人都會看到這樣的一句話,但是對於這句話怎麼來的不是很清楚,但是說起來感覺就是很順口,小編也整理了相關的內容,下面就來了解下吧。  咱也不敢問是什麼梗  這句話是在生活中或者網絡上看到一些事情自己咋想都不想明白,但又不知道怎麼問的時候使用的。
  • 咱也不知道咱也不敢問什麼意思什麼梗? 萬能疑問句了解一下
    咱也不知道咱也不敢問什麼意思什麼梗? 疑問句了解一下時間:2019-10-10 14:33   來源:小雞詞典   責任編輯:沫朵 川北在線核心提示:原標題:咱也不知道咱也不敢問什麼意思什麼梗?
  • 亞馬遜催評郵件有沒效果咱也不知道,咱也不敢問呀?
    近來很多賣家累覺不愛,發出了這樣的疑問。催評郵件有沒效果咱也不知道,咱也不敢問呀?但催評郵件還是要發的,萬一有效果呢?畢竟除了催評郵件,咱也不知道其他安全催評的方法了啊。亞馬遜催評郵件如今亞馬遜對shua單的打擊實在太嚴厲了,現有的shua單行為皆有很大的風險,輕則被警告重則帳號被關閉,得不償失。
  • 咱也不知道,咱也不敢問!
    它的側面有兩個儲物格,其中一個可以裝一瓶香檳,第二個儲物格裝有零食和30克魚子醬,有香檳當然少不了杯子,主儲物格裝了四個水晶杯。整體打開後,箱子上方還有一個放香檳和杯子的桌臺。至於什麼人會買這麼奢華的東西,咱也不知道,咱也不敢問。如果你手裡有這筆錢你是買行李箱還是買高爾夫R了或寶馬3系呢?
  • 蔡徐坤刷屏《穿越火線》,咱不知道怎麼了,咱也不敢問!
    但最近不知怎麼著,遊戲裡的噴圖突然被蔡徐坤刷屏,咱也不清楚是怎麼一回事,咱也不敢亂說,生怕惹出一點事。   隨後小編又去看了一下現在比較火熱的一個蔡徐坤視頻,好像是一個節目的自我介紹吧。
  • P 值的陷阱(上):P 值是什麼?又不是什麼?
    作單尾檢定,這面積就是所謂的 p 值。如果作雙尾檢定的話,這值還要乘以 2。以上就是我們傳統講的 p 值的概念。我們得到 p 值以後,要作統計檢定。我們相約成俗地設定一個顯著水準,叫做 α,α 通常都是 0.05,有時候大家會嚴格一點用 0.01,比較不嚴格則用 0.10。
  • 有家長在群裡連發了幾張圖片,大家都說秒懂,可咱也不知道咱也不敢問
    大約在下午的時候,有一位家長,在我們幼升小家長群連發十張類似表情的圖片,一開始大家都以為她的微信中毒了,但是看完全部圖片之後,大家都說是秒懂,咱也不知道咱也不敢問,只好請各位有識之士幫忙解答一下,圖片順序及內容如下:
  • 一個敢嫁,一個敢娶,農村婚禮上拍下來的,咱也不敢問
    我敢打賭一包辣條,沒多少人會這個技能!我還以為是個白饅頭,切開的那一刻,我口水都快流出來了!無意間拍到,轉眼一看,多少人嚮往的生活吾日三省吾身,朋友房間拍到這一幕,網友:來自靈魂的拷問!消防小姐姐甩頭換裝,成片出來那刻,太驚豔了!小吃店無意拍到,打開水龍頭那一刻,我的口水都快流出來了小哥哥本來一直強忍著不笑,結果被遊客挑逗,實在忍不住了!小奶狗:不買你就別碰我,我最討厭人家碰我肩膀了!
  • P值不重要!P值不重要!!P值不重要!!!
    你們帶著哭腔,殊不知我是真哭了,我給每個人的回答基本都是「p值不重要,效應值才重要。」當然,有些傢伙說「p值>0.05,我就不活了,師兄」也是有辦法對付的(即使p值大於0.05,通過統計檢驗效率計算機模擬版塊也可以做出p很小很小哦,嘿嘿。)
  • qRT-PCR差異分析及P值計算
    ,常用的相對定量數據分析方法是KJ Livak(Applied Biosystems)等人在2001年提出的「比較Ct法相對定量」,即:利用ΔCt值差異來推算基因表達差異(Ct目的基因 – Ct內參基因 = ΔCt),該方法的具體計算方法請參見文章:qRT-PCR相對定量計算詳解。
  • 網友:咱也不知道啊
    網友:咱也不知道啊文/號外娛樂之景宏 圖/網絡流行歌曲一直以來都是受眾面很廣的,大家平時也喜歡聽著音樂放鬆一下,可以說現在沒有幾個人是不聽歌的,但是問題就來了,像音樂類的app都有巔峰榜熱歌,那麼這些歌就一定是好歌嗎?
  • 咱不吃低保,別人吃低保咱也不要羨慕!
    註:本文轉載自網絡,不代表本平臺立場,僅供讀者參考,著作權屬歸原創者所有。我們分享此文出於傳播更多資訊之目的。村幹部說「我也知道你不容易,也知道你生活很困難。你吃的住的都不比村子裡那些吃上低保的人強,甚至還不如他們。你是苦了,但是你把孩子供應成了老師,她一個月四千來塊錢,工作半年,休息半年。你的福啊都讓你孩子享了。你應該讓你當老師的孩子養活你!」大年三十,母親把這件事和我說時,我勸她說:「咱不吃低保,別人吃低保咱也不要羨慕!你沒有錢,我給你!
  • 這件事咱也不敢想咱也不敢問
    美國究竟有多少人感染了新冠病毒,主要看美國有多少人能獲得檢測,還要看美國政府願不願意公開真實的數據了,如果不願意做全面檢測,那美國的數據就不會是最多的,如果做全面的檢測,那美國的數據會爆發式增長,至於增長到什麼樣的高度不好說,反正現在美國流感病毒幾千萬人感染,而新冠狀病毒的傳染力高於流感,所以美國不做防範的話,那感染人數真的非同小可。
  • 王者榮耀:太巧了吧?90%的玩家有這5種習慣,咱不敢說也不敢問!
    前言:雖然是不同的人在玩王者榮耀,但學姐發現一個非常有趣的問題——幾乎90%的王者榮耀玩家都有這5個習慣,至少學姐身邊的姐妹都是這樣!先別急著否認,當學姐全都說出來,你會感嘆「神奇」,居然全被學姐說中了,莫不是學姐在偷偷看你玩遊戲?
  • 敢欠錢不還!咱讓你火遍全網!!
    敢欠錢不還!咱讓你火遍全網!!,就把另一邊臉湊上去因為......總扇一邊不好看本持著這個想法我決定給某些人一個火遍全網的機會,來個新年第一響!1
  • 職場故事:領導的私事,咱就不要談了
    我當項目經理時,管了五個工程隊。由於工程都要靠關係才能拿下,所以包工頭(工程隊老闆)基本都和我們公司高層有關係。職場故事:領導的私事,咱就不要談了有個工程隊隊長是他們老闆的小舅子,長相猥瑣,特別八卦,沒事還喜歡挑撥是非,人緣很差,但和我們副總關係密切。
  • 如何計算實驗的P值?
    有時候做實驗就像坐過山車,心情隨著實驗數據的不穩定跌宕起伏,科研論文裡的P值就在很大程度上決定了科研狗們的心情。當p<0.05就欣喜若狂,若p<0.01便會開心到飛起來;但若辛苦幾個月做實驗,最終統計數據時發現p>0.05,就如同晴天霹靂。    這個P值究竟有什麼魔力,又是如何計算的呢?今天我們以具體的例子給大家介紹三種常見的求P值的方法。