在我們之前的推送中,展示過一個「P值可能具有誤導性」的例子:三位同學對同一基因在兩組樣本中的表達量的差異進行測定分析;其中,兩位同學的結論是差異不顯著,另一位同學的結論與它們相反(三個實驗重複夠嗎?再談「error bar「。)。當增加了樣本數量後,t檢驗計算的到的P值具有顯著性。這個例子反映出:對於方差較大的分布,採樣個數不足夠多時,「本來顯著差異」的兩組樣本可能得到「並不顯著的P值」。
相反的,我們還常常遇到這樣的情況:對於來自相同分布的兩組樣本,如果很多次採集數據並進行假設檢驗,「本不應顯著的」兩組樣本也會出現P值很小的「顯著結果」(「P-hacking」)。如下圖,我們對來自相同正態分布n(5,5)的x和y進行仿真,每次模擬三個重複,並進行t檢驗;假設我們有這麼一個「勞模」進行了1000次(x軸)獨立實驗,並各自計算出p值(y軸);其中,紅線為p=0.05的閾值線。從圖上看出,1000次實驗中,有很多次已經出現p<0.05的情況了。實際上,這種情況下「P-value」服從[0,1]區間的「均勻分布」;在隨機情況下,1000次實驗出現也能出現大約50次「P<0.05的情況」。
第一個例子,本來顯著差異的情況,P值竟然不顯著;第二個例子,本來不該顯著差異的,P值居然顯著了。對於統計小白來說,計算個「P值」,「咱也看不懂,咱也不敢信」。
對於第一種情況,根據我們之前的討論說明,需要增加樣本的個數,來降低對均值估計的標準誤差。對於第二種情況,進行了很多次假設檢驗的時候,就要進行「多檢驗矯正」(multiple-testing correction),也就是計算FDR或者q-value了(本文暫不進行深入討論)。
近年來學術界已經對「P值的局限性」進行了很多的討論,例如建議在科學研究中限制使用「P值」甚至「放棄使用P值」云云。實際上,「P值」也很冤枉,人家這個概念本身沒有錯(有嚴格推導);只是我們很多研究者在使用的時候,存在著「深深的誤解」。問題到底出在哪裡呢?
我們在計算P值時,使用的是」無效假設顯著性檢驗(null-hypothesis significance testing, NHST)」分析框架。這種框架下的核心問題是「有差異嗎」?但我們知道很多科學結論是沒辦法用這種「非黑即白」的模式來表述的,我們還要關心的是「有多大差別」。但在目前的大環境中,沒有得到「顯著差異」結論的研究在發表時可能還是會遇到困難。所以這篇推送更多的是為大家提供一些思路,如果不用P值還能用什麼?
為大家介紹一篇今年7月發表在Nature Methods 上的文章,題目為「Moving beyond P values: data analysis with estimation graphics」。這篇文章從估計統計學(Estimation statistics)的角度提供了一種可視化試驗數據的方法:Estimation Plot。
我們先來看看傳統的可視化方法有什麼問題。如下圖,對於常見的處理/對照兩組數據,我們常常用柱狀圖(高度為均值)加誤差線(Error bar)來展示。這種可視化方法的問題在於:(1)看不到每個數據點,(2)沒有展示具體的組間效應量(effect size)以及對這個效應量估計的準確度和置信度,(3)使用一顆基於二分法進行差異分類的」星標」(給讀者一種「非黑即白」的印象)。
接下來文章作者提出的「Estimation Plot模式」用於看這兩組數據的差別。針對前面提到的問題,作者在新的可視化方法中都一一作出了改進。(1)左半部分把柱狀圖換成了有規律排列的散點圖(swarm plot),可以看到每個數據點和總體分布規律。(2)右半部分是用自助法得到的效應量的分布和95%置信區間(bootstrap 95% confidence interval)。
左半部分很好理解,右半部分要怎麼看呢?首先要明確,右半部分的作用是對效應量進行估計。在本例中效應量是平均值的差,兩條水平線分別代表兩組數據的平均值,它們之間的距離即效應量。為了方便觀察,最右側有一條相同單位長度的坐標軸,以對照組均值為零點。灰色曲線代表使用自助法得到的對效應量分布的估計,黑色豎線是這個分布的95%置信區間,即真實的效應值大概率會在這個範圍之內。綜合右半部分的信息,我們可以對效應值的大小和準確度有一個直觀的認知。用一張表來總結這種方法的優點:
這種方法不僅可以代替處理/對照這樣的未配對學生t檢驗(Unpaired Student’s t-test),還可以用在配對數據(Paired Student’s t-test)、單因素方差分析和多重比較(One-way ANOVA + multiple comparisons)等假設檢驗形式上。
為方便大家使用,作者為這個項目建立了一個網頁(https://www.estimationstats.com/),只需提供數據即可出圖。同時也提供了相同功能的Matlab,Python,R 的包。各位感興趣的老師、同學可以試一試。
綜上所述,小編做如下總結:習慣於僅依靠單一的統計量(均值、P值、標準差、效應量)下結論是危險的,而是應該在理解統計概念的基礎上綜合不同統計量進行討論。
參考文獻:
Moving beyond P values: data analysis with estimation graphics, Nature Methods, (2019) 16:565–566
Scientists rise up against statistical significance, Nature, (2019)567:305-307