計算個「P值」,咱也不太懂,咱也不敢信

2020-11-29 中國小麥研究聯盟

在我們之前的推送中,展示過一個「P值可能具有誤導性」的例子:三位同學對同一基因在兩組樣本中的表達量的差異進行測定分析;其中,兩位同學的結論是差異不顯著,另一位同學的結論與它們相反(三個實驗重複夠嗎?再談「error bar「。)。當增加了樣本數量後,t檢驗計算的到的P值具有顯著性。這個例子反映出:對於方差較大的分布,採樣個數不足夠多時,「本來顯著差異」的兩組樣本可能得到「並不顯著的P值」。

相反的,我們還常常遇到這樣的情況:對於來自相同分布的兩組樣本,如果很多次採集數據並進行假設檢驗,「本不應顯著的」兩組樣本也會出現P值很小的「顯著結果」(「P-hacking」)。如下圖,我們對來自相同正態分布n(5,5)的x和y進行仿真,每次模擬三個重複,並進行t檢驗;假設我們有這麼一個「勞模」進行了1000次(x軸)獨立實驗,並各自計算出p值(y軸);其中,紅線為p=0.05的閾值線。從圖上看出,1000次實驗中,有很多次已經出現p<0.05的情況了。實際上,這種情況下「P-value」服從[0,1]區間的「均勻分布」;在隨機情況下,1000次實驗出現也能出現大約50次「P<0.05的情況」。

第一個例子,本來顯著差異的情況,P值竟然不顯著;第二個例子,本來不該顯著差異的,P值居然顯著了。對於統計小白來說,計算個「P值」,「咱也看不懂,咱也不敢信」。

對於第一種情況,根據我們之前的討論說明,需要增加樣本的個數,來降低對均值估計的標準誤差。對於第二種情況,進行了很多次假設檢驗的時候,就要進行「多檢驗矯正」(multiple-testing correction),也就是計算FDR或者q-value了(本文暫不進行深入討論)。

近年來學術界已經對「P值的局限性」進行了很多的討論,例如建議在科學研究中限制使用「P值」甚至「放棄使用P值」云云。實際上,「P值」也很冤枉,人家這個概念本身沒有錯(有嚴格推導);只是我們很多研究者在使用的時候,存在著「深深的誤解」。問題到底出在哪裡呢?

我們在計算P值時,使用的是」無效假設顯著性檢驗(null-hypothesis significance testing, NHST)」分析框架。這種框架下的核心問題是「有差異嗎」?但我們知道很多科學結論是沒辦法用這種「非黑即白」的模式來表述的,我們還要關心的是「有多大差別」。但在目前的大環境中,沒有得到「顯著差異」結論的研究在發表時可能還是會遇到困難。所以這篇推送更多的是為大家提供一些思路,如果不用P值還能用什麼?

為大家介紹一篇今年7月發表在Nature Methods 上的文章,題目為「Moving beyond P values: data analysis with estimation graphics」。這篇文章從估計統計學(Estimation statistics)的角度提供了一種可視化試驗數據的方法:Estimation Plot。

我們先來看看傳統的可視化方法有什麼問題。如下圖,對於常見的處理/對照兩組數據,我們常常用柱狀圖(高度為均值)加誤差線(Error bar)來展示。這種可視化方法的問題在於:(1)看不到每個數據點,(2)沒有展示具體的組間效應量(effect size)以及對這個效應量估計的準確度和置信度,(3)使用一顆基於二分法進行差異分類的」星標」(給讀者一種「非黑即白」的印象)。

接下來文章作者提出的「Estimation Plot模式」用於看這兩組數據的差別。針對前面提到的問題,作者在新的可視化方法中都一一作出了改進。(1)左半部分把柱狀圖換成了有規律排列的散點圖(swarm plot),可以看到每個數據點和總體分布規律。(2)右半部分是用自助法得到的效應量的分布和95%置信區間(bootstrap 95% confidence interval)。

左半部分很好理解,右半部分要怎麼看呢?首先要明確,右半部分的作用是對效應量進行估計。在本例中效應量是平均值的差,兩條水平線分別代表兩組數據的平均值,它們之間的距離即效應量。為了方便觀察,最右側有一條相同單位長度的坐標軸,以對照組均值為零點。灰色曲線代表使用自助法得到的對效應量分布的估計,黑色豎線是這個分布的95%置信區間,即真實的效應值大概率會在這個範圍之內。綜合右半部分的信息,我們可以對效應值的大小和準確度有一個直觀的認知。用一張表來總結這種方法的優點:

這種方法不僅可以代替處理/對照這樣的未配對學生t檢驗(Unpaired Student’s t-test),還可以用在配對數據(Paired Student’s t-test)、單因素方差分析和多重比較(One-way ANOVA + multiple comparisons)等假設檢驗形式上。

為方便大家使用,作者為這個項目建立了一個網頁(https://www.estimationstats.com/),只需提供數據即可出圖。同時也提供了相同功能的Matlab,Python,R 的包。各位感興趣的老師、同學可以試一試。

綜上所述,小編做如下總結:習慣於僅依靠單一的統計量(均值、P值、標準差、效應量)下結論是危險的,而是應該在理解統計概念的基礎上綜合不同統計量進行討論。

參考文獻:

Moving beyond P values: data analysis with estimation graphics, Nature Methods, (2019) 16:565–566

Scientists rise up against statistical significance, Nature, (2019)567:305-307

相關焦點

  • 咱也不知道咱也不敢問出處哪裡 梗的含義及來源介紹
    抖音咱也不知道咱也不敢問是什麼梗?其實具體的意思大家也別想的太深奧了,這就是一種調侃的語氣詞,有明知故問的意思。  最近抖音上時常看見有人評論,「」咱啥也不知道,咱誰也不敢問的的語句,這句話對於多數人來說都是比較摸不著頭腦的,畢竟這麼長的梗還能這麼火的梗還是比較少見到的。
  • 咱也不知道咱也不敢問是什麼梗?你了解嗎?來看看就知道了!
    最近我們發現突然有一句話特別火,主要的詞語就是咱也不知道,咱也不敢問,而且用這種句式,後續也出現了許多其他的句子。但是大家也不要把這句話的意思想的太深奧了,他就是帶有一種調侃的意思的。當你遇到一些自己不理解的事情,或者不知道的事情,看不慣的事情,都是可以用這句話的。比如我們看到一位明星景甜就用過這句話,就是因為熱搜裡有一個景甜走紅毯被保安催促的這個消息,後來她的發文裡面就說:紅毯一分鐘,攝影在哪控?
  • 咱也不知道咱也不敢問什麼意思什麼梗? 萬能疑問句了解一下
    咱也不知道咱也不敢問什麼意思什麼梗? 疑問句了解一下時間:2019-10-10 14:33   來源:小雞詞典   責任編輯:沫朵 川北在線核心提示:原標題:咱也不知道咱也不敢問什麼意思什麼梗?
  • 咱也不知道,咱也不敢問……
    這不嘛!前幾天,樂樂在貓咪冷知識那一期說到了「貓咪有230根骨頭,比人類還要多出24根,所以喵星人可以解鎖很多人類做不出的奇怪姿勢。」之後樂樂在後臺就收到了好多家長發來的私信,全部都是自家貓貓的奇怪姿勢!
  • 吳亦凡演唱會笑場,網友:咱也不知道為啥笑,咱也不敢問啊!
    但是吳亦凡卻笑場了,網友紛紛表示:「咱也不知道為啥笑,咱也不敢問啊!」最近聽到這句話是不是就會莫名被戳中笑點?雖然是一個梗,但是不得不佩服這句話也真是萬能的,好像可以用於很多場合,並且是毫無違和感的。用在吳亦凡笑場的這件事上,同樣是神來之筆,不得不佩服網友們的超強接梗能力。那到底在演唱會究竟是怎麼回事呢?我們一起來看一下。
  • 伊巴卡:小卡,聽說咱更衣室不和諧?倫納德:不知道,問喬治去!
    本故事為NBA新聞改編的小品,只為逗大家一樂,不喜勿噴!萊昂納德:兄弟,歡迎你到快船來!咱們又能一起衝冠了!伊巴卡:小卡,我聽說咱們快船的更衣室不太和諧?以後誰敢齜毛你就說話,我也是練過拳擊的!萊昂納德:不和諧?不知道啊!問喬治去!伊巴卡:what?作為球隊大哥,你難道不把控更衣室?萊昂納德:更衣室只有我和訓練師,還需要把控嗎?伊巴卡:就你和訓練師?
  • 【年味兒】年關將近,超市逛不出的年味兒盡在咱即墨大集
    【年味兒】年關將近,超市逛不出的年味兒盡在咱即墨大集 2020-01-11 11:14 來源:澎湃新聞·澎湃號·政務
  • 楊建新‖為了咱的「中國心」
    心中就充滿著報國強軍的夢想因為共和國的藍天上騰飛著咱黎陽的希望雖說咱身處一線,位居平凡崗但咱激情滿懷,年輕力壯為了鑄就咱「中國心」咱願把重擔子勇敢扛改革創新精神足技術比武功夫強咱要讓共和國的戰鷹安裝上咱黎陽牌「心臟」別看咱滿身油汙,卻自有主張高科技玩得轉,電腦也棒
  • 你真的懂p值嗎? 說人話的統計學
    ►辛辛苦苦做了實驗收了數據,正想大步邁向SCI高分文章,你是否不知數據分析該如何下手? ►投出了文稿,卻等來了審稿人對統計方法似是而非的挑刺,你是否不清楚該如何應對?►別擔心,你不是一個人在戰鬥!►在本系列中,我們將和你一起,探討最實用、最關鍵的統計學知識和方法。我們將指出常見的統計學誤區和陷阱,回答那些你一直想問但不好意思問的問題。
  • 驚爆| p值不是什麼?【連載3】
    點擊查看 【引言】昨日轉載美國德州大學奧斯汀校區政府系林澤民教授2016年在臺灣政大社科院的演講《看電影學統計:p值的陷阱》,他首先講的p值是什麼?今天刊出的是p值不是什麼?由於這部分的文字比較長,將分三期刊出。
  • 「小蜜蜂」來到咱社區
    「熱乎飯真是太暖心了!」正在吃燴菜的李大爺對記者說。大雁塔街道「紅雁志願者」共有40支志願者隊伍、25個社會公益組織,其中包含雁塔路社區的「紅雁小蜜蜂志願者服務隊」,而「為老志願者服務隊」就是「紅雁小蜜蜂志願者服務隊」中的一支隊伍。雁塔路社區幾乎都是由老舊小區組成,退休老年人集中。
  • StatQuest生物統計學 - 線性擬合的R2和p值
    p值是擬合只是隨機變異的可能性大小知道了R2的統計學意義之後,再來看模型的p值的統計學意義是什麼。考慮一下下述情況,對於樣本量是2的數據,那麼由於兩點之間必有一條直線,所以此時的擬合會得到很高的R2,R2=100%,然而我們知道這是沒有什麼意義的,為了更一步的區分這種情況,就需要引入另一個概念p值,它代表有多大的可能性表明本次擬合只是一次隨機事件。
  • 卡方檢驗中的p值計算 - CSDN
    前輩的功底都很深厚,小弟就就不再闡述卡方檢驗的原理、意義及如何計算了,理解了其實很簡單就那麼個公式,再根據實際業務場景關鍵看你選擇哪一個。從chi-squared value 到p-value,相信大多數同學和我一樣,查表,因為大學課本上就是這麼寫的。假如在實際業務場景中,自由度和顯著性水準都不確定的情況下,怎麼辦呢?查表就顯得不那麼地道了。
  • 每日一笑:女友每晚都要練習這樣的功夫,咱也不知道這有啥用處
    6、這貓是啥情況,老王我沒看明白,高度不一樣,為啥貓貓站姿差別會如此大。7、姑娘,這貓只是想吃點骨頭,你這點都給嗎?也太小氣吧。8、女友每晚都要練習這樣的功夫,咱也不知道這有啥用處。9、認識女朋友兩年了,每次她和閨蜜合照,我到現在我還分不出來哪個是她。10、姑娘長得好看,什麼衣服都敢穿,就是前面太尷尬!11、你能全部猜出來嗎?
  • 咱也分不清,咱也不敢問
    最近有個朋友突然問到我關於「倒勾射門」和「倒鉤射門」這兩個專業用語問題,兩個gou字,一個偏旁之差,有多大的差別?分不分對錯?我想了想,又沒有馬上回答他。開個玩笑。該信誰呢?既然國家對於新聞媒體、廣播電視有明確的使用語言文字的規範,那我就按新華社和人民網為準吧!但得到的結果,還是令我有些驚訝,詞頻的差距有些大呀......在人民網,「倒鉤」有關的新聞有1567篇,其中體育部分為896篇;「倒勾」的新聞為249篇,其中體育部分只有95篇。
  • 瓷器的發明影響了咱獲得諾貝爾獎
    今年的諾獎陸續出來了,咱這麼大的國家,現在也有三個了,有一個自己去查查,比較少報導。這次的物理學獎是與天體物理相關的,這讓我想到了一個觀點,那就是中國的偉大發明瓷器,讓我們的科學發展受到了嚴重的影響。這是咋回事兒呢?
  • 老配方1:內部資料上的滷牛肉,香料13種,是否咱尋找的秘方
    出於讓大家學習的目的,我準備再做一個老配方專題,因為我最近在舊書市場上,也算淘到了一些好東西,找些乾貨,給這些與我一路同行的朋友分享一下,依我看,這些可能就是咱苦苦尋找的秘方,哈哈。今天來個熱度很高的滷牛肉,這個是一本75年8月出的內部資料上的,香料13種,典型的商業配方,而且其中連「一般情況下不能說」的火硝都有,可見是真貨!當然,火硝這種東西我是從來沒用過,怕把握不好出現副作用,但我也看到很多的老配方裡並不迴避它的存在,可見那個時候,在合理使用的前提下,也算是個滷肉的常用方法。
  • 快評丨李河:關於債市,給頭兒匯報一下咱大銀河間
    大周末,以敢言著稱的頭兒carry全場,一時間成為了銀河間最亮的仔。頭兒堅定地認為,債市成了直融的短板,而銀行間就應該是銀行之間融通資金的市場,據此開出了信用債去交易所的藥方。趁著市場熱度,跟參政議政的頭兒匯報幾個基本數。第一個,今年1-10月,公司發債融資佔社融14%,發股融資佔社融6.5%。誰是主力,誰是替補,一目了然。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    這是說:不但要報告 p 值顯著的研究結果,也要報告 p 值不顯著的研究結果。  但傳統方法最大的問題是:研究結果不顯著,通通都沒有報告。在英文有個詞叫 ,摘櫻桃。什麼叫摘櫻桃?摘水果,水果熟的才摘,把熟的水果送到水果攤上,大家在水果攤上看到的水果,都是漂亮的水果,其實有很多糟糕的水果都不見了。我們在統計上也是,大家看到的都是顯著的結果,不顯著的結果沒有人看到。
  • 兔孫,鱉孫,居然是咱許昌的神獸
    乖乖類,你個「兔孫」!小編一直以為兔孫是大許昌人民智慧的結晶,是咱自創的。