寄語:需要多少個統計學家,才能保證對於p值有至少50%的不滿呢?根據曼荷蓮學院統計學家George Cobb半開玩笑的估計,答案是兩個...或者一個。R·A·Fisher(1890-1962)作為一代假設檢驗理論的創立者,在假設檢驗中首先提出P值的概念。他認為假設檢驗是一種程序,研究人員依照這一程序可以對某一總體參數形成一種判斷。也就是說,他認為假設檢驗是數據分析的一種形式,是人們在研究中加入的主觀信息。(當時這一觀點遭到了Neyman-Pearson的反對,他們認為假設檢驗是一種方法,決策者在不確定的條件下進行運作,利用這一方法可以在兩種可能中作出明確的選擇,而同時又要控制錯誤發生的概率。這兩種方法進行長期且痛苦的論戰。雖然Fisher的這一觀點同樣也遭到了現代統計學家的反對,但是他對現代假設檢驗的發展作出了巨大的貢獻。)Fisher的具體做法是:
2.選擇一個檢驗統計量(例如z 統計量或Z 統計量) ,該統計量的分布在假定的參數取值為真時應該是完全已知的。3.從研究總體中抽取一個隨機樣本4計算檢驗統計量的值5計算概率P值或者說觀測的顯著水平,即在假設為真時的前提下,檢驗統計量大於或等於實際觀測值的概率。
.如果P<0.01,說明是較強的判定結果,拒絕假定的參數取值。.如果0.01<P值<0.05,說明較弱的判定結果,拒接假定的參數取值。.如果P值>0.05,說明結果更傾向於接受假定的參數取值。 可是,那個年代,由於硬體的問題,計算P值並非易事,人們就採用了統計量檢驗方法,也就是我們最初學的t值和t臨界值比較的方法。統計檢驗法是在檢驗之前確定顯著性水平α,也就是說事先確定了拒絕域。但是,如果選中相同的α,所有檢驗結論的可靠性都一樣,無法給出觀測數據與原假設之間之間不一致程度的精確度量。只要統計量落在拒絕域,假設的結果都是一樣,即結果顯著。但實際上,統計量落在拒絕域不同的地方,實際上的顯著性有較大的差異。因此,隨著計算機的發展,P值的計算不再是個難題,使得P值變成最常用的統計指標之一。P值就是當原假設為真時所得到的樣本觀察結果或更極端結果出現的概率。如果P值很小,說明這種情況的發生的概率很小,而如果出現了,根據小概率原理,我們就有理由拒絕原假設,P值越小,我們拒絕原假設的理由越充分。總之,P值越小,表明結果越顯著。但是檢驗的結果究竟是「顯著的」、「中度顯著的」還是「高度顯著的」需要我們自己根據P值的大小和實際問題來解決。
⑴P的意義不表示兩組差別的大小,P反映兩組差別有無統計學意義,並不表示差別大小。⑵ P>α時,差異無顯著意義,根據統計學原理可知,不能否認無效假設,但並不認為無效假設肯定成立。⑶統計學主要用三種α值來與P值比較(0.1;0.05;0.01),也可以計算出確切的P值,也有人用P <0.001,至於選擇哪個要看檢驗的應用領域。⑷顯著性檢驗只是統計結論。判斷差別還要根據專業知識。對於外行人很少聽過的一個科學術語產生憤怒,這事聽起來可能很瘋狂,但它的結果意義重大。對於p值的誤用會導致不良的科學風氣與成果(對於這一點大家沒有異議)。對一些科學領域逐漸增長的擔憂,催生了這份一致聲明。p值在一些領域已經成了決定研究論文是否值得出版的試金石。結果是,那些能夠給出超過某個隨意閾值的研究論文,更有可能被出版;同時具有更大或同等科研重要性的研究可能被扔在抽屜裡,不被科學界所見。 分歧大多圍繞著頻率論者VS貝葉斯方法的技術爭論,以及p值的補充與替代品。「分歧是巨大的。包括對於核心問題以及需要被改革的實踐的不同看法」,Goodman說,「人們為此面紅耳赤」。 最重要的信息之一是,p值無法告訴你,你的假設是否正確。相反,它是在你的假設之下的,你的數據的概率。這聽起來很像「在你的數據之下的,你的假設的概率」,但它們不是一回事,盧森堡健康研究所的一名生物統計學家Stephen Senn說道。要理解原因,可以考慮這樣一個例子,「教皇是基督徒嗎?答案是肯定的」,他說。「基督徒是教皇嗎?答案很可能是否定的。如果你更改了順序,聲明就不存在了」。 在非統計學者中常有的一個誤解是,p值可以告訴你,某個結果「碰巧」發生的概率。這種解讀絕對是錯的,但你又總能一次次地看到。p值只會告訴你有關在某個假設解釋下,得到你的結果的概率——它無法告知結果正確的概率,或者結果是隨機發生的概率。這份聲明中的第二項原則:「p值無法衡量所研究的假設正確的概率,或它們是否隨機發生的概率。」p值也無法告訴你某個影響的規模,某個證據的強度或是某個結果的重要性。儘管有這些限制,p值常被用於區分科學發現的真偽,這帶來了惡劣的影響。當目標從追尋真理,變成獲得符合某個隨意閾值(在許多領域0.05或更小的值被認為「統計顯著」)的p值的時候,研究者們傾向於在數據裡垂釣,使用不同的分析直到發現什麼p值合格的東西。你可以在去年早些時候我們建立的「p值黑客(p-hacking)」工具對此進行了解。的確,許多ASA委員會成員在其評論中表示,p值不是問題所在,而是它如何被使用——「沒能根據『刻意挑選』、『多次測試』、『得到數據後分組』和其他帶來偏差的挑選效果進行調整」,維吉尼亞理工大學的統計哲學家Deborah Mayo 說道。當p值被當作區分結果是否顯著的分類方式時,收集和分析數據的巨大努力被降級為貼標籤,波士頓大學的流行病學家Kenneth Rothman說。 聲明附帶的20個評論展示了一些關於未來何去何從的想法。委員會的一些成員認為應該轉而依靠其他測量工具,如置信區間和貝葉斯分析。其他人認為這樣治標不治本。「解決方案不應是對p值進行改革或用其他統計指標/閾值進行替代」,哥倫比亞大學統計學家Andrew Gelman寫道,「而是去更多接受不確定性與變化」。 如果這份聲明能提煉出什麼簡單的結論,那就是:p值不是真理的標誌,p < 0.05不是區分真假的界線。它們只是謎題中應該與上下文其他證據放在一起考慮的一部分。 本文始於一首俳句詩,它是對於這份p值文件的回覆之一。這裡讓我們用密西根大學生物統計學家Roderick Little的一首打油詩結束本文。Val Johnson說:「這已經過時,我們的研究如果不出現P零點零零五,那就啥也不是!」
內容由經管愛問整理,原作出自經管之家、CHRISTIE ASCHWANDEN(翻譯:王鵬宇)
本文來源:本公號標明轉載文章的出處,版權歸原作者所有,轉載僅作分享之用。如有侵權,請與我們聯繫,將於24小時內刪除。
哎呀!來都來了,點個【在看】再走唄~