【論p】ASA關於P值的聲明:背景、過程和目的

2020-12-08 健康界

2014年2月, MountHolyoke College的榮譽退休教授George Cobb在ASA的一個論壇上提出了以下問題：

問：為何這麼多學校和研究生院教P=0.05？

答：因為那是科學界和雜誌編輯們還在使用的。

問：為何這麼多人還在使用P=0.05？

答：因為那是學校和研究生院教他們的。

Cobb考慮的是社會科學界關於P<0.05一刀切這個長期傷腦筋的循環：「我們教它因為這是我們所做的；我們這樣做因為這是我們所教的。」

這個考慮引起了ASA理事會的注意。ASA理事會也受刺激於過去幾年高度醒目的討論。例如，ScienceNews (Siegfried,2010)寫道：「這是科學最骯髒的秘密：統計分析的『科學方法』建立在一個脆弱的基礎上」。2013年11月Phys.org Science News Wire的一篇文章引用了零假設意義的檢驗中「眾多深度缺陷」。

ScienceNews 2014年２月７日的文章（Siegfried,2014）稱「假設檢驗的統計學技術比Facebook的隱私政策有更多的缺陷。」一周後，統計學家、「Simply Statistics」博主Jeff Leek回應「問題不是人們糟糕地使用P值，而是絕大部分數據分析並非由正規訓練過數據分析的人來實現的」（Leek, 2014）。同一周，統計學家和科學作家Regina Nuzzo在Nature上發表一篇文章，題為「科學方法：統計學錯誤」（Nuzzo,2014），這是目前最高度重視的Nature文章之一。當然，這不是單純地回應某一篇公開發表的文章。統計學界已經深度關注科學結論的可重現性和可重複性問題。

我們觀察到，不深入這些術語的定義和區別，許多混淆甚至懷疑科學的真實性正在發生。這樣的懷疑會導致激進的選擇，諸如Basic and Applied Social Psychology的編輯們竟決定廢棄P值（零假設意義檢驗）（Trafimow and Marks,2015）。錯誤理解或錯誤使用統計推斷只是「可重現性危機」的原因之一（Peng, 2015），但對於我們統計學界而言，這是個重要原因。當ASA理事會決定接受挑戰，發表一份關於p值和統計學意義的聲明時，確實意識到這不是輕鬆的一步。ASA以前沒有對統計實踐的特定事情表過態。與此最接近的是一個關於教育評估中使用的增值模型（value-added models, VAM）的聲明（Morganstein and Wasserstein, 2014）和一個關於風險限制的選舉後審計的聲明（American Statistical Association, 2010）。然而，這些是純系政策相關的聲明。VAM聲明側重於一個關鍵的教育政策，承認事情的複雜性，說明VAM作為有效模型的局限性，催促要有統計學家參與模型的建立和解釋。關於選舉審計的聲明也是對一個大的卻特定的政策問題（2008年結束選舉）的反應，表示基於統計學的選舉審計必須成為選舉過程的一個常規部分。相比較，理事會預想到，這個關於P值和統計學意義的聲明將闡明我們領域中經常被廣大學術界錯誤理解和錯誤使用的一個方面，並且在此過程中，為學術界提供服務。計劃中的讀者是原非統計學家的研究人員、實際工作者和科學作家。因此，這個聲明將和以前嘗試過的聲明很不相同。

理事會分派Wasserstein匯集一組代表不同觀點的專家。他代表理事會接觸超過24位這樣的對象，他們都說願意參加。有幾位懷疑能否達成共識，但是他們確實表示，如果將會有討論，他們願意參與。經過好幾個月,小組成員討論了聲明採取什麼形式,試著較具體地設想該聲明的讀者，並且開始發現共識點。逐漸變得相對容易做了，但只是容易找到強烈的分歧點。待到這個小組能坐下來一起消除這些分歧點， 2015年10月20位成員終於在Virginia州Alexandria的ASA辦公室聚會。Regina Nuzzo促進了這個兩天的會議，會議結尾時，圍繞著這個聲明形成了一組很好的觀點。接下來的３個月，見到了聲明的多份草稿，小組成員、理事會成員（2015年ASA理事會會議上漫長的討論）和目標讀者審閱。最後，2016年1月29日，ASA的執行委員會批准了這份聲明。這份聲明進展的過程比預計的更漫長、有更多爭議。例如，關於如何最好地講清多重潛在比較的問題（Gelman and Loken, 2014），我們就「一個接近0.05的P值本身只是反對零假設的微弱證據。」（Johnson, 2013）這段話的潛臺詞爭論了很久。關於如何敘述P值的多種替代以及多麼詳細為宜，有很多不同見解。為了使這份聲明適度簡練，我們並沒有寫對立假設、兩類錯誤或功效等其他內容，並不是每一位都同意這樣做。

在聲明發展過程接近尾聲時，Wasserstein聯繫了Lazar，問及這份政策聲明可否在The American Statistician（TAS）發表。經考慮，Lazar決定TAS願意提供一個良好平臺，以廣泛傳遞給一般的統計讀者群。同時，我們決定增加一個在線討論，提供機會來反映前述爭議，提高TAS讀者的興趣水平。最後，我們聯繫了一組討論者，請他們就這份聲明發表評論。人們可以從在線增刊讀到他們的觀點。我們感謝以下各位和我們分享他們深刻的見解：

Naomi Alman, Douglas Altman, Daniel J. Benjamin, YoavBenjamini, and so on.

雖然對這份聲明應當講些什麼存在著分歧，但是，關於TAS必須就這些事情發聲是高度一致的。必須明確，這份TAS聲明並沒有新內容。統計學家和許多其他人已經就這些事情敲了幾十年的警鐘，效果甚微。我們希望世界上最大的統計專業學會發出的這份聲明將開啟新的討論，引起新的和嚴密的注意，使得利用統計推斷進行的科學實踐有所改觀。

【注】美國統計協會（American Statistical Association，簡稱ASA），是全美最主要的為統計學以及相關專業所設立的組織機構。其於1839年11月27日於麻薩諸塞州波士頓成立。

【譯者】：方積乾教授，1961年獲復旦大學數學學士學位，1982年至1985年在加利福尼亞大學伯克利分校，師從蔣慶琅教授，研究生命現象的隨機過程模型，獲生物統計學博士。1985年在北京醫科大學由講師直接提升為教授。1991年任中山醫科大學公共衛生學院教授、主任、博士導師。國際生物統計學會中國組負責人；中國衛生統計學會副會長、廣東省衛生統計學會會長。曾在英國肯特大學、澳大利亞國立大學講學，1993以來，任香港中文大學兼職教授。

相關焦點

【論p】ASA關於統計意義和P值的聲明

在這個背景下，美國統計學會（ASA）相信，以一個正式的聲明來澄清關於正確使用和解釋ｐ值的若干廣泛贊同的原則，可以使科學界從中得益。這裡提及的內容不僅影響科研，而且也影響研究基金、雜誌工作、職業發展、科學教育、公共政策、新聞和法律。這個聲明並不想解決與合理統計實踐有關的所有問題，也不想平息基本爭議。而是借這個聲明以非技術的語言，按照統計學界的廣泛共識，闡明若干原則，有助於改善定量科學的實施或解釋。
美國宣布禁用p值,原來p值很危險,如何取代p值?

1月22日，美國政治學頂級學術期刊《政治分析》在他們的官方twitter上宣布從2018年的開始的第26輯起禁用p值。根據該刊的聲明，其主要原因是：「p值本身無法提供支持相關模式或假說之證據。」　　以《政治分析》在政治學之地位，其禁用p值的決定，將會引起連鎖效應，導致其他刊物跟進。一直以來，關於p值的討論爭論不斷。
美國統計協會關於統計顯著性和p值的說明

研究者往往希望將P值⽤於描述零假設成⽴的具體真實性有多⼤，或者是在隨機抽樣中抽取到觀察數值的實際可能性是多少，但是P值與⼆者都相去甚遠。事實上，P值是關於我們如何去解釋特定假設的數據，⽽不是對這⼀假設的解釋本⾝。（3）科學的結論和政策的制定不可以僅僅基於ｐ值是否通過特定的閾值。
九成以上研究者或無法正確理解p值

無論是Nature上800名科學家倡導的廢棄統計顯著性，還是ASA呼籲的規範使用p值，亦或是其他關於p值的熱烈討論（例如：Benjamin等在2017提出的將統計顯著的p值閾限下調至.005，詳見「科學界爭鳴：使用最廣泛的統計指標 P值 < .05 還是 .005才顯著？」
驚爆| p值不是什麼?【連載3】

我們可以開始討論：傳統用p值來作統計檢定方式，為什麼有問題？剛剛ASA的聲明說：p值do not measure the probability that the studied hypothesis is true。p值告訴你：如果虛無假設是對的，你「觀察到資料」的機率有多少，但它並沒有告訴你「虛無假設是對的」的機率有多少，或「研究假設是對的」的機率有多少。
【p值之爭】史丹福大學陸教授有話說

看來，任何一個從事臨床科研的工作者都應當避免成為有意和無意的垃圾製造者。p 值之爭概述：p值是生物醫學研究中使用最廣泛的統計學概念。最近，學界關於p值的效用以及p值的濫用與已發表的醫學研究無法重複性較差之間可能存在的關聯性有一些爭論。在本文中，我們以通俗易懂的方法介紹p值，並且解釋它的隨機性和局限性。
驚爆| 美國頂級學術期刊宣布禁用p值【連載1】

我本是藥品臨床研究的「門外漢」，但十幾年「浪跡」中藥CRO，深植於心一種「p值崇拜」，乃認為「無p值，不臨床。」然，1月22日，美國政治學頂級學術期刊《政治分析》在其官方twitter上宣布，從2018年開始的第26輯起禁用p值。據該刊之聲明，其主要原因是：「p值本身無法提供支持相關模式或假說之證據。」頂級政治期刊的「禁p」想必會引起連鎖效應，導致其他刊物跟進，是否也會波及到藥品臨床評價呢？
【統計】p值和FDR

那麼我們通常所說的p值的計算公式可以簡單寫成：p值衡量的是一個原本應該是𝐻0的判斷被錯誤認為是𝐻1(𝑟𝑒𝑗𝑒𝑐𝑡𝐻0)的比例，所以它是針對單次統計推斷的一個置信度評估。從另一個方向理解，在假設𝐻0成立的前提下，即先假設「兩組沒有差異」，比較兩組的差值，如果差值符合正態分布，p值越小，說明「兩組沒有差異」的概率越小，通常情況下，當p值小於0.05時，認為是小概率事件，即「兩組沒有差異」「幾乎不可能發生。我們接受𝐻1，「兩組有明顯差異」，就是我們經常在論文裡看到的陽性結果。
JAMA:p值檢驗,你用對了嗎?

2016年3月18日訊 /生物谷BIOON/ --最近一篇關於p值檢驗的總數統計總結了1990至2015以來的多篇生物醫學文獻，發現被錯誤理解的統計數據越來越多，報導p值時沒有同時報導應效應量和置信區間指標。史丹福大學醫學院的研究人員做了一項針對數百萬計的期刊文章的研究統計。
沿用還是棄用P值:還是讓它錦上添花吧!| BMC Journal

論文標題：Viewing 「p」 through the lens of
聽說P界值要從0.05降到0.005?不,這不是真的不是真的

P不過最近，p值得日子也不好過，質疑的聲音真是此起彼伏。首先，兩年前美國統計協會（ASA）發表了關於p值的聲明：看到了吧，我怎麼覺得他是想說：p值啥也幹不了啊。Ioannidis, 2018)鑑於對p值存在廣泛的誤解，誤用和過度信任，為了控制假陽性結果的誕生，建議降低檢驗水準到0.005你這是不想讓研究生畢業的節奏啊！
二、統計檢驗與p值

所以在統計學上，假設都是以「無罪假設」出現，稱之為零假設(null hypothesis)，假設是關於總體參數的論斷，而零假設總是「無罪「論斷，如沒有差別，沒有效果，沒有變化，沒有關係等，而備擇假設總是」有罪「論斷。我們以零假設為基礎，計算概率(p值)，做出統計推斷。如果p值小於閾值，則拒絕零假設，接受備擇假設。
p值、信賴區間為何被數百科學家連名反對?

統計學課本中寫到：沒有統計顯著性則不能「證明」零假設（關於兩組之間無差或者兩個實驗組和對照組的假設）。同時，統計顯著性也不「證明」其他假設。三位統計學教授主張：反對統計學意義、停用 p 值為判斷標準。近日Nature 雜誌發布了三位統計學家的一封公開信表示：這種誤解用誇大的觀點扭曲了文獻，而且導致了一些研究之間的衝突。
800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話

【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的？今年3月Nature上一篇主張廢除p值的文章，為何獲得800位科學家聯名支持？如果沒有p值門檻，研究質量會出現大滑坡嗎？戳右邊連結上新智元小程序了解更多！每年，全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大，統計學已成為越來越受歡迎的話題。
p 值是什麼?數據科學家用最簡單的方式告訴你

本文共分四個部分，從假設檢驗到理解 p 值，以及根據 p 值指導我們的決策過程。而統計顯著性建立在這 3 個簡單概念之上：假設檢驗正態分布p 值假設檢驗是用來通過一組數據檢驗針對總體的聲明（零假設）有效性的。如果零假設不成立，我們就會相信備擇假設。
驚爆| 只要是樣本研究 p值不能少【連載5】

點擊查看【引言】北京大學統計學專家姚晨老師認為：只要是樣本研究，p值不能少（詳見本文【微點評】），山西大學統計學專家仇麗霞老師從「質性研究」和「量性研究」角度分析認為「目前，p值是抽樣研究結論推斷的『唯一』標準（詳見本文【微點評】）。看來我國醫學統計專家的意見比較統一。
統計︱P值-0.05就發表,不然就去死!

對於p值的誤用會導致不良的科學風氣與成果（對於這一點大家沒有異議）。對一些科學領域逐漸增長的擔憂，催生了這份一致聲明。p值在一些領域已經成了決定研究論文是否值得出版的試金石。結果是，那些能夠給出超過某個隨意閾值的研究論文，更有可能被出版；同時具有更大或同等科研重要性的研究可能被扔在抽屜裡，不被科學界所見。分歧大多圍繞著頻率論者VS貝葉斯方法的技術爭論，以及p值的補充與替代品。「分歧是巨大的。
隨手學統計:繞不過的 p 值

原假設：我們認為品茶女士沒有品茶能力觀察結果：品茶女士把 8 杯茶都品了出來p 值：0.014這裡 p 值代表的含義是：如果品茶女士沒有品茶能力，那麼她品出 8 杯茶的概率是0.014。對，這個 p 值（概率）很小很小！
p值誤我?——「貝葉斯因子」了解一下

文章信息：跳出傳統假設檢驗方法的陷阱——貝葉斯因子在心理學研究領域的應用發表於《應用心理學》2018年 24卷 3期寫在前面：p值p值是指在一個概率模型中，統計摘要（如兩組樣本均值差）與實際觀測數據相同
詳細解析p或q和p且q命題題型的解題過程

圖一題型解析這裡p或q和p且q都是複合命題。若p，q有一真或者全為真，則p或q就為真；p，q兩個全為假，p或q才為假；若p，q有一假或者全為假，則p且q就為假；p，q全為真，p且q才為真。所以從題中給出的p或q為真，則說明p和q中至少有一個是真命題；p且q為假，則說明p和q至少有一個是假命題。所以可以推出：p和q中有一個是真命題，一個是假命題。

【論p】ASA關於P值的聲明:背景、過程和目的

相關焦點

【論p】ASA關於統計意義和P值的聲明

美國宣布禁用p值,原來p值很危險,如何取代p值?

美國統計協會關於統計顯著性和p值的說明

九成以上研究者或無法正確理解p值

驚爆| p值不是什麼?【連載3】

【p值之爭】史丹福大學陸教授有話說

驚爆| 美國頂級學術期刊宣布禁用p值【連載1】

【統計】p值和FDR

JAMA:p值檢驗,你用對了嗎?

沿用還是棄用P值:還是讓它錦上添花吧!| BMC Journal

聽說P界值要從0.05降到0.005?不,這不是真的不是真的

二、統計檢驗與p值

p值、信賴區間為何被數百科學家連名反對?

800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話

p 值是什麼?數據科學家用最簡單的方式告訴你

驚爆| 只要是樣本研究 p值不能少【連載5】

統計︱P值-0.05就發表,不然就去死!

隨手學統計:繞不過的 p 值

p值誤我?——「貝葉斯因子」了解一下

詳細解析p或q和p且q命題題型的解題過程