我行我show!中國醫院管理案例評選,醫院卓越管理實踐大秀場。
點擊查看近些年,科學研究的日益定量化和大型複雜數據集的激增擴充了統計學方法應用的範圍。它創造了科學進步的新途徑,但也帶來對從研究數據提取結論的關注。科研結論的真實性,包括其可再現性,不僅僅取決於統計學方法。合適地選擇技術、恰當地進行分析以及正確解釋統計結論,在保證結論正確和確切表達結果的不確定性上也起了關鍵作用。許多發表的科學結論是以p值這個指標評估的「統計學意義」概念為支撐的。雖然p值是一個有用的統計學測度,但它普遍地被錯誤使用和錯誤解釋。這已經導致某些科學雜誌不鼓勵使用p值,某些科學家建議廢棄它,自從引入p值以來某些爭論就基本上沒有變過。在這個背景下,美國統計學會(ASA)相信,以一個正式的聲明來澄清關於正確使用和解釋p值的若干廣泛贊同的原則,可以使科學界從中得益。這裡提及的內容不僅影響科研,而且也影響研究基金、雜誌工作、職業發展、科學教育、公共政策、新聞和法律。這個聲明並不想解決與合理統計實踐有關的所有問題,也不想平息基本爭議。而是借這個聲明以非技術的語言,按照統計學界的廣泛共識,闡明若干原則,有助於改善定量科學的實施或解釋。
什麼是p值?
非正式而言,p值是在一個特定統計模型之下,數據(例如,兩個比較組樣本均數之差)的一個統計學概括,等於其觀察值或取更極端值的概率。
原 則
1.p值可以表明數據和特定統計模型之間如何不相容。
p值提供一個辦法來概括一個特定數據集和為其建議的一個模型之間的不相容性。最常見的情形是在一組假定之下構建的一個模型和一個所謂的「零假設」。零假設常常是效應不存在,諸如兩組之間無差異,或者一個因素和一個結局之間無關係。如果用以計算p值的基本假定成立,p值越小,數據和零假設之間不相容性越大。這個不相容性可以解釋為質疑或提供證據反對零假設或基本假定。
2.p值並不度量研究假設為真的概率,或者數據純系隨機產生的概率。
研究者常常希望把p值放到關於零假設為真,或者觀察數據系隨機產生的敘述中。p值並非如此。它描述數據和特定假設之間的關係,而不是描述假設本身。
3.科學結論和商務或政策決定不可以僅僅基於一個p值是否通過特定的閾值。
將數據分析或科學推斷簡化為機械的「一刀切」裁定(諸如「p<005」),這樣來證明科學論斷或結論會導致錯誤的信念和糟糕的決策。在「一刀切」的一側,結論立即是「正確」,在另一側,立即是「錯誤」。研究者作科學推斷時必須考慮許多因素,包括研究的設計、測量的品質、所研究現象的外部證據,以及數據分析背後的假定是否成立。實踐固然常要求二擇一,作「yesno」決定,但是,並不意味單靠p值就能保證一個決定正確與否。將廣泛使用的「統計學意義」(通常解釋為「p≤0.05」)作為宣布一個科學發現(或真理)的合格證會導致科學過程相當大的歪曲。
4.正確恰當的推斷要求完整的報告和透明度
p值和有關的分析決不可選擇性地報告。數據作了多重分析,卻只報告特定部分的p值(一般報告通過了閾值的那些)會使得所報告的p值根本不可解釋。專挑有前途的發現,又稱為數據捕撈、意義追逐、意義尋覓、選擇性推斷和「p黑客」,導致已發表文獻中虛假的、過度統計學意義的結果,必須嚴格避免。人們一定不要正規地實施多重統計檢驗而產生這個問題:每當研究者基於根據統計結果選擇報告什麼,如果不告訴讀者如何選擇及其偏倚,那些結果的解釋必是嚴重歪曲不實的。研究者必須公開研究階段被探索假設的個數、所有數據收集的決策、實施過的所有統計分析和計算過的所有p值。至少要知道進行了多少分析和什麼分析以及怎樣選擇某些分析(包括p值)來報告,才能基於p值和相關的統計量作出真實的結論。
5.p值或統計學意義並不度量效應的大小或結果的重要性。
統計學意義並不等價於科學、人類或經濟意義。較小的p值不一定意味較大或較重要效應的出現,較大的p值不一定意味缺乏重要性或沒有效應。任何效應,不論多小,如果樣本量足夠大或測量精度足夠高,總能產生一個小的p值;如果樣本量小或測量不精確,大的效應也可能產生不起眼的p值。類似地,如果估計的精度不同,同一個被估計的效應將有不同的p值。
6.p值本身並不對模型或假設提供一個好的度量
研究者必須知道,沒有背景或其他證據,p值提供的信息是有限的。例如,一個接近0.05的p值本身只是反對零假設的微弱證據。類似地,一個相對大的p值並不意味證據有利於零假設;許多其他的假設可能和觀察到的數據同樣或者更加一致。由於這些原因,當其他方法適宜和可行時,數據分析決不可止於一個p值的計算。
其他方法
鑑於出現p值的錯誤使用和錯誤概念,有些統計學家願意以其他方法補充甚至取代p值。包括比檢驗更強調估計,諸如置信區間、可信區間或預測區間;貝葉斯方法;證據的其他測度,諸如似然比或貝葉斯因子;以及其他途徑,諸如決策理論模型和錯誤發現率。所有這些測度和方法依賴於更多假定,但它們較多直接關注效應的大小(及其連帶的不確定性)或假設是否正確。
結 論
好的統計實踐,作為好的科學實踐的基本成分,強調好的研究設計和實施原則,數據的多種數值和圖形概括、理解所研究的現象、結果的全面和完整的報告,以及正確邏輯和定量地理解數據概括意味什麼。沒有任何單一的指標可以取代科學推理。
【注】美國統計協會(American Statistical Association,簡稱ASA),是全美最主要的為統計學以及相關專業所設立的組織機構。其於1839年11月27日於麻薩諸塞州波士頓成立。
【譯者】:方積乾 教授,1961年獲復旦大學數學學士學位,1982年至1985年在加利福尼亞大學伯克利分校,師從蔣慶琅教授,研究生命現象的隨機過程模型,獲生物統計學博士。1985年在北京醫科大學由講師直接提升為教授。1991年任中山醫科大學公共衛生學院教授、主任、博士導師。國際生物統計學會中國組負責人;中國衛生統計學會副會長、廣東省衛生統計學會會長。曾在英國肯特大學、澳大利亞國立大學講學,1993以來,任香港中文大學兼職教授。