P
不過最近,p值得日子也不好過,質疑的聲音真是此起彼伏。
首先,兩年前美國統計協會(ASA)發表了關於p值的聲明:
看到了吧,我怎麼覺得他是想說:p值啥也幹不了啊。
當然還有更直白的表達:
(Political Analysis, 2018)
2018年1月22日,美國學術期刊《政治分析》宣布從2018年的開始的第26輯起禁用p值。其要義在於:政治分析將不再在回歸表或其他地方報告P值。造成這種變化的原因有很多,其中最重要的一個原因是:單純依靠p值本身,並不能提供支持特定模式或假設的證據。
當然,為p值操心的學者不光是他們。
今年初Daniel J. Benjemin 等72位學者出於對與0.05這個檢驗水準本身過於寬鬆的擔憂,建議將檢驗水準從0.05降低至0.005來遏制那些其實根本沒用的新療法的出現:
(Daniel J. Benjemin, 2018)
此後,美國醫學會雜誌(JAMA),發表了John P. A. Ioannidis的文章:
(John P. A. Ioannidis, 2018)
鑑於對p值存在廣泛的誤解,誤用和過度信任,為了控制假陽性結果的誕生,建議降低檢驗水準到0.005
你這是不想讓研究生畢業的節奏啊!
同樣的研究要驗證p
更重要的,既然知道問題來自於誤解和誤用,那不去解決這些根本問題,還是提議「權衡之策」:對「無辜」的p值本身下手,真的很好嗎?
P值是什麼?
我們組間差別的t檢驗為例:比如我們要驗證一種新的治療方法它的治療效果不同於傳統的治療方法。
P值是在假定兩樣本來自同一總體的前題下,隨機抽樣中獲得研究中這樣差別兩個樣本以及獲得比他們差別更大的抽樣結果的總可能性。
不過面對一個數值,雖然它很直觀,但是我們仍然需要一個標準來做出判斷,到底要小到多少才叫可能性足夠小了呢。所以,目前我們通用的標準是0.05,當P
這裡,0.05是我們能夠接受假陽性的水準,因為,它們二者的差異仍有微小的可能來自抽樣誤差,只是已經小到我們可以接受的水平。
所以p值本來是個界於0-1之間的數值,但是為了作出明確判斷,我們賦予了它一個界值。
其實這樣的情況挺多見,比如為了判斷誰是胖子,我們也得給BMI找個界值(BMI>24為超重,BMI>28為肥胖)是一樣的。只不過p值的界值更加「矚目」因為它似乎和研究的成敗聯繫在了一起。
沒有人會因為BMI是不是達到肥胖標準而苦惱不已。
但p=0.049和p=0.051則經常讓人感到是「冰火兩重天」。
我們都學習過,p>0.05的結果尚無法支持任何結論,而且您大概也聽說過發表偏倚吧,陽性結果更容易給雜誌社接收和發表。
漸漸地,我們似乎不再介意p值本來的含義,取而代之,我們更關注他是不是能夠
正象很久以前,科學研究的成果沒有公共渠道發布,大牛們互相寫封信就算公布了。為了有個方便對公眾發布的渠道,就有了學術期刊,以方便成果分享。但漸漸的,能否被期刊認可發表,變成了對研究成果的衡量手段。雜誌本身也就比他誕生時的初衷承載了更多。
正所謂「能力越大,責任越大」。
自從1925年Ronald Fisher提出p值並廣泛應用以來,P值同樣也承受著不可承受之重。
為什麼這麼說呢?
其實臨床研究是一個連續的過程,統計分析與結果的解讀僅僅是其中的一個環節。對於科學命題的驗證,它的科學性考慮是從研究設計階段就開始的。在研究設計中我們會遭遇各種可能影響研究結果偏離真實情況的障礙。比如信息偏倚,選擇偏倚,混雜偏倚等等,如果信息的獲取已經偏離了實際情況,那麼我們無論把允許的假陽性水準降到多麼低,也沒有辦法獲得可靠的結果。而且接下來,研究執行過程的嚴謹性,數據的準確性,統計模型選擇的合理性,都影響著研究的質量與科學性。只是,這一切似乎都將通過p值表現出來並接受大家關注的目光。
由此,單純降低檢驗水準以獲得對假陽性結果控制的設想好像是:
「揚湯止沸+火上澆油」
並沒有對提高研究質量做出實質貢獻。
而且隨著檢驗水準更加極端,有可能增加假陰性的結果比例。比如下面的:
及下面情況中的:
很多上面「非常不可能」就會變成「還不能確定」。
如果以上所呈現的平均水平差異具有代表性,是真實的且具有臨床意義,那麼想獲得統計學驗證的方式就需要更大的樣本量。這意味著更多的人力,經費投入,以及研究結論的延遲獲得。
另一方面,從方法學角度看,自然科學在認識世界的過程中,往往需要首先對實際問題進行合理的簡化入手,以揭示基本規律。進而不斷地豐富發展以更好地逼近真實情況。在統計學的發展中,同樣需要首先從隨機化過程以及相應的多種分布特徵為基礎,認識最基本的統計學規律。並不斷前進。至今隨機模擬仍然是我們了解統計規律的重要手段。
然而面對現實統計問題時我們發現:理論分明而骨幹;現實多樣而豐滿。
將基於理想假設構建的方法應用於解決實際問題的時候,一定會遇到實際問題。
例如,將血液視為不可壓縮的無粘滯的牛頓流體,忽略流變學特徵分析冠脈血流,那麼分析結果的偏差可想而知。時至今日,血液流變學特徵仍然吸引著大量學者不斷探索和前進。
如同統計分析中,大量分析過程基於特定的分布以及隨機樣本構建,然而,實際數據卻往往沒那麼理想。
下圖來自十萬以上數據的年齡特徵直方圖,假設檢驗告訴我們:它來自正態分布的可能性很小。
同時,隨機抽樣在很多情況下幾乎也是無法實施的。
再如臨床常用的回歸分析,大多數情況下僅僅是利用統計學方法幫助我們了解臨床信息間共同變化的趨勢,而非以數學模型對臨床特徵給與精準表達。
所以我們更願意把統計分析看作我們了解世界助手,而不是唯一的「法寶」。
雖然我們會在研究過程中力求嚴謹,以符合設計原則,盡力獲取反映真實情況的信息。不過我們也深知,對自然規律的追尋並無止境。其實,這正是科學的魅力,我們一直走在探索和發現的路上。
綜上,客觀的評判研究結果應該從評價整個研究過程的嚴謹性科學性入手,而且在關注統計學結果的同時更應注重評價結果的臨床意義,並最終做出結論。
無論怎樣,統計學假設檢驗藉助相應的統計分布幫助我們在一定程度上認識數據特徵,了解科學規律。只是它常常被誤解並且一直默默的承受著這一切。
無論怎樣,我們還是用手繪的花盆並栽種花生綠化辦公環境,並送上我們對研究者的祝福。
(我們當然不希望檢驗水準有變啦,不然這花盆還得重畫,彩繪裡傾注的也是心血啊!)
盧雙老友審讀, 多謝老朋友!
參考文獻:
Ioannidis JPA. The ProposaltoLower P Value Thresholds to .005. JAMA. 2018;319(14):1429-1430.
Benjamin DJ,Berger JO,Johannesson M, et al. Redefine statistical significance. Nature HumanBehaviour. 2018;2(1):6-10.
Wei Y, Chen F. Lowering the pvalue threshold. JAMA. 2018;320(9):934-935.
Hernandez I, Gellad W F, Good CB. Lowering the p value threshold. JAMA. 2018;320(9):935.
Wasserstein RL, Lazar NA. TheASA's Statement on p-Values: Context, Process, and Purpose. The AmericanStatistician. 2016;70(2):129-133
Wasserstein RL, Lazar NA. 方積乾譯, ASA關於p-值的聲明:背景、過程和目的. 中國衛生統計雜誌,2016;33(3): 548-552