我行我show!中國醫院管理案例評選,醫院卓越管理實踐大秀場。
點擊查看【引言】我國教育研究的專家張力學友突然推送一文於我,標題令我倒吸一口涼氣:《美國頂級學術期刊宣布禁用p值,原來p值很危險》!我本是藥品臨床研究的「門外漢」,但十幾年「浪跡」中藥CRO,深植於心一種「p值崇拜」,乃認為「無p值,不臨床。」然,1月22日,美國政治學頂級學術期刊《政治分析》在其官方twitter上宣布,從2018年開始的第26輯起禁用p值。據該刊之聲明,其主要原因是:「p值本身無法提供支持相關模式或假說之證據。」頂級政治期刊的「禁p」想必會引起連鎖效應,導致其他刊物跟進,是否也會波及到藥品臨床評價呢?當「天狗食月(指1月31日的月全食)」時,不覺杞人憂天。據說,一直以來,關於p值的爭論不斷,長文《看電影學統計:p值的陷阱》是2016年6月6日美國德州大學奧斯汀校區政府系林澤民教授在臺灣政大社科院的演講稿,他說,為何我們使用的各種藥物,都是經過這麼嚴格的 p 值檢定出來、具有顯著性,可是在真正臨床上,卻不見得很有用。其實很多對 p 值的質疑,都是從這裡出來的。今將此文連載刊出,並在每期文後附上我國醫學統計學專家、學者以及統計學愛好者的「微點評」,目的是「拋玉引玉」,喚起業界同仁更多、更深的思考。以此為引,請君靜覽!
看電影學統計:p值的陷阱
院長、陳老師,各位老師、各位同學:
今天很榮幸能夠到政大來,和大家分享一個十分重要的課題。
今天談的當然是不一樣的題目,雖然它是一個很重要、很嚴肅的題目,但我希望大家可以輕鬆一點,所以也要放兩部電影片段給大家看,一部是《玉蘭花》,另一部則是《班傑明的奇幻旅程》,這兩部電影都有助於我們來了解今天要談論的主題:p 值的陷阱。
科學的統計學危機:p 值有什麼問題?
為什麼要談論 p 值的問題?因為在近十多年來,不只是政治學界,而是很多學門,特別是在科學領域,有很多文章討論傳統統計檢定方法、尤其是 p 值統計檢定的問題,甚至有位很有名的統計學者,Andrew Gelman 寫了篇文章,叫作《科學的統計學危機》(The Statistical Crisis in Science),說是危機一點都不言過其實。這就是為何我說:今天要討論的其實是很嚴肅的問題。
投影片上這些論點,大部分是說我們在傳統統計檢定的執行上,對 p 值有各種誤解跟誤用。現在很多人談到「p 值的危險」、「p 值的陷阱」、「p 值的誤用」、還有「p 值的誤解」。甚至有些學術期刊,也開始改變他們的編輯政策。像有本叫作 Basic and Applied Social Psychology 的心理學期刊,已經決定以後文章都不能使用 p 值,大家能夠想像嗎?我們作計量研究,都是用 p 值,各位一直用,在學界用了將近一百年,現在卻說不能用。甚至有些文章,說從前根據 p 值檢定做出來的研究成果都是錯的,有人更宣告 p 值已經死了。
所以這是一個很嚴重的問題。在這本期刊做出此決定後,美國統計學會(ASA)有一個回應,表示對於 p 值的問題,其實也沒這麼嚴重,大部分是誤解跟誤用所造成,只要避免誤解與誤用就好。可是在今年,ASA 真的就發表了正式聲明,聲明裡面提出幾點,也是我今天要討論的主要內容,包括 p 值的真正的意義,以及大家如何誤用,換句話說就是:p 值到底是什麼?它又不是什麼?(圖一) 今天除了會深入探討這些議題之外,也請特別注意聲明的第三點提到:科學的結論,還有在商業上、政策上的決策,不應只靠 p 值來決定。大家就應該了解這問題影響有多大、多嚴重!
圖一
我舉個例子,美國的 FDA,他們在批准一項新藥時,一定要看實驗的結果,而且實驗結果必須在統計上要顯著。可是 ASA 卻告訴我們說,決策不該只根據統計的顯著性,大家就可想像這影響會有多大。甚至有其他這裡沒有列出來的文章,提到為何我們使用的各種藥物,都是經過這麼嚴格的 p 值檢定出來、具有顯著性,可是在真正臨床上,卻不見得很有用。其實很多對 p 值的質疑,都是從這裡出來的。
有關 p 值的討論,其實並非由政治學門,而是從生命科學、例如醫學等領域所產生的。ASA 聲明的第四點說:正確的統計推論,必須要「full reporting and transparency」,這是什麼意思呢?這是說:不但要報告 p 值顯著的研究結果,也要報告 p 值不顯著的研究結果。
但傳統方法最大的問題是:研究結果不顯著,通通都沒有報告。在英文有個詞叫 ,摘櫻桃。什麼叫摘櫻桃?摘水果,水果熟的才摘,把熟的水果送到水果攤上,大家在水果攤上看到的水果,都是漂亮的水果,其實有很多糟糕的水果都不見了。我們在統計上也是,大家看到的都是顯著的結果,不顯著的結果沒有人看到。
可是在過程中,研究者因為結果必須顯著,期刊才會刊登、新藥才會被批准,所以儘量想要擠出顯著的結果,這之中會出現一個很重大的問題:如果我們作了 20 個研究,這 20 個研究裡面,虛無假設都是對的,單獨的研究結果應該是不顯著。可是當我們作了 20 個統計檢定時,最少有一個結果顯著的或然率其實很高。雖然犯第一類型錯誤的或然率都控制在 0.05,可是 20 個裡面最少有一個顯著的,或然率就不是 0.05,大概是 0.64。如果就報告這個顯著結果,這就是 cherry-picking。
ASA 給的建議是:實驗者必須要 full reporting and transparency,就是一個研究假如作了 20 個模型的檢定,最好 20 個模型通通報告,不能只報告顯著的模型。ASA 這個聲明是今天要討論的主要內容。(未完待續)
【微點評】
夏結來,博士,第四軍醫大學衛生統計學教研室主任、教授、博士生導師,中國信息協會統計理論與方法專業委員會副主任委員、中華預防醫學會生物統計學分會侯任主任委員,中國衛生統計雜誌編委、CCTS副組長、CDMC組長。
以方差已知的正態分布為例,根據隨機抽取的樣本計算得出的檢驗統計量Z=丨X bar-μ丨/sigma,如果Z>1.96,則P值小於0.05。P值是什麼呢?如果H0為真,P值就是隨機抽到Z大於1.96的樣本的概率。
如果P小於給定的檢驗水準α,譬如,0.05,則拒絕H0,接受H1; 反之則不拒絕H0。這就是假設檢驗的推斷原則。
也就是說,如果H0為真,根據這個原則,如果P<0.05,則錯誤的拒絕H0的概率不超過0.05,即一類錯誤不會超過5%。
無論是α或P都不是H0本身成立的概率,H0成立的概率P(H0)是無法知道的。
假設檢驗不是邏輯推理,只是「說理」。
好比說,剛認識一位朋友,你把他當做好人,但是他連著做壞事,你就不把他當好人了,但他到底是不是好人,那是不知道的。道理和假設檢驗一樣。
[注]本文資料自微信公眾號【經管世界】