驚爆| 美國頂級學術期刊宣布禁用p值【連載1】

2021-01-08 健康界

我行我show!中國醫院管理案例評選,醫院卓越管理實踐大秀場。

點擊查看

【引言】我國教育研究的專家張力學友突然推送一文於我,標題令我倒吸一口涼氣:《美國頂級學術期刊宣布禁用p值,原來p值很危險》!我本是藥品臨床研究的「門外漢」,但十幾年「浪跡」中藥CRO,深植於心一種「p值崇拜」,乃認為「無p值,不臨床。」然,1月22日,美國政治學頂級學術期刊《政治分析》在其官方twitter上宣布,從2018年開始的第26輯起禁用p值。據該刊之聲明,其主要原因是:「p值本身無法提供支持相關模式或假說之證據。」頂級政治期刊的「禁p」想必會引起連鎖效應,導致其他刊物跟進,是否也會波及到藥品臨床評價呢?當「天狗食月(指1月31日的月全食)」時,不覺杞人憂天。據說,一直以來,關於p值的爭論不斷,長文《看電影學統計:p值的陷阱》是2016年6月6日美國德州大學奧斯汀校區政府系林澤民教授在臺灣政大社科院的演講稿,他說,為何我們使用的各種藥物,都是經過這麼嚴格的 p 值檢定出來、具有顯著性,可是在真正臨床上,卻不見得很有用。其實很多對 p 值的質疑,都是從這裡出來的。今將此文連載刊出,並在每期文後附上我國醫學統計學專家、學者以及統計學愛好者的「微點評」,目的是「拋玉引玉」,喚起業界同仁更多、更深的思考。以此為引,請君靜覽!

看電影學統計:p值的陷阱

院長、陳老師,各位老師、各位同學:

今天很榮幸能夠到政大來,和大家分享一個十分重要的課題。

今天談的當然是不一樣的題目,雖然它是一個很重要、很嚴肅的題目,但我希望大家可以輕鬆一點,所以也要放兩部電影片段給大家看,一部是《玉蘭花》,另一部則是《班傑明的奇幻旅程》,這兩部電影都有助於我們來了解今天要談論的主題:p 值的陷阱。

科學的統計學危機:p 值有什麼問題?

為什麼要談論 p 值的問題?因為在近十多年來,不只是政治學界,而是很多學門,特別是在科學領域,有很多文章討論傳統統計檢定方法、尤其是 p 值統計檢定的問題,甚至有位很有名的統計學者,Andrew Gelman 寫了篇文章,叫作《科學的統計學危機》(The Statistical Crisis in Science),說是危機一點都不言過其實。這就是為何我說:今天要討論的其實是很嚴肅的問題。

投影片上這些論點,大部分是說我們在傳統統計檢定的執行上,對 p 值有各種誤解跟誤用。現在很多人談到「p 值的危險」、「p 值的陷阱」、「p 值的誤用」、還有「p 值的誤解」。甚至有些學術期刊,也開始改變他們的編輯政策。像有本叫作 Basic and Applied Social Psychology 的心理學期刊,已經決定以後文章都不能使用 p 值,大家能夠想像嗎?我們作計量研究,都是用 p 值,各位一直用,在學界用了將近一百年,現在卻說不能用。甚至有些文章,說從前根據 p 值檢定做出來的研究成果都是錯的,有人更宣告 p 值已經死了。

所以這是一個很嚴重的問題。在這本期刊做出此決定後,美國統計學會(ASA)有一個回應,表示對於 p 值的問題,其實也沒這麼嚴重,大部分是誤解跟誤用所造成,只要避免誤解與誤用就好。可是在今年,ASA 真的就發表了正式聲明,聲明裡面提出幾點,也是我今天要討論的主要內容,包括 p 值的真正的意義,以及大家如何誤用,換句話說就是:p 值到底是什麼?它又不是什麼?(圖一) 今天除了會深入探討這些議題之外,也請特別注意聲明的第三點提到:科學的結論,還有在商業上、政策上的決策,不應只靠 p 值來決定。大家就應該了解這問題影響有多大、多嚴重!

圖一

我舉個例子,美國的 FDA,他們在批准一項新藥時,一定要看實驗的結果,而且實驗結果必須在統計上要顯著。可是 ASA 卻告訴我們說,決策不該只根據統計的顯著性,大家就可想像這影響會有多大。甚至有其他這裡沒有列出來的文章,提到為何我們使用的各種藥物,都是經過這麼嚴格的 p 值檢定出來、具有顯著性,可是在真正臨床上,卻不見得很有用。其實很多對 p 值的質疑,都是從這裡出來的。

有關 p 值的討論,其實並非由政治學門,而是從生命科學、例如醫學等領域所產生的。ASA 聲明的第四點說:正確的統計推論,必須要「full reporting and transparency」,這是什麼意思呢?這是說:不但要報告 p 值顯著的研究結果,也要報告 p 值不顯著的研究結果。

但傳統方法最大的問題是:研究結果不顯著,通通都沒有報告。在英文有個詞叫 ,摘櫻桃。什麼叫摘櫻桃?摘水果,水果熟的才摘,把熟的水果送到水果攤上,大家在水果攤上看到的水果,都是漂亮的水果,其實有很多糟糕的水果都不見了。我們在統計上也是,大家看到的都是顯著的結果,不顯著的結果沒有人看到。

可是在過程中,研究者因為結果必須顯著,期刊才會刊登、新藥才會被批准,所以儘量想要擠出顯著的結果,這之中會出現一個很重大的問題:如果我們作了 20 個研究,這 20 個研究裡面,虛無假設都是對的,單獨的研究結果應該是不顯著。可是當我們作了 20 個統計檢定時,最少有一個結果顯著的或然率其實很高。雖然犯第一類型錯誤的或然率都控制在 0.05,可是 20 個裡面最少有一個顯著的,或然率就不是 0.05,大概是 0.64。如果就報告這個顯著結果,這就是 cherry-picking。

ASA 給的建議是:實驗者必須要 full reporting and transparency,就是一個研究假如作了 20 個模型的檢定,最好 20 個模型通通報告,不能只報告顯著的模型。ASA 這個聲明是今天要討論的主要內容。(未完待續)

【微點評】

夏結來,博士,第四軍醫大學衛生統計學教研室主任、教授、博士生導師,中國信息協會統計理論與方法專業委員會副主任委員、中華預防醫學會生物統計學分會侯任主任委員,中國衛生統計雜誌編委、CCTS副組長、CDMC組長。

以方差已知的正態分布為例,根據隨機抽取的樣本計算得出的檢驗統計量Z=丨X bar-μ丨/sigma,如果Z>1.96,則P值小於0.05。P值是什麼呢?如果H0為真,P值就是隨機抽到Z大於1.96的樣本的概率。

如果P小於給定的檢驗水準α,譬如,0.05,則拒絕H0,接受H1; 反之則不拒絕H0。這就是假設檢驗的推斷原則。

也就是說,如果H0為真,根據這個原則,如果P<0.05,則錯誤的拒絕H0的概率不超過0.05,即一類錯誤不會超過5%。

無論是α或P都不是H0本身成立的概率,H0成立的概率P(H0)是無法知道的。

假設檢驗不是邏輯推理,只是「說理」。

好比說,剛認識一位朋友,你把他當做好人,但是他連著做壞事,你就不把他當好人了,但他到底是不是好人,那是不知道的。道理和假設檢驗一樣。

[注]本文資料自微信公眾號【經管世界】

相關焦點

  • 驚爆| p值不是什麼?【連載3】
    點擊查看 【引言】昨日轉載美國德州大學奧斯汀校區政府系林澤民教授2016年在臺灣政大社科院的演講《看電影學統計:p值的陷阱》,他首先講的p值是什麼?今天刊出的是p值不是什麼?由於這部分的文字比較長,將分三期刊出。
  • 驚爆| 只要是樣本研究 p值不能少【連載5】
    在等待明天推送的【論p】《中醫藥專家有話說》之前,敬請您還是先「硬著頭皮」把林老師的「偽陽性反機率」統計學「掃盲」讀完。至此,我們的【驚爆】系列將轉為【論p】,更多觀點交鋒,為君呈現,敬請關注!【續昨】偽陽性反機率的問題現在要詳細討論影響偽陽性反機率的因素,就是影響到「統計檢定是顯著的條件之下,虛無假設為真」這一個機率的因素。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    1月22日,美國政治學頂級學術期刊《政治分析》在他們的官方twitter上宣布從2018年的開始的第26輯起禁用p值。根據該刊的聲明,其主要原因是:「p值本身無法提供支持相關模式或假說之證據。」  以《政治分析》在政治學之地位,其禁用p值的決定,將會引起連鎖效應,導致其他刊物跟進。一直以來,關於p值的討論爭論不斷。
  • 計算機領域頂級科學家、學術會議、期刊影響力排名(附國內排名)
    近日,Guide2Research 發布了計算機科學領域的論文期刊、學術會議和科學家等內容的學術影響力排名。其排名根據 Google Scholar Metrics 的 H5-Index 和期刊影響力因子確定,並且我們可以根據計算機子領域、出版物、國家和關鍵字等條目尋找我們希望了解的影響力排行。
  • 聽說P界值要從0.05降到0.005?不,這不是真的不是真的
    P不過最近,p值得日子也不好過,質疑的聲音真是此起彼伏。首先,兩年前美國統計協會(ASA)發表了關於p值的聲明:看到了吧,我怎麼覺得他是想說:p值啥也幹不了啊。當然還有更直白的表達:(Political Analysis, 2018)2018年1月22日,美國學術期刊《政治分析》宣布從2018年的開始的第26輯起禁用p值。其要義在於:政治分析將不再在回歸表或其他地方報告P值。造成這種變化的原因有很多,其中最重要的一個原因是:單純依靠p值本身,並不能提供支持特定模式或假設的證據。
  • 美國統計學會權威發布:P值應該這麼用,學界有錯須改正
    來源 美國統計學會,retractionwatch.com編譯 譚坤2014年2月,美國曼荷蓮學院(Mount Holyoke College)數學與統計學教授George Cobb在美國統計學會(American Statistical Association, ASA)的論壇上提出了兩個問題:問:為什麼這麼多學校都在教「P=
  • PLOS: P值焦慮會否顛覆整個科學界的可信度
    導致p-hacking的常見行為包括:1)因為p<0.05而終止實驗數據的收集;2)測量一大堆因變量,再根據p值選擇性地報告因變量結果;3)根據p值刪掉異常值(outlier);4)根據p值決定如何如何定義對照組(treatment groups);5)在實驗進行過程中分析數據。你中槍了麼?
  • 成果發表於國際頂級學術期刊
    研究成果發表於2018年10月04日最新一期的國際頂級學術期刊《細胞》(Cell)中。    這是由中國科學家主導,歷時兩年,對 14 萬餘中國人的無創產前基因檢測(NIPT)數據進行深入研究後,首次揭秘中國人群基因遺傳特徵的科研成果。
  • 德國頂級化學學術期刊惹眾怒,自己的編委都氣得辭職了!
    近日,就在反種族主義的抗爭運動,因為美國黑人喬治·弗洛伊德的慘死,而席捲了美國全社會時,德國頂級化學學術期刊《德國應用化學》也因為刊登了一篇充滿性別和種族歧視色彩的論文,而引起了學術界的眾怒——甚至於該刊的44名編委中,有16人都為此事而憤怒辭職。
  • 【喜訊】我校研究生在國際頂級學術期刊發表論文
    日前,經濟與管理學院2016級博士研究生郝曉莉的論文「The Marginal and Double Threshold effects of Regional Innovation on Energy Consumption Structure: Evidence from Resource-based Regions in China」在經濟學國際頂級學術期刊
  • 【p值之爭】史丹福大學陸教授有話說
    對於在研究中闡釋統計結果而言,了解p值的多樣性和局限性是至關重要的。【關鍵詞:p值;統計推斷;假設檢驗;統計顯著性;科學可重複性】1. 背景在一個經典研究中,如臨床試驗,研究者可能對一個創新治療和安慰劑對照(或標準治療)兩組之間在一個預設的終點時的差異感興趣。初步證據表明創新治療可能會使患者受益,臨床試驗的目的在於嚴格驗證這個假設。
  • 德國頂級化學學術期刊惹眾怒,自己的編委氣得辭職!
    近日,就在反種族主義的抗爭運動,因為美國黑人喬治·弗洛伊德的慘死,而席捲了美國全社會時,德國頂級化學學術期刊《德國應用化學》也因為刊登了一篇充滿性別和種族歧視色彩的論文,而引起了學術界的眾怒——甚至於該刊的44名編委中,有16人都為此事而憤怒辭職。
  • p值誤我?——「貝葉斯因子」了解一下
    文章信息:跳出傳統假設檢驗方法的陷阱——貝葉斯因子在心理學研究領域的應用發表於《應用心理學》2018年 24卷 3期寫在前面:p值p值是指在一個概率模型中,統計摘要(如兩組樣本均值差)與實際觀測數據相同
  • 電院網安學院連中三篇頂級學術會議論文
    在九月底剛出爐的國際密碼旗艦會議之一亞密會(AsiaCrypt)及10月初剛出爐的計算機科學理論領域的國際頂級會議SODA的論文接收中,電院網安空間安全學院信息安全與密碼研究所(IISeC --- Institute of Information Security and Cryptology)分別有2篇和1篇論文被正式接收。
  • JAMA:p值檢驗,你用對了嗎?
    2016年3月18日 訊 /生物谷BIOON/ --最近一篇關於p值檢驗的總數統計總結了1990至2015以來的多篇生物醫學文獻,發現被錯誤理解的統計數據越來越多,報導p值時沒有同時報導應效應量和置信區間指標。史丹福大學醫學院的研究人員做了一項針對數百萬計的期刊文章的研究統計。
  • 【新冠病毒或影響男性生育能力】北京時間1月9日,頂級學術期刊...
    【新冠病毒或影響男性生育能力】北京時間1月9日,頂級學術期刊《細胞》(Cell)在線發表了由西湖大學生命科學學院和華中科技大學同濟醫學院附屬協和醫院的研究人員共同完成的一項研究,題為「Multi-organ Proteomic Landscape of COVID-19 Autopsies」。
  • 劉愛驊教授等在國際頂級期刊《Chemical Reviews》發表的論文獲獎
    新聞網訊 近日,我校生命科學學院劉愛驊教授及其合作者於國際頂級綜述性期刊《Chemical Reviews》發表的論文在首屆《你最喜歡的綜述競賽》中榮獲第二名。美國化學會《Chemical Reviews》總編Sharon Hammes-Schiffer教授發表的年度社論(Chem.
  • 湖北在讀博士生:以第一作者身份登上世界頂級學術期刊!
    4月8日,化學領域國際頂級期刊《美國化學會志》(Journal of the American ChemicalSociety, JACS,影響因子14.357)在線發表了武漢工程大學陳嶸教授課題組在Ag基納米糰簇方面的重要進展——"Pd-mediated Synthesis of
  • 九成以上研究者或無法正確理解p值
    一項針對Science、Nature和PNAS三本頂級雜誌的調查表明,在過去的20年,出現在三本雜誌中的圖表仍高度、且越來越依賴於p值(Cristea & Ioannidis, 2018)。但是,如此常用的p值在統計學界和科學界其實褒貶不一。
  • 熊大胡說 | 北大教授告訴你,被頂級學術期刊槍斃的p.Value到底是個什麼鬼?
    所以,我想先跟大家,用充足的篇幅,解釋一下,p.Value到底是個什麼鬼?為此,我們必須先搞明白假設檢驗(Hypotheses Testing)的基本理論框架。要知道,p.Value就是在假設檢驗,這個理論框架下產生的。為此,我虛構一個例子,不一定非常合理,但是方便於純粹的學術討論。假設狗熊會開了一個製藥公司,就叫做:狗熊製藥。狗熊製藥專業研究減肥藥。為什麼?