北大教授告訴你,被頂級學術期刊槍斃的p.Value到底是個什麼鬼?

2021-02-08 量化研究方法


如果把p.Value看作是一個孩子的話,《政治分析》顯然把p.Value給槍斃了。原因是什麼?答:他是一個壞孩子。請問:他壞在哪裡?他是誰?你真的認識他嗎?就拿這三個問題去問《政治分析》的作者群,我鬥膽揣測,能回答出來的比例一定很低。當然,我不認為這全是《政治分析》作者群的問題,我更認為,這是我輩統計學教師的問題,我們在傳播統計學思想方面,做得不夠好。


所以,我想先跟大家,用充足的篇幅,解釋一下,p.Value到底是個什麼鬼?為此,我們必須先搞明白假設檢驗(Hypotheses Testing)的基本理論框架。要知道,p.Value就是在假設檢驗,這個理論框架下產生的。為此,我虛構一個例子,不一定非常合理,但是方便於純粹的學術討論。


假設狗熊會開了一個製藥公司,就叫做:狗熊製藥。狗熊製藥專業研究減肥藥。為什麼?因為這個藥品的市場前景太好了。現在社會,所有人都在喊減肥。尤其是熊大這樣,不惑年齡的保溫杯枸杞中年男,體重永遠都是長勢喜人!如果狗熊製藥能夠研製一種沒有副作用的靈丹妙藥,能夠一個月內,給熊大減10斤贅肉,這得是多麼美好的一件事情?這個藥品的市場得是無窮大。狗熊製藥的股票得800個漲停才能對得起這款偉大的產品。


但是,就當狗熊製藥把這款藥品研製成功,並且準備推向北美市場的時候,突然發現了一個問題。那就是:美國政府FDA的批條還沒拿到。要知道,如果這個藥品要在美國市場上合法上市,必須有美國食品藥品管理局(FDA)的批准。否則就是違法的!


當然,狗熊製藥認為這不是問題,咱們給FDA好好解釋一下,咱這款靈丹妙藥,用的原料相當講究。包括:天山雪蓮、長白山老參、冬蟲夏草、地溝油、還有金剛大力丸等。反正都是吃了不死人的好東西。然後,所有原材料,混在一起,在太上老君的煉丹爐裡,精心煉製了九九八十一天,才萃取出來的高純度有效成分。這個成分對減肥有奇效,而且沒有任何副作用。請給我批條,Pls!FDA會怎麼想?


擺在FDA面前只有兩個選擇:同意Yes,或者拒絕No。FDA必須在兩個選擇中,二選其一,沒有第三種可能。你看,至此,我們已經抽象出,假設檢驗的第一個重要構成要素:一個關於Yes or No的決策!請大家記住,這是理解p.Value,以及假設檢驗問題的第一個關鍵要素:一個關於Yes or No的決策!這個要素,定義了假設檢驗存在的場景。假設檢驗存在的場景,定義了p.Value存在的場景。所以,大家有空琢磨一下,這樣類似的,關於Yes or No的問題,還有哪些?你會發現,滿大街都是:法官判決你是否有罪?籤證官判斷你是否有移民傾向?你判斷自己是否應該購買一款手機?是否應該跟某人談一場你死我活的戀愛?


當面對這個Yes or No的決策的時候,咱們把FDA看做一個大法官,請問這個大法官是如何決策的呢?你會發現,FDA大法官會關上門,對著Yes和No兩個決策,發了半天呆。然後問自己:這兩個決策,我是否應該有所偏向?還是公平對待?最後了悟:我應該永遠偏向於說No,而不是Yes。為什麼?


說No不會有災難性後果。大不了,狗熊製藥的靈丹妙藥上不了美國市場,又能咋地?以前北美也沒有這個藥品,現在仍然沒有,so what?當然,狗熊製藥的股東會哭暈在廁所,但是,讓他們哭一會吧,多哭哭有利於肺活量。但是,如果我貿然說了Yes,這個藥品在市場上大賣,然後過了幾個月發現,買了的消費者,體重不降,反而每人體重漲三斤。這可就麻煩了!這可是災難性的後果。為什麼?因為:這些消費者之所以購買這個產品,一個很重要的原因是,有我,FDA的背書。結果,我這個豬隊友,出了一個餿主意,讓大家白花錢,還長胖。然後,招惹全世界的人都告我,這我可受不了。這個責任太大了!FDA可不想看到這個結果。所以,FDA會告訴自己:我的定位就是Mr. No。任何藥品想上市,我都說No。除非:你能提供強有力的證據。怎麼樣,這個道理好懂嗎?


這就牽扯出,假設檢驗的第二個關鍵要素:在這個關於Yes or No的決策選擇中,存在一個相對保守的決策,一個相對激進的決策。人們自然傾向於選擇相對保守的決策。但是在證據強有力的情況下,可以考慮激進的決策。這就是理解p.Value,以及假設檢驗問題的第二個關鍵要素:存在一個相對保守的決策選擇。前面提到幾個有趣的場景:法官判罪、籤證官審批、購買決定、戀愛決定等問題,大家不妨思考一下:哪一個決策是相對保守的?


再回到咱們狗熊製藥這個故事。顯然,FDA不會聽狗熊製藥胡說八道。FDA有一套非常嚴格的關於藥品的安全性(Safety)以及有效性(Efficacy)的評價標準。這個話題就太大了。現在假設,FDA認可狗熊製藥的整個生產過程,並認為這確實是一個靈丹妙藥,沒有副作用(真實的世界是不可能的,是藥三分毒)。那麼,FDA就剩下最後一個問題需要關注,那就是:您這靈丹妙藥,真的管用嗎?你說能減肥,真的能減肥嗎?還記得嗎,FDA是Mr. No。因此,FDA上來就先假設:你是一個大騙子,你家的,所謂的靈丹妙藥,其實就是金剛大力丸,沒有任何療效。


所以,FDA上來就選擇了那個非常保守的假設(即:狗熊製藥的新藥無效)。這個假設就像原罪一樣,釘在了狗熊製藥的身上,因此被稱為:原假設(Null Hypothesis)。原假設是什麼假設?就是Yes or No中,支持保守決策的那個假設。在這個案例中,原假設就是:狗熊製藥的靈丹妙藥沒有療效。因此,原假設支持FDA的No決定。既然有了原假設,就有對立假設,也稱為備擇假設(Alternative Hypothesis)。所謂備擇假設,就是支持激進決策的那個假設。在這裡,備擇假設就是:狗熊製藥的靈丹妙藥,確實有減肥療效。我們反覆強調,FDA是Mr. No,它骨子裡就愛說No。這個決定對它而言,保守安全。


什麼情況下,才能說服這個固執的FDA大法官,接受激進的備擇假設,說一個Yes呢?只有一種情況:那就是得提供證據,而且這個證據是特別強有力的。一般而言,提供證據,這不是問題。狗熊製藥想賣減肥藥,肯定會做臨床試驗,而且試驗結果肯定是對狗熊會有利的。如果實驗結果不利,那也就不上報了,直接宣布試驗失敗,關門倒閉了事。


於是,狗熊製藥對FDA大法官說:臨床試驗結果表明,吃了我家靈丹妙藥,實驗者的平均體重,一個月下降10斤。這個結果怎麼樣?此時,FDA大法官如何考慮?他會認可這是一個對狗熊製藥有利的證據。但是,這個證據是否足夠強有力,這是接下來要考慮的問題。例如,你的臨床試驗的樣本量是3個人、300個人、還是3萬個人?這個差別就很大。顯然,基於3個人證據是不夠強有力的,300個人就要好很多,3萬個人那就更好了。所以,到底什麼樣的證據實,算是足夠強有力?這是關鍵問題。


為此, FDA大法官需要一套方法論,用於測量呈現在他面前的證據,在支持原假設(或者對立假設)方面,「力度」到底如何?至此,我們就牽扯出,假設檢驗方法論的第三個,也就是最後一個關鍵要素:一套用於評價證據力度的方法論。希望該方法論,能夠幫助FDA大法官,評價數據證據的力度,進而在Yes or No之間,做出科學規範的選擇。而p.Value就是一種最常見的,評價證據力度的工具,僅此而已!


更進一步,p.Value評價的是數據,對原假設(而不是對立假設)的支持力度。當然,這是在一定的模型分布假設下。p.Value取值在0-1之間。如果取值為1,那麼說明,現有的數據證據,沒有任何反對原假設的地方。這並不說明原假設就是對的。但是,這說明我沒找到任何反對原假設的證據。那姑且就理解成對原假設支持的力度吧。而且,原假設是保守假設,那麼咱們就支持原假設吧。如果p.Value取值為0呢,這說明,現有的數據證據,實在跟原假設不對付,必須推翻它。一旦推翻原假設後,決策者突然發現,沒有別的選擇了,只能接受備擇假設。這就是p.Value的基本邏輯。


總結一下,所謂p.Value,就是:(1)在假設檢驗的理論框架下;(2)評價數據對,原假設,支持力度的一個工具。僅此而已!


相關焦點

  • 熊大胡說 | 北大教授告訴你,被頂級學術期刊槍斃的p.Value到底是個什麼鬼?
    如果把p.Value看作是一個孩子的話,《政治分析》顯然把p.Value給槍斃了。原因是什麼?答:他是一個壞孩子。請問:他壞在哪裡?他是誰?你真的認識他嗎?就拿這三個問題去問《政治分析》的作者群,我鬥膽揣測,能回答出來的比例一定很低。當然,我不認為這全是《政治分析》作者群的問題,我更認為,這是我輩統計學教師的問題,我們在傳播統計學思想方面,做得不夠好。
  • 被頂級學術期刊槍斃的p.Value到底是個什麼鬼?
    如果把p.Value看作是一個孩子的話,《政治分析》顯然把p.Value給槍斃了。原因是什麼?答:他是一個壞孩子。請問:他壞在哪裡?他是誰?你真的認識他嗎?就拿這三個問題去問《政治分析》的作者群,我鬥膽揣測,能回答出來的比例一定很低。當然,我不認為這全是《政治分析》作者群的問題,我更認為,這是我輩統計學教師的問題,我們在傳播統計學思想方面,做得不夠好。
  • 【驚爆】 美國頂級學術期刊宣布禁用p值【連載1】
    【引言】我國教育研究的專家張力學友突然推送一文於我,標題令我倒吸一口涼氣:《美國頂級學術期刊宣布禁用p值,原來p值很危險》!我本是藥品臨床研究的「門外漢」,但十幾年「浪跡」中藥CRO,深植於心一種「p值崇拜」,乃認為「無p值,不臨床。」然,1月22日,美國政治學頂級學術期刊《政治分析》在其官方twitter上宣布,從2018年開始的第26輯起禁用p值。
  • 美國頂級學術期刊宣布禁用p值,原來p值很危險
    1月22日,美國政治學頂級學術期刊《政治分析》在他們的官方twitter上宣布從2018年的開始的第26輯起禁用p值。
  • 在追逐 p-value 的道路上狂奔,卻在科學的道路上漸行漸遠~~~
    Harvey 深刻剖析了近年來西方學術界在收益率風險多因子模型研究中的一個錯誤趨勢:為了競逐在頂級期刊上發表文章,學者們過度追求因子在原假設下的低 p-value 值(即統計意義上「顯著」);不幸的是,由於有意或無意的數據操縱、使用不嚴謹的統計檢驗手段、錯誤地解釋 p-value 傳達的意義、以及忽視因子本身的業務含義,很多在功利心驅使下被創造出來的收益率因子在實際投資中根本站不住腳
  • 北大光華周黎安教授最新論文被頂級期刊AER正式接受 | 學術光華
    American Economic Review於1911年由美國經濟學會創刊發行,被譽為美國最重要、影響最大的經濟理論期刊,也是世界公認的最具有學術聲望的頂級期刊之一。周黎安教授在學術領域建樹頗豐,他在國內外一流經濟學和管理學期刊發表論文已達60餘篇,曾經獲得中國高校人文社科學者單篇論文引用率排名第一的稱號。「因學術,而思想,因思想,而光華」,周黎安教授此次的論文發表,也是光華管理學院一直堅持以通行的學術規範和科學理性的研究方法,做具有國際水準的中國學問的一個縮影。
  • P-Value--機器學習筆記
    什麼是P-Value?話說很久以前,有個巫師,拿一枚硬幣,拋了2次,2次都是頭朝上!
  • 北大光華周黎安教授最新論文被頂級期刊AER正式接受
    American Economic Review於1911年由美國經濟學會創刊發行,被譽為美國最重要、影響最大的經濟理論期刊,也是世界公認的最具有學術聲望的頂級期刊之一。 周黎安教授在學術領域建樹頗豐,他在國內外一流經濟學和管理學期刊發表論文已達60餘篇,曾經獲得中國高校人文社科學者單篇論文引用率排名第一的稱號。
  • 頂尖學術期刊《Nature》介紹北大數學
    北大數學在包括QS,ESI和US News等國際知名學科評級中排名前50位。最新的QS世界大學學科排名顯示,北大數學位列全球第20位,繼續領跑中國高校,備受全球矚目。2005年,北京國際數學研究中心(BICMR)於北京大學正式成立,旨在推動前沿數學的研究及其應用,同時加強中國和國際數學家之間的交流與合作。
  • 師院教師論文登上國際頂級學術期刊
    師院教師論文登上國際頂級學術期刊
  • 女教授自P成女媧上期刊封面,權威期刊「活潑」些也無妨|新京報快評
    近日,在網上尤其是學術圈內,一張「女媧補天版」的期刊封面圖廣為流傳。據介紹,封面圖中的女媧,不是別人,正是中國化學期刊封面論文的作者,來自江蘇師範大學的化學教授石楓。事實上,石楓學術論文刊登的這本期刊,也不是什麼「野雞」雜誌。資料介紹,「中國化學(Chinese Journal of Chemistry)」由中國化學會、上海有機化學研究所主辦,曾經獲得過國家期刊獎(首屆)、國家期刊獎百種重點科技期刊獎等獎項,是化學領域的權威期刊。而石楓教授也絕非等閒之輩。
  • 女教授自P成女媧上期刊封面,權威期刊「活潑」些也無妨
    事實上,石楓學術論文刊登的這本期刊,也不是什麼「野雞」雜誌。資料介紹,「中國化學(Chinese Journal of Chemistry)」由中國化學會、上海有機化學研究所主辦,曾經獲得過國家期刊獎(首屆)、國家期刊獎百種重點科技期刊獎等獎項,是化學領域的權威期刊。而石楓教授也絕非等閒之輩。
  • 北大國發院教授餘淼傑論文被經濟學頂級期刊之一的《Economic...
    【MBA中國網訊】近日北大國發院餘淼傑教授及合作者香港大學的陳誠教授、對外經濟貿易大學的田巍教授合作論文「Outward FDI and Domestic Input Distortions: Evidence from Chinese Firms」被經濟學頂級期刊之一的《Economic Journal
  • 想不想體驗手動模擬計算p value的快感!
    最近剛結束生物統計課的助教生涯,想與大家分享一下非常非常非常形象的p value的計算方法,希望能加強大家的理解。無論是從事幹實驗還是溼實驗研究的人大概都知道p value是假設檢驗中進行檢驗決策的一個重要依據,一般以p value是否小於0.05來衡量是否具有統計學差異。
  • 小孩都看得懂的 p-value
    ,那什麼是 p-value 呢?Well Done, Wikipedia, 這下連大人都徹底不懂 p-value 了。但希望下面極簡的講解能讓小孩懂什麼是 p-value。讓我們產生了改變原假設想法是什麼?是一個很小 p-value 值。跟著我捋一捋,在上面丟硬幣的過程中,你是不是在某個時點想大叫一聲 WOW,大概就是連續 5 次看到反面的時候,你會覺得硬幣公平非常可笑,因而推翻了它。
  • 浙大博士生在國際頂級學術期刊發數學論文
    浙江在線08月01日訊日前,浙江大學數學科學研究中心博士生徐浩收到《美國科學院院刊》責任編輯發來的郵件,稱他在導師劉克峰教授指導下完成的論文《曲線模空間相交數的新結果》已被該期刊錄用。徐浩告訴記者,昨天下午,他已將論文的「版權申明確認書」寄往美國。
  • 計算機領域頂級科學家、學術會議、期刊影響力排名(附國內排名)
    近日,Guide2Research 發布了計算機科學領域的論文期刊、學術會議和科學家等內容的學術影響力排名。其排名根據 Google Scholar Metrics 的 H5-Index 和期刊影響力因子確定,並且我們可以根據計算機子領域、出版物、國家和關鍵字等條目尋找我們希望了解的影響力排行。
  • R.Squared到底是個什麼鬼?
    在狗熊會發文章,跟學術期刊有啥不同?很多不同!例如:狗熊會用中國英語,而學術期刊用美國英語:-)但是,這只是一個表面現象。真正不同的是,狗熊會發表文章是一個雙向互動的過程。你發表一個觀點,就有讀者反饋,或支持,或反對,都是有趣的真知灼見。當然,很多時候還有不解,困惑。之於教書匠而言,這是一個極其寶貴的機會,給自己當頭棒喝:原來大家的困惑在這裡啊!
  • 數據挖掘常見的 p-value 解讀
    p-value,那什麼是 p-value 呢?Well Done, Wikipedia, 這下連大人都徹底不懂 p-value 了。但希望下面極簡的講解能讓小孩懂什麼是 p-value。讓我們產生了改變原假設想法是什麼?是一個很小 p-value 值。跟著我捋一捋,在上面丟硬幣的過程中,你是不是在某個時點想大叫一聲 WOW,大概就是連續 5 次看到反面的時候,你會覺得硬幣公平非常可笑,因而推翻了它。
  • 李君教授論文被頂級期刊《The Review of Financial Studies》刊發...
    近日,國際頂級期刊《The Review of Financial Studies》(《金融研究評論》)刊發了上海交大上海高級金融學院助理教授李君的論文《The Collateralizability Premium》(《抵押溢價》)。