被頂級學術期刊槍斃的p.Value到底是個什麼鬼?

2021-02-08 北大光華商業分析

如果把p.Value看作是一個孩子的話，《政治分析》顯然把p.Value給槍斃了。原因是什麼？答：他是一個壞孩子。請問：他壞在哪裡？他是誰？你真的認識他嗎？就拿這三個問題去問《政治分析》的作者群，我鬥膽揣測，能回答出來的比例一定很低。當然，我不認為這全是《政治分析》作者群的問題，我更認為，這是我輩統計學教師的問題，我們在傳播統計學思想方面，做得不夠好。

所以，我想先跟大家，用充足的篇幅，解釋一下，p.Value到底是個什麼鬼？為此，我們必須先搞明白假設檢驗（Hypotheses Testing）的基本理論框架。要知道，p.Value就是在假設檢驗，這個理論框架下產生的。為此，我虛構一個例子，不一定非常合理，但是方便於純粹的學術討論。

假設狗熊會開了一個製藥公司，就叫做：狗熊製藥。狗熊製藥專業研究減肥藥。為什麼？因為這個藥品的市場前景太好了。現在社會，所有人都在喊減肥。尤其是熊大這樣，不惑年齡的保溫杯枸杞中年男，體重永遠都是長勢喜人！如果狗熊製藥能夠研製一種沒有副作用的靈丹妙藥，能夠一個月內，給熊大減10斤贅肉，這得是多麼美好的一件事情？這個藥品的市場得是無窮大。狗熊製藥的股票得800個漲停才能對得起這款偉大的產品。

但是，就當狗熊製藥把這款藥品研製成功，並且準備推向北美市場的時候，突然發現了一個問題。那就是：美國政府FDA的批條還沒拿到。要知道，如果這個藥品要在美國市場上合法上市，必須有美國食品藥品管理局（FDA）的批准。否則就是違法的！

當然，狗熊製藥認為這不是問題，咱們給FDA好好解釋一下，咱這款靈丹妙藥，用的原料相當講究。包括：天山雪蓮、長白山老參、冬蟲夏草、地溝油、還有金剛大力丸等。反正都是吃了不死人的好東西。然後，所有原材料，混在一起，在太上老君的煉丹爐裡，精心煉製了九九八十一天，才萃取出來的高純度有效成分。這個成分對減肥有奇效，而且沒有任何副作用。請給我批條，Pls！FDA會怎麼想？

擺在FDA面前只有兩個選擇：同意Yes，或者拒絕No。FDA必須在兩個選擇中，二選其一，沒有第三種可能。你看，至此，我們已經抽象出，假設檢驗的第一個重要構成要素：一個關於Yes or No的決策！請大家記住，這是理解p.Value，以及假設檢驗問題的第一個關鍵要素：一個關於Yes or No的決策！這個要素，定義了假設檢驗存在的場景。假設檢驗存在的場景，定義了p.Value存在的場景。所以，大家有空琢磨一下，這樣類似的，關於Yes or No的問題，還有哪些？你會發現，滿大街都是：法官判決你是否有罪？籤證官判斷你是否有移民傾向？你判斷自己是否應該購買一款手機？是否應該跟某人談一場你死我活的戀愛？

當面對這個Yes or No的決策的時候，咱們把FDA看做一個大法官，請問這個大法官是如何決策的呢？你會發現，FDA大法官會關上門，對著Yes和No兩個決策，發了半天呆。然後問自己：這兩個決策，我是否應該有所偏向？還是公平對待？最後了悟：我應該永遠偏向於說No，而不是Yes。為什麼？

說No不會有災難性後果。大不了，狗熊製藥的靈丹妙藥上不了美國市場，又能咋地？以前北美也沒有這個藥品，現在仍然沒有，so what？當然，狗熊製藥的股東會哭暈在廁所，但是，讓他們哭一會吧，多哭哭有利於肺活量。但是，如果我貿然說了Yes，這個藥品在市場上大賣，然後過了幾個月發現，買了的消費者，體重不降，反而每人體重漲三斤。這可就麻煩了！這可是災難性的後果。為什麼？因為：這些消費者之所以購買這個產品，一個很重要的原因是，有我，FDA的背書。結果，我這個豬隊友，出了一個餿主意，讓大家白花錢，還長胖。然後，招惹全世界的人都告我，這我可受不了。這個責任太大了！FDA可不想看到這個結果。所以，FDA會告訴自己：我的定位就是Mr. No。任何藥品想上市，我都說No。除非：你能提供強有力的證據。怎麼樣，這個道理好懂嗎？

這就牽扯出，假設檢驗的第二個關鍵要素：在這個關於Yes or No的決策選擇中，存在一個相對保守的決策，一個相對激進的決策。人們自然傾向於選擇相對保守的決策。但是在證據強有力的情況下，可以考慮激進的決策。這就是理解p.Value，以及假設檢驗問題的第二個關鍵要素：存在一個相對保守的決策選擇。前面提到幾個有趣的場景：法官判罪、籤證官審批、購買決定、戀愛決定等問題，大家不妨思考一下：哪一個決策是相對保守的？

再回到咱們狗熊製藥這個故事。顯然，FDA不會聽狗熊製藥胡說八道。FDA有一套非常嚴格的關於藥品的安全性（Safety）以及有效性（Efficacy）的評價標準。這個話題就太大了。現在假設，FDA認可狗熊製藥的整個生產過程，並認為這確實是一個靈丹妙藥，沒有副作用（真實的世界是不可能的，是藥三分毒）。那麼，FDA就剩下最後一個問題需要關注，那就是：您這靈丹妙藥，真的管用嗎？你說能減肥，真的能減肥嗎？還記得嗎，FDA是Mr. No。因此，FDA上來就先假設：你是一個大騙子，你家的，所謂的靈丹妙藥，其實就是金剛大力丸，沒有任何療效。

所以，FDA上來就選擇了那個非常保守的假設（即：狗熊製藥的新藥無效）。這個假設就像原罪一樣，釘在了狗熊製藥的身上，因此被稱為：原假設（Null Hypothesis）。原假設是什麼假設？就是Yes or No中，支持保守決策的那個假設。在這個案例中，原假設就是：狗熊製藥的靈丹妙藥沒有療效。因此，原假設支持FDA的No決定。既然有了原假設，就有對立假設，也稱為備擇假設（Alternative Hypothesis）。所謂備擇假設，就是支持激進決策的那個假設。在這裡，備擇假設就是：狗熊製藥的靈丹妙藥，確實有減肥療效。我們反覆強調，FDA是Mr. No，它骨子裡就愛說No。這個決定對它而言，保守安全。

什麼情況下，才能說服這個固執的FDA大法官，接受激進的備擇假設，說一個Yes呢？只有一種情況：那就是得提供證據，而且這個證據是特別強有力的。一般而言，提供證據，這不是問題。狗熊製藥想賣減肥藥，肯定會做臨床試驗，而且試驗結果肯定是對狗熊會有利的。如果實驗結果不利，那也就不上報了，直接宣布試驗失敗，關門倒閉了事。

於是，狗熊製藥對FDA大法官說：臨床試驗結果表明，吃了我家靈丹妙藥，實驗者的平均體重，一個月下降10斤。這個結果怎麼樣？此時，FDA大法官如何考慮？他會認可這是一個對狗熊製藥有利的證據。但是，這個證據是否足夠強有力，這是接下來要考慮的問題。例如，你的臨床試驗的樣本量是3個人、300個人、還是3萬個人？這個差別就很大。顯然，基於3個人證據是不夠強有力的，300個人就要好很多，3萬個人那就更好了。所以，到底什麼樣的證據實，算是足夠強有力？這是關鍵問題。

為此， FDA大法官需要一套方法論，用於測量呈現在他面前的證據，在支持原假設（或者對立假設）方面，「力度」到底如何？至此，我們就牽扯出，假設檢驗方法論的第三個，也就是最後一個關鍵要素：一套用於評價證據力度的方法論。希望該方法論，能夠幫助FDA大法官，評價數據證據的力度，進而在Yes or No之間，做出科學規範的選擇。而p.Value就是一種最常見的，評價證據力度的工具，僅此而已！

更進一步，p.Value評價的是數據，對原假設（而不是對立假設）的支持力度。當然，這是在一定的模型分布假設下。p.Value取值在0-1之間。如果取值為1，那麼說明，現有的數據證據，沒有任何反對原假設的地方。這並不說明原假設就是對的。但是，這說明我沒找到任何反對原假設的證據。那姑且就理解成對原假設支持的力度吧。而且，原假設是保守假設，那麼咱們就支持原假設吧。如果p.Value取值為0呢，這說明，現有的數據證據，實在跟原假設不對付，必須推翻它。一旦推翻原假設後，決策者突然發現，沒有別的選擇了，只能接受備擇假設。這就是p.Value的基本邏輯。

總結一下，所謂p.Value，就是：（1）在假設檢驗的理論框架下；（2）評價數據對，原假設，支持力度的一個工具。僅此而已！

被頂級學術期刊槍斃的p.Value到底是個什麼鬼?

相關焦點

北大教授告訴你,被頂級學術期刊槍斃的p.Value到底是個什麼鬼?

熊大胡說 | 北大教授告訴你,被頂級學術期刊槍斃的p.Value到底是個什麼鬼?

【驚爆】美國頂級學術期刊宣布禁用p值【連載1】

在追逐 p-value 的道路上狂奔,卻在科學的道路上漸行漸遠~~~

美國頂級學術期刊宣布禁用p值,原來p值很危險

P-Value--機器學習筆記

對於P_value的理解

小孩都看得懂的 p-value

R.Squared到底是個什麼鬼?

數據挖掘常見的 p-value 解讀

師院教師論文登上國際頂級學術期刊

【中津學術講堂】英國帝國理工學院博士吳希昆講述p-value

想不想體驗手動模擬計算p value的快感!

那些年,在國際頂級學術期刊發表論文的各國政要

計算機領域頂級科學家、學術會議、期刊影響力排名(附國內排名)

在追逐 p-value 的道路上狂奔,卻在科學的道路上漸行漸遠

齊魯理工學院教師張德亮在國際頂級期刊發表學術論文

北大光華周黎安教授最新論文被頂級期刊AER正式接受 | 學術光華

浙大博士生在國際頂級學術期刊發數學論文

計軟學院學術論文被「智能推薦」領域頂級國際學術期刊和會議錄用

被頂級學術期刊槍斃的p.Value到底是個什麼鬼?

相關焦點

北大教授告訴你,被頂級學術期刊槍斃的p.Value到底是個什麼鬼?

熊大胡說 | 北大教授告訴你,被頂級學術期刊槍斃的p.Value到底是個什麼鬼?

【驚爆】 美國頂級學術期刊宣布禁用p值【連載1】

在追逐 p-value 的道路上狂奔,卻在科學的道路上漸行漸遠~~~

美國頂級學術期刊宣布禁用p值,原來p值很危險

P-Value--機器學習筆記

對於P_value的理解

小孩都看得懂的 p-value

R.Squared到底是個什麼鬼?

數據挖掘常見的 p-value 解讀

師院教師論文登上國際頂級學術期刊

【中津學術講堂】英國帝國理工學院博士吳希昆講述p-value

想不想體驗手動模擬計算p value的快感!

那些年,在國際頂級學術期刊發表論文的各國政要

計算機領域頂級科學家、學術會議、期刊影響力排名(附國內排名)

在追逐 p-value 的道路上狂奔,卻在科學的道路上漸行漸遠

齊魯理工學院教師張德亮在國際頂級期刊發表學術論文

北大光華周黎安教授最新論文被頂級期刊AER正式接受 | 學術光華

浙大博士生在國際頂級學術期刊發數學論文

計軟學院學術論文被「智能推薦」領域頂級國際學術期刊和會議錄用

【驚爆】美國頂級學術期刊宣布禁用p值【連載1】