如果把p.Value看作是一個孩子的話,《政治分析》顯然把p.Value給槍斃了。原因是什麼?答:他是一個壞孩子。請問:他壞在哪裡?他是誰?你真的認識他嗎?就拿這三個問題去問《政治分析》的作者群,我鬥膽揣測,能回答出來的比例一定很低。當然,我不認為這全是《政治分析》作者群的問題,我更認為,這是我輩統計學教師的問題,我們在傳播統計學思想方面,做得不夠好。
所以,我想先跟大家,用充足的篇幅,解釋一下,p.Value到底是個什麼鬼?為此,我們必須先搞明白假設檢驗(Hypotheses Testing)的基本理論框架。要知道,p.Value就是在假設檢驗,這個理論框架下產生的。為此,我虛構一個例子,不一定非常合理,但是方便於純粹的學術討論。
假設狗熊會開了一個製藥公司,就叫做:狗熊製藥。狗熊製藥專業研究減肥藥。為什麼?因為這個藥品的市場前景太好了。現在社會,所有人都在喊減肥。尤其是熊大這樣,不惑年齡的保溫杯枸杞中年男,體重永遠都是長勢喜人!如果狗熊製藥能夠研製一種沒有副作用的靈丹妙藥,能夠一個月內,給熊大減10斤贅肉,這得是多麼美好的一件事情?這個藥品的市場得是無窮大。狗熊製藥的股票得800個漲停才能對得起這款偉大的產品。
但是,就當狗熊製藥把這款藥品研製成功,並且準備推向北美市場的時候,突然發現了一個問題。那就是:美國政府FDA的批條還沒拿到。要知道,如果這個藥品要在美國市場上合法上市,必須有美國食品藥品管理局(FDA)的批准。否則就是違法的!
當然,狗熊製藥認為這不是問題,咱們給FDA好好解釋一下,咱這款靈丹妙藥,用的原料相當講究。包括:天山雪蓮、長白山老參、冬蟲夏草、地溝油、還有金剛大力丸等。反正都是吃了不死人的好東西。然後,所有原材料,混在一起,在太上老君的煉丹爐裡,精心煉製了九九八十一天,才萃取出來的高純度有效成分。這個成分對減肥有奇效,而且沒有任何副作用。請給我批條,Pls!FDA會怎麼想?
擺在FDA面前只有兩個選擇:同意Yes,或者拒絕No。FDA必須在兩個選擇中,二選其一,沒有第三種可能。你看,至此,我們已經抽象出,假設檢驗的第一個重要構成要素:一個關於Yes or No的決策!請大家記住,這是理解p.Value,以及假設檢驗問題的第一個關鍵要素:一個關於Yes or No的決策!這個要素,定義了假設檢驗存在的場景。假設檢驗存在的場景,定義了p.Value存在的場景。所以,大家有空琢磨一下,這樣類似的,關於Yes or No的問題,還有哪些?你會發現,滿大街都是:法官判決你是否有罪?籤證官判斷你是否有移民傾向?你判斷自己是否應該購買一款手機?是否應該跟某人談一場你死我活的戀愛?
當面對這個Yes or No的決策的時候,咱們把FDA看做一個大法官,請問這個大法官是如何決策的呢?你會發現,FDA大法官會關上門,對著Yes和No兩個決策,發了半天呆。然後問自己:這兩個決策,我是否應該有所偏向?還是公平對待?最後了悟:我應該永遠偏向於說No,而不是Yes。為什麼?
說No不會有災難性後果。大不了,狗熊製藥的靈丹妙藥上不了美國市場,又能咋地?以前北美也沒有這個藥品,現在仍然沒有,so what?當然,狗熊製藥的股東會哭暈在廁所,但是,讓他們哭一會吧,多哭哭有利於肺活量。但是,如果我貿然說了Yes,這個藥品在市場上大賣,然後過了幾個月發現,買了的消費者,體重不降,反而每人體重漲三斤。這可就麻煩了!這可是災難性的後果。為什麼?因為:這些消費者之所以購買這個產品,一個很重要的原因是,有我,FDA的背書。結果,我這個豬隊友,出了一個餿主意,讓大家白花錢,還長胖。然後,招惹全世界的人都告我,這我可受不了。這個責任太大了!FDA可不想看到這個結果。所以,FDA會告訴自己:我的定位就是Mr. No。任何藥品想上市,我都說No。除非:你能提供強有力的證據。怎麼樣,這個道理好懂嗎?
這就牽扯出,假設檢驗的第二個關鍵要素:在這個關於Yes or No的決策選擇中,存在一個相對保守的決策,一個相對激進的決策。人們自然傾向於選擇相對保守的決策。但是在證據強有力的情況下,可以考慮激進的決策。這就是理解p.Value,以及假設檢驗問題的第二個關鍵要素:存在一個相對保守的決策選擇。前面提到幾個有趣的場景:法官判罪、籤證官審批、購買決定、戀愛決定等問題,大家不妨思考一下:哪一個決策是相對保守的?
再回到咱們狗熊製藥這個故事。顯然,FDA不會聽狗熊製藥胡說八道。FDA有一套非常嚴格的關於藥品的安全性(Safety)以及有效性(Efficacy)的評價標準。這個話題就太大了。現在假設,FDA認可狗熊製藥的整個生產過程,並認為這確實是一個靈丹妙藥,沒有副作用(真實的世界是不可能的,是藥三分毒)。那麼,FDA就剩下最後一個問題需要關注,那就是:您這靈丹妙藥,真的管用嗎?你說能減肥,真的能減肥嗎?還記得嗎,FDA是Mr. No。因此,FDA上來就先假設:你是一個大騙子,你家的,所謂的靈丹妙藥,其實就是金剛大力丸,沒有任何療效。
所以,FDA上來就選擇了那個非常保守的假設(即:狗熊製藥的新藥無效)。這個假設就像原罪一樣,釘在了狗熊製藥的身上,因此被稱為:原假設(Null Hypothesis)。原假設是什麼假設?就是Yes or No中,支持保守決策的那個假設。在這個案例中,原假設就是:狗熊製藥的靈丹妙藥沒有療效。因此,原假設支持FDA的No決定。既然有了原假設,就有對立假設,也稱為備擇假設(Alternative Hypothesis)。所謂備擇假設,就是支持激進決策的那個假設。在這裡,備擇假設就是:狗熊製藥的靈丹妙藥,確實有減肥療效。我們反覆強調,FDA是Mr. No,它骨子裡就愛說No。這個決定對它而言,保守安全。
什麼情況下,才能說服這個固執的FDA大法官,接受激進的備擇假設,說一個Yes呢?只有一種情況:那就是得提供證據,而且這個證據是特別強有力的。一般而言,提供證據,這不是問題。狗熊製藥想賣減肥藥,肯定會做臨床試驗,而且試驗結果肯定是對狗熊會有利的。如果實驗結果不利,那也就不上報了,直接宣布試驗失敗,關門倒閉了事。
於是,狗熊製藥對FDA大法官說:臨床試驗結果表明,吃了我家靈丹妙藥,實驗者的平均體重,一個月下降10斤。這個結果怎麼樣?此時,FDA大法官如何考慮?他會認可這是一個對狗熊製藥有利的證據。但是,這個證據是否足夠強有力,這是接下來要考慮的問題。例如,你的臨床試驗的樣本量是3個人、300個人、還是3萬個人?這個差別就很大。顯然,基於3個人證據是不夠強有力的,300個人就要好很多,3萬個人那就更好了。所以,到底什麼樣的證據實,算是足夠強有力?這是關鍵問題。
為此, FDA大法官需要一套方法論,用於測量呈現在他面前的證據,在支持原假設(或者對立假設)方面,「力度」到底如何?至此,我們就牽扯出,假設檢驗方法論的第三個,也就是最後一個關鍵要素:一套用於評價證據力度的方法論。希望該方法論,能夠幫助FDA大法官,評價數據證據的力度,進而在Yes or No之間,做出科學規範的選擇。而p.Value就是一種最常見的,評價證據力度的工具,僅此而已!
更進一步,p.Value評價的是數據,對原假設(而不是對立假設)的支持力度。當然,這是在一定的模型分布假設下。p.Value取值在0-1之間。如果取值為1,那麼說明,現有的數據證據,沒有任何反對原假設的地方。這並不說明原假設就是對的。但是,這說明我沒找到任何反對原假設的證據。那姑且就理解成對原假設支持的力度吧。而且,原假設是保守假設,那麼咱們就支持原假設吧。如果p.Value取值為0呢,這說明,現有的數據證據,實在跟原假設不對付,必須推翻它。一旦推翻原假設後,決策者突然發現,沒有別的選擇了,只能接受備擇假設。這就是p.Value的基本邏輯。
總結一下,所謂p.Value,就是:(1)在假設檢驗的理論框架下;(2)評價數據對,原假設,支持力度的一個工具。僅此而已!