作者 | 石川 公眾號特約作者 | 清華大學學士、碩士,麻省理工學院博士;精通各種概率模型和統計方法,擅長不確定性隨機系統的建模及優化。
最近讀了美國金融協會(AFA,American Finance Association)前主席 Campbell Harvey 於 2017 年協會年會上做的題為《The Scientific Outlook in Financial Economics》的主席報告,感觸頗深,醍醐灌頂。
以一個學者應有的科學態度和操守,Dr. Harvey 深刻剖析了近年來西方學術界在收益率風險多因子模型研究中的一個錯誤趨勢:
為了競逐在頂級期刊上發表文章,學者們過度追求因子在原假設下的低 p-value 值(即統計意義上「顯著」);不幸的是,由於有意或無意的數據操縱、使用不嚴謹的統計檢驗手段、錯誤地解釋 p-value 傳達的意義、以及忽視因子本身的業務含義,很多在功利心驅使下被創造出來的收益率因子在實際投資中根本站不住腳。
學者們在追逐 p-value 的道路上狂奔,卻在科學的道路上漸行漸遠。
看完之後產生了深深的共鳴:難怪我在頂級期刊上以及賣方的研究報告中看到的很多因子,僅僅是在報告中「看起來有效」。在這個急功近利的時代,Dr. Harvey 大聲呼籲學術界應該後退一步(take a step back),重新審視一下學術氛圍和文化,真正做到以推動人們對金融經濟學的正確認知為己任。這無疑是量化投資領域的福音。此外,Dr. Harvey 還提出了貝葉斯 p-value 的概念,它可以正確地評價因子的有效性。
今天就把這篇主席報告中的要點分享給大家。
何為 p-value?
先來看看什麼是 p-value,以及它在因子分析中的作用。(本節內容是我加的。)
假設我們有一個因子 A,在學術界研究預測收益率的風險多因子模型時,一般的流程如下:
1. 首先提出原假設(null hypothesis):因子 A 對於解釋股票(或者其他投資品)的超額收益沒有作用。
2. 使用因子 A 對股票的超額收益率進行統計分析,這時通常有兩種做法:
2a. 按照股票在因子 A 上的暴露大小把它們分成 10 份,然後統計每份中股票的平均收益率是否顯著不為 0,顯著性用 p-value 表示。
2b. 使用歷史數據對因子 A 和股票的超額收益進行回歸分析,統計因子的係數(即線性回歸的斜率)是否顯著不為 0,顯著性用 p-value 表示。
3. 比較上面分析得到的 p-value 是否小於給定的顯著性水平,從而決定是否拒絕原假設。拒絕原假設意味著拒絕「因子 A 對解釋股票的超額收益沒有作用」。
可見,p-value 在上述過程中至關重要。p-value 是 probability value 的簡稱。在統計檢驗中,假設統計模型對應的原假設是 H,該模型觀測到的隨機變量 X 的取值為 x,則 p-value 代表著在原假設 H 下隨機變量 X 取到比 x 更加極端的數值的條件概率,即:
對於右尾極端事件:p-value = prob(X ≥ x|H);
對於左尾極端事件:p-value = prob(X ≤ x|H);
對於雙尾極端事件:p-value = 2 × min{ prob(X ≥ x|H), prob(X ≤ x|H)}。
「The null hypothesis is usually a statement of no relation between variables or no effect of an experimental manipulation. The p-value is the probability of observing an outcome or a more extreme outcome if the null hypothesis is true (Fisher 1925).」
對於股票收益率因子模型領域,因為我們希望找到可以帶來超額正收益的因子,所以 p-value 一般指的是上面第一種定義,即 p-value = prob(X ≥ x|H)。例如,當 p-value = 0.05 時,我們說在原假設 H 下觀測到不小於 x 的超額收益的條件概率為 5%;當 p-value = 0.01 時,我們說在原假設 H 下觀測到不小於 x 的超額收益的條件概率僅有 1%。顯然,p-value 越小說明在原假設 H 下觀測到不小於 x 的超額收益的可能性越低,即發生「不小於 x 超額收益」這個事件和原假設 H 越不相符,我們越傾向於拒絕原假設。
當「因子 A 對解釋股票超額收益沒有作用」這個原假設被拒絕時,人們便會推論出「因子 A 能夠解釋一部分股票的超額收益」。如此,人們習慣把「p-value 越低」和「因子 A 在解釋超額收益上越有效」等價起來了。這就是為什麼我們都喜歡低的 p-value。但它們倆真的等價嗎?別急,看完本文你自會有答案。
低的 p-value 僅僅是某個因子有效的必要條件;但是它遠不是充分條件。有意或者無意的數據操縱(data manipulation)以及不完善的統計檢驗所得到的低的 p-value 在說明因子是否有效方面毫無作用。
在追逐 p-value 的道路上狂奔
好了,現在我們已經知道了 p-value 在因子模型中的作用:要想說明某個因子有效,最起碼得有個低的 p-value;否則免談。在這種暗示下,學術界便自上而下的颳起了一股追求超低 p-value 之風。
以下就是因子模型 p-value 在學術界的因果關係鏈:
「p-value 越低意味著因子越顯著。" -> 「因子越顯著,研究成果越吸引眼球。」 -> 「成果越吸引眼球越有可能得到更高的引用。」 -> 「高引用的文章越多,期刊的影響因子越高。」 -> 「期刊的影響因子越高,期刊的學術聲望越高。」
為了提升期刊的聲望,編輯們都更傾向於錄用低 p-value 因子的文章;為了在更高水平的期刊上發文,學者們更傾向於找到低 p-value 的因子。在美國絕大多數學校裡,如果能在 Journal of Finance 發表一篇文章,一個教授就有可能得到終身教職(tenure)。
在如今的金融經濟學領域,這樣的做法無奈的導致了一種發表偏差(publication bias):學者們更願意把時間和精力花到可以利用各種手段來找到低 p-value 的因子上,只願意發表「看上去最顯著」的研究成果。他們不願意冒險來研究「無效的因子」。
從推動學科發展的角度,「無效的因子」和「有效的因子」同樣重要。如果我們能夠確切的證明某個因子就是無法帶來超額收益,那麼它對實際中選股也是非常有價值的(我們可以放心的避開該因子)。然而,在追求超低 p-value 之風下,學者不願意進行這樣的研究,因為頂級期刊上鮮有它們的容身之處。
下圖出自 Harvey, Liu, and Zhu (2016)。他們分析了 1963 年到 2012 年間發表在金融領域最頂級期刊上的 300 多個因子模型的 t-statistics(可以簡單的理解為 p-value 越低,其對應的 t-statistics 越高)的分布情況。這個分布清晰地說明了學術界的發表偏差。比如,t-statistics 取值在 2 到 2.57 的文章數和 t-statistics 取值在 2.57 到 3.14 的文章數十分接近。要知道,t-statistics = 2.57 對應的 p-value 大概是 0.005;而 t-statistics = 3 對應的 p-value 則是 0.001!顯然,找到 p-value = 0.001 的因子要比找到 p-value = 0.005 的因子要困難得多,但它們的文章數量卻大致相當。這只能說明在頂級期刊發表文章時,學者們傾向於更低的 p-value。
「硬科學」與「軟科學」
看到這裡,人們不禁要問怎麼會有這麼多低 p-value 的因子?這可以從「硬科學」和「軟科學」的角度來解釋。
法國著名的哲學家奧古斯特 • 孔德將科學分成不同的等級(Comte 1856)。像數學、物理這類的「硬科學」位於等級的上方,而社會學(包括今天所說的經濟學或者哲學)這類「軟科學」位於等級的下方。千萬不要誤解,這裡「硬」和「軟」並不是「好」與「壞」之分。
在「硬科學」中,人的痕跡幾乎可以不存在,從數據可以直接得到結論、無需任何人工解釋,且結論是高度可歸納的。比如數學上的四色問題,一旦證明成立那就是成立;又如物理上的引力波,一旦發現那就是說明它的存在,這些都是確切的。反觀「軟科學」中,人的痕跡便會更加明顯,研究成果依賴於提出怎樣的假設,如何處理數據,以及如何分析、解釋結果。這些都和研究者自身的聲望、利益、個人偏好有關,因此結果往往是無法歸納的。金融學中的多因子模型無疑是軟科學,因子選取、原假設的構建、以及數據分析都會因人而異。
比如「使用過去 50 年的數據還是過去 30 年的數據?」「使用美股還是其他國家的股票?」「使用日收益率還是周收益率?」「使用百分比收益率還是對數收益率?」「是否以及如何剔除異常值?」「使用線性回歸還是邏輯回歸?」「使用截面回歸還是時間序列回歸?」「因子對 500 個公司有效但是對 1000 個公司無效,因此發文時僅提及那 500 個公司。」……在追逐超低 p-value 的背景下,學者在面臨這些選擇做決定時會「非常微妙」,一切阻礙超低 p-value 誕生的數據都會被巧妙的避開。Dr. Harvey 將為了追求超低 p-value 而在因子研究中刻意選取的數據處理方法稱為 p-hacking。
在科學研究中,我們往往先觀察事物是如何運作的,然後提出一個假設並通過數據來驗證其是否成立,可謂「先有假設再有結果」。然而,p-hacking 卻可能使我們本末倒置,「先有結果再有假設!」(Hypothesizing after the results are known,稱為 HARKing)。比如我們的假設是變量 Y 和 X1 相關。為此我們設計了一個實驗,並控制了 X2 到 X10 其他 9 個變量,來考察 Y 和 X1 的關係。但是實驗結果表明 Y 卻和 X7 相關。因此,我們就會輕易地(不負責任地)把假設改為「Y 和 X7 相關」,而忘記了研究的初衷。由於數據分析的成本很低,HARKing 在因子模型研究中非常普遍。
所有這一切對超低 p-value 的追逐都源於人們的一個誤解:「p-value 越低」等價於「因子 A 在解釋超額收益上越有效」。下面來看看 p-value 到底意味著什麼。
正確認識 p-value 的含義
人們對 p-value 的正確含義充滿了誤解。為了說明這一點,Dr. Harvey 給出了一個假想的例子。假設一個選股因子為董事會的規模。由此我們把上市公司分為兩類:小型董事會的公司和大型董事會的公司。原假設 H 是:董事會規模與超額收益無關。比較這兩類股票的收益率均值,我們得到該因子的 p-value 小於 0.01。那麼,下面 4 種關於 p-value 的陳述哪些是正確的呢(原文中是 6 個陳述,為了簡化討論這裡只包含其中 4 個)?
1、我們證明了原假設是錯誤的。
2、我們找到了原假設為真的概率,即 prob(H|D)。
3、我們證明了小型董事會的公司比大型董事會的公司有更高的超額收益。
4、我們可以推斷出「小型董事會的公司比大型董事會的公司有更高的超額收益」為真的概率,即 prob(H^c|D)。
怎麼樣?你覺著上面四個陳述中有幾個是正確的?答案是:它們都是錯的。
p-value 代表著原假設下觀測到某(極端)事件的條件概率。以 D 代表極端事件,則 p-value = prob(D|H)。從它的定義出發,p-value 不代表原假設或者備擇假設是否為真實的。因此,上述中的 1 和 3 都是錯的。
「P-value is a statement about data in relation to a specified hypothetical explanation, and is not a statement about the explanation itself.」
譯:P-value 是關於數據和指定假設之間關係的陳述;而非關於假設本身的陳述。
再強調一遍:p-value 是原假設 H 成立下,D 發生的條件概率,即 prob(D|H);它不是 prob(H|D),即 D 發生時 H 為真的條件概率。因此 2 也是錯的。同理,p-value 也和 p(H^c|D)——H^c 代表備擇假設——沒有任何關係,因此 4 也是錯的。
prob(D|H) ≠ prob(H|D)
prob(D|H) ≠ prob(H|D)
prob(D|H) ≠ prob(H|D)
在這個例子中,最重要的信息就是 p-value 等於 prob(D|H);而人們往往把它和 prob(H|D) 混淆,這是因為我們太想知道 prob(H|D) 了,因為它告訴我們原假設 H 在 D 發生時為真的條件概率。然而 p-value 不等於它。把 prob(D|H) 當成 prob(H|D) 是一個非常嚴重的錯誤。來看一個形象的例子(出自 Carver 1978):
定義兩個事件:人死了,記為 D;人上吊,記為 H。那麼,prob(D|H) 表示人因為上吊而死的概率。這個概率可能是很高的,比如 0.97。讓我們把 D 和 H 的位置調換一下,即 prob(H|D),則問題變成了在人死了的前提下,他是因為上吊而死的條件概率。怎麼樣?在這個問題中,因為我們知道人的死法有很多種,比如上吊、跳樓、服毒、割腕……我們不會將 prob(D|H) 的取值等價於 prob(H|D) 而脫口而出 0.97。在這個問題中,prob(D|H) ≠ prob(H|D) 顯而易見。然而當我們解釋因子分析的 p-value 時,卻總繞不過彎,總將它倆混為一談。
最後,來看美國統計協會(American Statistical Association)關於 p-value 的 6 個準則(Wasserstein and Lazar 2016):
1. P-values can indicate how incompatible the data are with a specified statistical model.
譯:P-value 可以表示數據和給定統計模型的不兼容程度。
2. P-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone.
譯:P-value 不表示所研究的假設為真的概率;同時,它也不表示數據僅由隨機因素產生的概率。
3. Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold.
譯:科學結論和商業或政策決策不應只根據 P-value 是否通過給定的閾值而確定。
4. Proper inference requires full reporting and transparency.
譯:全面的分析報告和完全的透明度是適當的統計推斷的必要前提。(這說的就是要摒除 p-hacking 的問題。)
5. A p-value, or statistical significance, does not measure the size of an effect or the importance of a result.
譯:P-value 或統計上的重要性並不能衡量效用的大小或結果的重要性。(這是我們通常說的統計上顯著未必具有重要的經濟意義——economic significance)
6. By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.
譯:關於模型或者假設是否有效,p-value 本身並不提供足夠的證據。
相信上面這 6 點一定會幫助我們更好的理解 p-value 的意義。
失真的 p-value
如前所述,p-value 用來說明某種效用(effect)是否在統計上顯著(因子可以解釋股票的超額收益率就可以理解為一種效用)。當待檢驗的效用非常罕見時,統計檢驗得到的 p-value 往往是失真的。
在醫學中,這樣的例子屢見不鮮。假設我們要測試一種罕見的疾病(疾病就是效用,罕見說明它本身出現的概率非常低)。原假設就是病人沒有得病。
假設這種疾病的發病率為 1%。我們使用某種測試手段對 1000 名志願者進行篩查。該測試手段的正確率為 90%(即對於確實患病的患者,該測試結果為陽性的概率為 90%);此外,該測試手段的誤診率為 10%(即,對於沒有得病的志願者,它誤診為陽性的概率為 10%)。
根據 1% 的發病率和 1000 名志願者,我們假設他們中間有 10 名真正患者和 990 名正常。對於這 10 名患者,該檢測手段成功的找到 9 名患者;而對於剩下 990 名非患者,它誤診了 99 名。因此,一共有 108 名志願者被診斷為患病,但其中僅有 9 名是真正的患者。換句話說,這個測試的 Type I error(false positive rate)高達 92% (= 99 / 108),遠高於該測試手段 10% 的誤診率。
在統計檢驗中,false positive 代表著原假設為真但被錯誤拒絕的概率。
上述討論對金融經濟學有什麼啟示?這裡的核心是,如果一個效用本身越不可能發生,我們越要小心,因為會有大量的 false positive。令 π 代表在現實中我們找到一個真實因果關係的概率(即一個真實的因子),α 代表原假設為真時的顯著性水平,β 表示備擇假設為真時檢驗正確的拒絕原假設的概率。從上面這個例子中可以歸納出,由於效用的罕見性,我們能夠預期的 false positive rate 等於:
當 β = 1 時,上述 false positive rate 有理論的最小值。當找到真實因子的概率很低時,π 相對於 α 很低,該 false positive rate 近似為 1。因此,如果發現有效因子本身這件事是一個極小概率事件,則無論我們得到了多低的 p-value,我們錯誤的拒絕原假設的概率(即 false positive rate)也是非常高的。
不幸的是,發現真實有效的因子本身就是一個極小概率事件。因此,大量發表於頂級期刊上的收益率因子都會在將來被證偽。Bartsch et. al. (2017) 就提供了這樣的證據。他們採用了一個多重檢驗框架,檢驗了學術界的 100 個收益率預測模型,得到的結論是模型中的預測能力全部來自數據遷就(data snooping,即 p-hacking),這些模型在新測試框架下的預測準確性均無法戰勝歷史均值。
先驗的重要性,做貝葉斯的信徒
上一節的論述傳遞出一個重要的觀點:我們需要對效用本身發生的概率(例如找到真實收益率因子的概率)有一個正確的先驗判斷,並用它和 p-value 一起計算出一個後驗概率,並以此判斷是否應該拒絕原假設。
在生活中,先驗概率對於我們判斷一個效用是否真的有效至關重要。來看下面三個例子。
第一個例子:有一個音樂家聲稱可以完美的區分莫扎特和海頓的樂譜。我們將 10 張樂譜給他辨識,他全部正確。第二個例子:有一個常年喝茶的老婦人,她聲稱可以說出一杯加了奶的熱茶中,奶是先於茶還是後於茶加入杯中的。同樣,我們將 10 杯請她辨識,她全部正確。第三個例子:有一個酒館老闆,號稱酒精賜予他預測未來的神力。我們讓他猜扔硬幣的正反面,結果他也是 10 次全對。
在這三個實驗中,p-value 都遠低於 0.001( 2 的 -10 次方)。然而同樣的 p-value 在這三個例子中帶給我們的認知卻截然不同。在第一個例子中,我們知道對方是一個音樂家,他分辨樂譜應該易如反掌。我們的先驗信仰就是他能夠成功,實驗的結果只不過確認了這一點。在第二個例子中,我們也許心存懷疑(先驗),不相信老婦人能夠成功(原假設是她沒有分辨奶加入茶杯順序的能力),然而 10 次全對(超低 p-value)的結果讓我們傾向於推翻自己的先驗認知,即拒絕原假設,並認為她確實有這個能力。在第三個例子中,我們會認為這個人就是騙子(酒精能夠預測未來?),因此打從心底完全不屑(原假設是酒精不能預測未來),在這種情況下,即便他猜對了 10 次,我們也不會推翻原假設(因為「酒精能夠預測未來」這件事的先驗概率太低了),而僅僅認為他是運氣好罷了。
怎麼樣,從這三個例子中看出先驗在解讀 p-value 時起到的作用了嗎?這就是貝葉斯框架的強大之處。
Dr. Harvey 將傳統的 p-value 嵌入到貝葉斯框架中,提出了貝葉斯化 p-value(Bayesianized p-value)的概念,它是一個後驗概率。
貝葉斯化 p-value 由最小貝葉斯因子(minimum Bayes factor,MBF)和先驗概率(prior odds)構成。貝葉斯因子是在原假設下觀測到效用的似然性與在備擇假設下觀測到效用的似然性之間的比值。由於備擇假設中,效用的概率分布未知,因此貝葉斯因子的取值有個範圍。這個範圍的下限就稱為最小貝葉斯因子。它代表著貝葉斯框架下,我們拒絕原假設的傾向性(MBF 越小,我們越傾向拒絕原假設)。
具體的,後驗貝葉斯化 p-value 的表達式如下:
其中,MBF 的計算方法有兩種,分別根據統計檢驗中的原始 p-value 和其對應的 t-statistics 求出。以下僅給出具體表達式,而不去探討具體數學細節。
貝葉斯 p-value 的強大之處在於,它是一個後驗概率,它回答了那個我們真正關心的問題:在(極端)事件發生的前提下,原假設為真的條件概率是多少,即我們夢寐以求的 prob(H|D)。
使用後驗貝葉斯 p-value,Dr. Harvey 對學術界的一些知名因子進行了分析(下表)。具體的,他考慮了三類不同的先驗情況:a stretch(罕見的,假設因子有效的先驗概率為 2%),perhaps(有可能,假設因子有效的先驗概率為 20%),solid footing(業務基礎紮實,假設因子有效的先驗概率為 50%)。
在第一類(a stretch)中,考察的因子叫 clever tickers(可以理解為聰明的股票代碼),即有些股票代碼比另一些更讓投資人喜歡,因此這些股票有超額收益(這一聽就不靠譜)。在貝葉斯框架下,其後驗貝葉斯 p-value 為 0.836,這意味著該因子對解釋超額收益完全沒有作用。值得一提的是,在研究出該因子的文章中,它的 p-value 可是僅有 0.0079,暗示著 clever tickers 用來選股能獲得超額收益。貝葉斯框架完美的逆轉了這個錯誤的結論。
在第二類(perhaps)中,考察的因子是 Fama 和 French 提出的盈利因子和規模因子。在原著中, Fama 和 French 的研究顯示這兩個因子都有超低的 p-value。然而,它們的後驗 p-value 分別為 0.117 和 0.332。其中,盈利因子的後驗 p-value 仍然比較低(雖然比原著中的高很多),但是規模因子的後驗 p-value 卻很大,說明它不能很好的解釋超額收益。
在第三類(solid footing)中,考察的因子是市場因子。它的後驗 p-value 為 0.111(在另一種 MBF 的計算方式下,其後驗 p-value 更是僅有 0.035)。這說明市場因子確實是一個能夠解釋股票超額收益的因子。這也完全符合人們的預期。
這三個例子完美的說明了當我們有一個手段來回答正確的問題時(即 prob(H|D)),我們能夠得到更加有效的結論。解釋股票超額收益率的因子不是不存在,但他們應該非常稀有,數量遠遠少於頂級期刊上刊登的那些偽因子。
科學的願景,研究應該能被復現
在過去的 10 年、20 年裡,金融經濟學領域的學者們都在追逐 p-value 的道路上狂奔。然而,這麼做的結果是人類在科學的道路上漸行漸遠。
科學研究的目標是為了推動人們對該學科的理解。為了實現它,我們應該確保所有的發現——不管是有效因子還是無效因子——都是可以復現的,成果應該是可以被其他學者複製的。這意味著,在摒除了所有 p-hacking 的數據操縱之後,一個因子的效用仍然經得起考驗,並且它在樣本外也同樣有效(或同樣無效)。
在頂級期刊中,只有 Journal of Finance 要求被錄用的文章提供計算機代碼;沒有任何一個期刊要求作者提供數據(所以很多 p-hacking 的行為根本無法被發現)。可喜的是,最近一個新的期刊 Critical Finance Review 做了很多工作,正逐漸使成果能夠被復現成為學術界的主流。
不論是什麼領域,如果一篇學術論文提出的模型和得出的結論不能被其他學者或業界復現,那發表這樣的文章就無異於耍流氓。
我曾經聯繫過多篇文章的作者,提及被他們文章中因子的表現所震撼、想要自己在樣本外復現他們的發現,因此詢問一些數據和程序上的細節。但是這樣的文章幾乎全部石沉大海。唯一良心的回覆是「當年的代碼寫的很亂,可讀性已經很差了」。我想,大概這些作者也根本無法再現它們當時取得的神奇結果吧。
除此之外,學術界和頂級期刊應該鼓勵學者們嘗試「高風險」的研究項目。「高風險」意味著學者需要費時費力費金錢以收集和處理數據,且得到的結論不一定顯著(沒有令人稱奇的 p-value)。但是,這樣的研究成果才是最根本的,才是真正能夠推動金融經濟學闊步向前的創造性工作。
金融經濟學的科學前景深深的植根於學術界的研究和發表環境中。不可否認,如今學術界的研究質量仍然是很高的。但是本文提出的問題不關乎當下,而是著眼於未來。為了保證金融經濟學的發展,學者們應該時刻保持學者的操守,並創造一個健康的研究氛圍。不要試圖尋找捷徑,而是腳踏實地的走曲折的道路,無論荊棘與坎坷。不忘初心,砥礪前行,金融經濟學的科學前景勢必一片光明。
參考文獻
Bartsch, Dichtl, Drobetz, and Neuhierl (2017). Data Snooping in Equity Premium Prediction. Available at SSRN: https://ssrn.com/abstract=2972011
Campbell (2017). Presidential Address: The Scientific Outlook in Financial Economics. AFA 2017 Annual Meeting.
Carver (1978). The case against statistical significance testing. Harvard Educational Review, 48, 378 – 399.
Comte (1856). The Positive Philosophy of Auguste Comte, translated by Harriett Marineau (Calvin Blanchard, New York). Vol. II.
Fisher (1925). Statistical Methods for Research Workers. Oliver and Boyd Ltd, Edinburgh.
Harvey, Liu, and Zhu (2016). … and the cross-section of expected returns. Review of Financial Studies, 29(1), 5 – 68.
Wasserstein and Lazar (2016). The ASA's Statement on p-Values: Context, Process, and Purpose. The American Statistician, 70(2): 129 – 133