(1)P值可顯示數據與⼀個指定統計模型間的不兼容程度。
P值提供了⼀種⽅法來歸納特定數據集與數據的推薦模型間的不兼容性。最常見的情況即為⼀個在⼀組假定下與「零假設」⼀同構建出的模型。通常,「零假設」假定某⼀效應並不存在,如兩組別間沒有差異,或某個因素與結果間沒有關係。如果計算出P值的潛在假設(替代性假設)成⽴,那麼P值越⼩,統計結果與零假設的不兼容程度越⾼。這⼀不兼容性可以⽤來質疑或⽀撐零假設或潛在假設(替代性假設)。
(2)P值不是用來衡量假設成立的可能性或者數據是偶然概率下產⽣的可能性的。
研究者往往希望將P值⽤於描述零假設成⽴的具體真實性有多⼤,或者是在隨機抽樣中抽取到觀察數值的實際可能性是多少,但是P值與⼆者都相去甚遠。事實上,P值是關於我們如何去解釋特定假設的數據,⽽不是對這⼀假設的解釋本⾝。
(3)科學的結論和政策的制定不可以僅僅基於p值是否通過特定的閾值。
將數據分析或科學推斷簡化為刻板的」硬指標「(例如「P<0.05」),以證明結論的科學性,只會導向錯誤的認知和糟糕的決策。⼀個結論不會在分界線的⼀側突然變真,在另⼀側突然變假。為了得出科學的論斷,研究者需要利⽤好多種背景因素,這包括研究的設計,測量的質量,所研究現象的外部證據,以及作為數據分析基礎的假設的效度。務實的考慮通常需要二元的、「是或否」的決策,但這並不意味著僅靠p值就可以確定⼀個決策的正確與否。「統計顯著性」(通常視為「p≤0.05」)被⼴泛⽤來作為宣告⼀項科學發現(或隱含的真理)的「許可證」,這導致了對科學過程的極⼤歪曲。
(4)合理的推斷要求完備的報告和透明度。
P 值和與之相關的分析不應被有選擇地報告。對數據進行多次分析並且只報告 p 值符合特定要求的(通常是那些 p 值達到了某個顯著性水平的)一部分會導致報告的 p 值本質上沒有意義。報喜不報憂地挑選出(cherrypicking)有價值的發現,或用更為人熟知的術語表述即數據疏浚(data dredging)、顯著性追逐(significance chasing)、顯著性探求(significance questing)、選擇性推斷與 P 值篡改,會導致發表文獻中出現對顯著性檢驗錯誤的過度使用,應當被堅決避免。當研究者根據統計結果選擇性地呈現結論內容的時候,如果讀者沒有被告知這一選擇(的過程本身)及其依據,則研究者對這一結果做出的解釋的有效性、可信度將會被嚴重削弱。而對於這一問題的可能發生,研究者並不必要以進行重複性統計測驗的方式來進行應對。研究者應該公開:研究過程中所探索假設的數量、做出的所有數據收集的決策、執行的所有統計分析以及計算出的所有 P 值。缺乏起碼的對進行了多少分析、哪種分析以及這些分析(包括 P 值)是怎樣被選擇性地報告的知曉,以 P 值以及相關統計數據為基礎的有效科學結論是不能被得出的。
(5)p 值或統計學上的顯著,都不能衡量效應量或效應重要性。
統計上的意義不同於對科學、人類或經濟發展的意義。較小的 p 值並不一定意味著存在大或重要的效應,而較大的 p 值也不意味著該效應缺乏重要性,甚至不存在效應。不論多麼微小的效應,在樣本量足夠大、測量精度足夠高的情況下,都會產生非常小的 P 值;同樣的,重大的效應在樣本量較小、測量不精確的情況下也可能產生不顯著的 P 值。類似的,預計完全相同的效應,當評估精確度發生變化的時候,也會產生不同的 P 值。
(6)就其本身而言,P值也不能為一個模型或者假設的證據提供一個很好的評估。
研究者應當意識到,在沒有語境或者其他證據之下孤立的P值將提供很有限的信息。例如,僅考量一個接近於0.05的p值只能為拒絕零假設提供微弱的證據。同理,一個相對大的p值並不一定是對空假設有利的證據;很多其他的假說可能同樣或者更加符合觀測到的數據。出於這些原因,當其他方法是合適或可行的時候,數據分析不應當止於p值的計算。