A、P值經常被誤解,統計的顯著性不等於實際的顯著性。今年3月份Nature發表了三個統計學家的一封公開信《科學家們起來反對統計學意義》(Scientists rise up against statistical significance),標題如戰鬥檄文令人振奮。在文章發出來後不到24h就得到250多人籤名,一星期後,共收到800多份籤名,籤名者包括來自50多個國家的統計學家、臨床和醫學研究人員、生物學家和心理學家,除南極洲沒人以外,所有大洲都有人籤名。
他們提出:「我們永遠不應該僅僅因為P值大於0.05之類的閾值而得出「沒有差異」或「沒有關聯」 ,或者等價,因為置信區間包括零。我們也不應該斷定兩項研究之間存在衝突,因為一項研究結果具有統計學意義,另一項則沒有。這些錯誤會浪費研究工作並誤導政策決策。」
此外,為了更好的重複性問題,也有學者通過複雜的統計模擬(主要是貝葉斯思想),建議將目前的顯著性「significant」閾值降到0.005,而之前的0.05隻有提示意義「suggestive」。那目前已發表的論文當中,那將近三分之一將要歸為「僅有提示意義」。。。
然而,似乎多數人是熱烈歡迎這樣的改變,在過去的2017年7月,Nature就把顯著性水平從P<0.05降到P<0.005對受訪者進行調查時,發現竟有69%人的表示支持!2018年,由72位科學家組成的小組在《自然·人類行為》上發表了一篇名為《重新定義統計意義》的評論文章,贊同將統計顯著性的閾值從0.05調整到0.005。這篇文章的主要作者班傑明認為:「這是一個不完美的短期解決方案,但可以立即實施。我擔心的是,如果我們不立即做這事,我們將失去變革的動力,而我們最終將花費所有的時間爭論理想化的解決方案。」當然有支持有反對,反對的聲音主要有兩點:第一、顯著水平降低會極大增加研究所需的樣本量,增加研究成本;第二,科學研究應該是多元化,不應該用單一p值評論研究的價值。
發表公開信的三位統計學家也強調,他們不是在呼籲禁止P值。不是說P值不能在某些特定的應用程式中用作決策標準,而是他們與過去幾十年的許多其他研究結果一樣,呼籲停止以傳統的二分法使用P值——來決定結果是反駁還是支持一項科學假設。
避免這種「二分法」的一個原因是,所有的統計數據,包括P值和置信區間,都會隨著研究的不同而自然地發生變化,並且往往變化非常大
B、傳統方法最大的問題是:研究結果不顯著,通通都沒有報告。在英文有個詞叫 ,摘櫻桃。什麼叫摘櫻桃?摘水果,水果熟的才摘,把熟的水果送到水果攤上,大家在水果攤上看到的水果,都是漂亮的水果,其實有很多糟糕的水果都不見了。我們在統計上也是,大家看到的都是顯著的結果,不顯著的結果沒有人看到。研究者因為結果必須顯著,期刊才會刊登,所以只挑選顯著的結果報導,這就是cherry-picking。所以美國統計學會ASA 曾在2016年發表的聲明中第四點:正確的統計推論,必須要「full reporting and transparency」。