統計學是每一個開展科學研究的人所必須掌握的知識並加以應用到實際研究工作中。關於統計學的爭議最多的就是P值,就是這個大寫斜體的P值。無數文章曾經都寫過這個「無效假設檢驗」話題。無效假設檢驗是統計學的基本原理和基石,是指根據於某種實際需要,對未知的或不完全知道的統計總體提出一些假設。然後由樣本的實際結果,經過一定的計算,作出在概率意義上應當接受那種假設的測驗。一般的描述是,你假設兩組處理是不同的,然後用檢測數據進行統計學計算(經常說分析)。計算什麼,計算這兩組因為抽樣誤差產生這種差異的概率不超過5%(任何小於5%的概率)。統計學經過大量研究認為,5%是一種小概率事件,因為相同的概率不超過5%,屬於小概率事件,那麼我們就說這兩組數據存在顯著(顯著只是統計學機率,不是相差多少)差異。請注意,統計學分析的結果是兩組差異的可能性P值大小,並不是相差的多少,但是我們現在對P值非常認真。幾乎到了崇拜的地步,如果沒有達到預期的小概率,即使數據差別很大,我們不承認差異。在臨床研究中,我們幾乎都不相信個案,認為這是偶然的可能性很大,除非像某些絕對不可能發生的案例。
今天,《自然》再次提出這個話題,認為P值只是冰山一角。根據數學和統計規律,影響P值大小的最重要因素是樣本量和差異大小。
如果差異足夠大,例如某種抗血壓藥物的治療效果,很小的樣本量就可以計算出足夠小的P值,如果差異比較小,例如某種癌症治療藥物,可以通過擴大樣本量獲得足夠小的P值。言外之意,P值本身是可以操縱的數據,那麼對能操縱的一個P值的崇拜有何必要?對P值這一質疑,不只是停留在爭論上,甚至有的學術雜誌政策專門提出禁止使用P值。2015年2月《基礎和應用社會心理學雜誌》就決定禁止使用P值。
這樣的禁令並不能影響科學出版的質量。不得不承認,有很多統計和研究設計方法很成功,也非常有價值。P值計算是統計學分析得最後一個階段。在實踐中,在研究早期階段對數據進行分析對研究結果也非常重要,這種分析應該貫穿於從實驗設計到影響因素,能提前了解誤差的來源和性質,是來自幹擾因素,還是簡單的測量誤差,從而對實驗設計進行細微調整。
(足夠小的)P值是非常容易獲得的目標,也是應用廣泛和容易被濫用的統計學標準。在實際應用中,不當調整統計學差異給濫用統計學標準提供了方便。例如通過換用不同的統計學方法以獲得最有利(符合預期)的統計學結論。
理論上,P值只適合小樣本的統計學分析,因為只要足夠的樣本量,任何細微的差別都能找到足夠小的P值。用貝葉斯因子或其他統計指標代替P值是權衡真假陽性的選擇,或者是提高統計效率,本身並不能徹底解決問題。
統計學教育非常重要。就好像任何進行DNA序列分析和遙感的人都必須學習使用機器,任何使用統計學工具分析數據的人都必須對統計概念和數據分析軟體進行培訓。甚至研究生指導老師也必須進行統計學培訓,以提高對潛在統計學分析錯誤的識別能力。一些在線課程就是針對這些問題,例如約翰霍普金斯大學的Data ScienceSpecialization等,用戶可以方便地學習使用一些計算機統計分析軟體。
但教育不能解決所有的問題。數據分析的教學基本採用學徒模式,每個學科都發展出自己的統計分析文化,決策是基於特定學科文化傳統而不是經驗證據。例如經濟學家和生物醫學科學家對同樣類型的數據採用完全不同的分析方法。
數據分析的最終目標應該是基於證據。這類似於循證醫學,鼓勵醫生只接受有對照試驗證明療效的證據。無論怎麼爭論,統計學都不能放棄,爭論看來沒有太多必要,只要你繼續科研,那麼你對統計學的糾結就會繼續存在。
長按二維碼即可識別和關注
首個專業提供最新醫學科研和技術資訊的微雜誌。
微信號:researchservice
國內首個專注於為臨床醫生提供最新最權威的醫學科研資訊和專業技術諮詢的微信公共平臺。由資深醫學科研專家領銜,全力打造國內最優秀的醫學科研諮詢平臺。
(來源:科學網)