對於心理學實證研究而言,統計方法是一種極為重要的工具。但在這種工具被頻繁使用的背後,心理學研究工作者對這種工具的「源頭和底層」缺乏深入探究。這導致統計方法未能在心理學中回歸其本身的價值和意義。
統計方法是心理學的重要支撐
心理學作為一門獨立學科,其中一個重要的研究方法支撐就是統計方法。百餘年來,統計技術的發展不斷推動著心理學科的進步。在眾多的心理統計技術中,基於樣本統計量推斷總體參數的統計推斷,在心理統計的應用中佔據著核心地位,為基於對有限樣本的觀測結論上升到一般的科學原理提供了可能。
在心理學研究中,統計推斷的有效性往往通過p值來衡量。長久以來,統計推斷的哲學預設、基於p值的統計推斷與科學推斷的關係,以及濫用p值的可能危害,並沒有得到心理學家的足夠重視。這導致的結果是,由費希爾(R. Fisher)所倡導的「將p=0.05作為一個主觀但實用的水平來判斷結果的顯著性」成了判斷一項研究最終價值的鐵律。
統計推斷,主要包括假設檢驗、預測、統計回歸及統計建模等。其中應用最為廣泛的是奈曼(Jerzy Neyman)、皮爾遜(Egon S. Pearson)等人提出的以客觀概率為基礎的假設檢驗,這通常又是其他統計推斷理論的基礎。假設檢驗在心理學研究的應用中,有一個極為重要的指標——p值,即統計顯著性。許多心理學實證研究工作者試圖通過比較理論預測和觀測數據來評估和檢驗假設,這項工作所依賴的統計依據就是基於p值的零假設顯著性檢驗,主要包括Z檢驗、T檢驗、方差分析、卡方檢驗及非參數檢驗等。
米爾(P. Meehl)指出,「由於心理學的研究對象很複雜,使得建構精確的理論變得非常困難」。他對比了「軟」的心理學和其他「硬」科學是如何檢驗各自理論的,認為硬科學的研究者往往預測某個特定的值,他們希望可以接受零假設。而心理學研究者通常設立的零假設是,不同條件下無差異或變量不相關,他們希望零假設可以被拒絕。當這個單點假設被證實時,心理學家就認為自己的理論得到了證實,或至少經受住了考驗。而零假設的「拒絕」需要一個工具,p值正是這樣一個工具。
p值遇到挑戰
近年來,p值不斷受到批評與質疑,這些批評與質疑主要針對假設檢驗固有的局限及研究者的誤解誤用。而這兩個問題同樣存在於p值在心理學領域的應用中。
一方面,假設檢驗作為一種統計方法,本身存在問題。穆德(J. Mulder)等人在反思心理學統計方法時總結了對假設檢驗主要的三個方面的批判,分別是:不能用於量化支持零假設的證據;p值往往高估了與零假設相反的證據——鑑於目前關於心理學可重複危機的討論;p值是依據極端結果在樣本空間上的分布計算的,其大小取決於所抽到的樣本。此外,假設檢驗的過程中需要根據樣本推斷總體,而這很可能會犯兩類錯誤,即在零假設為真時拒絕接受零假設,以及在零假設為假時接受零假設。
另一方面,假設檢驗在心理學研究中存在誤解誤用的問題。比如,「p=0.0002」和「p=0.02」之間的差異與「p=0.049」和「p=0.051」之間的差異相比,前者明顯大於後者。但在心理學研究中,前者都被視為達到「統計顯著性」水平,後者卻因「p=0.05」的界限被劃分到不同的顯著類型中,而與此對應的研究結果也被劃分為兩類。其次,受「p<0.05」即「統計上顯著」的影響,心理學研究者會更加傾向於報告「統計上顯著」的結果,而對報告「不顯著」的結果有所顧慮。另外,在心理學研究中,p值的統計學意義和對研究的實際意義常常被模糊了,人們常常將「統計顯著性」同「結論有價值」相等同。p值的本質是概率,只能作為研究假設是否可靠的一個推論依據,而不是研究結果本身。統計的顯著性不能衡量研究結果本身的意義和價值。如哈伯德(R. Hubbard)等人所言,科學推斷是一個比統計推斷寬泛得多的概念。但在心理學的實際研究中,統計的顯著性(即p<0.05)就等同於研究結果本身的顯著性。也就是說,在心理學的研究中,研究結果純粹取決於統計本身,而較少關注研究本身的性質及其與統計工具的契合性。
反思p值使用
近年來,美國統計學會(ASA)對p值及其相關問題進行了反思。在《邁向超越「p<0.05」的時代》一文中,美國統計學會對p值的使用提出了四條建議:接受不確定性、深思熟慮、開放和謙虛。這四條建議對於統計方法在心理學中的使用和發展同樣具有借鑑意義。
第一,接受不確定性。我們需要重新認識到,統計推斷從來不等同於科學推斷。心理學研究報告中應拒絕使用「p<0.05」作為判斷研究結果是否有意義的絕對標準,謹慎使用「p<0.05」「統計上是顯著的」「*」或其他類似的不嚴謹表達。使用「p<0.05」很容易使統計意義和實際語言意義相混淆,造成「統計上顯著」即「實驗假設為真」的假象。當研究者不再迷信「p<0.05」時,統計更能在心理學中發揮其應有的作用。心理學實證研究的意義並非由某個統計度量是否小於一個特定的閾值來判斷,而是由研究者及研究的整個設計來判斷。
第二,深思熟慮。在做研究之前,心理學研究者應清晰把握該研究領域的現狀,明確研究的目的,嚴格、謹慎地設計研究計劃,並在已有理論的基礎上,通過文獻綜述、專家意見、同行評閱等方式對研究的可行性及結果進行分析,以增強研究的客觀性和有效性。麥克沙恩(B. McShane)等人認為,深思熟慮的研究應該考慮「相關的先驗證據、機制的合理性、研究設計和數據質量、現實世界的成本和收益、發現的新穎性,以及其他因研究領域而異的因素……而不優先考慮p值或其他統計度量」。
第三,開放。心理學研究因其研究對象的特殊性,即使用同樣的研究方法並儘可能地控制各類變量去複製同一項研究,其結果也很難相同。因此,在心理學研究中應主張「一種現象,多項研究方法」,這樣更有利於我們從不同的角度審視當下的研究。在報告研究結果時,研究者不僅需要報告p值,也要報告統計檢驗力、效果量及置信區間等;不僅需要報告對研究結果有利的數據,也要報告不利但重要的數據;不僅需要報告所有數據的分析,還要求提供所有獲得的結果。為了科學出版和研究傳播的完整性,在決定呈現或突出哪個結果時,不應該考慮p值是否超過某個具體的閾值。對研究結果的全面報告將有利於增強隨後引用該研究成果的研究、報導和新聞等內容的客觀性。
第四,謙虛。心理學作為一門研究人性的學科,其研究結果受到媒體和公眾的廣泛關注。研究者要清楚地認識到不同的讀者會從不同的利益立場理解研究結果。因此,在撰寫論文時更應作為一個中立者謹慎地報告研究及研究結果的局限性,以免誤導公眾。另外,統計工具自身具有局限性,p值、置信區間和其他統計度量都是不確定的。心理學研究者不能通過單一的研究得出一個確定性的結論,而應該保持謙虛,鼓勵他人用不同的方法重複自己的研究。
總體而言,我們主張的是,在心理學研究中研究者並不需要停止使用p值指標或任一統計方法,而是需要在使用之前明確所使用統計方法本身的局限以及在心理學應用中需要特別關注的地方,從而讓心理學研究的「源頭和底層」更為清晰。只有這樣,心理學研究才更加能夠經受時間和實踐的考驗。
當然,任何事物的發展都是螺旋式的上升,而不是一條直線。做出改變不僅需要時間,也需要心理學會、心理學期刊及出版社編輯、心理學研究工作者、教師群體等協同合作。心理學會及各分支學會應做好「上傳下達」的工作;心理學期刊及出版社編輯應嚴格把關論文的質量;心理學研究工作者在撰寫論文時應接納「接受不確定性、深思熟慮、開放、謙虛」的建議;教師群體應適當調整自己的教學內容,從而走出「我們使用『p<0.05』是因為老師這樣教,老師這樣教是因為我們這樣做」的循環。只有各機構共同發力,才能讓統計方法在心理學領域回歸本位。
(本文系國家社科基金項目「心理學學科分裂危機的理論根源及整合的哲學基礎研究」(18BZX048)階段性成果)
(作者單位:西北師範大學心理學院)