p值誤我?——「貝葉斯因子」了解一下

2020-12-05 騰訊網

《應用心理學》主要刊登反映心理學各個領域的研究及其應用的最新成果,介紹國內外心理學的最新動態。特別歡迎認知心理、管理心理、工程心理、教育心理、社會心理、心理測量、醫學心理、心理衛生與諮詢、體育運動心理、文藝心理、司法心理及心理學在其他領域的運用等方面的論文。

即日起,應用心理學雜誌社將對發表於《應用心理學》的優秀心理學研究論文進行推送,關注我們,你將獲得最新最棒的心理學研究動態!

文章信息:

跳出傳統假設檢驗方法的陷阱——貝葉斯因子在心理學研究領域的應用

發表於《應用心理學》2018年 24卷 3期

寫在前面:p值

p值是指在一個概率模型中,統計摘要(如兩組樣本均值差)與實際觀測數據相同,或甚至更大這一事件發生的概率。換言之,是假設檢驗中零假設成立或表現更嚴重的可能性。p值若與選定顯著性水平(0.05或0.01)相比更小,則零假設會被否定而不可接受。

(圖片來源:https://xkcd.com/1478,一幅諷刺濫用

p值的漫畫)

p值誤我?

在你使用p值時,是否還在為研究結果的不穩定而疑惑?是否還在為如何回應審稿人,對傳統推論統計獲得的數據分析結果表示不信任而煩惱?是否還在為假設檢驗中「不顯著」的統計結果不能有力地支持虛無假設而感到擔憂?近日,《應用心理學》期刊上發表的一篇關於統計方法與驗證手段的文章《跳出傳統假設檢驗方法的陷阱——貝葉斯因子在心理學研究領域的應用》,相信能夠為有以上體驗的研究者帶去一些見解與幫助。

該文章開頭圍繞傳統假設檢驗的不足與誤用所帶來日益嚴重的「可重複危機」,和國外著名學術期刊對這一問題的重視與回應,引出了近來心理學界較為推崇(如《Psychonomic Bulletin & Review》雜誌2018年第一期專欄)的貝葉斯因子分析方法。

貝葉斯因子是什麼?

貝葉斯因子,可以視作貝葉斯統計對經典假設檢驗的一種替代方法,定義為兩種相互競爭的假設(通常是一個虛無假設和一個備擇假設)的似然概率比。在推論統計過程中,其數值大小能描述兩種假設成立可能性的相對高低,反應當前數據傳遞了多少支持證據。使用貝葉斯因子進行推論,具有概念清晰,可為虛無假設成立提供證據,比p值更嚴格地考察大樣本容量下的實驗效應,並可結合理論假設的先驗概率與樣本數據進行綜合推斷等諸多優點。

貝葉斯因子的計算

文章主要介紹了兩款計算貝葉斯因子的常用軟體:R語言中的BayesFactor軟體包,和基於這個軟體包、具有良好操作界面的JASP。

BayesFactor工具包由Richard D. Morey等人共同開發,是一款仍在實時更新的R語言工具包。它可用於計算各種簡單實驗設計下的貝葉斯因子,具體適用類型包括列聯表、單樣本或雙樣本t檢驗設計、單因素或多因素方差分析和線性回歸模型。

JASP是一個免費開源、具有圖形操作界面的統計分析軟體。相比於BayesFactor工具包而言,這是一個功能更全面、操作更友好、對熟悉使用SPSS軟體的研究人員更易上手的軟體。除傳統的統計檢驗功能外,它還能實現諸如探索性因素分析、主成分分析、結構方程模型等功能。

在文章的附錄部分作者也提供了腳本與示例數據供讀者簡單練習與操作。

貝葉斯因子與心理學研究

文章最後還概述了貝葉斯因子應用過程中的注意事項:

1. 貝葉斯因子的數值是相對的,而不是絕對的。

2. 貝葉斯因子比p值更加嚴格,但仍有可能被操縱。

3. 貝葉斯因子無法根本性解決「發表偏倚」(publication bias)的問題。

希望大家能有分析有比較地,以更全面的視角,看待貝葉斯因子在心理學研究中的應用。

參考:

1 《應用心理學》2018年24卷第3期論文《跳出傳統假設檢驗方法的陷阱——貝葉斯因子在心理學研究領域的應用》

http://www.appliedpsy.cn/CN/abstract/abstract206.shtml

2 Psychonomic Bulletin & Review雜誌2018年2月25卷第1期專欄

https://link.springer.com/journal/13423/25/1/page/1

作者|顧全(浙江大學)

編輯|張旭暉(浙江大學)

相關焦點

  • JAMA:p值檢驗,你用對了嗎?
    研究表明,文章作者報告p值的越來越多,但他們誤解了p值的含義。p值是報告科學結論是否真實的統計學意義的概率值。研究人員發現,因為p值常被誤用,對p值使用的增多並不代表生物醫學研究或數據分析水平的提高。"研究人員通常對p值的使用技術不佳,用有偏見的方式使用,因此變得非常具有誤導性。"
  • 科普丨樸素貝葉斯了解一下
    要理解樸素貝葉斯,我們首先需要了解貝葉斯推斷。貝葉斯推斷是一種用貝葉斯定理來迭代假設概率的方法。貝葉斯定理是在掌握與相關事件的先決信息下,計算該事件的概率。假設你想計算星期天下午5點得到一個停車位的概率。那麼你如何計算這一事件的概率呢?是的,貝葉斯定理!數學上貝葉斯定理寫為:這裡"B"是一個條件,"A"是一個事件。
  • 傳說中的貝葉斯統計到底有什麼來頭?
    然後該實驗理論上無限次重複的,但實際上是帶著停止的意圖的。例如當我腦海中帶著停止的意圖時,它重複1000次或者在擲硬幣過程中我看到最少300詞頭在上的話,我將停止進行實驗。我們可以這樣解釋p值:(以p值的一例0.02均值100的分布):有2%的可能性的樣品將具有等於100的平均值。這種解釋說明從取樣不同尺寸的分布,人們勢必會得到不同的T值,因此不同的p值的缺陷受到影響。p值小於5%並不能保證零假設是錯誤的,也沒有p值大於5%確保零假設是正確的。
  • 當統計學遇上大數據——P值消亡
    莫老兄十分有把握能把自己的論文發表在高影響因子的刊物上。為什麼P值沒有達到人們的期望?它的問題到底在哪?現在和數說君一起來梳理一下P值和假設檢驗的歷史,並從中尋找答案吧。二、P值和假設檢驗的歷史1.KarlPearson        很多統計學家誤以為關於P值的正式文獻是費雪發表的,其實不然,最早在文獻中正式闡述P值及其計算的,是統計學家Karl Pearson,你可能不了解他,但是他的Pearson卡方檢驗你一定知道,這篇關於卡方檢驗的文章當時被發表在《哲學雜誌》上,文章中一同被介紹的,還有一個被叫做「P值」的東東,見史料。
  • 九成以上研究者或無法正確理解p值
    從2017年9月到2018年11月,我們利用Oakes等人的針對p值和CI的問卷再一次重複了該研究。不同的是,這次調查中,我們聯繫了《知識分子》、《科學人》、《統計之都》、《定量群學》、《我愛腦科學網》多家科研公眾號,將調查的學科規模擴大到了社會科學、醫學、理學、工學、農學、經濟學、以及數學/統計學等背景的1479名受訪者,而不是僅限於心理學受訪者。
  • P值之死|當統計學遇上大數據
    莫德爾對這項發現非常得意,因為數據也給出了非常積極的結果,統計結果顯示P值為0.01,這意味著結果「非常顯著」。莫老兄十分有把握能把自己的論文發表在高影響因子的刊物上。為什麼P值沒有達到人們的期望?它的問題到底在哪?現在和數說君一起來梳理一下P值和假設檢驗的歷史,並從中尋找答案吧。二、P值和假設檢驗的歷史1.
  • 當統計學遇上大數據——P值消亡 | 網際網路數據資訊網-199IT | 中文...
    莫德爾對這項發現非常得意,因為數據也給出了非常積極的結果,統計結果顯示P值為0.01,這意味著結果「非常顯著」。莫老兄十分有把握能把自己的論文發表在高影響因子的刊物上。為什麼P值沒有達到人們的期望?它的問題到底在哪?現在和數說君一起來梳理一下P值和假設檢驗的歷史,並從中尋找答案吧。二、P值和假設檢驗的歷史1.
  • 【Minitab技巧】為什麼輸出中的 F 值和 p 值顯示為星號?
    缺失值在表格中是因為 Minitab 不可能計算這些統計量。Adj MS 列中的每個值都按如下方式計算:將 Adj SS 列中的值除以 DF 列中的相應值(因子 A 的 Adj MS = Adj SS/DF = .0621/1 = .0621)。但是,無法計算殘差誤差的 Adj MS(通常稱為均方誤 (MSE)),因為不可能將任何值除以 0 個自由度。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    今天談的當然是不一樣的題目,雖然它是一個很重要、很嚴肅的題目,但我希望大家可以輕鬆一點,所以也要放兩部電影片段給大家看,一部是《玉蘭花》,另一部則是《班傑明的奇幻旅程》,這兩部電影都有助於我們來了解今天要談論的主題:p 值的陷阱。  科學的統計學危機:p 值有什麼問題?  為什麼要談論 p 值的問題?
  • 這個例子讓你精通貝葉斯定理
    該規則可通過條件概率p(y=B| s=X)和先驗概率p(s=X)來計算聯合概率p(s=X, y=B)。求和定則現在,讓我們重新看一下先驗概率p(s=X ),其表示從碗X中取出隨機物品的可能性。若將該公式分為兩個被加數的和,如公式10第二行所示,可觀察到被加數正是我們先前得出的兩個聯合概率。
  • 貝葉斯和貝葉斯公式
    貝葉斯在數學方面主要研究概率論。他首先將歸納推理法用於概率論基礎理論,並創立了貝葉斯統計理論,對於統計決策函數、統計推斷、統計的估算等做出了貢獻。貝葉斯的另一著作《機會的學說概論》發表於1758年。貝葉斯所採用的許多術語被沿用至今。貝葉斯思想和方法對概率統計的發展產生了深遠的影響。今天,貝葉斯思想和方法在許多領域都獲得了廣泛的應用。從二十世紀20~30年代開始,概率統計學出現了「頻率學派」和「貝葉斯學派」的爭論,至今,兩派的恩恩怨怨仍在繼續。貝葉斯決策理論是主觀貝葉斯派歸納理論的重要組成部分。
  • 《Machine Learning in Action》——白話貝葉斯,「恰瓜群眾」應該...
    《Machine Learning in Action》—— 白話貝葉斯,「恰瓜群眾」應該恰好瓜還是恰壞瓜概率論,可以說是在機器學習當中扮演了一個非常重要的角色了。Taoye對概率論知識的掌握目前也還僅僅只是停留在本科期間所接觸到的,而且還都已經忘了不少。快速的複習回顧一下之後,用來理解機器學習中的貝葉斯算法,還是足夠的。
  • 極具震撼力的貝葉斯定理,作為數據科學人的您咋能錯過?
    實際上,解決這麼多數據科學問題的方法本質上都是概率性的-因此,我始終建議在著手研究算法之前,著重學習一下統計數據和概率。但我看到很多有能力的數據科學家都在迴避統計這一方面的知識,尤其是貝葉斯統計。許多分析師和數據科學家仍然無法理解這一點。我相信你們很多人都對此點頭贊同吧!
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。
  • 一文讀懂貝葉斯推理問題:MCMC方法和變分推斷
    還要注意,本文中的p(.)可以用來表示概率、概率密度或概率分布,具體含義取決於上下文。貝葉斯推理問題這一部分提出了貝葉斯推理問題,討論了一些計算困難,並給出了LDA算法的例子。LDA算法是一種具體的主題建模機器學習技術,能夠反映貝葉斯推理問題。
  • 【p值之爭】史丹福大學陸教授有話說
    對於在研究中闡釋統計結果而言,了解p值的多樣性和局限性是至關重要的。【關鍵詞:p值;統計推斷;假設檢驗;統計顯著性;科學可重複性】1. 背景在一個經典研究中,如臨床試驗,研究者可能對一個創新治療和安慰劑對照(或標準治療)兩組之間在一個預設的終點時的差異感興趣。初步證據表明創新治療可能會使患者受益,臨床試驗的目的在於嚴格驗證這個假設。
  • 30分鐘了解貝葉斯定理――AI產品經理了解的數學知識系列
    貝葉斯定理提供的是一種逆條件概率的方法,本文簡單總結了貝葉斯定理是什麼,貝葉斯定理應用的理解,以及貝葉斯定理在AI場景下的應用,目的是希望產品經理了解到這個定理的能力後,在設計相關推薦或是具有推理功能的應用場景,能通過貝葉斯定理來解決。
  • ...in Action》——白話貝葉斯,「恰瓜群眾」應該恰好瓜還是恰壞瓜
    《Machine Learning in Action》—— 白話貝葉斯,「恰瓜群眾」應該恰好瓜還是恰壞瓜概率論,可以說是在機器學習當中扮演了一個非常重要的角色了。Taoye對概率論知識的掌握目前也還僅僅只是停留在本科期間所接觸到的,而且還都已經忘了不少。快速的複習回顧一下之後,用來理解機器學習中的貝葉斯算法,還是足夠的。
  • 樸素貝葉斯詳解及中文輿情分析(附代碼實踐)
    同時,推薦大家閱讀我以前的文章了解基礎知識。▌一.而氣象局通過多年長期積累的數據,經過計算,今天下雨的概率p(下雨)=85%、p(不下雨)=15%,同樣的 p(下雨)>p(不下雨),因此今天的天氣預報肯定預報下雨。這是通過一定的方法計算概率從而對下雨事件進行判斷。
  • 你真的懂p值嗎? 說人話的統計學
    但是,兩者有一個關鍵的區別。由於隨機性的存在,在統計推斷中,我們無法像在反證法中一樣斬釘截鐵地認定原假設是錯誤的,我們只能根據「小概率事件在一次隨機實驗中不會發生」的原理做出能否推翻原假設的決策。►回到藍精靈和格格巫擲鋼蹦兒的例子,即便是一塊真正均勻的鋼蹦兒,也有0.03125的概率連續出現5個正面。