Nature討論:別被「p<0.05」蒙蔽了雙眼

2020-08-20 BioArtReports


作者 | Dorothy Bishop(牛津大學心理學家)

編譯 | Leon

責編 | 雪月


認知偏差是如何誤導我們的?


過去的十年裡,由於激勵機制的改變(如修改晉升和文章發表的標準、支持論文的開放獲取、不盲目追求「重大突破」等),可靠的、可信的科研工作獲得了越來越多的支持。但是研究人員需要更加注意這些無處不在的「陷阱」。科學家在沒有經過安全培訓的情況下不允許處理危險物質。同理,學者不應該運用p值或類似的統計測量值,除非他們真正理解p值的含義是什麼。認知的偏見會讓我們看到不正確的結果,錯誤的推理會導致質量低下的研究,即使起初的意圖可能是好的。


人們都傾向於忽略那些與我們的結論相矛盾的證據


當我們面對新的數據時,我們會「先入為主」,已經存在的想法會讓我們看到不存在的東西。這是確認偏差(confirmation bias)的一種形式:人們偏向於尋找與自己認知相符合的信息。人們會選擇性地分離重要的信息,但是這種信息的過濾可能導致科學上的錯誤。


1913年,物理學家Robert Millikan對電子電荷的測量就是一個例子。儘管他聲稱,論文包含了油滴實驗的所有數據點。但他的筆記本上還有其他未寫入論文的數據點,這些點只會略微改變最終的值,但會帶來更大的統計誤差。關於Robert Millikan是否有意「選擇數據」,一直存在爭論【1】


我們對概率和統計存在另一種誤解,因為小樣本中固有的不確定性很難把握【2】。舉個例子,假設5%的人感染了病毒,我們有100家醫院,每家醫院可以檢測25人,另外100家醫院每家可以檢測50人,還有100家醫院每家可以檢測100人。問:有多少醫院檢測不出病例?答案是,可檢測25人的醫院,28%的醫院檢測不出病例。可檢測50人的醫院,這個比例降低到8%,而可對100人進行測試的醫院,該比例只有1%。平均下來,醫院能夠檢測出的陽性病例數是相同的,但在樣本較小的情況下,誤差的範圍要大得多。


這種非線性關係很難直觀地展現出來。人們低估了小樣本的不確定性有多大,進行研究時缺乏檢測所需的統計能力。


研究人員也沒有意識到,p值表示的結果的顯著性在很大程度上取決於你的研究內容。變量越多,你就越有可能得到到一個虛假的「統計學意義」。例如,如果你測試14種代謝物是否與某種疾病有關,那麼至少有一個p值低於0.05的概率不是1/20,而更接近1/2。


研究人員需要養成良好的習慣,避免被確認偏差引入歧途。與我們期望相反的實驗結果需要引起特別的注意。1876年,達爾文說,他習慣把每一個與一般性結果相反的論文或發現記錄下來,因為它們更容易被忘掉。


我們都發現很難看到自己工作中的缺陷:這是人類認知的一部分。但是通過加深對這些盲點的了解,我們完全可以有效避免它們。


原文連結

https://www.nature.com/articles/d41586-020-02275-8


製版人:十一


參考文獻


1. R. C. Jennings Sci. Eng. Ethics 10, 639–653; 2004

2. A. Tversky and D. Kahneman Psychol. Bull. 76, 105–110; 1971

相關焦點

  • 【以案說法】相信科學,別被封建迷信蒙蔽雙眼
    【以案說法】相信科學,別被封建迷信蒙蔽雙眼 2020-12-28 18:36 來源:澎湃新聞·澎湃號·政務
  • 別讓「網紅」玩具蒙蔽雙眼
    相關企業、平臺和商家一定要嚴格把關產品質量,不要被「網紅」玩具蒙蔽了雙眼。相關行業協會、組織等應督促企業有針對性地進行整改和技術改良,規範行業健康發展。監管部門需將兒童平衡車的設計、生產、銷售等各個環節納入監管範疇,加大執法與處罰力度。只有多方共同努力,才能保障兒童平衡車產品安全可靠。(□空 格)
  • P<0.05就萬事大吉了嗎?別天真了!統計功效你造嗎?
    如果這個問題沒有困擾到你,要麼說明你已爐火純青毫不費力,要麼當心你的實驗死得不明不白——就算最後做出來P<0.05,也有可能白做了(不要問我怎麼知道的=_=)。雖然往事不堪回首,但後來聽說不僅是青澀的研究僧,有些在實驗室裡摸爬滾打了好幾年的博士後都未必能處理好,我好像又舒心一點了。
  • 翡翠界讓人哭笑不得卻又能以假亂真的謠言,翠友們別被蒙蔽了雙眼
    小編盤點盤點翡翠界讓人哭笑不得卻又能以假亂真的謠言,提醒一下翠友們,別被蒙蔽了雙眼哦!
  • P接近0.05,可以有100種英文描述方法?!
    嘗試了各種合適的統計學方法,P值依然穩穩地略高於0.05,你應該得出結論「無統計學意義(non-significant)」,並這樣寫到文章裡。然而,對於很多作者來說,這並不是他們想尋找的答案:因為感覺發布「陰性結果」的文章要比「陽性結果」的文章難呀。很多人的解決方案就是採用由來已久的迂迴策略,將無統計學意義的結果裝扮地更有趣。
  • iPhoneXR跌至3299,對比iPhone12,別被低價「蒙蔽」雙眼
    相較於6000+的發布價,降價後的iPhoneXR的確更具吸引力,但用戶別被低價「蒙蔽」雙眼。根據最新爆料,iPhone12有望在9月亮相,該機的起售價或為699美元(約4835人民幣),雖然比iPhoneXR貴,但iPhoneXR對比即將發布的iPhone12,差距卻不是一星半點。
  • 統計︱P值-0.05就發表,不然就去死!
    .如果P<0.01,說明是較強的判定結果,拒絕假定的參數取值。.如果0.01<P值<0.05,說明較弱的判定結果,拒接假定的參數取值。.如果P值>0.05,說明結果更傾向於接受假定的參數取值。
  • 畫說統計 P>0.05 你到底要告訴我啥?
    0.05是常用的顯著性水平。P<0.05,是「萬眾期待」的結果。在差別性分析中,這通常說明我們達成了驗證目標。      那麼,p值未低於顯著性水平的檢驗結果,又告訴我們什麼呢?這需要從檢驗假設說起:      以t檢驗為例。
  • 欺騙、迷惑、歪曲,莫讓歷史的虛無蒙蔽了雙眼
    筆者以為,歷史虛無主義具有極大的欺騙性、迷惑性,我們一定莫讓歷史的虛無蒙蔽了雙眼。眾所周知,所謂歷史虛無主義,就是把歷史視為一種無主體的偶然結果,否定歷史唯物主義與歷史決定論,這種「虛無主義」就是歷史虛無主義。毋庸置疑,歷史虛無主義具有極大的欺騙性、迷惑性,其本質就是以所謂「重新評價」為名,歪曲近現代中國革命歷史、黨史、國史、軍史。
  • 為什麼做科研都追求結果達到顯著性水平(p值小於0.05)?
    - 來源 / 南心網數據統計分析博客 -- 編輯 / 三倉小編 -在科學研究中,人們都希望結果達到顯著性水平,即p值小於0.05,例如希望兩組結果具有顯著性差異,兩個變量存在顯著性相關,回歸係數達到顯著性水平,等等。在做研究假設時,我們絕大多數也是在做p值顯著的假設。那麼,人們為什麼那麼熱衷p值達到顯著性?
  • 更加嚴苛的統計學顯著性閾值來了,p<0.05好像要說再見了
    兩天前,Science網站上登了一篇來自Kelly Servick的評論,根據最新的一篇有72個作者將發表在Nature Human Behavior雜誌的文章,過去統計學顯著性閾值(p&
  • 被Nature科學家封殺的P值,到底有什麼意義?
    大家對0.05的顯著性水平比較認可,把p<0.05作為了一種比較公認的判斷標準,因而符合p<0.05的研究結果就比較容易得到發表)同時,文章指出,當區間估計包括嚴重的風險增加時,得出結論認為統計上不顯著的結果「無關聯」是荒謬的。聲稱這些結果與顯示相同觀察效果的早期結果形成對比同樣荒謬。
  • 怎樣理解 p=0.06 的統計學意義?
    統計學問題一直是個充滿爭議和討論空間的話題。下面長青藤編輯與大家分享的是,由P=0.06引發的一場關於marginal association的討論。
  • 怎樣理解p=0.06的統計學意義?
    統計學問題一直是個充滿爭議和討論空間的話題。下面長青藤編輯與大家分享的是,由P=0.06引發的一場關於marginal association的討論。
  • Nature評論:800名科學家聯名反對統計學意義,放棄P值「決定論」
    普遍的問題 首先明確必須停止的事:我們不應該僅僅因為p值大於某個臨界值,比如0.05或者因為零在置信區間,而下結論說兩組之間『沒有差異』或者『沒有關聯』。也不應斷定,因為一個研究的假設檢驗的結果有統計顯著,而另一個假設檢驗沒有,因此這兩個研究存在衝突。這些錯誤會浪費研究工作並誤導科學決策。
  • 夜神月被蒙蔽了雙眼,打著正義的幌子,卻游離在犯罪的世界
    一步錯,步步皆錯,在這場對決裡,夜神月被蒙蔽了雙眼,他已經忘了自己的初心,在他使計殺掉L後,所有以正義為名的謀殺在此刻就像是個笑話,他手上已經染了無辜人的鮮血。
  • 盤點2014年十大偽科學的真相 千萬不要被蒙蔽了雙眼_遊俠網 Ali213...
    小編在這裡提醒大家,千萬不要被「偽科學」蒙蔽了雙眼。那2014十大「偽科學」流言都有哪些呢?下面小編為大家盤點下並揭開真相。   10 兒童用藥讓人憂,吃一次抗生素7天不發育?  謠言:藥品安全,又跟孩子相關,這樣的流言擴散起來簡直不費吹灰之力。這篇《醫生的懺悔:小孩子吃一次抗生素7天不發育,請每個父母認真看完》,這讓很多家長心生恐懼。
  • 解憂段子:是什麼蒙蔽我的雙眼,讓我堂堂二哈沒二起來,搞笑圖文
    會的會的,真的有人會6.今天隔壁的媳婦兒和她婆婆又吵架了,我就跟我媽說:「又吵架了,這一家人可真不消停。」是什麼蒙蔽了我的雙眼9.今天上晚自習的時候,物理老師在上面講得天花亂墜之時,突然衝了下去,直奔我後面的一個女生。果然,從她的物理書中翻出來一本漫畫,直接就給沒收了。全班同學都驚了,心想這是練成透視眼了?
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    我們相約成俗地設定一個顯著水準,叫做 α,α 通常都是 0.05,有時候大家會嚴格一點用 0.01,比較不嚴格則用 0.10。如果我們的 α = 0.05,則若 p < 0.05,我們就可以拒絕虛無假設,並宣稱這個檢定在統計上是顯著的,否則檢定就不顯著,這是傳統的 p 值檢定方法。如果統計上顯著的話,我們就認為得到實驗結果的機會很小,所以就不接受虛無假設。
  • 九成以上研究者或無法正確理解p值
    這可能使得研究者一直糾結於自己研究的p值是否小於0.05,從而造成所謂的p值操縱(p-hacking)、發表偏見(publication bias)等一系列負面現象。但事實上,相比統計顯著性或是p值是否小於0.05,對於研究本身而言還有需要更為重要的指標,包括但不限於置信區間(Confidence Interval,CI)、統計效力(power)、效應量(effect size)等等。