數據造假新手段「P值黑客」

2020-12-04 中國日報

如今,在科學研究中,出現了比學術欺詐更令人擔憂發指的行為——P值黑客(P-hacking)。

P-hacking refers to the practice of manipulating scientific data so that the results appear to be statistically significant.
「P值黑客」是指操作科學數據,從而使結果看上去具有統計學意義的行為。

這個詞最早由賓夕法尼亞大學的西蒙松教授提出,一起來看看他是怎麼說的:

Professor Uri Simonsohn of UPenn discussed what he refers to as "p-hacking." P-hacking is the idea that if researchers are engaging in questionable analysis practices, then they should have a disproportionate number of findings at or close to the p < .05 threshold for statistical significance, and that this can be relatively easy to detect.
賓夕法尼亞大學西蒙松教授談到他所指的P值黑客。P值黑客是指如果研究人員採用的分析方法可疑,那麼他們應當有一個不成比例的P值數據結果等於或接近p<0.05這個統計學意義閥值,而這也相對很容易被發現。

雖然直譯為「P值黑客」,但從定義上看,該詞有「數據造假」的意思,這點可以從《大西洋月刊》上的文章《自我修正的科學之謎》(The Myth of Self-Correcting Science)中的解釋得到佐證:

Almost more alarming than the few individuals committing academic fraud are the high percentage of researchers who admitted to more common questionable research practices, like post-hoc theorizing and data-fishing (sometimes referred to as p-hacking), in a recent study led by Leslie John.
近期由萊斯利·約翰主導的研究指出,比少數人的學術欺詐行為更令人擔憂的是,有很高比例的研究人員承認他們的做法更普遍更不靠譜,如事後推理和數據造假(有時指P值黑客)。

(中國日報網英語點津 丁一)

相關焦點

  • 給數據科學家直白解釋P值的含義
    最近,有人問我如何向外行人簡單地解釋 p 值。我發現這很難做到。即使對了解 p 值的人,解釋 p 值總是一個令人頭疼的問題,更不用說對不懂統計學的人了。我去維基百科找了一些東西,這是它的定義:在統計假設檢驗中,對於給定的統計模型,p 值或概率值是在原假設為真時,統計值(如兩組間的樣本均值差)與實際觀察結果相等或更大的概率。
  • 作為一名數據科學從業者,你應該知道的P值
    >當你向有抱負的數據科學家談論p值時,以下情況看起來是否很熟悉?維基百科(Wikipedia)對p值的定義讓那些統計和數據科學領域的任何新手都感到望而生畏。關於p值的典型對話是這樣的:而且你只知道一些公式和約定,卻沒有如何系統的解釋什麼是P值的想法。那麼,我們如何一勞永逸地學習p值,並將其根深蒂固地牢記在心?
  • p 值是什麼?數據科學家用最簡單的方式告訴你
    p 值在統計學中的作用。那時我對 p 值、假設檢驗甚至統計顯著一無所知。直到進入數據科學領域後,我終於意識到了 p 值的含義,以及在某些實驗中,p 值是如何成為決策工具的一部分的。因此,我決定在這篇文章中解釋什麼是 p 值以及如何在假設檢驗中使用 p 值。希望能幫你更好、更直觀地理解 p 值。
  • 當統計學遇上大數據——P值消亡
    莫德爾對這項發現非常得意,因為數據也給出了非常積極的結果,統計結果顯示P值為0.01,這意味著結果「非常顯著」。        實際上,問題並不在數據中,而是P值出了問題,正如羅斯福大學的經濟學家史蒂芬所說,「P值沒有起到人們期望的作用,因為它壓根就不可能起到這個作用。」
  • 統計︱P值-0.05就發表,不然就去死!
    最重要的信息之一是,p值無法告訴你,你的假設是否正確。相反,它是在你的假設之下的,你的數據的概率。這聽起來很像「在你的數據之下的,你的假設的概率」,但它們不是一回事,盧森堡健康研究所的一名生物統計學家Stephen Senn說道。要理解原因,可以考慮這樣一個例子,「教皇是基督徒嗎?答案是肯定的」,他說。「基督徒是教皇嗎?答案很可能是否定的。如果你更改了順序,聲明就不存在了」。
  • 流量造假亂象頻發 形成龐大黑灰產業鏈
    記者了解到,利用黑客「暗鏈」技術非法「引流」,以誘導性的方式增加流量也是新手段之一。北京市公安局網安總隊辦案民警介紹,2020年初,北京市多家單位、企業網站出現點擊後自動跳轉到境外賭博網站的情況。警方偵查發現,不法人員利用黑客技術,將境外賭博網站的「暗鏈腳本」嵌入這些網站後臺伺服器,使點擊或搜索訪問時顯示賭博網站信息,為境外賭博網站推廣引流。
  • 美國宣布禁用p值,原來p值很危險,如何取代p值?
    投影片上這些論點,大部分是說我們在傳統統計檢定的執行上,對 p 值有各種誤解跟誤用。現在很多人談到"p 值的危險"、"p 值的陷阱"、"p 值的誤用"、還有"p 值的誤解"。甚至有些學術期刊,也開始改變他們的編輯政策。像有本叫作 Basic and Applied Social Psychology 的心理學期刊,已經決定以後文章都不能使用 p 值,大家能夠想像嗎?
  • P值之死|當統計學遇上大數據
    由於擔心實驗結果陷入再現性爭論,莫兄和他的導師決定重複實驗,但是,在添加了新的數據之後,P值變成了0.59,這連0.05的顯著性水平都沒有達到!傷心絕望的莫老兄知道,他觀察的心理學效應站不住腳了,一同破滅的,還有那顆年少成名的美麗夢想。
  • 二、統計檢驗與p值
    我們以零假設為基礎,計算概率(p值),做出統計推斷。如果p值小於閾值,則拒絕零假設,接受備擇假設。有時候會有學生找我說,幫忙算個p值,我就會問,你的零假設是什麼?這句話等同於問「你想幹嘛?」,神奇的是,有些時候有些人就真的不知道自己想幹嘛!
  • 媒體:流量造假已形成完整且龐大黑產業鏈,亟待多方合力嚴管
    記者了解到,利用黑客「暗鏈」技術非法「引流」,以誘導性的方式增加流量也是新手段之一。北京市公安局網安總隊辦案民警介紹,2020年初,北京市多家單位、企業網站出現點擊後自動跳轉到境外賭博網站的情況。警方偵查發現,不法人員利用黑客技術,將境外賭博網站的「暗鏈腳本」嵌入這些網站後臺伺服器,使點擊或搜索訪問時顯示賭博網站信息,為境外賭博網站推廣引流。
  • 當統計學遇上大數據——P值消亡 | 網際網路數據資訊網-199IT | 中文...
    由於擔心實驗結果陷入再現性爭論,莫兄和他的導師決定重複實驗,但是,在添加了新的數據之後,P值變成了0.59,這連0.05的顯著性水平都沒有達到!        實際上,問題並不在數據中,而是P值出了問題,正如羅斯福大學的經濟學家史蒂芬所說,「P值沒有起到人們期望的作用,因為它壓根就不可能起到這個作用。」
  • JAMA:p值檢驗,你用對了嗎?
    2016年3月18日 訊 /生物谷BIOON/ --最近一篇關於p值檢驗的總數統計總結了1990至2015以來的多篇生物醫學文獻,發現被錯誤理解的統計數據越來越多,報導p值時沒有同時報導應效應量和置信區間指標。史丹福大學醫學院的研究人員做了一項針對數百萬計的期刊文章的研究統計。
  • 驚爆| p值不是什麼?【連載3】
    點擊查看 【引言】昨日轉載美國德州大學奧斯汀校區政府系林澤民教授2016年在臺灣政大社科院的演講《看電影學統計:p值的陷阱》,他首先講的p值是什麼?今天刊出的是p值不是什麼?由於這部分的文字比較長,將分三期刊出。
  • 800名科學家聯名主張廢除p值!斯坦福教授:沒有p值將充滿廢話
    【新智元導讀】統計顯著性和p值是衡量研究可靠性的重要標準。這個標準是怎麼來的?今年3月Nature上一篇主張廢除p值的文章,為何獲得800位科學家聯名支持?如果沒有p值門檻,研究質量會出現大滑坡嗎?戳右邊連結上 新智元小程序 了解更多!每年,全球有數百萬學生修讀統計學課程。隨著世界上的數據量越來越大,統計學已成為越來越受歡迎的話題。
  • 為什麼卡方值是0,p值是1?
    ——《推拿》有個老師在做卡方檢驗的時候,做出來的卡方值是0,p值也接近1 了,自我感覺不太對,就來諮詢我,我索性把這個做一個統一的講解。(數據為亂編,如有雷同,純屬巧合。)這是SPSS錄入數據的界面,檢驗一下兩組之間性別人數是否有差異。
  • 被Nature科學家封殺的P值,到底有什麼意義?
    因此,我決定講清楚p值是什麼,以及如何將它們用於假設檢驗,以期有助於你更加直觀透徹地理解p值,顯然我們不能跳過對其他相關概念和p值定義的基本理解,但我保證會以一種直觀的方式進行解釋,而不是直接向你扔去一堆技術術語。
  • 隨手學統計:繞不過的 p 值
    原假設:我們認為品茶女士沒有品茶能力觀察結果:品茶女士把 8 杯茶都品了出來p 值:0.014這裡 p 值代表的含義是:如果品茶女士沒有品茶能力,那麼她品出 8 杯茶的概率是0.014。對,這個 p 值(概率)很小很小!
  • 【p值之爭】史丹福大學陸教授有話說
    在這篇論文中陸老師還特別提出了數據質量的問題:「進入分析的數據是垃圾,所產出的只能是垃圾!」看來,任何一個從事臨床科研的工作者都應當避免成為有意和無意的垃圾製造者。p 值之爭概述:p值是生物醫學研究中使用最廣泛的統計學概念。
  • P值之死
    莫德爾對這項發現非常得意,因為數據也給出了非常積極的結果,統計結果顯示P值為0.01,這意味著結果「非常顯著」。莫老兄十分有把握能把自己的論文發表在高影響因子的刊物上。由於擔心實驗結果陷入再現性爭論,莫兄和他的導師決定重複實驗,但是,在添加了新的數據之後,P值變成了0.59,這連0.05的顯著性水平都沒有達到!
  • 美國統計學會權威發布:P值應該這麼用,學界有錯須改正
    (Scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold. )為了給某種科學主張或論斷提供佐證而把數據分析或科學評估[我懷疑「還原」