當統計學遇上大數據——P值消亡 | 網際網路數據資訊網-199IT | 中文...

2021-01-15 網際網路數據資訊網

   有一天,我走進統計學的神殿 ,將所有謊言都裝進原假設的盒子裡,

        「P值為零」,

        一個聲音傳來,

        「但你已經不能再拒絕,因為,P值已經死了」

        從此,這個世界上充斥著謊言。

一、一個悲傷的故事:破滅的年少成名之夢

        首先跟大家說一個悲傷的故事,該故事來源於nature最近發布的一篇文章「statistical errors」,我把這個故事叫做「破滅的年少成名之夢」

        話說,維吉尼亞大學有一位意氣風發俊朗不凡的博士研究生莫德爾。

        他做了一項關於關於政治極端分子的行為研究,樣本大約有2000個人群,結果發現,相比較政治極端分子,政治溫和派似乎更能辨別不同色度的灰色。

        莫德爾對這項發現非常得意,因為數據也給出了非常積極的結果,統計結果顯示P值為0.01,這意味著結果「非常顯著」。莫老兄十分有把握能把自己的論文發表在高影響因子的刊物上。

        由於擔心實驗結果陷入再現性爭論,莫兄和他的導師決定重複實驗,但是,在添加了新的數據之後,P值變成了0.59,這連0.05的顯著性水平都沒有達到!

        傷心絕望的莫老兄知道,他觀察的心理學效應站不住腳了,一同破滅的,還有那顆年少成名的美麗夢想。

        實際上,問題並不在數據中,而是P值出了問題,正如羅斯福大學的經濟學家史蒂芬所說,「P值沒有起到人們期望的作用,因為它壓根就不可能起到這個作用。」

        為什麼呢?為什麼P值沒有達到人們的期望?它的問題到底在哪?現在和數說君一起來梳理一下P值和假設檢驗的歷史,並從中尋找答案吧。

二、P值和假設檢驗的歷史

1. 拉普拉斯

        P值得歷史可以追溯到1770年,數學家拉普拉斯在處理50萬左右的生育數據時,發現男性的生育率超過女性,對於這個無法解釋的「超越」,他計算了一個叫做「P值」的東西,以確定這個「超越」是真實的(Stigler 1986, P.134)。

2. KarlPearson

        很多統計學家誤以為關於P值的正式文獻是費雪發表的,其實不然,最早在文獻中正式闡述P值及其計算的,是統計學家Karl Pearson,你可能不了解他,但是他的Pearson卡方檢驗你一定知道,這篇關於卡方檢驗的文章當時被發表在《哲學雜誌》上,文章中一同被介紹的,還有一個被叫做「P值」的東東,見史料。

3. Fisher

        P值能風靡學術界這麼多年,費雪是第一推手,被他推動的除了P值,還有被稱為「費雪學派」(Fisherian)的假設檢驗思想。簡單介紹下他的思想:

        如果我們想要檢驗一個樣本是否來自某個分布已知的總體,首先要建立一個「原假設」(null hypothesis),比如,下圖的例子我們假設該樣本來自正態總體N(m0,σ),那麼原假設為:

H0:m=m0

        但實際上我們得到的樣本均值不是m0,而是,那麼Fisher他老人家當時的想法是:在一個樣本均值為m0的正態總體中,抽樣得到這個均值為的樣本的機率會有多大?我要是能計算出這個概率,就知道「這個樣本來自該總體」這件事有多靠譜了,如果概率太小,就認為是不靠譜的事情,那麼就可以認定這個假設是錯的。這就是假設檢驗裡的「小概率事件原理」,這個概率就是後來風靡學術界的「P值」,一般認為概率小於5%,就是不靠譜的事情,則需要拒絕原假設。

        到此為止,Fisher大神隻字未提「備擇假設」,也從沒說任何關於「接受」某個假設的事情,在Fisher的檢驗哲學裡,

檢驗是基於無限總體中抽出的一個(注意是一個)樣本;顯著性檢驗的基礎是基於原假設而得出的假想概率,這些檢驗不能導出任何關於真實世界的概率論斷。

        因此,費雪以及他的P值檢驗思想,從來沒有涉及到「備擇假設」的概念,沒有被認為可以用來證明某個假設是對的。

4. Neyman-Pearson

        後來流行的「備擇假設」的概念是在另一個重要的檢驗思想裡提出的,即Neyman-Pearson(以下簡稱N-P)檢驗思想。N-P學派發源於費雪的思想,但卻與之不太一樣,他們兩派相互爭論了很多年。相比較於Fisher學派,Neyman他們主要有三個不同:

(1) 引入備擇假設

        Neyman本人曾說,「接受一個假設H,僅僅意味著採用決策A要比決策B好,並不能說明我們必須要相信假設H就是對的。」

(2) 引入兩種錯誤:第一類錯誤和第二類錯誤

        第一類錯誤是指拒絕了一個正確的原假設(α),第二類錯誤是指接受了一個錯誤的原假設(β);

        Power=1-β,被稱為檢驗效力,它代表著拒絕一個錯誤假設的概率;

        N-P的檢驗思想是,控制第一類錯誤(一般事先給定),使得第二類錯誤的值越小越好,即power越大越好。

(3) 使用拒絕域來進行檢驗

        在N-P的思想框中,完全沒有提到P值,他們使用拒絕域來對假設進行判別,具體檢驗思想見下圖:

(4) 錯誤的混合

        比較以上兩個檢驗我們發現,Fisherian和N-P的檢驗思想完全不同,

費雪學派的P值檢驗思想,沒有涉及備擇假設,也從來沒有被嚴格證明可以用來證明某個假設是對的。實際上,當我們抽取的樣本變化時,得到的P值也會變化,結論也會隨之變化。N-P學派使用備擇假設,在判定是接受還是拒絕某個假設的時,同時會給出兩類錯誤以及power作為輔助參考,但是該學派(包括Neyman本人)從來不承認「P值」這個東西。雖然樣本不同,他們的結論也會不同,但是N-P方法會在每個結論的後面給出相應的power,說明該結論的靠譜程度,相對於P值檢驗,這個方法更加規則嚴密。Fisher和Neyman兩人知道對方的觀點,但是彼此都不能相容,Neyman批評Fisher的某些工作從數學上講比「毫無用處」還糟,Fisher對Neyman方法給出的評價是「無比幼稚」、「在西方學界中簡直駭人聽聞」(Nuzzo,2014)。

        然而後世的許多統計學家錯誤的將兩個方法進行了混合,衍生出這樣的判別標準,即:

        用p<α作為判斷標準,以決定接受原假設還是備擇假設

        如Gibbons(1986,p.367)說:「P值與古典方法(即Neyman-Pearson)的關係是,如果p<=α,我們就要拒絕H0,如果p>α,我們就要接受H0。」

三、悲劇的結論

        梳理完P值和假設檢驗的歷史,你應該知道為什麼羅斯福大學的經濟學家史蒂芬說,「P值沒有起到人們期望的作用,因為它壓根就不可能起到這個作用。」了,因為P值從來沒有被證明可以用來接受某個假設,即使是拒絕假設,也是基於某個樣本得出的結論,當樣本變動時,結論很可能也會變動。

        P值檢驗會如此不靠譜?其實,Fisher本人對統計檢驗的觀點更加悲觀,他認為,統計學的功能僅僅在於歸納推論(inductive inference),而不是歸納行動(inductive behavior);統計檢驗應該止於歸納結論,而不涉足於行動判斷(Lv,2012)。

        這是一個悲劇的結論,不僅對夢碎的莫德爾老兄,也對所有運用統計學的研究者。

四、解決之道

        面對「P值至上」的種種惡果,統計學家們給出了其他的解決方法,

避免使用「顯著」或「不顯著」來進行判斷。如心理學家Cumming建議,研究者應當給出置信區間和power,以讓讀者明白研究結果的靠譜程度。使用貝葉斯等決策方法。下圖是貝葉斯的判斷準則,沒有P值的參與。對同一個數據使用多種方法進行分析。結果越是不同,就越有可能出現重大的發現。

        數說君曰:P值死了,這是統計學的重生.

相關焦點

  • 當統計學遇上大數據——P值消亡
    有一天,我走進統計學的神殿 ,將所有謊言都裝進原假設的盒子裡,        「P值為零」,        一個聲音傳來,        「但你已經不能再拒絕,因為,P值已經死了」
  • P值之死|當統計學遇上大數據
    實際上,問題並不在數據中,而是P值出了問題,正如羅斯福大學的經濟學家史蒂芬所說,「P值沒有起到人們期望的作用,因為它壓根就不可能起到這個作用。」拉普拉斯P值得歷史可以追溯到1770年,數學家拉普拉斯在處理50萬左右的生育數據時,發現男性的生育率超過女性,對於這個無法解釋的「超越」,他計算了一個叫做「P值」的東西,以確定這個「超越」是真實的(Stigler 1986, P.134)。2.
  • 如何將數據科學與商業結合起來 | 網際網路數據資訊網-199IT | 中文...
    我們將產生2500萬的各種跟數據有關係的東西。還有將有250億套設備,連接到通過數據構建的網絡裡面。大家注意到這不是網際網路連接的數據,而是通過數據來連接的世界,剛才幾位專家也分享了,工業4.0,很多機器真正連到網際網路上去,但是它們內部建造了各種複雜優美的網絡,最後就是數據量的問題。
  • .| 網際網路數據資訊網-199IT | 中文網際網路數據研究資訊中心-199IT
    第30版《世界生活成本指數》顯示了Covid-19大流行如何改變了全球133個城市的生活成本。該報告將重點關注由於匯率波動、供應鏈問題、稅收和補貼的影響以及消費者偏好的變化而導致的商品成本變化,以及全球消費品公司如何適應這種情況。總體而言,以美元計價漲幅最大的是德黑蘭(伊朗)。美國制裁影響了商品供應的情況下,其整體生活成本指數上漲了10個百分點。
  • 數據造假新手段「P值黑客」
    如今,在科學研究中,出現了比學術欺詐更令人擔憂發指的行為——P值黑客(P-hacking)。「P值黑客」是指操作科學數據,從而使結果看上去具有統計學意義的行為。這個詞最早由賓夕法尼亞大學的西蒙松教授提出,一起來看看他是怎麼說的:Professor Uri Simonsohn of UPenn discussed what he refers to as "p-hacking."
  • 銀行業深度報告:網際網路改變金融 | 網際網路數據資訊網-199IT | 中文...
    數 據總量的急速膨脹和維度的日益豐富拉開了大數據時代的帷幕。「大數據時代」顯著區別於抽樣統計的小數據時代。納米技術通過將事物分解至分子級別而顯著改變 了事物的物理屬性,大數據與此類似,通過海量數據處理使得人們能夠更清楚地看到抽樣統計所無法揭示的細節信息。
  • FT中文:中國網際網路的「權力遊戲」 | 網際網路數據資訊網-199IT |...
    如今,更具顛覆性且不容忽視的力量主要以三家大型網際網路集團為代表,即百度(Baidu)、阿里巴巴(Alibaba)與騰訊(Tencent),合稱BAT(編者註:中國這三家大型網際網路集團名稱的英文首字母縮寫是BAT,在英文中是「蝙蝠」的意思)。這三家公司在短短幾年內已經使中國的許多方面發生了翻天覆地的變化。以阿里巴巴旗下的螞蟻金服(Ant Financial)為例。
  • 網紅電商如涵IPO路演PPT解析 | 網際網路數據資訊網-199IT | 中文...
    | 消費習慣的變化、自媒體的發展、增長的數字市場、技術發展將帶動網際網路KOL經濟的飛速發展。解析:展示優質的運營數據後,對整個KOL經濟市場進行分析,向投資人說明如涵還有很大的發展空間。2017年KOL經濟市場已達到近千億人民幣,除了較高的年複合增長率,整個消費市場和科技市場都對網紅電商市場的發展起促進作用。
  • 你真的懂p值嗎? 說人話的統計學
    可以,你真的懂p值嗎?它到底是什麼?►隨便翻開一本統計學課本,我們會看到這樣的定義:p值是在假定原假設為真時,得到與樣本相同或者更極端的結果的概率。►你的反應多半會是:「說人話!」
  • StatQuest生物統計學 - 線性擬合的R2和p值
    R2是擬合所能解釋的數據波動的比例p值是擬合只是隨機變異的可能性大小上一節StatQuest生物統計學 - 擬合基礎已經講過線性擬合
  • 數據可視化最有價值的50個圖表 | 網際網路數據資訊網-199IT | 中文...
    下圖顯示了數據中各組之間最佳擬合線的差異。 要禁用分組並僅為整個數據集繪製一條最佳擬合線,請從下面的 sns.lmplot()調用中刪除 hue =』cyl』參數。抖動圖 (Jittering with stripplot)通常,多個數據點具有完全相同的 X 和 Y 值。 結果,多個點繪製會重疊並隱藏。 為避免這種情況,請將數據點稍微抖動,以便您可以直觀地看到它們。 使用 seaborn 的 stripplot() 很方便實現這個功能。
  • p 值是什麼?數據科學家用最簡單的方式告訴你
    選自TowardDataScience作者:Amond Lee機器之心編譯參與:李詩萌、一鳴即使是沒有任何統計學基礎的讀者朋友可能也聽說過「p 值」,但是鮮有文章能夠清楚解釋 p 值是什麼,以及p 值在統計學中的作用。
  • 如何用量化方法進行用戶研究 | 網際網路數據資訊網-199IT | 中文...
    5、數據驗證這一步主要是驗證通過問卷調查得到的數據是否有效,是否能夠很好的測量被研究的問題。數據驗證主要包括了信度分析和效度分析。信度指的是測量結果的穩定性和一致程度。信度越高代表同一個變量的不同問法之間誤差較小。一般使用Cronbach』 α值來度量。通過IBM SPSS可以進行驗證(具體做法請百度)。一般來說,信度標準如下。
  • ...Online beta版本上線 | 網際網路數據資訊網-199IT | 中文網際網路...
    該產品順利上線是繼去年10月華大基因、阿里雲、英特爾在第十屆國際基因組學大會上宣布聯手啟動搭建亞太首個精準醫療開發平臺後取得的首個重要成果。這也是首個完全部署在阿里雲上的大規模生物信息分析平臺。隨著生命科學領域數據爆炸式的增長,如何及時獲取、快速分析、安全儲存這些龐大的數據是研究者們急需解決的問題。
  • 統計學中的P值與顯著性的意義
    一、P值是什麼?
  • 統計學與大數據具有哪些聯繫
    首先,統計學是大數據的三大基礎學科之一,所以統計學與大數據之間的關係還是非常密切的,但是這也導致一部分人產生了一定的誤解,認為大數據就是統計學,統計學就是大數據。實際上,雖然在大數據時代背景下,統計學的知識體系產生了一定程度的調整,但是統計學本身的理念與大數據還是具有一定區別的,統計學注重的是方式方法,而大數據則更關注於整個數據價值化的過程,大數據不僅需要統計學知識,還需要具備數學知識和計算機知識。從另一個角度來說,統計學為大數據進行數據價值化奠定了一定的基礎。
  • CheetahLab:2018中國人工智慧報告 | 網際網路數據資訊網-199IT |...
    人工智慧在各垂直領域商業化大繁榮的背後,是基礎層的軟硬體支撐,以及技術層的語音識別/自然語言處理、計算機視覺等應用的漸入佳境,雖然離成熟應用還相距甚遠,但從1到100的創新已經準備騰飛。獵豹全球智庫基於獵豹大數據(Cheetah Data)對人工智慧產品在移動端表現的監控,為你呈現最全面的人工智慧商業化圖譜。
  • 【統計學】讓人糾結的P值
    關於統計學的爭議最多的就是P值,就是這個大寫斜體的P值。無數文章曾經都寫過這個「無效假設檢驗」話題。無效假設檢驗是統計學的基本原理和基石,是指根據於某種實際需要,對未知的或不完全知道的統計總體提出一些假設。然後由樣本的實際結果,經過一定的計算,作出在概率意義上應當接受那種假設的測驗。一般的描述是,你假設兩組處理是不同的,然後用檢測數據進行統計學計算(經常說分析)。
  • 給數據科學家直白解釋P值的含義
    最近,有人問我如何向外行人簡單地解釋 p 值。我發現這很難做到。即使對了解 p 值的人,解釋 p 值總是一個令人頭疼的問題,更不用說對不懂統計學的人了。我去維基百科找了一些東西,這是它的定義:在統計假設檢驗中,對於給定的統計模型,p 值或概率值是在原假設為真時,統計值(如兩組間的樣本均值差)與實際觀察結果相等或更大的概率。
  • 乾貨|統計學的P值危機
    A、P值經常被誤解,統計的顯著性不等於實際的顯著性。今年3月份Nature發表了三個統計學家的一封公開信《科學家們起來反對統計學意義》(Scientists rise up against statistical significance),標題如戰鬥檄文令人振奮。