一文學會統計學中的顯著性概念

2021-02-13 211 統計課堂

轉載:大數據文摘出品

編譯:M.Y.Love、茶西、jin、蔣寶尚

這年頭,你不會點兒統計學,你都不好意思出去闖蕩江湖。

α值、P值、假設檢驗這都是些啥?一個小案例帶你了解的透透的。

假設你是一所大學的院長,你收到一份相關報告顯示你的學生每晚平均睡眠時間為6.80小時,而全國大學學生的平均睡眠時間為7.02小時。

此時,學生會主席出於對學生健康的考慮,宣稱這項研究的結果證明了減少家庭作業是必須的。另一方面,校長認為這項研究是無稽之談:「在過去,我們能夠每晚睡4個小時就很好了。」

但是,你必須決定這是否應該引起重視,這個問題就可以使用統計學的知識來解決。

我們經常聽到統計顯著性,但其實並沒有真正理解其含義。如果有人聲稱數據可以證明他們的觀點,我們往往會不假思索的接受,因為我們默認統計分析員經過了一系列複雜的數據分析後得出了不可置疑的結果。

事實上,統計顯著性並不複雜,也不需要經過多年的學習才能掌握,它是非常直截了當的思路,每個人都可以並且應該理解。與大多數技術概念一樣,統計顯著性建立在一些簡單的概念基礎上:假設檢驗,正態分布和p值。本文將闡述這些概念,並逐步解決上述例子中的問題。

我們要討論的第一個概念是假設檢驗(hypothesis testing),這是一種使用數據評估理論的方法。「假設」是指研究人員在進行研究之前對情況的初始信念。這個初始信念被稱為備擇假設(alternative hypothesis),而相反的被稱為零假設(null hypothesis)(也叫原假設)。具體到例子中就是:

備擇假設:本校學生的平均睡眠時間低於大學生的全國平均水平。

零假設:本校學生的平均睡眠事件不低於大學生的全國平均水平。

需要注意的是,我們必須要謹慎用語:因為我們要檢驗一個非常具體的效應,所以需要在假設中規範用語,才能在事後說明我們確實驗證了假設而非其他。

假設檢驗是統計學的基礎之一,用於評估大多數研究的結果。適用範圍覆蓋了從評估藥物有效性的醫學試驗到評估運動計劃的觀察性研究等各種研究。

這些研究的共同點是,他們關注兩組之間或樣本與整體之間進行比較。例如,在醫學中,我們可以比較服用兩種不同藥物的群體之間得以恢復的平均時間。而在我們的問題中,需要比較本校學生和本國所有大學生之間的睡眠時間。

有了假設檢驗,我們就可以使用證據來決定是零假設還是備擇假設。假設檢驗有很多種,這裡我們將使用z檢驗。但是,在我們開始測試數據之前,還需要解釋另外兩個更重要的概念。

第二個概念是正態分布(normal distribution),也稱為高斯(Gaussian)或鐘形曲線(Bell curve)。正態分布是利用平均數和標準差來定義的數據分布形態,其中平均數用希臘字母μ (mu)表示,決定了分布的位置,標準差用σ (sigma)表示,決定了分布的幅度。

正態分布,平均數μ和標準差σ

正態分布的應用原理是根據標準差來評估觀測值。我們可以根據與平均值的標準偏差數來確定觀測值的異常程度。正態分布具有以下屬性:

68%的數據與平均值相差±1標準差

95%的數據與平均值相差±2標準差

99.7%的數據與平均值相差±3個標準差

如果我們統計量呈正態分布,我們就可以根據與均值的標準偏差來表徵任意觀測點。例如,美國女性的平均身高是65英寸(5英尺5英寸),標準差為4英寸。如果我們新認識了73英寸高的女性,那麼我們可以說她比平均身高高出兩個標準差,屬於2.5%的最高身高的女性(其中有2.5%的女性要矮於μ-2σ(57英寸),2.5%要高於μ+2σ)。

在統計學中,我們不直接說我們的數據與平均值相差兩個標準差,而是用z分數來評估,z分數表示觀測值與平均值之間的標準差的數量。我們需要利用公式將數據轉化為z分數:觀測值減去平均值,除以標準差(見下圖)。在身高的示例中,我們可以得到朋友的身高的z分數為2。如果我們對所有觀測值進行z分數轉化,就會得到一個新的分布——標準正態分布,其平均值為0,標準差為1,如圖所示:

從正態分布(右)到標準正態分布(左)的轉換。

每次我們進行假設檢驗時,都需要假定一個檢驗統計量,在我們的例子中是學生的平均睡眠時間。在z檢驗中,我們通常假定統計檢驗量的分布近似正態分布。因為,根據中心極限定理(central limit theorem),從總體數據中獲得越多的數據值,這些數據值的平均數則越接近於正態分布。

然而,這始終是一個估計,因為真實世界的數據永遠不會完全遵循正態分布。假設正態分布能夠讓我們確定在研究中觀察到的結果有多少意義,我們可以觀察z分數,z分數越高或越低,結果越不可能是偶然發生,也就越具有意義。為了量化結果的意義,我們需要使用另一個概念。

最後的核心概念是p值。p值是當零假設為真時所得觀察到的結果,或是更為極端的結果出現的概念。這有點令人費解,所以讓我們來看一個例子。

假設我們要比較美國佛羅裡達州和華盛頓州人民的平均智商。我們的零假設是華盛頓的平均智商不高於佛羅裡達的平均智商。

通過研究發現,華盛頓州的人民智商比佛羅裡達州人民智商高2.2,其p值為0.346(大於顯著性水平)。這意味著,零假設「華盛頓的平均智商不高於佛羅裡達的平均智商」為真,也就是說,華盛頓的智商實際上並沒有更高,但是由於隨機噪聲的影響,仍然有34.6%的概率我們會測量到其智商分數會高出2.2分。之後隨著p值降低,結果就更有意義,因為噪聲的影響也會越來越小。

這個結果是否具有統計意義取決於我們在實驗開始之前設定的顯著性水平——alpha。如果觀察到的p值小於α,則結果在統計學上具有意義。我們需要在實驗前選擇alpha,因為如果等到實驗結束再選擇的話,我們就可以根據我們的結果選一個數字來證明結果是顯著的,卻不管數據真正顯示了什麼,這是一種數據欺騙的行為。

α的選擇取決於實際情況和研究領域,但最常用的值是0.05,相當於有5%的可能性結果是隨機發生的。在我的實驗中,從0.1到0.001之間都是比較常用的數值。也有較為極端的例子,發現希格斯玻色子(Higgs Boson particle)的物理學家使用的p值為0.0000003,即350萬分之一的概率結果由偶然因素造成。(現代統計學之父R.A.Fischer不知為什麼,隨便選擇了0.05為p值,很多統計學家極其不想承認這一點,並且這個值現在讓許多統計學家非常困擾與擔憂)!

要從z值得到p值,我們需要使用像R這樣的表格統計軟體,它們會在結果中將顯示z值低於計算值的概率。例如,z值為2,p值為0.977,這意味著我們隨機觀察到z值高於2的概率只有2.3%。

正態分布下z值低於2的概率為97.7%

我們做個總結,截止到目前提到了三個概念

1.假設檢驗:用來檢驗理論的方法。

2.正態分布:假設檢驗中對數據分布形態的近似表示。

3.P值:當零假設為真時觀察到的或是出現更為極端結果的概率。

現在讓我們把這些概念帶入到我們的例子中:

根據國家睡眠基金會(the National Sleep Foundation)的數據,全國學生平均每晚睡眠時間為7.02小時。

針對本校202名學生進行的一項調查發現,本校學生的平均每晚睡眠時間為6.90小時,標準差為0.84小時。

我們的備擇假設是,本校學生的平均睡眠時間少於全國大學生的平均睡眠時間。

我們將選取0.05為α值,這意味著當p值低於0.05時,結果是顯著的。

首先,我們需要把測量值轉換成z分數,用測量值減去平均值(全國大學生平均睡眠時間),除以標準差與樣本量平方根的商(如下圖)。另外,隨樣本量的增加,標準差亦隨之減少,這一點可以用標準差除以樣本量的平方根來解釋。

轉換為Z值

Z分數就是我們的檢驗統計量。一旦我們有了檢驗統計量,我們就可以使用像R這樣的程序語言來計算p值。這裡展示代碼只是為了說明使用這些免費的分析工具來進行操作是多麼的容易!(#號是表示備註,加粗字體是輸出值)

# Calculate the results
z_score = (6.90 - 7.02) / (0.84 / sqrt(202))
p_value = pnorm(z_score)

# Print our results
sprintf('The p-value is %0:5f for a z-score of %0.5f.', p_value, z_score)

"The p-value is 0.02116 for a z-score of -2.03038."

因為p值為0.02116,所以我們可以拒絕零假設(統計學家喜歡說拒絕零假設,而不是接受備擇假設。) 。也就是說,雖然我們的結果有2.12%的概率由隨機噪聲引起,但在顯著性水平為0.05的情況下,本校學生平均睡眠時間比美國大學生平均睡眠時間少,這一假設在統計學上顯著。因此,在這場辯論中,學生會主席的觀點得到了支持。

但是,我們不能太過相信這一結果,而立即叫停所有的家庭作業。因為,如果我們選用0.01為臨界值,則p值(0.02116)未達到顯著。所以,如果有人想要證明相反的觀點,可以簡單地通過操縱p值來實現。因此,無論何時,當我們審查一項研究時,除了結論外,我們還應該考慮p值和樣本大小。

本例中,因為202是個相對較小的樣本數量,所以我們的研究結果不僅有統計意義,同時具有實際意義。需要說明的是,這是一項觀察性研究,只有相關性,而不能得出因果關係。我們的結果表明了本校學生和平均睡眠不足是有之間的相關關係,但並不是意味著來我們學校會導致睡眠減少,這其中可能還存在其他因素影響睡眠,只有通過隨機對照研究才能證明其因果關係。

與大多數技術概念一樣,統計顯著性並不那麼複雜,只是許多小概念的集成體,最主要的麻煩來自於學習那些術語!但是一旦你掌握了這些小概念,並將其結合起來,就可以開始應用這些統計概念了。

你會發現,當掌握了統計學的基本知識後,你就能夠以一種健康的懷疑態度來更好的審視一些研究和信息,你可以看到數據實際上表達了什麼,而不是別人告訴你數據意味著什麼。或許這就是對付狡猾的政客和公司的最佳策略——通過統計知識的普及與訓練來提高公眾的質疑能力。

相關報導:

https://towardsdatascience.com/statistical-significance-hypothesis-testing-the-normal-curve-and-p-values-93274fa32687

推薦閱讀:


相關焦點

  • 簡版:統計學的基本概念與入門!
    但是,你必須決定這是否應該引起重視,這個問題就可以使用統計學的知識來解決。我們經常聽到統計顯著性,但其實並沒有真正理解其含義。如果有人聲稱數據可以證明他們的觀點,我們往往會不假思索的接受,因為我們默認統計分析員經過了一系列複雜的數據分析後得出了不可置疑的結果。
  • 顯著性檢驗、假設檢驗和原假設顯著性檢驗
    NP體系適用於重複抽樣,其所有概念都是基於重複抽樣的頻率定義,不適用於一次實驗。NP體系中α是人為設定好的,通常設定α= 0.05,它表示H0為真的總體中重複100次實驗,會有5次實驗被錯誤拒絕。為了達到這一目標,每批產品中應該抽取多少樣本?利用NP的理論,就可以計算出每批產品的最小抽取的樣本數,從而達到企業質量控制的目標(具體計算可以參考Casellaand Berger(2002)、洪永淼(2017)等統計學教材)。 但是NP的體系不適於進行科學推斷,真理應該是唯一的,不可能有時為真,有時為假。
  • 顯著性(p)到底是什麼?
    但是,你必須決定這是否應該引起重視,這個問題就可以使用統計學的知識來解決。我們要討論的第一個概念是假設檢驗(hypothesis testing),這是一種使用數據評估理論的方法。「假設」是指研究人員在進行研究之前對情況的初始信念。
  • 統計學需要一場變革
    這個標準支持了大多數已發表的科學結論,違反這一標準的論文很難發表,而且也很難得到學術機構的資助。然而,即使是菲舍爾也明白,統計顯著性的概念以及支撐它的p值具有相當大的局限性。幾十年來,科學家也逐漸意識到了這些局限性。美國心理學家保爾·米爾(Paul Meehl)在1978年寫道:「過度依賴顯著性檢驗是一種糟糕的科學方法。」p值經常被曲解,統計的顯著性不等於實際的顯著性。
  • 【R書籍推薦】《愛上統計學》
    小編給大家薦書了,書名是《愛上統計學》。 我為什麼要推薦這本書呢?主要原因有這些。原因一:R語言最初是統計學教授設計和開發出來,R語言適合做統計分析,因而,掌握必要的統計學知識對於學習和實戰R語言是大有必要的,並且很多數據分析方法、數據挖掘方法和機器學習方法等都會涉及到統計學裡面的概念和原理。
  • 統計學中一直提到的P值究竟是什麼?
    本文轉載自:統計網結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。如p=0.05提示樣本中變量關聯有5%的可能是由於偶然性造成的。即假設總體中任意變量間均無關聯。
  • 統計學基礎概念整理(一)
    打個通俗的比喻,統計學就好比「打牌」,抓牌就是搜集數據,牌抓好後要整理一下,然後研究怎麼打就是分析,打的輸贏就是結果報告。以下小編整理了一些統計學常見的基本概念:一.總體與樣本總體:是指根據研究目的所確定的觀察單位某項特徵的集合。
  • 統計學和機器學到底有什麼區別?
    但是這一觀點的正反雙方在爭吵中充斥著一堆看似高深實則含糊的論述,著實讓人摸不著頭腦。一位名叫Matthew Stewart的哈佛大學博士生從統計與機器學習的不同;統計模型與機器學習的不同,這兩個角度論證了機器學習和統計學並不是互為代名詞。
  • 常見的A/B測試誤區分析:重複檢驗顯著性
    避免重複檢驗顯著性錯誤的最好方式就是不去重複地檢驗顯著性。一、一種常見的A/B測試誤區如果網頁正在運行A/B測試的時候,你時不時地去查看試驗結果的顯著性,你就會陷入誤區。統計學上,重複檢驗顯著性是錯誤的行為。
  • 統計學的假設檢驗
    總第159篇/張俊紅上次寫了統計學裡面的置信度與置信區間以後,文章反響還不錯,這次再來試著寫寫統計學裡面的假設檢驗。點擊查看:聊聊置信度與置信區間假設檢驗的核心其實就是反證法。反證法是數學中的一個概念,就是你要證明一個結論是正確的,那麼先假設這個結論是錯誤的,然後以這個結論是錯誤的為前提條件進行推理,推理出來的結果與假設條件矛盾,這個時候就說明這個假設是錯誤的,也就是這個結論是正確的。以上就是反證法的一個簡單思路。了解完反證法以後,我們開始正式的假設檢驗,這裡還是引用一個大家都很熟悉的一個例子『女士品茶』。
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    統計顯著性(sig)就是出現目前樣本這結果的機率。2,統計學意義(P值或sig值) 結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯 是總體中各變量關聯的可靠指標。p值是將觀察結果認為有效即具有總體代表性的犯錯概率。
  • 統計學知識闖關
    t檢驗是目前醫學研究中使用頻率最高,醫學論文中最常見到的處理定量資料的假設檢驗方法。第4關:統計學意義(P值) 答:結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,P值為結果可信程度的一個遞減指標,P值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。
  • SPSS分析技術(五):一文學會問卷信度分析
    本周小編為大家推送了最常用、最好學、最基礎的SPSS系列分析技術,現將連結匯總如下:SPSS分析技術一:一文讀懂常用相關分析SPSS分析技術二:一文讀懂線性回歸分析SPSS分析技術三:一文讀懂T檢驗SPSS分析技術四:一文學會研製量表型問卷SPSS分析技術五:一文學會問卷信度分析(就是本文啦)在我們的學習和生活中
  • 數據的顯著性差異|從O型血不易感新冠病毒說起
    統計學上,顯著性檢驗的定義:「顯著性檢驗(significance test)就是事先對總體(隨機變量)的參數或總體分布形式做出一個假設,然後利用樣本信息來判斷這個假設(備擇假設)是否合理,即判斷總體的真實情況與原假設是否有顯著性差異。」
  • 統計學是什麼?| 統計學七支柱
    在一些應用中,我們既是積極的計劃者,又是消極的分析師;而在另一些應用中,我們的角色則恰恰相反。統計學工作者除了角色眾多,還需要為了避免失誤、保持角色平衡而面對種種挑戰。這就難怪「統計學是什麼」的老問題,無論面對哪個時代的新挑戰,總會被重複提起。「統計學的挑戰」在19世紀30年代指經濟統計,在20世紀30年代指生物問題,而目前指定義模糊的「大數據」問題。
  • 統計中重要的檢驗:T檢驗、F檢驗及其統計學意義
    統計顯著性(sig)就是出現目前樣本這結果的機率。結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。專業上,p值為結果可信程度的一個遞減指標,p值越大,我們越不能認為樣本中變量的關聯是總體中各變量關聯的可靠指標。
  • 顯著性檢驗的計算 - CSDN
    轉自個人微信公眾號【Memo_Cleon】的統計學習筆記:R筆記:兩配對樣本的顯著性檢驗。跟兩獨立樣本相對應的是兩配對樣本,生物醫學中常見的案例是治療前後的比較,兩種檢測方法的比較(同一樣本接受不同的檢驗方法)、配對的對象接受不同的處理。
  • 統計學知識系列:一篇搞懂假設檢驗
    不僅工作中會經常運用其概念,且也幾乎是數據分析師工作的面試必考題(尤其是校招以及轉行的朋友,當實戰經驗少的時侯會更關注基礎功底是否紮實)。所以我準備開始以較簡練的語言,輔以簡單易懂案例,總結一些統計學核心的知識點。我們常用的ab實驗,其背後的原理就是統計學中的假設檢驗,今天我們來詳細說說假設檢驗。
  • 說人話的統計學
    轉自:協和八►面對文獻裡五花八門的統計學名詞、層出不窮的測試和模型,你是否後悔當年的統計課上不該睡大覺?
  • 不要再問統計學了!
    關於第5點統計學,昨天正好在Github上看到一個MD寫的筆記,內容很細,分享給大家。統計學分類描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。推論統計是藉助抽樣調查,從局部推斷總體,以對不肯定的事物做出決策的一種統計。