讓你成為統計大師的假設檢驗指南

2020-12-10 CDA數據分析師

CDA數據分析師 出品

簡介–思維方式的差異

當一個人MIS專業人士的身份開始了職業生涯,然後進入商業智能(BI),隨後進入了商業分析,統計建模以及機器學習領域。這些轉換中的每一個都會要求改變如何關於看待數據的思維方式。

但是,在所有這些過渡中都值得一提的是。當以BI專業人員的身份創建管理儀錶板和報告時。因為公司內部的結構性不同,可能會需要BI團隊向業務分析師(BA)團隊報告。那麼這個時候就是需要明白什麼是業務分析以及它與BI有什麼不同。

因此,作為日常工作的一部分,BI需要準備了管理儀錶板並對此進行評論。將本月第一周的銷售額與上個月和去年同月的銷售額進行比較,以表明業務有所改善。它看起來像這樣:

在在BI團隊看來銷售的情況比去年和上個月要好,並會為銷售團隊最近採取的一些新措施表示讚賞。但是當BI團隊認為這是向經理展示的成果時,並不會知道,等到的結果會是什麼樣子的。

當BI團隊拿著報告給經理看時,他會稱讚銷售團隊,但是他會提問為什麼會認為這種提升不少數據的隨機變化如果BI團隊中的負責人沒有統計學背景,那麼將無法理解經理的含義。 可能會認為在說兩種不同的語言。沒有統計學背景的經理可能看到這份報告可能會直接交給高級管理人員,查閱後進行封存,而有統計學背景的經理則可能會告知在沒有一個解釋的情況下不要隨便的得出結論。

所以在今天的文章中,將解釋假設檢驗和讀取統計意義,以區分數據中的信號和噪音–而這也是擁有統計學背景的經理想要明白的!

案例研究:

假設ABC學校的8年級學生的數學平均成績為85。另一方面,如果我們隨機選擇30名學生並計算他們的平均分數,則他們的平均值為95。從這個實驗中可以得出什麼結論?這很簡單。結論如下:

· 這30名學生與ABC學校的8年級學生不同,因此他們的平均分數更好,即,這些隨機選擇的30名學生樣本的行為與總體(所有ABC學校的8年級學生)不同,或者這是兩個不同的人群。

· 完全沒有區別。結果僅是由於隨機原因,即我們發現平均值是85。它可能高於/低於85,因為有些學生的平均分數小於或大於85。

我們應該如何確定哪種解釋是正確的?有多種方法可以幫助你確定這一點。以下是一些選項:

1. 增加樣本量

1. 測試另一個樣品

1. 計算隨機機會概率

前兩種方法需要更多的時間和預算。因此,當時間或預算受到限制時,這兩種方法是不理想的。

因此,在這種情況下,一種方便的方法是計算該樣本的隨機機會概率,即樣本平均得分為95的概率是多少?這將幫助你從上面給出的兩個假設中得出結論。

現在的問題是," 我們應該如何計算隨機機會概率?"。

要回答這個問題,我們應該首先要複習一下統計學的基礎知識。

統計基礎

1Z值/表格/ p值:Z值是標準偏差的度量,即與平均值相差多少標準偏差。例如,z值= +1.8可以解釋為觀測值與平均值之間有+1.8標準偏差。P值是概率。這兩個統計術語都與標準正態分布相關聯。你可以查看與Z表中每個z值關聯的p值。下面是計算z值的公式:

這裡的X是曲線上的點,μ是總體的平均值,而σ是總體的標準偏差。

正如之前所討論的,這些方法始終僅適用於正態分布(如上所示),而不適用於其他分布。如果人口分布不正常,我們可以採用中心極限定理。

2.中心極限定理:這是統計學中的重要定理。在不涉及定義的情況下,我將使用一個例子進行解釋。讓我們看看下面的情況。在這裡,我們有1000個十年級學生的數據及其總成績的數據。以下是此總體的衍生關鍵指標:

而且,標記的頻率分布是:

你可以回憶起這是一種分布嗎?可能不會。這些分數是隨機分配給所有學生的。

現在,讓我們從這個群體中抽取40名學生作為一個樣本。那麼,我們可以從這個總體中抽取多少個樣本?我們可以取25個樣本(1000/40 = 25)。你能否可以說每個樣本的平均分數與總體的平均分數相同(48.4)?理想情況下,是可以的,但實際上每個樣本都不太可能具有相同的平均值。

在這裡,我們抽取了40名學生的1000個樣本(在excel中隨機生成)。讓我們看一下數千個樣本的這些樣本平均值的頻率分布以及其他統計指標:

這種分布看起來是否像我們上面研究的那樣?是的,該表也是正態分布的。為了更好地理解,你可以私我獲取數據,在進行此練習時,你會發現以下發現的問題:

1.樣本均值(1000個樣本均值)非常接近總體均值

2.樣本分布的標準差可以從總體標準偏差除以樣本容量N的平方根得出,也稱為均值標準誤差。

3.樣本均值的分布是正態的,與實際總體的分布無關。這稱為中央極限定理。這是非常強大的。在我們的ABC學校學生的最初示例中,我們比較了樣本平均值和總體平均值。準確地說,我們查看了樣本均值的分布,並找出了總體均值與樣本均值之間的距離。在這種情況下,你始終可以使用正態分布,而不必擔心總體分布。

你可以根據上述發現計算標準差和平均值,並計算z分數和p值。在這裡,隨機機會概率將幫助你接受ABC 學校的例子(如上所述)中討論的結論之一。但是,要滿足CLT定理,樣本大小必須足夠(> = 30)。

現在,假設我們已經計算了隨機機會概率。結果是40%,那麼我應該得出第一個結論還是其他結論?在這裡," 顯著性水平"將幫助我們做出決定。

什麼是顯著性水平?

我們假設樣本均值95的概率為40%,這是很高的,也就是說,我們更有可能說這是由於隨機性而不是由於行為差異而發生的可能性更大。

如果概率為7%,則可以毫無疑問地推斷出這並非由於隨機性。可能存在一些行為差異,因為概率相對較低,這意味著高概率導致接受隨機性,而低概率導致行為差異。

現在,我們如何確定什麼是高概率,什麼是低概率?

老實說,它本質上是很主觀的。在某些業務場景中,有90%被認為是高概率,而在其他場景中則可能是99%。通常,在所有領域中,一般會接受5%。此5%稱為顯著性水平,也稱為Alpha級別(表示為α)。這意味著如果隨機機會概率小於5%,那麼我們可以得出結論,兩個不同人群的行為存在差異。(1-顯著性水平)也稱為置信水平,即可以說我有95%的信心說它不受隨機性的影響。

到目前為止,我們已經研究了檢驗假設的工具,無論樣本均值是否不同於總體還是由於隨機。現在,讓我們看一下執行假設檢驗的步驟,並通過一個例子來介紹它。

進行假設檢驗的步驟是什麼?

· 設置假設(零假設和備擇假設):在ABC學校的例子中,我們實際上測試了一個假設。我們正在測試的假設是樣本和總體平均值之間的差異是由於隨機造成的。它被稱為" 零假設 ",即樣本和總體之間沒有差異。零假設的符號為" H0"。請記住,我們檢驗零假設的唯一原因是因為我們認為這是錯誤的。在備擇假設中,我們陳述了我們對零假設的錯誤看法對於ABC 學校的例子,備擇假設是,樣本和人群的行為存在顯著差異。備擇假設的符號為" H1"。在法庭上,由於假定被告人是無罪的(可以說這是零假設),因此,檢察官有責任進行審判,以顯示證據證明被告人不是無罪的。以類似的方式,我們假設零假設是正確的,這給研究人員進行研究,以證明零假設不太可能成立。

· 設置決策標準:要設置決策標準,我們說明測試的重要程度。可能是5%,1%或0.5%。根據顯著性水平,我們決定接受零假設或備擇假設。可能有0.03個概率接受1%顯著性水平上接受的零假設,但在5%的顯著性水平上拒絕零假設。它基於業務需求。

· 計算隨機概率:隨機概率/檢驗統計量有助於確定可能性。較高的概率具有較高的可能性,並且有足夠的證據接受零假設。

· 做出決策:在這裡,我們將p值與預定義的顯著性水平進行比較,如果該值小於顯著性水平,則拒絕零假設,否則我們接受它。在決定保留或拒絕零假設時,我們可能會出錯,因為我們觀察的是樣本而不是整個總體。關於我們對原假設進行的決策的真實性和虛假性,有四種決策選擇:1.保留零假設的決策可能是正確的。2.保留零假設的決定可能是錯誤的,被稱為 II型錯誤。3.拒絕零假設的決定可能是正確的。4.拒絕零假設的決定可能是錯誤的,這稱為I型錯誤

例子

肥胖患者的血糖水平平均為100,標準差為15。研究人員認為,高含量生玉米澱粉的飲食將對血糖水平產生積極影響。嘗試過原始玉米澱粉飲食的36名患者的平均血糖水平為108。檢驗假設原始玉米澱粉有效或無效的假設。

解決方案:-按照上述步驟測試該假設:

步驟1:陳述假設。總體平均值為100。

H0:μ= 100H1:μ> 100

步驟2:設置顯著性水平。問題中沒有給出它,因此我們將其假定為5%(0.05)。

步驟3:使用z分數和z表計算隨機概率。

對於這組數據:z =(108-100)/(15 /√36)= 3.20

你可以通過查看z表來查看概率,與3.20相關聯的p值為0.9993,即值小於108的概率為0.9993而大於或等於108的概率為(1-0.9993)= 0.0007。

步驟4:小於0.05,因此我們將拒絕零假設,即存在玉米澱粉效應。

注意:也可以使用稱為臨界值的z值來設置顯著性水平。找出5%概率的z值,它的值為1.65(在任何方向上為正值或負值)。現在,我們可以將計算出的z值與臨界值進行比較,以做出決策。

定向/非定向假設檢驗

在前面的例子中,我們的零假設是,沒有差異,即均值是100,備擇假設是樣本均值大於100。但是,我們還可以設置備擇假設,因為樣本均值不等於100。當我們確實拒絕了零假設,這就很重要了,我們要使用哪個備擇假設:

· 樣本均值大於100

· 樣本均值不等於100,即存在差異

在這裡,問題是"哪個備擇假設更合適?"。在某些方面,這將有助於你確定哪種備擇假設合適。

· 你不希望測試樣本均值小於100的樣本,只想測試更大的樣本值

· 你堅信生玉米澱粉的影響更大

在以上兩種情況下,我們將進行" 單尾測試"。在單尾檢驗中,我們的替代假設大於或小於觀察到的平均值,因此也稱為定向假設檢驗。另一方面,如果你不知道測試的影響是較大還是較低,那麼我們可以使用" 雙尾檢驗",也稱為非定向假設檢驗

假設研究機構之一正在提出新的教學方法。他們想測試這種方法的影響。但是,他們不知道它會產生積極或消極的影響。在這種情況下,我們應該進行雙尾檢驗。

在一個尾部檢驗中,如果樣本均值是正負兩個極端,則我們拒絕零假設。但是,在進行雙尾檢驗的情況下,我們可以拒絕任何方向(正向或負向)的零假設。

看上面的圖片。雙尾檢驗分配一半的Alpha值來測試一個方向的統計顯著性,另一半則用於另一方向。這意味著.025位於測試統計量分布的每個尾部。為什麼我們都說0.025,因為正態分布是對稱的。現在我們得出的結論是,兩個尾部檢驗中零假設的拒絕標準為0.025,並且低於0.05,即雙尾檢驗有更嚴格的標準來拒絕零假設。

例子

Templer和Tomeo(2002)報告說,1994年至1997年參加考試的學生在研究生成績考試(GRE)通用考試的定量部分的總體平均得分為558±139(μ±σ)。假設我們選擇100個參與者的樣本(n = 100)。我們記錄的樣本平均值等於585(M = 585)。計算p值t0,檢查是否將0.05的顯著性水平(α= .05)保留原假設(μ= 558)。

解:

步驟1:陳述假設。人口平均數是558。

H0:μ= 558H1:μ≠558(雙尾檢驗)

步驟2:設置顯著性水平。如問題中所述,為5%(0.05)。在無方向的兩尾測試中,我們將alpha值分為兩半,這樣上下尾部的面積比例相等。因此,兩側的顯著性水平計算為:α/ 2 = 0.025。與此相關的z得分(1-0.025 = 0.975)為1.96。由於這是一個雙尾檢驗,因此小於-1.96或大於1.96的z分數(觀察到)是拒絕零假設的證據。

步驟3:計算隨機概率或z得分

對於此數據集:z =(585-558)/(139 /√100)= 1.94

你可以通過查看z表來查看概率,與1.94關聯的p值為0.9738,即,小於585的值的概率為0.9738而大於或等於585的概率為(1-0.9738)= 0.03

步驟4:在這裡要做出決定,我們將獲得的z值與臨界值(+/- 1.96)進行比較。如果獲得的值超過臨界值,我們將拒絕原假設。此處獲得的值(Z obt = 1.94)小於臨界值。它不屬於拒絕區域。決定是保留零假設。

結束語

在本文中,我們研究了在預測建模過程中進行假設檢驗的完整過程。首先,我們看了假設的概念,接著是假設的類型和驗證假設的方式,以便做出明智的決定。我們還學習了重要的假設檢驗概念比如z值,z表格,p值,中心極限定理。

正如引言中提到的,這是我第一次讀到這篇文章時最難改變的心態之一。但這也是最有幫助和意義的改變之一。我可以很容易地說,這種變化讓我開始像一個預測建模者那樣思考。

相關焦點

  • 假設檢驗、Z檢驗與T檢驗
    概述假設檢驗是統計學、分析學和數據科學中的一個關鍵概念了解假設檢驗的工作原理、Z檢驗和t檢驗之間的區別以及其他統計概念介紹冠狀病毒大流行使我們大家都成了一個統計學家。我們不斷地核對數字,對大流行將如何發展做出自己的假設,並對何時出現「高峰」提出假設。
  • 統計學中的假設檢驗
    假設檢驗的特點就是採用邏輯上的反證法和依據統計上 的小概率原理。小概率事件在單獨一次的試驗中基本上不會發生,可以不予考慮。在假設檢驗中,我們做出判斷時所依據的邏輯是:如果在原假設正確的前提下,檢驗統計量的樣本觀測值的出現屬於小概率事件,那麼可以認為原假設不可信,從而否定它,轉而接受備擇假設。
  • 多元線性回歸的模型解釋、假設檢驗、特徵選擇
    考慮到這一點,假設你要估算你想買的房子的價格。你知道建築面積,房子的年代,離你工作地點的距離,這個地方的犯罪率等等。現在,這些因素中的一些將會對房價產生積極的影響。例如,面積越大,價格越高。另一方面,工作場所的距離和犯罪率等因素會對你對房子的估計產生負面影響。
  • 精益六西格瑪管理-技術人員最常使用的工具-單個比率p的假設檢驗
    我們還是先來看一個實例;說有個廠規定產品必須經過抽樣檢驗合格後才能出廠,其不合格品率P0不得超過5%。現從一批產品中隨機抽取200隻進行檢驗,發現有16個不合格品。基本步驟和計算;單個比率為p的顯著性水平為α的檢驗,設樣本來自二點分布總體,小樣本時,只能使用精確的二項分布計算,大樣本時,採用近似Z檢驗。此時,其統計量為;顯著性水平α為0.05時的拒絕域Z(0.05)為大於1.645。
  • 計量經濟學基本概述和備考指南
    本文HotEssay為廣大留學生小夥伴們帶來計量經濟學基本概述和備考指南,幫助大家學習該門課程。備考指南計量經濟學簡單來說,就是搜集數據,建立模型,估計參數,模型檢驗,定量分析,模型應用。區間估計和假設檢驗一般多採用1%,5%和10%的顯著性水平。假設檢驗小tips,即 一般設為實驗中有絕對優勢的事件,那麼 則可以設為不易發生或幾乎不可能發生的事。接下來運用計算或是軟體輸出結果和P值與顯著性水平的臨界值進行比較。
  • 精益六西格瑪管理-非參檢驗-符號檢驗的原理和過程
    從假設檢驗問題的本身來看呢,假設檢驗可以分為兩大類。一類是參數問題的假設檢驗,另一類是非參數問題的假設檢驗;參數問題的假設檢驗包括 對於均值的檢驗方差齊性的檢驗對比率的檢驗;>非參數問題的假設檢驗包括分布的正態性檢驗;這個通常在進行分析前,需要對數據進行的一個檢測。
  • 精益六西格瑪管理-列聯表的獨立性檢驗
    前面我們分享的假設檢驗方法,基本上是針對總體均值和方差的。用來判斷總體均值,方差是否存在顯著差異,以及基於此的單因子,兩因子方差分析,以判斷因子的顯著性。接下來我們進入列聯表的獨立性檢驗。它與適合性檢驗同屬卡方檢驗。
  • 線性回歸方程的顯著性驗證,總體驗證的F檢驗與個體驗證的t檢驗
    許栩原創專欄《從入門到高手:線性回歸分析詳解》第8章,顯著性驗證,總體驗證的F檢驗與個體驗證的t檢驗。【顯著性驗證百科定義】顯著性驗證,是事先對總體(隨機變量)的參數或總體分布形式做出一個假設,然後利用樣本信息來判斷這個假設是否合理,即判斷總體的真實情況與原假設是否有顯著性差異。顯著性驗證的方法一般有兩種,一是測算回歸方程總體顯著性的F檢驗,二是測算變量解釋係數(即回歸係數)個體顯著性的t檢驗。
  • 的方法 線性回歸方程檢驗專題及常見問題 - CSDN
    解:運用Excel對數據進行回歸分析,得到回歸方程和決定係數R平方;決定係數為0.9149,相關係數r=0.9565;相關係數r的假設檢驗過程如下:回歸方程的檢驗對回歸方程進行顯著性檢驗,就是看自變量從總體上是否對因變量有明顯的影響。
  • 我國深水工程有標準了,中國船級社發布檢驗指南
    為了更好地服務我國深水工程檢驗項目,中國船級社(CCS)基於流花、陵水等工程項目經驗,並結合國際立管標準技術要求,制定了《海洋立管系統檢驗指南》(2020)。該指南適用於海上油氣開發中連接海上浮式裝置/單點系泊裝置的立管系統,立管類型全面涵蓋了鋼懸鏈線式立管系統、頂部張緊式立管系統、撓性立管系統及混合立管系統,是CCS針對海洋立管系統的首部規範性文件。
  • 《中華醫學統計百科全書. 單變量推斷統計分冊》
    作者 徐天和 顏虹書號 978-7-5037-6469-1開本 16裝幀 平裝定價 53元出版時間 2012年3月內容簡介:    《中華醫學統計百科全書》是一部醫學統計參考工具書,讀者對象主要是醫學統計工作者、醫療衛生機構的統計信息工作者和醫學院校的師生,它編寫的目的是將當前醫學科學研究中的統計分析方法進行全面系統的介紹與推廣。
  • 統計學誕生的黑歷史:為了給「劣等人」絕育
    統計方法、統計顯著性如今已經成為科學界的通用標準,被視為客觀的標尺,但它們在誕生之初卻是為論證種族歧視、殖民主義的合理性而服務的。
  • 讀書摘要《生物醫學研究的統計方法》常見疑問—方積乾
    無論哪種編碼,所得統計學分析的結論(如假設檢驗所得概率值)應該是一致的,但獲得的某些統計量(如回歸係數、優勢比等)有可能不相同。(4)用恰當指標對定量資料進行統計描述,需要了解變量的分布形式。在實際工作中,是怎樣明確變量的分布形式的?
  • 基於統計的異常檢測方法S-H-ESD[twitter]
    前提假設數據分布是正態的。Grubbs test假設定義如下:  :數據集中沒有異常點  : 數據集中有至少一個異常點  Grubbs『 test 統計量定義如下  其中 和 分別表示數據集的均值和方差。對於雙邊檢驗,當滿足式(2)時,以顯著性水平 拒絕原假設  其中 表示自由度 ,顯著性水平 的 分布的上臨界值。
  • 《怪物獵人世界》節彈運實際效果怎麼樣 節彈運實際效果數理統計
    下面請看由「Navi醬」帶來的《怪物獵人世界》節彈運實際效果數理統計,希望對大家有用。 警告:本帖會涉及一些數學知識,覺得有點偏硬核的請謹慎... 《怪物獵人世界》的節彈效果可以讓玩家以一定機率不消耗子彈。下面請看由「Navi醬」帶來的《怪物獵人世界》節彈運實際效果數理統計,希望對大家有用。
  • R語言從入門到精通:Day12--R語言統計--回歸分析
    輸出結果中的F 統計量檢驗所有的預測變量預測響應變量是否都在某個機率水平之上。由於簡單回歸只有一個預測變量,此處F檢驗等同於身高回歸係數的t檢驗。    R基礎安裝中提供了大量檢驗回歸分析中統計假設的方法。最常見的方法就是對函數lm()返回的對象使用函數 plot(),可以生成評價模型擬合情況的四幅圖形。
  • 統計與質量工具Minitab軟體免費課程
    Minitab軟體是現代質量管理統計的領先者,全球六西格瑪實施的共同語言,以無可比擬的強大功能和簡易的可視化操作深受廣大質量學者和統計專家的青睞。  北京天演融智軟體有限公司(科學軟體網)作為是Minitab軟體在中國的教育總代,在2020年上半年為大家安排了《統計與質量工具Minitab軟體應用直播培訓》,受到了大家的廣泛好評,本視頻教程為直播培訓的回放視頻。  活動時間:即日起至2020年10月31日,活動期間申請的用戶,可免費觀看本課程30天。
  • 精益六西格瑪管理-列聯表的獨立性檢驗,離散記錄的分析實例
    因為列聯表的獨立性檢驗應用非常廣泛;尤其在市場管理方面的應用,可以指導組織的行為,使組織在市場營銷方面更有針對性。先看一個實例;02分析步驟列聯表獨立性檢驗分析步驟計算卡方統計量。確定拒絕域。這裡要做出說明的是,一是在計算卡方統計量時,式中的Oi代表原始值, ei代表期望頻數。二是在確定拒絕域時,由於有三個城市,也就是說有3個因子。即行數等於3,所以r=3。
  • 精益六西格瑪管理-列聯表的獨立性檢驗,如何在Minitab中分析?
    前面我們分享了列聯表獨立性檢驗的分析原理。接下來繼續看如何在Minitab軟體中進行分析;以及其輸出結果如何觀察和判斷。我們還是以前一篇中的問題為例子進行說明。按下圖所示,在MINITAB的數據表中錄入相應數據;從STAT>TABLES>CHI-SQUARE FOR ASSOCIATIONS入口進入卡方檢驗對話框;在對話框的最上端,選擇「SUMMARIZED DATA IN A TWO-WAY
  • 精益六西格瑪管理-如何在MINITAB中進行曼-惠特尼-威爾科克森檢驗
    前面我們舉了例子,說明了曼-惠特尼-威爾科克森檢驗的具體計算步驟和方法。採用符號秩作為統計分析量,進行比較,然後根據秩和檢驗表,做出接受或拒絕原假設,最終做出可靠判斷。接下來,我們採用MINITAB工具,進行分析,以體驗工具的便捷性和可靠性!