讓你成為統計大師的假設檢驗指南

2020-11-29 CDA數據分析師

CDA數據分析師 出品

簡介–思維方式的差異

當一個人MIS專業人士的身份開始了職業生涯,然後進入商業智能(BI),隨後進入了商業分析,統計建模以及機器學習領域。這些轉換中的每一個都會要求改變如何關於看待數據的思維方式。

但是,在所有這些過渡中都值得一提的是。當以BI專業人員的身份創建管理儀錶板和報告時。因為公司內部的結構性不同,可能會需要BI團隊向業務分析師(BA)團隊報告。那麼這個時候就是需要明白什麼是業務分析以及它與BI有什麼不同。

因此,作為日常工作的一部分,BI需要準備了管理儀錶板並對此進行評論。將本月第一周的銷售額與上個月和去年同月的銷售額進行比較,以表明業務有所改善。它看起來像這樣:

在在BI團隊看來銷售的情況比去年和上個月要好,並會為銷售團隊最近採取的一些新措施表示讚賞。但是當BI團隊認為這是向經理展示的成果時,並不會知道,等到的結果會是什麼樣子的。

當BI團隊拿著報告給經理看時,他會稱讚銷售團隊,但是他會提問為什麼會認為這種提升不少數據的隨機變化如果BI團隊中的負責人沒有統計學背景,那麼將無法理解經理的含義。 可能會認為在說兩種不同的語言。沒有統計學背景的經理可能看到這份報告可能會直接交給高級管理人員,查閱後進行封存,而有統計學背景的經理則可能會告知在沒有一個解釋的情況下不要隨便的得出結論。

所以在今天的文章中,將解釋假設檢驗和讀取統計意義,以區分數據中的信號和噪音–而這也是擁有統計學背景的經理想要明白的!

案例研究:

假設ABC學校的8年級學生的數學平均成績為85。另一方面,如果我們隨機選擇30名學生並計算他們的平均分數,則他們的平均值為95。從這個實驗中可以得出什麼結論?這很簡單。結論如下:

· 這30名學生與ABC學校的8年級學生不同,因此他們的平均分數更好,即,這些隨機選擇的30名學生樣本的行為與總體(所有ABC學校的8年級學生)不同,或者這是兩個不同的人群。

· 完全沒有區別。結果僅是由於隨機原因,即我們發現平均值是85。它可能高於/低於85,因為有些學生的平均分數小於或大於85。

我們應該如何確定哪種解釋是正確的?有多種方法可以幫助你確定這一點。以下是一些選項:

1. 增加樣本量

1. 測試另一個樣品

1. 計算隨機機會概率

前兩種方法需要更多的時間和預算。因此,當時間或預算受到限制時,這兩種方法是不理想的。

因此,在這種情況下,一種方便的方法是計算該樣本的隨機機會概率,即樣本平均得分為95的概率是多少?這將幫助你從上面給出的兩個假設中得出結論。

現在的問題是," 我們應該如何計算隨機機會概率?"。

要回答這個問題,我們應該首先要複習一下統計學的基礎知識。

統計基礎

1Z值/表格/ p值:Z值是標準偏差的度量,即與平均值相差多少標準偏差。例如,z值= +1.8可以解釋為觀測值與平均值之間有+1.8標準偏差。P值是概率。這兩個統計術語都與標準正態分布相關聯。你可以查看與Z表中每個z值關聯的p值。下面是計算z值的公式:

這裡的X是曲線上的點,μ是總體的平均值,而σ是總體的標準偏差。

正如之前所討論的,這些方法始終僅適用於正態分布(如上所示),而不適用於其他分布。如果人口分布不正常,我們可以採用中心極限定理。

2.中心極限定理:這是統計學中的重要定理。在不涉及定義的情況下,我將使用一個例子進行解釋。讓我們看看下面的情況。在這裡,我們有1000個十年級學生的數據及其總成績的數據。以下是此總體的衍生關鍵指標:

而且,標記的頻率分布是:

你可以回憶起這是一種分布嗎?可能不會。這些分數是隨機分配給所有學生的。

現在,讓我們從這個群體中抽取40名學生作為一個樣本。那麼,我們可以從這個總體中抽取多少個樣本?我們可以取25個樣本(1000/40 = 25)。你能否可以說每個樣本的平均分數與總體的平均分數相同(48.4)?理想情況下,是可以的,但實際上每個樣本都不太可能具有相同的平均值。

在這裡,我們抽取了40名學生的1000個樣本(在excel中隨機生成)。讓我們看一下數千個樣本的這些樣本平均值的頻率分布以及其他統計指標:

這種分布看起來是否像我們上面研究的那樣?是的,該表也是正態分布的。為了更好地理解,你可以私我獲取數據,在進行此練習時,你會發現以下發現的問題:

1.樣本均值(1000個樣本均值)非常接近總體均值

2.樣本分布的標準差可以從總體標準偏差除以樣本容量N的平方根得出,也稱為均值標準誤差。

3.樣本均值的分布是正態的,與實際總體的分布無關。這稱為中央極限定理。這是非常強大的。在我們的ABC學校學生的最初示例中,我們比較了樣本平均值和總體平均值。準確地說,我們查看了樣本均值的分布,並找出了總體均值與樣本均值之間的距離。在這種情況下,你始終可以使用正態分布,而不必擔心總體分布。

你可以根據上述發現計算標準差和平均值,並計算z分數和p值。在這裡,隨機機會概率將幫助你接受ABC 學校的例子(如上所述)中討論的結論之一。但是,要滿足CLT定理,樣本大小必須足夠(> = 30)。

現在,假設我們已經計算了隨機機會概率。結果是40%,那麼我應該得出第一個結論還是其他結論?在這裡," 顯著性水平"將幫助我們做出決定。

什麼是顯著性水平?

我們假設樣本均值95的概率為40%,這是很高的,也就是說,我們更有可能說這是由於隨機性而不是由於行為差異而發生的可能性更大。

如果概率為7%,則可以毫無疑問地推斷出這並非由於隨機性。可能存在一些行為差異,因為概率相對較低,這意味著高概率導致接受隨機性,而低概率導致行為差異。

現在,我們如何確定什麼是高概率,什麼是低概率?

老實說,它本質上是很主觀的。在某些業務場景中,有90%被認為是高概率,而在其他場景中則可能是99%。通常,在所有領域中,一般會接受5%。此5%稱為顯著性水平,也稱為Alpha級別(表示為α)。這意味著如果隨機機會概率小於5%,那麼我們可以得出結論,兩個不同人群的行為存在差異。(1-顯著性水平)也稱為置信水平,即可以說我有95%的信心說它不受隨機性的影響。

到目前為止,我們已經研究了檢驗假設的工具,無論樣本均值是否不同於總體還是由於隨機。現在,讓我們看一下執行假設檢驗的步驟,並通過一個例子來介紹它。

進行假設檢驗的步驟是什麼?

· 設置假設(零假設和備擇假設):在ABC學校的例子中,我們實際上測試了一個假設。我們正在測試的假設是樣本和總體平均值之間的差異是由於隨機造成的。它被稱為" 零假設 ",即樣本和總體之間沒有差異。零假設的符號為" H0"。請記住,我們檢驗零假設的唯一原因是因為我們認為這是錯誤的。在備擇假設中,我們陳述了我們對零假設的錯誤看法對於ABC 學校的例子,備擇假設是,樣本和人群的行為存在顯著差異。備擇假設的符號為" H1"。在法庭上,由於假定被告人是無罪的(可以說這是零假設),因此,檢察官有責任進行審判,以顯示證據證明被告人不是無罪的。以類似的方式,我們假設零假設是正確的,這給研究人員進行研究,以證明零假設不太可能成立。

· 設置決策標準:要設置決策標準,我們說明測試的重要程度。可能是5%,1%或0.5%。根據顯著性水平,我們決定接受零假設或備擇假設。可能有0.03個概率接受1%顯著性水平上接受的零假設,但在5%的顯著性水平上拒絕零假設。它基於業務需求。

· 計算隨機概率:隨機概率/檢驗統計量有助於確定可能性。較高的概率具有較高的可能性,並且有足夠的證據接受零假設。

· 做出決策:在這裡,我們將p值與預定義的顯著性水平進行比較,如果該值小於顯著性水平,則拒絕零假設,否則我們接受它。在決定保留或拒絕零假設時,我們可能會出錯,因為我們觀察的是樣本而不是整個總體。關於我們對原假設進行的決策的真實性和虛假性,有四種決策選擇:1.保留零假設的決策可能是正確的。2.保留零假設的決定可能是錯誤的,被稱為 II型錯誤。3.拒絕零假設的決定可能是正確的。4.拒絕零假設的決定可能是錯誤的,這稱為I型錯誤

例子

肥胖患者的血糖水平平均為100,標準差為15。研究人員認為,高含量生玉米澱粉的飲食將對血糖水平產生積極影響。嘗試過原始玉米澱粉飲食的36名患者的平均血糖水平為108。檢驗假設原始玉米澱粉有效或無效的假設。

解決方案:-按照上述步驟測試該假設:

步驟1:陳述假設。總體平均值為100。

H0:μ= 100H1:μ> 100

步驟2:設置顯著性水平。問題中沒有給出它,因此我們將其假定為5%(0.05)。

步驟3:使用z分數和z表計算隨機概率。

對於這組數據:z =(108-100)/(15 /√36)= 3.20

你可以通過查看z表來查看概率,與3.20相關聯的p值為0.9993,即值小於108的概率為0.9993而大於或等於108的概率為(1-0.9993)= 0.0007。

步驟4:小於0.05,因此我們將拒絕零假設,即存在玉米澱粉效應。

注意:也可以使用稱為臨界值的z值來設置顯著性水平。找出5%概率的z值,它的值為1.65(在任何方向上為正值或負值)。現在,我們可以將計算出的z值與臨界值進行比較,以做出決策。

定向/非定向假設檢驗

在前面的例子中,我們的零假設是,沒有差異,即均值是100,備擇假設是樣本均值大於100。但是,我們還可以設置備擇假設,因為樣本均值不等於100。當我們確實拒絕了零假設,這就很重要了,我們要使用哪個備擇假設:

· 樣本均值大於100

· 樣本均值不等於100,即存在差異

在這裡,問題是"哪個備擇假設更合適?"。在某些方面,這將有助於你確定哪種備擇假設合適。

· 你不希望測試樣本均值小於100的樣本,只想測試更大的樣本值

· 你堅信生玉米澱粉的影響更大

在以上兩種情況下,我們將進行" 單尾測試"。在單尾檢驗中,我們的替代假設大於或小於觀察到的平均值,因此也稱為定向假設檢驗。另一方面,如果你不知道測試的影響是較大還是較低,那麼我們可以使用" 雙尾檢驗",也稱為非定向假設檢驗

假設研究機構之一正在提出新的教學方法。他們想測試這種方法的影響。但是,他們不知道它會產生積極或消極的影響。在這種情況下,我們應該進行雙尾檢驗。

在一個尾部檢驗中,如果樣本均值是正負兩個極端,則我們拒絕零假設。但是,在進行雙尾檢驗的情況下,我們可以拒絕任何方向(正向或負向)的零假設。

看上面的圖片。雙尾檢驗分配一半的Alpha值來測試一個方向的統計顯著性,另一半則用於另一方向。這意味著.025位於測試統計量分布的每個尾部。為什麼我們都說0.025,因為正態分布是對稱的。現在我們得出的結論是,兩個尾部檢驗中零假設的拒絕標準為0.025,並且低於0.05,即雙尾檢驗有更嚴格的標準來拒絕零假設。

例子

Templer和Tomeo(2002)報告說,1994年至1997年參加考試的學生在研究生成績考試(GRE)通用考試的定量部分的總體平均得分為558±139(μ±σ)。假設我們選擇100個參與者的樣本(n = 100)。我們記錄的樣本平均值等於585(M = 585)。計算p值t0,檢查是否將0.05的顯著性水平(α= .05)保留原假設(μ= 558)。

解:

步驟1:陳述假設。人口平均數是558。

H0:μ= 558H1:μ≠558(雙尾檢驗)

步驟2:設置顯著性水平。如問題中所述,為5%(0.05)。在無方向的兩尾測試中,我們將alpha值分為兩半,這樣上下尾部的面積比例相等。因此,兩側的顯著性水平計算為:α/ 2 = 0.025。與此相關的z得分(1-0.025 = 0.975)為1.96。由於這是一個雙尾檢驗,因此小於-1.96或大於1.96的z分數(觀察到)是拒絕零假設的證據。

步驟3:計算隨機概率或z得分

對於此數據集:z =(585-558)/(139 /√100)= 1.94

你可以通過查看z表來查看概率,與1.94關聯的p值為0.9738,即,小於585的值的概率為0.9738而大於或等於585的概率為(1-0.9738)= 0.03

步驟4:在這裡要做出決定,我們將獲得的z值與臨界值(+/- 1.96)進行比較。如果獲得的值超過臨界值,我們將拒絕原假設。此處獲得的值(Z obt = 1.94)小於臨界值。它不屬於拒絕區域。決定是保留零假設。

結束語

在本文中,我們研究了在預測建模過程中進行假設檢驗的完整過程。首先,我們看了假設的概念,接著是假設的類型和驗證假設的方式,以便做出明智的決定。我們還學習了重要的假設檢驗概念比如z值,z表格,p值,中心極限定理。

正如引言中提到的,這是我第一次讀到這篇文章時最難改變的心態之一。但這也是最有幫助和意義的改變之一。我可以很容易地說,這種變化讓我開始像一個預測建模者那樣思考。

相關焦點

  • 統計:如何用Excel完成雙樣本假設檢驗
    這種檢驗可以確認不同供應商的績效、不同地點的工廠績效、新舊兩種不同工作方法的差別,或者不同獎勵和嘉獎機制之間的區別。和單樣本檢驗類似,計算母體參數的區間的雙樣本檢驗,有下列幾種形式。假設檢驗的程序,與我們剛剛討論過的計算檢驗統計量和對比臨界值的程序相類似。不過雙樣本檢驗的檢驗統計量比單樣本檢驗更為複雜,我們不能陷入那些數學細節之中。
  • 假設檢驗:使用p值來接受或拒絕你的假設
    統計學意義信心水平重要程度P值將這些概念分解成小部分,這樣你就能理解它們的動機和用途。當你讀完這些,假設檢驗的基礎知識就會很清楚了!!假設檢驗的定義假設是關於參數值(均值、方差、中值等)的陳述、假設或主張。假設是對你周圍世界的某件事的有根據的猜測。它應該可以通過實驗或觀察來測試。
  • 使用非參數統計檢驗進行分析的指南
    到目前為止,一切都很好——我相信你已經看到人們早些時候提出了這一點。問題是沒有人告訴你如何進行像假設檢驗這樣的分析。統計檢驗用於制定決策。為了使用中位數進行分析,我們需要使用非參數檢驗。非參數測試是分布獨立的檢驗,而參數檢驗假設數據是正態分布的。說參數檢驗比非參數檢驗更加的臭名昭著是沒有錯的,但是前者沒有考慮中位數,而後者則使用中位數來進行分析。
  • 統計學裡的假設檢驗是什麼?
    一周一期 輕鬆學會統計學 hello,小夥伴們,時隔幾個月 《統計從未如此性感 臨床研究需要、報告分析需要 學術指南也需要…… 就連這次新冠戰「疫」 統計學也作了不少貢獻 快來看看本期又有什麼新知識吧 解鎖下方視頻
  • 假設檢驗、Z檢驗與T檢驗
    概述假設檢驗是統計學、分析學和數據科學中的一個關鍵概念了解假設檢驗的工作原理、Z檢驗和t檢驗之間的區別以及其他統計概念介紹冠狀病毒大流行使我們大家都成了一個統計學家。我們不斷地核對數字,對大流行將如何發展做出自己的假設,並對何時出現「高峰」提出假設。
  • 統計學中的假設檢驗
    假設檢驗的特點就是採用邏輯上的反證法和依據統計上 的小概率原理。小概率事件在單獨一次的試驗中基本上不會發生,可以不予考慮。在假設檢驗中,我們做出判斷時所依據的邏輯是:如果在原假設正確的前提下,檢驗統計量的樣本觀測值的出現屬於小概率事件,那麼可以認為原假設不可信,從而否定它,轉而接受備擇假設。
  • 假設檢驗的區別 - CSDN
    作為一個統計愛好者,所有這些問題都挖掘了我對假設檢驗基本原理的舊知識。本文將討論假設檢驗的概念以及Z檢驗與t檢驗的區別。然後,我們將使用COVID-19案例研究總結我們的假設檢驗學習。目錄假設檢驗基礎基本概念-零假設、替代假設、類型1錯誤、類型2錯誤和顯著性水平進行假設檢驗的步驟定向假設非定向假設檢驗什麼是Z檢驗?什麼是t檢驗?
  • 假設檢驗與P-value簡介
    如果一個人摸出倆色子,跟你猜大小,你怎知道這倆色子有沒有被做過手腳?如果不把色子切開看,怎麼能知道這個色子的質地是否均勻分布?是否等概率的出現大小點呢?假設檢驗可以幫到我們。然後對上面的假設進行檢驗。多擲幾次看看和前面假設的結果是否匹配。
  • 假設檢驗的基本步驟
    假設檢驗的基本步驟  假設檢驗的基本思想是:根據所獲樣本,運用統計分析方法,對總體X的某種假設 做出接受或拒絕的判斷。在這裡,備擇假設還可能有兩種設置形式,它們是:  : <1.40或 : >1.40  備擇假設的不同將會影響下面拒絕域的形式,今後稱  對 的檢驗問題是雙側假設檢驗問題  對 的檢驗問題是單側假設檢驗問題  對 的檢驗問題也是單側假設檢驗問題  註:若假設是關於總體參數的某個命題
  • 護理科研實務|學會假設檢驗,讓你遠離渣男
    編者按假設檢驗,就是事先對總體參數或總體分布形式作出一個假設,然後利用樣本信息來判斷原假設是否合理,即判斷樣本信息與原假設是否有顯著差異,從而決定是否接受或否定原假設。簡單來說:假設檢驗採用的邏輯推理方法是反證法。
  • excel假設檢驗 - CSDN
    ,然後再確定H0,且保證「=」總在H0上3)原H0一般是需要反駁的,而H1是需要支持的4)假設檢驗只提供原假設不利證據即使「假設」設置嚴密,檢驗方法「精確」;假設檢驗始終是建立在一定概率基礎上的,所以我們常會犯兩類錯誤;第一類:原H0是真,卻拒絕原假設;犯
  • 假設檢驗到底是什麼?(學員必看)
    都說統計難。到底難在哪裡?其實,統計說到底就是在一個數學的思想。就比如想要知道某個地區7歲男童的身高。你如果調查整個地區的男童身高難度很大。這個時候,你可以選擇一個學校的7歲男童,來測量身高。這就涉及兩個概念。一個是總體,一個是樣本。
  • 一文讀懂假設檢驗怎麼做
    雙側檢驗:備擇假設沒有特定的方向性,形式為「≠」這種檢驗假設稱為雙側檢驗單側檢驗:備擇假設帶有特定的方向性 形式為」>」」<「的假設檢驗,稱為單側檢驗 「<「稱為左側檢驗 「>」稱為右側檢驗檢驗統計量:據以對原假設和備擇假設作出決策的某個樣本統計量,稱為檢驗統計量。
  • 假設檢驗學習筆記
    在實際工作和研究中,往往只能獲得數據的一部分,通常指這個數據為樣本,而通過樣本對整體的估計被稱為假設檢驗。假設檢驗分析思路為了得到用戶的年齡情況,參數估計,基於用戶樣本數據估計整體用戶年齡。假設檢驗思路根據經驗或者其他方面的信息假設一個總體用戶的年齡的可能值,在根據樣本情況,使用工具來驗證假設是否正確。
  • 假設檢驗的初步了解,這一篇就夠了
    今天為大家帶來一篇關於假設檢驗的初步了解的文章。可能有些地方描述不恰當。1假設檢驗時代發展首先對於假設檢驗,科學技術的不斷創新,不僅促進了社會的進步,還改善了人們的生活水平。與此同時,社會生活中待檢驗的事件日漸增多。為此,當我們去檢驗這些事件的真實性時,就要用到統計論斷中的假設檢驗。當前已廣泛應用於醫學、氣象、地理等領域,比如,醫學的製藥行業。
  • 關於假設檢驗的詳細總結與典型例題
    一個正態總體 參數的假設檢驗  ⑴ 已知,關於 的檢驗( 檢驗)  檢驗假設   統計量   拒絕域  檢驗假設   統計量   拒絕域  檢驗假設   統計量   拒絕域  ⑵ 未知,關於 的檢驗( 檢驗)  檢驗假設   統計量   拒絕域  檢驗假設   統計量   拒絕域
  • 第二節 假設檢驗的基本步驟
    統計上是通過假設檢驗(hypothesis testing),又稱顯著性檢驗(significance test),來回答這個問題。   下面以樣本均數x與總體均數μ比較的假設檢驗為例,介紹假設檢驗的基本步驟。   一、建立假設和確定檢驗水準   假設有二。一是無效假設(null hypothesis),符號為H0。
  • 假設檢驗的邏輯
    科學研究是去偽存真的過程,假設檢驗則是實現這一過程的基本方法。
  • 等級變量的假設檢驗怎麼做?
    作者:丁點helper 來源:丁點幫你今天,我們講等級變量的假設檢驗。首先,回顧一下,什麼叫等級變量,也稱有序變量。假設有8名顧客對某個餐廳的服務用「非常滿意」、「滿意」、「不滿意」和「非常不滿意」進行評分,一般來講,我們會把這些結果分別用「1」到「4」的數字進行編碼。比如,這8名顧客的打分結果為「1、2、2、3、1、4、3、2」。單從數字上看,大部分人應該比較「滿意(2)」或「非常滿意(1)」。
  • 統計學速成班:谷歌首席決策工程師的一分鐘入門指南
    這裡有一份通俗易懂的講解指南。本文介紹了統計學兩大學派:頻率學派和貝葉斯學派的基本觀點,一起來看看大咖是如何講解統計學術語的。統計學的意義是什麼?這份懶人指南將用8分鐘,告訴你統計學所有的基本思想!如果你特別趕時間,只看加粗內容,一分鐘就可以啦!