讓你成為統計大師的假設檢驗指南

2020-11-29 CDA數據分析師

CDA數據分析師出品

簡介–思維方式的差異

當一個人MIS專業人士的身份開始了職業生涯，然後進入商業智能（BI），隨後進入了商業分析，統計建模以及機器學習領域。這些轉換中的每一個都會要求改變如何關於看待數據的思維方式。

但是，在所有這些過渡中都值得一提的是。當以BI專業人員的身份創建管理儀錶板和報告時。因為公司內部的結構性不同，可能會需要BI團隊向業務分析師（BA）團隊報告。那麼這個時候就是需要明白什麼是業務分析以及它與BI有什麼不同。

因此，作為日常工作的一部分，BI需要準備了管理儀錶板並對此進行評論。將本月第一周的銷售額與上個月和去年同月的銷售額進行比較，以表明業務有所改善。它看起來像這樣：

在在BI團隊看來銷售的情況比去年和上個月要好，並會為銷售團隊最近採取的一些新措施表示讚賞。但是當BI團隊認為這是向經理展示的成果時，並不會知道，等到的結果會是什麼樣子的。

當BI團隊拿著報告給經理看時，他會稱讚銷售團隊，但是他會提問為什麼會認為這種提升不少數據的隨機變化如果BI團隊中的負責人沒有統計學背景，那麼將無法理解經理的含義。可能會認為在說兩種不同的語言。沒有統計學背景的經理可能看到這份報告可能會直接交給高級管理人員，查閱後進行封存，而有統計學背景的經理則可能會告知在沒有一個解釋的情況下不要隨便的得出結論。

所以在今天的文章中，將解釋假設檢驗和讀取統計意義，以區分數據中的信號和噪音–而這也是擁有統計學背景的經理想要明白的！

案例研究：

假設ABC學校的8年級學生的數學平均成績為85。另一方面，如果我們隨機選擇30名學生並計算他們的平均分數，則他們的平均值為95。從這個實驗中可以得出什麼結論？這很簡單。結論如下：

· 這30名學生與ABC學校的8年級學生不同，因此他們的平均分數更好，即，這些隨機選擇的30名學生樣本的行為與總體（所有ABC學校的8年級學生）不同，或者這是兩個不同的人群。

· 完全沒有區別。結果僅是由於隨機原因，即我們發現平均值是85。它可能高於/低於85，因為有些學生的平均分數小於或大於85。

我們應該如何確定哪種解釋是正確的？有多種方法可以幫助你確定這一點。以下是一些選項：

1. 增加樣本量

1. 測試另一個樣品

1. 計算隨機機會概率

前兩種方法需要更多的時間和預算。因此，當時間或預算受到限制時，這兩種方法是不理想的。

因此，在這種情況下，一種方便的方法是計算該樣本的隨機機會概率，即樣本平均得分為95的概率是多少？這將幫助你從上面給出的兩個假設中得出結論。

現在的問題是，" 我們應該如何計算隨機機會概率？"。

要回答這個問題，我們應該首先要複習一下統計學的基礎知識。

統計基礎

1。Z值/表格/ p值：Z值是標準偏差的度量，即與平均值相差多少標準偏差。例如，z值= +1.8可以解釋為觀測值與平均值之間有+1.8標準偏差。P值是概率。這兩個統計術語都與標準正態分布相關聯。你可以查看與Z表中每個z值關聯的p值。下面是計算z值的公式：

這裡的X是曲線上的點，μ是總體的平均值，而σ是總體的標準偏差。

正如之前所討論的，這些方法始終僅適用於正態分布（如上所示），而不適用於其他分布。如果人口分布不正常，我們可以採用中心極限定理。

2.中心極限定理：這是統計學中的重要定理。在不涉及定義的情況下，我將使用一個例子進行解釋。讓我們看看下面的情況。在這裡，我們有1000個十年級學生的數據及其總成績的數據。以下是此總體的衍生關鍵指標：

而且，標記的頻率分布是：

你可以回憶起這是一種分布嗎？可能不會。這些分數是隨機分配給所有學生的。

現在，讓我們從這個群體中抽取40名學生作為一個樣本。那麼，我們可以從這個總體中抽取多少個樣本？我們可以取25個樣本（1000/40 = 25）。你能否可以說每個樣本的平均分數與總體的平均分數相同（48.4）？理想情況下，是可以的，但實際上每個樣本都不太可能具有相同的平均值。

在這裡，我們抽取了40名學生的1000個樣本（在excel中隨機生成）。讓我們看一下數千個樣本的這些樣本平均值的頻率分布以及其他統計指標：

這種分布看起來是否像我們上面研究的那樣？是的，該表也是正態分布的。為了更好地理解，你可以私我獲取數據，在進行此練習時，你會發現以下發現的問題：

1.樣本均值（1000個樣本均值）非常接近總體均值

2.樣本分布的標準差可以從總體標準偏差除以樣本容量N的平方根得出，也稱為均值標準誤差。

3.樣本均值的分布是正態的，與實際總體的分布無關。這稱為中央極限定理。這是非常強大的。在我們的ABC學校學生的最初示例中，我們比較了樣本平均值和總體平均值。準確地說，我們查看了樣本均值的分布，並找出了總體均值與樣本均值之間的距離。在這種情況下，你始終可以使用正態分布，而不必擔心總體分布。

你可以根據上述發現計算標準差和平均值，並計算z分數和p值。在這裡，隨機機會概率將幫助你接受ABC 學校的例子（如上所述）中討論的結論之一。但是，要滿足CLT定理，樣本大小必須足夠（> = 30）。

現在，假設我們已經計算了隨機機會概率。結果是40％，那麼我應該得出第一個結論還是其他結論？在這裡，" 顯著性水平"將幫助我們做出決定。

什麼是顯著性水平？

我們假設樣本均值95的概率為40％，這是很高的，也就是說，我們更有可能說這是由於隨機性而不是由於行為差異而發生的可能性更大。

如果概率為7％，則可以毫無疑問地推斷出這並非由於隨機性。可能存在一些行為差異，因為概率相對較低，這意味著高概率導致接受隨機性，而低概率導致行為差異。

現在，我們如何確定什麼是高概率，什麼是低概率？

老實說，它本質上是很主觀的。在某些業務場景中，有90％被認為是高概率，而在其他場景中則可能是99％。通常，在所有領域中，一般會接受5%。此5％稱為顯著性水平，也稱為Alpha級別（表示為α）。這意味著如果隨機機會概率小於5％，那麼我們可以得出結論，兩個不同人群的行為存在差異。（1-顯著性水平）也稱為置信水平，即可以說我有95％的信心說它不受隨機性的影響。

到目前為止，我們已經研究了檢驗假設的工具，無論樣本均值是否不同於總體還是由於隨機。現在，讓我們看一下執行假設檢驗的步驟，並通過一個例子來介紹它。

進行假設檢驗的步驟是什麼？

· 設置假設（零假設和備擇假設）：在ABC學校的例子中，我們實際上測試了一個假設。我們正在測試的假設是樣本和總體平均值之間的差異是由於隨機造成的。它被稱為" 零假設 "，即樣本和總體之間沒有差異。零假設的符號為" H0"。請記住，我們檢驗零假設的唯一原因是因為我們認為這是錯誤的。在備擇假設中，我們陳述了我們對零假設的錯誤看法。對於ABC 學校的例子，備擇假設是，樣本和人群的行為存在顯著差異。備擇假設的符號為" H1"。在法庭上，由於假定被告人是無罪的（可以說這是零假設），因此，檢察官有責任進行審判，以顯示證據證明被告人不是無罪的。以類似的方式，我們假設零假設是正確的，這給研究人員進行研究，以證明零假設不太可能成立。

· 設置決策標準：要設置決策標準，我們說明測試的重要程度。可能是5％，1％或0.5％。根據顯著性水平，我們決定接受零假設或備擇假設。可能有0.03個概率接受1％顯著性水平上接受的零假設，但在5%的顯著性水平上拒絕零假設。它基於業務需求。

· 計算隨機概率：隨機概率/檢驗統計量有助於確定可能性。較高的概率具有較高的可能性，並且有足夠的證據接受零假設。

· 做出決策：在這裡，我們將p值與預定義的顯著性水平進行比較，如果該值小於顯著性水平，則拒絕零假設，否則我們接受它。在決定保留或拒絕零假設時，我們可能會出錯，因為我們觀察的是樣本而不是整個總體。關於我們對原假設進行的決策的真實性和虛假性，有四種決策選擇：1.保留零假設的決策可能是正確的。2.保留零假設的決定可能是錯誤的，被稱為 II型錯誤。3.拒絕零假設的決定可能是正確的。4.拒絕零假設的決定可能是錯誤的，這稱為I型錯誤。

例子

肥胖患者的血糖水平平均為100，標準差為15。研究人員認為，高含量生玉米澱粉的飲食將對血糖水平產生積極影響。嘗試過原始玉米澱粉飲食的36名患者的平均血糖水平為108。檢驗假設原始玉米澱粉有效或無效的假設。

解決方案：-按照上述步驟測試該假設：

步驟1：陳述假設。總體平均值為100。

H0：μ= 100H1：μ> 100

步驟2：設置顯著性水平。問題中沒有給出它，因此我們將其假定為5％（0.05）。

步驟3：使用z分數和z表計算隨機概率。

對於這組數據：z =（108-100）/（15 /√36）= 3.20

你可以通過查看z表來查看概率，與3.20相關聯的p值為0.9993，即值小於108的概率為0.9993而大於或等於108的概率為（1-0.9993）= 0.0007。

步驟4：小於0.05，因此我們將拒絕零假設，即存在玉米澱粉效應。

注意：也可以使用稱為臨界值的z值來設置顯著性水平。找出5％概率的z值，它的值為1.65（在任何方向上為正值或負值）。現在，我們可以將計算出的z值與臨界值進行比較，以做出決策。

定向/非定向假設檢驗

在前面的例子中，我們的零假設是，沒有差異，即均值是100，備擇假設是樣本均值大於100。但是，我們還可以設置備擇假設，因為樣本均值不等於100。當我們確實拒絕了零假設，這就很重要了，我們要使用哪個備擇假設：

· 樣本均值大於100

· 樣本均值不等於100，即存在差異

在這裡，問題是"哪個備擇假設更合適？"。在某些方面，這將有助於你確定哪種備擇假設合適。

· 你不希望測試樣本均值小於100的樣本，只想測試更大的樣本值

· 你堅信生玉米澱粉的影響更大

在以上兩種情況下，我們將進行" 單尾測試"。在單尾檢驗中，我們的替代假設大於或小於觀察到的平均值，因此也稱為定向假設檢驗。另一方面，如果你不知道測試的影響是較大還是較低，那麼我們可以使用" 雙尾檢驗"，也稱為非定向假設檢驗。

假設研究機構之一正在提出新的教學方法。他們想測試這種方法的影響。但是，他們不知道它會產生積極或消極的影響。在這種情況下，我們應該進行雙尾檢驗。

在一個尾部檢驗中，如果樣本均值是正負兩個極端，則我們拒絕零假設。但是，在進行雙尾檢驗的情況下，我們可以拒絕任何方向（正向或負向）的零假設。

看上面的圖片。雙尾檢驗分配一半的Alpha值來測試一個方向的統計顯著性，另一半則用於另一方向。這意味著.025位於測試統計量分布的每個尾部。為什麼我們都說0.025，因為正態分布是對稱的。現在我們得出的結論是，兩個尾部檢驗中零假設的拒絕標準為0.025，並且低於0.05，即雙尾檢驗有更嚴格的標準來拒絕零假設。

例子

Templer和Tomeo（2002）報告說，1994年至1997年參加考試的學生在研究生成績考試（GRE）通用考試的定量部分的總體平均得分為558±139（μ±σ）。假設我們選擇100個參與者的樣本（n = 100）。我們記錄的樣本平均值等於585（M = 585）。計算p值t0，檢查是否將0.05的顯著性水平（α= .05）保留原假設（μ= 558）。

解：

步驟1：陳述假設。人口平均數是558。

H0：μ= 558H1：μ≠558（雙尾檢驗）

步驟2：設置顯著性水平。如問題中所述，為5％（0.05）。在無方向的兩尾測試中，我們將alpha值分為兩半，這樣上下尾部的面積比例相等。因此，兩側的顯著性水平計算為：α/ 2 = 0.025。與此相關的z得分（1-0.025 = 0.975）為1.96。由於這是一個雙尾檢驗，因此小於-1.96或大於1.96的z分數（觀察到）是拒絕零假設的證據。

步驟3：計算隨機概率或z得分

對於此數據集：z =（585-558）/（139 /√100）= 1.94

你可以通過查看z表來查看概率，與1.94關聯的p值為0.9738，即，小於585的值的概率為0.9738而大於或等於585的概率為（1-0.9738）= 0.03

步驟4：在這裡要做出決定，我們將獲得的z值與臨界值（+/- 1.96）進行比較。如果獲得的值超過臨界值，我們將拒絕原假設。此處獲得的值（Z obt = 1.94）小於臨界值。它不屬於拒絕區域。決定是保留零假設。

結束語

在本文中，我們研究了在預測建模過程中進行假設檢驗的完整過程。首先，我們看了假設的概念，接著是假設的類型和驗證假設的方式，以便做出明智的決定。我們還學習了重要的假設檢驗概念比如z值，z表格，p值，中心極限定理。

正如引言中提到的，這是我第一次讀到這篇文章時最難改變的心態之一。但這也是最有幫助和意義的改變之一。我可以很容易地說，這種變化讓我開始像一個預測建模者那樣思考。

讓你成為統計大師的假設檢驗指南

相關焦點

統計:如何用Excel完成雙樣本假設檢驗

假設檢驗:使用p值來接受或拒絕你的假設

使用非參數統計檢驗進行分析的指南

統計學裡的假設檢驗是什麼?

假設檢驗、Z檢驗與T檢驗

統計學中的假設檢驗

假設檢驗的區別 - CSDN

假設檢驗與P-value簡介

假設檢驗的基本步驟

護理科研實務|學會假設檢驗,讓你遠離渣男

excel假設檢驗 - CSDN

假設檢驗到底是什麼?(學員必看)

一文讀懂假設檢驗怎麼做

假設檢驗學習筆記

假設檢驗的初步了解,這一篇就夠了

關於假設檢驗的詳細總結與典型例題

第二節假設檢驗的基本步驟

假設檢驗的邏輯

等級變量的假設檢驗怎麼做?

統計學速成班:谷歌首席決策工程師的一分鐘入門指南

讓你成為統計大師的假設檢驗指南

相關焦點

統計:如何用Excel完成雙樣本假設檢驗

假設檢驗:使用p值來接受或拒絕你的假設

使用非參數統計檢驗進行分析的指南

統計學裡的假設檢驗是什麼?

假設檢驗、Z檢驗與T檢驗

統計學中的假設檢驗

假設檢驗的區別 - CSDN

假設檢驗與P-value簡介

假設檢驗的基本步驟

護理科研實務|學會假設檢驗,讓你遠離渣男

excel假設檢驗 - CSDN

假設檢驗到底是什麼?(學員必看)

一文讀懂假設檢驗怎麼做

假設檢驗學習筆記

假設檢驗的初步了解,這一篇就夠了

關於假設檢驗的詳細總結與典型例題

第二節 假設檢驗的基本步驟

假設檢驗的邏輯

等級變量的假設檢驗怎麼做?

統計學速成班:谷歌首席決策工程師的一分鐘入門指南

第二節假設檢驗的基本步驟