在實際工作和研究中,往往只能獲得數據的一部分,通常指這個數據為樣本,而通過樣本對整體的估計被稱為假設檢驗。
樣本是從整體中選取的較小集合,
中心極限定律:
樣本的均值約等於總體的均值;
不管整體什麼分布,任意一個總體的樣本均值都會圍繞在總體的均值周圍,且呈正太分布。
關鍵信息:
樣本的均值等於總體的均值;
樣本的均值方差等於總體均值的方差除以樣本數
中心極限定律就是通過樣本預測整體均值的理論基礎。
S= σ /√n,樣本均值標準差=總體均值標準差/√樣本數。
假設檢驗
分析思路
為了得到用戶的年齡情況,
參數估計,基於用戶樣本數據估計整體用戶年齡。
假設檢驗思路
根據經驗或者其他方面的信息假設一個總體用戶的年齡的可能值,在根據樣本情況,使用工
具來驗證假設是否正確。
例子:我們的用戶年齡在32歲,但第三方顯示該行業用戶年齡為29歲,年齡相差3歲,那我
們的用戶群體與該行業用戶是否有顯著差異?
假設檢驗的主要步驟
設定初始假設
初始假設:用戶的平均年齡32
驗證結果:接受或者拒絕這個假設
雙尾檢驗:
默認假設=,對應假設為>或<
有2個默認拒絕假設的空間。
單尾檢驗:
默認≥,對應假設<
有一個拒絕默認假設的空間
計算檢驗的統計量
用戶數80
平均年齡32
年齡標準差12
Z=(32-29)/12/√80=2.236
評估假設所用的臨界值
臨界值的2個因素:
假設類型、
顯著性水平,判斷在什麼範圍內的錯誤我們可接受,
臨界值比作考試及格的分數,顯著性水平是控制多少學生幾個
顯著性水平越底,考試難度越大,原假設難被否定
顯著性水平越高,考試難度越低,原假設容易被否定
顯著性水平定義區間通常為0.01-0.1之間。
在本例中:
默認假設=29
顯著性水平0.05
雙尾檢驗,概率水平均分,0.05/2=0.025
查表可知,0.025臨界值為±1.96
做出決策判斷
結論:Z=2.24
臨界值±1.96
結論:拒絕,即我們的用戶平均年齡不在29歲
實際業務中也可以用來驗證兩個不同樣本之間的問題:
方差分析,用於兩個即兩個以上的樣本間的顯著性分析。
做出兩組之間無差異的假設,且服從正態分布;
計算楊振之間平均值的差異,構建我們需要檢驗的統計量,Z評分。
選擇合適的顯著性水平,和臨界值。
比較兩者之間的大小,判斷是否接受默認假設。
將我們看到的數據差,分解為不同組之間的差異和各個組之間的內部所產生的差異,
如果組之間的差異大到某一個特定的比例,可以認為是我們所關注的變量產生了足夠大的影
響。
案例:
某店鋪的褲子評分為8.6分,標準差為1,某一牛仔褲的100位用戶的評分均值為9.5,這
一牛仔褲與其他褲子存在顯著性差異麼?
提出假設:
樣本平均分數再總體評分內
計算Z評分:
Z=(9.5-8.6)/ (1/√100) = 9
選擇顯著性水平:
選擇95%置信水平,臨界值為±1.96
提示業務結論:
9 > 1.96,拒絕原假設,樣本均值不在總體均值內。因此本服飾的滿意度
與整體存在差異,可以研究下發生了什麼。