python卡方分析專題及常見問題 - CSDN

2020-12-24 CSDN技術社區

一 單樣本t檢驗

「超級引擎」是一家專門生產汽車引擎的公司,根據政府發布的新排放要求,引擎排放平均值要低於20ppm,(ppm是英文百萬分之一的縮寫,這裡我們只要理解為是按照環保要求汽車尾氣中碳氫化合物要低於20ppm)。公司製造出10臺引擎供測試使用,每一臺的排放水平如下:15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9

問題:公司生產的引擎是否符合政府規定呢?

1. 描述統計分析

總體組: n未知

>20(ppm) s 未知

樣本組: 0=10

,

均可計算記為已知

2. 推論統計分析

2.1 問題是什麼?

問題是: 樣本數據是否滿足總體排放值要求?

① 確定零假設H0和備選假設H1

零假設H0:公司引擎排放不滿足標準, 引擎排放平均值u>=20

備選假設H1:公司引擎排放滿足標準, 公司引擎排放平均值u<20

②確定檢驗類型與抽樣分布

檢驗類型:只有1個樣本,所以是單樣本檢驗。

x變量 :類別變量(排放值), Y結果為數值變量 (排放平均值) ,排除卡方檢驗,則使用方差分析或者z/t檢驗

總體組中標準差s未知 ,無法滿足方差齊性,故排除方差分析,只剩下z/t檢驗

樣本大小為n=10<30 ,樣本容量為小樣本,且呈正態分布故排除z檢驗 故使用t檢驗

結合只有一組樣本數據,故使用單樣本t檢驗

③ 檢查正態性

使用單樣本t檢驗前提是樣本數據近似滿足正態分布的,本文使用圖形法來進行樣本的正態性檢驗 使用sns.distplot 畫出直方圖和擬合曲線 。

從上圖觀察可知 樣本數據近似符合正態分布,即本次樣本數據可用於t檢驗

.確定檢驗方向

因為備選假設H1:平均值u<20(有方向性),所以我們使用單尾檢驗中的左尾檢驗

總結:本次假設檢驗是單樣本t檢驗,單尾檢驗中的左尾檢驗,自由度df=9

2.2 證據是什麼

在零假設成立前提下,得到樣本平均值u>20的概率p是多少?

2.2.1手工計算法:

計算p值的步驟

1)計算出標準誤差

標準誤差=樣本標準差除以樣本n的開方。因為標準誤差是用來衡量樣本平均值的波動大小所以要除以n的開方。這裡的樣本標準差是用來估計總體標準差的。

2)計算t值

t=(樣本平均值-總體平均值)/標準誤差

3)根據t值,自由度計算出概率p值

即 在 t=-3.00164952589,DF=9時,p=0.0149(如圖所示雙尾) ,故本次左尾檢驗P=0.00745

2.2.2用python統計包scipy計算

使用統計包scipy中的stats模塊來進行t檢驗中 t 值和P值計算

2.3 判斷標準是什麼?

判斷標準(顯著水平)使用alpha=5% 即 alpha=0.05

2.4 做出結論

單尾p值與顯著性水平α作比較:當p_one<=α時,拒絕零假設H0,接受備擇假設H1;當p_one>α時,沒有充分的證據拒絕零假設(傾向於接受H0,但需要進一步證據)。

3.置信區間

第一步,查找t表格獲取95%的置信水平,自由度是n-1=9對應的t值
t_ci=2.262(3)效應量

4.效應量

在判斷某個調查研究的結果,是否有意義或者重要時,要考慮的另一項指標是效應量。效應量太小,意味著處理即使達到了顯著水平,也缺乏實用價值。 所以,在假設檢驗中,我們給出了是否具有統計顯著性,也要給出效應量,一起來判斷研究結果是否有意義。

差異指標:Cohen's d = (樣本平均值1-樣本平均值2) / 標準差

相關指標:r2=t2 / (t2+df),其中r2是指r的平方,t2是t的平方

5.APA分析報告

單樣本t檢驗

二 配對樣本t檢驗

斯特魯普效應(Stroop effect)在心理學中指優勢反應對非優勢反應的幹擾。例如當測試者被要求回答有顏色意義的字體的顏色時,回答字本身的意義為優勢反應,而回答字體顏色為非優勢反應,若字體顏色與自意不同,被測者往往會反應速度下降,出錯率上升。

通過網上的stroop實驗做測試人的反應時間

Stroop Effectfaculty.washington.edu

,每名參與者得到兩組有顏色的文字,第一組數據是字體內容和字體顏色一致,第二組數據是字體內容和字體顏色不一致。每名參與者對每組文字說出文字的顏色,並分別統計完成每組的時間。此次每組實驗共記錄24組數據(樣本量),並匯總到Excel表格如下

連結:https://pan.baidu.com/s/1v7DfN_wIIzuvspA4PszMGw

提取碼:sv6k

問題:驗證斯特魯普效應的存在(不一致組反應時間均值是否比一致組反應時間均值長?)

1.描述統計分析

樣本組1: n1=25

, s1 均可計算

樣本組2: n2=25

, s2 均可計算

2. 推論統計分析

2.1 問題是什麼?

問題是:不一致組反應時間均值比一致組反應時間均值長

自變量(x變量):我們有兩組實驗數據,第一組是字體內容和顏色一致。第二組數據值是字體內容和顏色不一致。所以自變量是實驗數據的顏色和文字是否相同 因變量(y變量):實驗者的反應時間 所以,我們要考察的是自變量(字體內容和顏色是否相同)兩種情況下對因變量(反應時間)的影響。

① 確定零假設H0和備選假設H1

假設第一組「一致」的均值為 u1 ,第二組「不一致」的均值為 u2

零假設H0:人們的反應時間不會因為字體內容和字體顏色而不同, 即u1 = u2

備選假設H1:顏色和文字不同的情況下,人們的完場測試的時間會變長,即u1 < u2

②確定檢驗類型與抽樣分布

檢驗類型:同一個實驗者參加不同條件下的實驗,故為相關檢驗

x變量 :類別變量(是否相同), Y結果為數值變量 (反應時間) ,排除卡方檢驗,則使用方差分析或者z/t檢驗

兩樣本方差不相等且差別比較大,無法滿足方差齊性,故排除方差分析,只剩下z/t檢驗

樣本大小為n=10<30 ,樣本容量為小樣本,故排除z檢驗 故使用t檢驗

結合2組相關樣本(樣本容量相同且實驗條件相關),故使用配對樣本t檢驗

③ 檢查正態性

使用配對樣本t檢驗前提是 樣本數據近似滿足正態分布的,本文使用圖形法來進行樣本的正態性檢驗 ,使用sns.distplot 畫出直方圖和擬合曲線 。由中心極限定理可知:不管總體是什麼分布,任意一個總體的樣本平均值都會圍繞在總體的整體平均值周圍,並且呈正態分布。若兩樣本只差對應的數據符合正態分布,則說明兩樣本也是符合正態分布

正態性檢驗

由上圖可知,兩樣本只差對應的數據近似符合正態分布,則說明兩樣本也是符合正態分布,即兩樣本數據可以用於配對相關t檢驗

.確定檢驗方向

因為備選假設H1:平均值u1 < u2即(u1-u2<0)(有方向性),所以我們使用單尾檢驗中的左尾檢驗

總結:本次假設檢驗是配對樣本t檢驗,單尾檢驗中的左尾檢驗,自由度df=24

2.2 證據是什麼

零假設成立的情況下,得到樣本平均值的概率:p值

使用統計包scipy中的stats模塊來進行t檢驗中 t 值和P值計算

2.3.判斷標準是什麼?

2.4 做出結論
統計顯著,拒絕零假設H0 ,特魯普效應存在。

3. 置信區間

t分布下,95%的置信水平,自由度DF=23,查t表得到t_ci =2.064

t檢驗計算置信區間

stats.t.interval 計算置信區間

4. 效應量

d 表示樣本平均值與總體平均值之間差1.65個標準差,|d |>0.8 效果顯著

=0.75>0.25 效果顯著

5.APA分析報告

配對樣本t檢驗

三、獨立樣本t檢驗: A/Btest

兩款鍵盤布局不一樣的手機應用(A版本,B版本),你作為公司的產品經理,想在正式發布產品之前,知道哪個鍵盤布局對用戶體驗更好?

AB版本

隨機抽取實驗者,將實驗者分成2組,每組25人,A組使用鍵盤布局A,B組使用鍵盤布局B。讓他們在30秒內打出標準的20個單詞文字消息,然後記錄打錯字的數量,數據集如下:

連結:https://pan.baidu.com/s/1ATsll15JHzfTDRHAZw5b4w

提取碼:etze

問題:兩種版本布局是否用戶體驗顯著不同,哪種更好?

1 描述統計分析

樣本組1(A組): n1=25

, s1 計算如下

樣本組2(B組): n2=25

, s2 計算如下

2. 推論統計分析

2.1 問題是什麼?

問題是:那個版本用戶打錯字比較少,即哪個鍵盤布局對用戶體驗更好呢

自變量(x變量):我們有兩組實驗數據,第一組是隨機分配25人測試:A版本。第二組隨機分配25人測試:B版本。所以 自變量(X變量)是 那個版本, 因變量(y變量):實驗者的每個版本對應的出錯次數均值 ,所以我們要考察的是自變量(A版本和B版本下)兩種情況下對因變量(出錯次數)的影響。

① 確定零假設H0和備選假設H1

假設第一組「一致」的均值為 u1 ,第二組「不一致」的均值為 u2

零假設H0:A版本和B版本沒有差別, 即u1 = u2

備選假設H1:A版本和B版本有差別,即u1 !=u2

②確定檢驗類型與抽樣分布

檢驗類型:因為這裡是兩組不同的人來測試2組獨立版本,故為獨立樣本檢驗

x變量 :類別變量(AB版本), Y結果為數值變量 (出錯次數) ,排除卡方檢驗,則使用方差分析或者z/t檢驗

總體方差未知,無法滿足方差齊性,故排除方差分析,只剩下z/t檢驗

樣本大小為n=10<30 ,樣本容量為小樣本,故排除z檢驗 故使用t檢驗

結合隨機分配的兩組不同的人來測試2組獨立版本,故使用獨立樣本t檢驗

③ 檢查正態性

使用獨立樣本t檢驗前提是 樣本數據近似滿足正態分布的,本文使用圖形法來進行樣本的正態性檢驗 ,使用sns.distplot 畫出直方圖和擬合曲線 。

由上圖可知,兩個樣本數據集都近似正態分布,即滿足獨立樣本t檢驗所需的的樣本正態性

檢驗方差齊性(F檢驗)

獨立樣本t檢驗相比於單樣本t檢驗和配對樣本t檢驗而言,需要進行樣本方差齊性檢驗,來判斷兩總體方差是否顯著不同

bartlett/levene檢驗法

由上可知顯著水平a=0.05下,兩組樣本方差統計不顯著,兩總體方差相等:a_var=b_var

.確定檢驗方向

因為備選假設H1:A版本和B版本有差別,即u1 !=u2(沒有方向性),所以我們使用雙尾檢驗

總結:本次假設檢驗是獨立樣本t檢驗,雙尾檢驗,自由度df=25+25-2=48

2.2 證據是什麼

零假設成立的情況下,得到樣本平均值的概率:p值

2.3.判斷標準是什麼?

2.4 做出結論

拒絕零假設,有統計顯著,也就是接受備選假設:A版本和B版本打字錯誤次數均值不相同,鍵盤版本影響客戶體驗

3. 置信區間

t分布下,95%的置信水平,自由度DF=48,查t表得到t_ci =2.011 ,置信水平 CI=[-4.07,-1.37]

平均下來,使用A鍵盤的錯誤數量要比B鍵盤的要少大約1到5個

4. 效應量

d 表示樣本平均值與總體平均值之間差1.32個標準差,|d |>0.8 效果顯著

5.APA分析報告

獨立樣本t檢驗

相關焦點

  • 對抗學習專題及常見問題 - CSDN
    /tina_ttl/article/details/52048765】* Adversarial Machine Learning, 2011(2011年的一個綜述,對攻擊機器學習的方法/目的作的一個分類/防禦者弱點分析/攻擊者限制)
  • datatype在python專題及常見問題 - CSDN
    title category layout tags date python教程之3基本數據類型 pythonpython的字串列表有2種取值順序:從左到右索引默認0開始的,最大範圍是字符串長度少1從右到左索引默認-1開始的,最大範圍是字符串開頭如果要實現從字符串中獲取一段子字符串的話,可以使用變量 [頭下標:尾下標],就可以截取相應的字符串,其中下標是從 0 開始算起,可以是正數或負數,下標可以為空表示取到頭或尾。
  • python 預測股票專題及常見問題 - CSDN
    基於VAR算法的預測向量自回歸(VAR)模型就是非結構化的多方程模型,它的核心思想不考慮經濟理論,而直接考慮經濟變量時間時序之間的關係,避開了結構建模方法中需要對系統中每個內生變量關於所有內生變量滯後值函數建模的問題
  • android 啟動頁慢專題及常見問題 - CSDN
    createController耗時這樣已經很直觀了,可以具體到該方法的執行時間,如果要繼續分析則對該方法內部繼續執行該代碼即可。但是這裡有一個問題如果要知道10個或者更多方法的執行時間,這個方法看起來是可以,但寫起來過於繁瑣,且不符合程式設計師的習慣,關於這種場景後面會介紹如何處理。4. TraceView和SysTrace工具使用TraceView使用:TraceView是Android平臺配備一個很好的性能分析工具,它可以通過圖形化的方式讓我們了解我們要跟蹤的程序的性能,並且能具體到方法。
  • android 監聽屏幕鎖屏專題及常見問題 - CSDN
    > 鎖屏聽音樂(音頻),沒有鎖屏看視頻Android系統亮屏、鎖屏、屏幕解鎖事件(解決部分手機亮屏後未解鎖即進入resume狀態)- http://blog.csdn.net/oracleot/article/details/20378453Android 實現鎖屏的較完美方案- https://segmentfault.com/a/1190000003075989
  • kill殺不掉進程 linux專題及常見問題 - CSDN
    問題:有進程佔用顯存,但是通過kill -9 PID殺不掉,進程Running態應該是等不到數據導致阻塞。R 2020 21121023:41 python main.py huawei RGB --arch resnet50 --num_segments 8 --gd 20 --lr 0.000125 --lr_steps 10 20 --epochs 25 --batch-size 16 -j 16 --dropout 0.8 --consensus_type=avg --eval-freq
  • windows10卡啟動修復專題及常見問題 - CSDN
    在Windows 10上,安全模式允許加載一組基本功能和通用設備驅動程序,足以解決常見的軟體和硬體問題。例如,當計算機無法正常啟動、網絡連接問題以及應用程式或Windows Update無法下載更新時,可以使用安全模式對其進行故障排除。
  • 有現狀 需求分析專題及常見問題 - CSDN
    第十七組  軟體社會人才需求現狀及發展趨勢分析分工:第一點:李玥—社會需求—4小時              靳子瀟—薪資待遇—4小時              代千弘—知識要求—4小時              任勝澤—數量需求—4小時
  • spss 方法 線性回歸專題及常見問題 - CSDN
    方法:採用多階段隨機抽樣法,對北京市4個區120名老年人進行問卷調查,採用老年人生活活動能力量表篩選失能老年人,使用自行編制的社區失能老年人照護需求調查問卷對其照護服務需求內容進行調查,分析照護需求的影響因素。
  • 大屏可視化demo專題及常見問題 - CSDN
    隨著企業數位化建設的發展,領導對數據價值的利用意識越來越高,數據分析和展現需求日益增長。對於管理層來說,可視化大屏和駕駛艙項目尤其受歡迎,這兩年我遇到的BI項目有半數會有開發管理駕駛艙、大屏的需求。一方面大屏項目能夠全面的展示經營數據,將管理策略具象化,另一方面通過科技感的數據展現也能提升企業形象。
  • Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...
    3-06數據分類 3-07異常值分析 3-08對比分析 3-09結構分析 3-10分布分析 3-11 satisfaction level的分析 3-13numberproject的分析 3-14averagemonthlyhours的分析 3-15timespendcompany
  • cdn助力專題及常見問題 - CSDN
    本次騰訊雲大學大咖分享《騰訊雲計算人才加速計劃》專題之《CDN邊緣智能助力5G》邀請騰訊雲專家工程師 廖龍 將與大家共探技術與產業發展變化下如何引領時代。本課程主要有三章:5G元年,探索與思考,未來展望。5G元年在過去十年,整個中國網際網路的發展迅速。
  • android啟動頁設計專題及常見問題 - CSDN
    轉載請註明出處:http://blog.csdn.net/wangjihuanghun/article/details/63255144啟動頁幾乎成為了每個app的標配,有些商家在啟動頁中增加了開屏廣告以此帶來更多的收入。
  • 微信鬥圖表情包專題及常見問題 - CSDN
    雖說圖靈機器人官網上有這個api,可是由於我是用python手動接入而不是直接授權,發送表情包給他依然會回復尬聊。我深信沒有鬥圖的機器人是沒有靈魂的,於是想動手自己寫一個。參考:用python爬取鬥圖網列印從用戶哪裡獲得的消息,會發現,接收表情包返回的是一行文本信息:【收到不支持的消息類型,暫無法顯示】於是我們稍微改一改之前的代碼,對這行文本進行判斷,只要接收到這行消息,參考爬取代碼從鬥圖網隨機爬取一個表情包下載下來,再傳入臨時素材庫,獲取mediaid,再生成圖片消息發送給用戶就可以了。
  • eviews線性回歸模型專題及常見問題 - CSDN
    2  多重共線性模型的識別2.1  綜合判斷法由模型的估計結果可以看出R方=0.979655,可決係數很高,說明模型對樣本的擬合很好;F=60.18950檢驗值比較大,相應的P=0.000204,說明回歸方程顯著,即各自變量聯合起來確實對因變量Y有顯著影響;給定顯著性水平a=
  • 華為雲智能專題及常見問題 - CSDN
    賈永利指出,從廣大政企客戶的需求來看,不斷增加的多樣性數據的統一處理,讓數據在處理過程中可管可控,並且可以更高效地協同不同組織變得越來越重要,而實時性處理、數據融合分析則是重中之重。通過一站式的分析平臺,全局使用一份數據,更全面、更精準地分析數據,從海量數據中找到客戶真正想要的價值,是大數據廠商肩負的使命。
  • 注重用戶體驗的重要性專題及常見問題 - CSDN
    其實關於這個問題,同行交流時也經常討論,我想分享一些我的個人的淺見,大神們覺得沒用請無視。個人覺得現在的SEO不能再只是為了SEO而做SEO,而是要更注重用戶體驗這一塊兒了。現階段關於網站用戶體驗得分排名而上排名的機率很大。
  • Python中pip常見問題以及解決辦法
    這個問題有用嗎?解決辦法二.添加到名為pip的$ PATH符號連結,指向pip3二進位文件(順便說一句,即使關於pip並不是真正與python相關的問題,所以你應該重拍它)將/usr/bin/pip備份/刪除,從所需的pip版本建立符號連結。
  • 華為雲工業網際網路專題及常見問題 - CSDN
    再次,應該實事求是的宣傳功效,解決客戶實際問題,筆者很認同這一點,事實上核心的技術是要來解決實際問題的,而不是用來造概念或做秀的。最後是需要堅持開放的平臺,積極汲取全世界產業界先進的工具和能力。全中國擁有41個工業大類、191個中類和525個小類的工業企業,是全世界唯一擁有聯合國產業分類中全部工業門類的國家。而每類工業企業都有自己獨特的工業know-how和行業知識。
  • t值判斷顯著性專題及常見問題 - CSDN
    提出問題  顯著性值p是一個很常見的事。比如我們在對比兩組或者是多組數據時,對於兩組而言,會做Two Sample T Test,然後給出一個p值,判斷兩者差異的顯著性。在ggplot2中,兩組數據對比時,我們常用的,就是boxplot,那麼,如何在作出兩組或者多組的boxplot的同時,標記出顯著性的數據呢?