python卡方分析專題及常見問題 - CSDN

2020-12-23 CSDN技術社區

一 單樣本t檢驗

「超級引擎」是一家專門生產汽車引擎的公司,根據政府發布的新排放要求,引擎排放平均值要低於20ppm,(ppm是英文百萬分之一的縮寫,這裡我們只要理解為是按照環保要求汽車尾氣中碳氫化合物要低於20ppm)。公司製造出10臺引擎供測試使用,每一臺的排放水平如下:15.6 16.2 22.5 20.5 16.4 19.4 16.6 17.9 12.7 13.9

問題:公司生產的引擎是否符合政府規定呢?

1. 描述統計分析

總體組: n未知

>20(ppm) s 未知

樣本組: 0=10

,

均可計算記為已知

2. 推論統計分析

2.1 問題是什麼?

問題是: 樣本數據是否滿足總體排放值要求?

① 確定零假設H0和備選假設H1

零假設H0:公司引擎排放不滿足標準, 引擎排放平均值u>=20

備選假設H1:公司引擎排放滿足標準, 公司引擎排放平均值u<20

②確定檢驗類型與抽樣分布

檢驗類型:只有1個樣本,所以是單樣本檢驗。

x變量 :類別變量(排放值), Y結果為數值變量 (排放平均值) ,排除卡方檢驗,則使用方差分析或者z/t檢驗

總體組中標準差s未知 ,無法滿足方差齊性,故排除方差分析,只剩下z/t檢驗

樣本大小為n=10<30 ,樣本容量為小樣本,且呈正態分布故排除z檢驗 故使用t檢驗

結合只有一組樣本數據,故使用單樣本t檢驗

③ 檢查正態性

使用單樣本t檢驗前提是樣本數據近似滿足正態分布的,本文使用圖形法來進行樣本的正態性檢驗 使用sns.distplot 畫出直方圖和擬合曲線 。

從上圖觀察可知 樣本數據近似符合正態分布,即本次樣本數據可用於t檢驗

.確定檢驗方向

因為備選假設H1:平均值u<20(有方向性),所以我們使用單尾檢驗中的左尾檢驗

總結:本次假設檢驗是單樣本t檢驗,單尾檢驗中的左尾檢驗,自由度df=9

2.2 證據是什麼

在零假設成立前提下,得到樣本平均值u>20的概率p是多少?

2.2.1手工計算法:

計算p值的步驟

1)計算出標準誤差

標準誤差=樣本標準差除以樣本n的開方。因為標準誤差是用來衡量樣本平均值的波動大小所以要除以n的開方。這裡的樣本標準差是用來估計總體標準差的。

2)計算t值

t=(樣本平均值-總體平均值)/標準誤差

3)根據t值,自由度計算出概率p值

即 在 t=-3.00164952589,DF=9時,p=0.0149(如圖所示雙尾) ,故本次左尾檢驗P=0.00745

2.2.2用python統計包scipy計算

使用統計包scipy中的stats模塊來進行t檢驗中 t 值和P值計算

2.3 判斷標準是什麼?

判斷標準(顯著水平)使用alpha=5% 即 alpha=0.05

2.4 做出結論

單尾p值與顯著性水平α作比較:當p_one<=α時,拒絕零假設H0,接受備擇假設H1;當p_one>α時,沒有充分的證據拒絕零假設(傾向於接受H0,但需要進一步證據)。

3.置信區間

第一步,查找t表格獲取95%的置信水平,自由度是n-1=9對應的t值
t_ci=2.262(3)效應量

4.效應量

在判斷某個調查研究的結果,是否有意義或者重要時,要考慮的另一項指標是效應量。效應量太小,意味著處理即使達到了顯著水平,也缺乏實用價值。 所以,在假設檢驗中,我們給出了是否具有統計顯著性,也要給出效應量,一起來判斷研究結果是否有意義。

差異指標:Cohen's d = (樣本平均值1-樣本平均值2) / 標準差

相關指標:r2=t2 / (t2+df),其中r2是指r的平方,t2是t的平方

5.APA分析報告

單樣本t檢驗

二 配對樣本t檢驗

斯特魯普效應(Stroop effect)在心理學中指優勢反應對非優勢反應的幹擾。例如當測試者被要求回答有顏色意義的字體的顏色時,回答字本身的意義為優勢反應,而回答字體顏色為非優勢反應,若字體顏色與自意不同,被測者往往會反應速度下降,出錯率上升。

通過網上的stroop實驗做測試人的反應時間

Stroop Effectfaculty.washington.edu

,每名參與者得到兩組有顏色的文字,第一組數據是字體內容和字體顏色一致,第二組數據是字體內容和字體顏色不一致。每名參與者對每組文字說出文字的顏色,並分別統計完成每組的時間。此次每組實驗共記錄24組數據(樣本量),並匯總到Excel表格如下

連結:https://pan.baidu.com/s/1v7DfN_wIIzuvspA4PszMGw

提取碼:sv6k

問題:驗證斯特魯普效應的存在(不一致組反應時間均值是否比一致組反應時間均值長?)

1.描述統計分析

樣本組1: n1=25

, s1 均可計算

樣本組2: n2=25

, s2 均可計算

2. 推論統計分析

2.1 問題是什麼?

問題是:不一致組反應時間均值比一致組反應時間均值長

自變量(x變量):我們有兩組實驗數據,第一組是字體內容和顏色一致。第二組數據值是字體內容和顏色不一致。所以自變量是實驗數據的顏色和文字是否相同 因變量(y變量):實驗者的反應時間 所以,我們要考察的是自變量(字體內容和顏色是否相同)兩種情況下對因變量(反應時間)的影響。

① 確定零假設H0和備選假設H1

假設第一組「一致」的均值為 u1 ,第二組「不一致」的均值為 u2

零假設H0:人們的反應時間不會因為字體內容和字體顏色而不同, 即u1 = u2

備選假設H1:顏色和文字不同的情況下,人們的完場測試的時間會變長,即u1 < u2

②確定檢驗類型與抽樣分布

檢驗類型:同一個實驗者參加不同條件下的實驗,故為相關檢驗

x變量 :類別變量(是否相同), Y結果為數值變量 (反應時間) ,排除卡方檢驗,則使用方差分析或者z/t檢驗

兩樣本方差不相等且差別比較大,無法滿足方差齊性,故排除方差分析,只剩下z/t檢驗

樣本大小為n=10<30 ,樣本容量為小樣本,故排除z檢驗 故使用t檢驗

結合2組相關樣本(樣本容量相同且實驗條件相關),故使用配對樣本t檢驗

③ 檢查正態性

使用配對樣本t檢驗前提是 樣本數據近似滿足正態分布的,本文使用圖形法來進行樣本的正態性檢驗 ,使用sns.distplot 畫出直方圖和擬合曲線 。由中心極限定理可知:不管總體是什麼分布,任意一個總體的樣本平均值都會圍繞在總體的整體平均值周圍,並且呈正態分布。若兩樣本只差對應的數據符合正態分布,則說明兩樣本也是符合正態分布

正態性檢驗

由上圖可知,兩樣本只差對應的數據近似符合正態分布,則說明兩樣本也是符合正態分布,即兩樣本數據可以用於配對相關t檢驗

.確定檢驗方向

因為備選假設H1:平均值u1 < u2即(u1-u2<0)(有方向性),所以我們使用單尾檢驗中的左尾檢驗

總結:本次假設檢驗是配對樣本t檢驗,單尾檢驗中的左尾檢驗,自由度df=24

2.2 證據是什麼

零假設成立的情況下,得到樣本平均值的概率:p值

使用統計包scipy中的stats模塊來進行t檢驗中 t 值和P值計算

2.3.判斷標準是什麼?

2.4 做出結論
統計顯著,拒絕零假設H0 ,特魯普效應存在。

3. 置信區間

t分布下,95%的置信水平,自由度DF=23,查t表得到t_ci =2.064

t檢驗計算置信區間

stats.t.interval 計算置信區間

4. 效應量

d 表示樣本平均值與總體平均值之間差1.65個標準差,|d |>0.8 效果顯著

=0.75>0.25 效果顯著

5.APA分析報告

配對樣本t檢驗

三、獨立樣本t檢驗: A/Btest

兩款鍵盤布局不一樣的手機應用(A版本,B版本),你作為公司的產品經理,想在正式發布產品之前,知道哪個鍵盤布局對用戶體驗更好?

AB版本

隨機抽取實驗者,將實驗者分成2組,每組25人,A組使用鍵盤布局A,B組使用鍵盤布局B。讓他們在30秒內打出標準的20個單詞文字消息,然後記錄打錯字的數量,數據集如下:

連結:https://pan.baidu.com/s/1ATsll15JHzfTDRHAZw5b4w

提取碼:etze

問題:兩種版本布局是否用戶體驗顯著不同,哪種更好?

1 描述統計分析

樣本組1(A組): n1=25

, s1 計算如下

樣本組2(B組): n2=25

, s2 計算如下

2. 推論統計分析

2.1 問題是什麼?

問題是:那個版本用戶打錯字比較少,即哪個鍵盤布局對用戶體驗更好呢

自變量(x變量):我們有兩組實驗數據,第一組是隨機分配25人測試:A版本。第二組隨機分配25人測試:B版本。所以 自變量(X變量)是 那個版本, 因變量(y變量):實驗者的每個版本對應的出錯次數均值 ,所以我們要考察的是自變量(A版本和B版本下)兩種情況下對因變量(出錯次數)的影響。

① 確定零假設H0和備選假設H1

假設第一組「一致」的均值為 u1 ,第二組「不一致」的均值為 u2

零假設H0:A版本和B版本沒有差別, 即u1 = u2

備選假設H1:A版本和B版本有差別,即u1 !=u2

②確定檢驗類型與抽樣分布

檢驗類型:因為這裡是兩組不同的人來測試2組獨立版本,故為獨立樣本檢驗

x變量 :類別變量(AB版本), Y結果為數值變量 (出錯次數) ,排除卡方檢驗,則使用方差分析或者z/t檢驗

總體方差未知,無法滿足方差齊性,故排除方差分析,只剩下z/t檢驗

樣本大小為n=10<30 ,樣本容量為小樣本,故排除z檢驗 故使用t檢驗

結合隨機分配的兩組不同的人來測試2組獨立版本,故使用獨立樣本t檢驗

③ 檢查正態性

使用獨立樣本t檢驗前提是 樣本數據近似滿足正態分布的,本文使用圖形法來進行樣本的正態性檢驗 ,使用sns.distplot 畫出直方圖和擬合曲線 。

由上圖可知,兩個樣本數據集都近似正態分布,即滿足獨立樣本t檢驗所需的的樣本正態性

檢驗方差齊性(F檢驗)

獨立樣本t檢驗相比於單樣本t檢驗和配對樣本t檢驗而言,需要進行樣本方差齊性檢驗,來判斷兩總體方差是否顯著不同

bartlett/levene檢驗法

由上可知顯著水平a=0.05下,兩組樣本方差統計不顯著,兩總體方差相等:a_var=b_var

.確定檢驗方向

因為備選假設H1:A版本和B版本有差別,即u1 !=u2(沒有方向性),所以我們使用雙尾檢驗

總結:本次假設檢驗是獨立樣本t檢驗,雙尾檢驗,自由度df=25+25-2=48

2.2 證據是什麼

零假設成立的情況下,得到樣本平均值的概率:p值

2.3.判斷標準是什麼?

2.4 做出結論

拒絕零假設,有統計顯著,也就是接受備選假設:A版本和B版本打字錯誤次數均值不相同,鍵盤版本影響客戶體驗

3. 置信區間

t分布下,95%的置信水平,自由度DF=48,查t表得到t_ci =2.011 ,置信水平 CI=[-4.07,-1.37]

平均下來,使用A鍵盤的錯誤數量要比B鍵盤的要少大約1到5個

4. 效應量

d 表示樣本平均值與總體平均值之間差1.32個標準差,|d |>0.8 效果顯著

5.APA分析報告

獨立樣本t檢驗

相關焦點

  • datatype在python專題及常見問題 - CSDN
    title category layout tags date python教程之3基本數據類型 pythonpython的字串列表有2種取值順序:從左到右索引默認0開始的,最大範圍是字符串長度少1從右到左索引默認-1開始的,最大範圍是字符串開頭如果要實現從字符串中獲取一段子字符串的話,可以使用變量 [頭下標:尾下標],就可以截取相應的字符串,其中下標是從 0 開始算起,可以是正數或負數,下標可以為空表示取到頭或尾。
  • 方差檢驗專題及常見問題 - CSDN
    spss–差異分析差異研究的目的在於比較兩組數據或多組數據之間的差異,通常包括以下幾類分析方法,分別是:1:T檢驗;2:方差分析;3:卡方檢驗;
  • mnist tensorflow 預測專題及常見問題 - CSDN
    for updating:Please use alternatives such as official/mnist/dataset.py from tensorflow/models.WARNING:tensorflow:From /home/cnu105/anaconda3/lib/python3.6/site-packages/tensorflow/contrib/learn/python
  • 有現狀 需求分析專題及常見問題 - CSDN
    第十七組  軟體社會人才需求現狀及發展趨勢分析分工:第一點:李玥—社會需求—4小時              靳子瀟—薪資待遇—4小時              代千弘—知識要求—4小時              任勝澤—數量需求—4小時
  • windows10卡啟動修復專題及常見問題 - CSDN
    在Windows 10上,安全模式允許加載一組基本功能和通用設備驅動程序,足以解決常見的軟體和硬體問題。例如,當計算機無法正常啟動、網絡連接問題以及應用程式或Windows Update無法下載更新時,可以使用安全模式對其進行故障排除。
  • 浪潮大數據分析平臺專題及常見問題 - CSDN
    近年來,大數據處理與分析已經成為全球性問題,引起歐美各國政府和產業界高度重視,美國政府於2012年3月率先發布了《大數據研究與發展計劃》,Google, Amazon、Facebook、IBM、EMC、SAP等國際領先網際網路和仃公司都在相關技術領域和應用進行布局,力圖在大數據產業浪潮中搶得先機。
  • 知識圖譜的用戶需求分析專題及常見問題 - CSDN
    但在此之前,我們需要對當前的問題做一個分析。1.1 問題更複雜的數據應用場景不僅是傳統的電商,現在我們面臨的是新零售、多語言、線上線下結合的複雜購物場景,所用到的數據也往往超出了以往的文本範圍,這些數據往往都具有一些特點:非結構化網際網路的大量數據都是分散在各個來源而且基本是非結構化文本方式來表示,目前的類目體系從商品管理角度出發,做了長期而大量的工作,仍然只是覆蓋了大量數據的冰山一角,這對於認知真正的用戶需求當然是遠遠不夠的
  • 流轉json專題及常見問題 - CSDN
    OvsHttpMessageConverter(); ObjectMapper objectMapper = new ObjectMapper(); /** * 序列換成json時,將所有的long變成string, 因為js 中得 Number 數字類型不能包含所有的 java long 值 (js中會被截斷) * 參考文章: https://blog.csdn.net
  • spss 方法 線性回歸專題及常見問題 - CSDN
    方法:採用多階段隨機抽樣法,對北京市4個區120名老年人進行問卷調查,採用老年人生活活動能力量表篩選失能老年人,使用自行編制的社區失能老年人照護需求調查問卷對其照護服務需求內容進行調查,分析照護需求的影響因素。
  • eviews線性回歸模型專題及常見問題 - CSDN
    2  多重共線性模型的識別2.1  綜合判斷法由模型的估計結果可以看出R方=0.979655,可決係數很高,說明模型對樣本的擬合很好;F=60.18950檢驗值比較大,相應的P=0.000204,說明回歸方程顯著,即各自變量聯合起來確實對因變量Y有顯著影響;給定顯著性水平a=
  • 《python 入陣曲:初級》開題報告
    本課程以培養編程思維和編程能力為核心,雖然沒有將python語言的細節面面俱到,但把編者日常使用、覺得好用的內容傾囊相授,並非要以嚴謹的知識體系介紹python這門語言(而這顯然是筆者力所不能及的)。程式設計師的生存現狀        自己眼中的計算機領域的發展前景        自我介紹###    2、編程環境的配置        python環境的部署        好的編輯器是成功的一半        python各種庫的安裝和使用        程序:設計、編寫、運行、調試
  • 垂直行業雲計算專題及常見問題 - CSDN
    在他看來,A代表Algorithm(算法),B代表BigData(大數據),C代表Cloud(雲計算),金山醫療雲希望以其深厚的技術積累為醫療行業賦能,將雲計算專屬安全雲技術、AI/語音/影像/文本識別技術、醫療數據互聯互通技術、大數據分析技術、區域影像雲技術、智能硬體/物聯網技術等應用到醫療行業,重塑醫療健康信息化服務,致力於提升基層醫療服務能力,打造區域醫療與健康數據互聯互通
  • kappa一致性檢驗教程 - CSDN
    一、基礎知識在數據分析或臨床工作中,我們會經常遇到檢驗一致性的問題,如判斷不同模型或者診斷方法在預測結果上是否具有一致性,如模型預測的結果與實際結果是否具有一致性,又如兩名或多名醫生對同一病人的診斷結論是否一致
  • Python爬取CSDN 2020 博客之星實時數據排名
    打開 Google Chrome 的審查工具,可以找到一個 getUsers 的請求,請求地址為:https://bss.csdn.net/m/topic/blog_star2020/getUsers,請求方式為 POST,返回的是 JSON 格式的數據,裡面包含了每一位博主的相關信息。
  • 項目需求分析的重要性專題及常見問題 - CSDN
  • 的方法 線性回歸方程檢驗專題及常見問題 - CSDN
    兩種分析方法解決的問題是沒有本質區別的,因此同學們完全可以根據自己的需要選擇。建議的選擇標準,參考學科內近期前輩的畢業論文。你是碩士就參考碩士的,是博士就參考博士。通過第三個因素或其他因素才能聯繫要分析的兩變量關係),直接運用線性回歸分析無法得出我們想要的結果。    這時可以採取sobel-test,階段式回歸分析等方式來進行檢驗。線性回歸分析一般使用SPSS軟體進行分析。
  • Python中pip常見問題以及解決辦法
    這個問題有用嗎?解決辦法二.添加到名為pip的$ PATH符號連結,指向pip3二進位文件(順便說一句,即使關於pip並不是真正與python相關的問題,所以你應該重拍它)將/usr/bin/pip備份/刪除,從所需的pip版本建立符號連結。
  • 分析物聯網與雲計算的關係專題及常見問題 - CSDN
    但還存在一些問題等待解決,例如,物聯網,雲計算,大數據與網際網路是怎樣的關係,它們之間又是如何區分和關聯的。本世紀初開始的網際網路與腦科學的交叉對比研究,為分析物聯網,雲計算,大數據與網際網路的關係奠定了基礎。    如果我們觀察近20年來網際網路出現的新應用和新功能,可以直觀的發現網際網路與大腦結構具有越來越多的相似性。
  • 為什麼數據分析要學習Python?
    酷炫的圖表,理性的分析闡述,出其不意又在情理之中的思考角度,總讓人對這群「用數據講故事的人」充滿了嚮往。:數據獲取整理——數據分析——數據報告幾個關鍵環節。1、基礎能力:使用Excel完成簡單的數據分析工作Excel相信大家都已經很熟悉了,它適用於一些數據量不大、重複性不算強的工作場景,但面對海量數據和批量任務時,也會存在效率低(數據量大時會卡死)、復用性不強等問題。
  • python3+dlib人臉識別及情緒分析
    1、安裝VS2015,因為最新版的dlib-19.10需要這個版本的vscode2、安裝opencv(whl方式安裝):從pythonlibs下載需要的版本whl文件,比如(opencv_python?3.3.0+contrib?cp36?cp36m?win_amd64.whl)然後在本地使用pip install 安裝。