本文轉自SAS知識 (ID: SASadvisor),摘自《深入解析SAS — 數據處理、分析優化與商業應用 》
回復「朝陽35處」可查看「說人話的大數據」系列合輯
前面文章我們提到,TTEST過程可以進行單樣本、獨立雙樣本、配對樣本均值T檢驗和置信區間的計算。
本文對獨立雙樣本均值T檢驗做進一步的介紹。
在雙樣本條件下,也可以通過構造t統計量利用T分布理論來比較兩樣本所代表的總體的均值是否有顯著差異,如果兩個樣本是完全獨立的,該檢驗就叫做獨立雙樣本均值T檢驗(如圖10.18所示)。進行獨立雙樣本均值T檢驗時,樣本必須滿足以下三個條件:
圖10.18 獨立雙樣本均值T檢驗的假設條件示意圖
兩個樣本方差相等的檢驗,也稱為兩樣本方差齊性檢驗,可以通過構造F統計量及F統計量的分布理論進行檢驗。這種檢驗稱為F檢驗。F檢驗的原假設H0和備擇假設H1分別如圖10.19所示。
圖10.19 方差齊性檢驗示意圖
統計量F=,當原假設H0為真時,F的取值趨近於1,相應的P值也應比較大(p>0.05)。
進行F檢驗時,數據必須服從正態分布,即使樣本量很大時,也要求數據服從正態分布。這個條件相對比較苛刻,當數據不服從正態分布,我們只能通過作圖來大致判斷兩樣本的方差是否近似相等。當方差齊性條件不滿足時,可以使用近似T檢驗(結果也在TTEST過程中自動輸出)。
在進行T檢驗時,必須逐條檢查上述三個假設條件是否滿足,當不滿足以上假設條件時,使用T檢驗或者近似T檢驗可能導致不準確的結論。
使用T檢驗進行雙樣本均值比較時,原假設H0和備擇假設H1分別為
例10.4:某次考試後,教導主任欲分析在該次考試中男生與女生的學習成績是否存在顯著性差異,因此在該學校參加考試的1000名學生中,隨機抽取了100名同學作為樣本,並保存在數據集ex.score中,數據集中包含ID、Score和Gender三個變量,其中部分數據如圖10.20所示。
圖10.20 數據集ex.score中部分數據
下面運用T檢驗比較ex.score中男生和女生學習成績是否由差異。
在運用TTEST過程進行檢驗時,首先要檢查數據是否滿足T檢驗的正態性條件。
TTEST過程中默認輸出的直方圖和Q-Q圖可以快速檢查數據是否滿足正態性條件(如圖10.21和圖10.22所示)。
圖10.22 例10.4Q-Q圖
可以看到,Q-Q圖顯示數據點都集中在直線附近,可以判斷兩個組中數據都服從近似正態分布。如果從Q-Q圖中看出數據明顯不服從正態分布,且樣本容量不大時,可以使用非參數檢驗方法比較兩組數據的均值是否存在顯著差異,SAS中的NPAR1WAY過程可以進行該項非參數檢驗。
TTEST過程輸出的統計報表如圖10.23所示。
圖10.23 例10.4描述統計量報表
第一張報表中展示了兩組樣本的描述性統計量及兩組樣本均值之差的標準差和標準誤差。
圖10.24 例10.4TTEST過程部分報表
首先來看一下第四張報表,第四張報表輸出的是方差齊性檢驗的結果(如圖10.24中的第三張表所示)。由於前面已經得知,兩個樣本都近似服從正態分布,因此可以使用F檢驗進行兩樣本方差齊性檢驗,F值=1.05,趨近於1,並且對應的P值=0.8920>0.05,因此不能拒絕原假設,也就說在顯著性水平的情況下,不能拒絕兩樣本方差相等的原假設。
然後再來看第二張和第三張報表中T檢驗的結果(如圖10.24中的第一張和第二張表所示)。在TTEST過程中,系統自動輸出了方差齊性滿足和不滿足兩種情況下T檢驗的結果(後者也稱為近似T檢驗)。當方差齊性條件滿足時,應查看匯總方法(Pooled)的T值與P值;當方差齊性條件不滿足時,應查看Satterthwaite方法的T值與P值。這裡我們已經知道方差齊性條件滿足了,且匯總方法對應的T值=1.92,P值=0.0582>0.05,所以沒有足夠的證據證明男生和女生的考試成績存在顯著差異。同時,在第二張報表中,均值之差的95%置信區間為(-0.1422,8.1422),包含了0,暗含在95%置信水平下男生和女生考試成績的差別不大。
最後,來看兩組均值之差的置信區間圖(如圖10.25所示)。
圖10.25 例10.4置信區間圖
因為,兩組的方差非常接近,所以T檢驗(匯總)和近似T檢驗(Satterthwaite)的置信區間及P值都非常接近,並且置信區間都包含了0,和第二張報表中的輸出一致。
有些時候,在醫學臨床試驗中,我們並不能直接接觸樣本數據,只能獲取一些樣本數據的統計結果,如樣本容量、均值、標準差等統計量,這時通過TTEST過程也可以進行兩樣本均值的比較。
例10.5:通過數據集ex.score計算出樣本容量、均值、標準差、最大值、最小值等統計量,並保存在數據集work.summary中,然後再運用TTEST過程分析work.summary。注意查看結果是否與例10.4相同。
示例代碼如下:
查看Work.Summary中的數據,如圖10.26所示,其中包含了5個變量,Gender表示分組變量,_TYPE和_FREQ_是系統默認輸出變量,_STAT_表示統計量名稱,有5個不同的取值,分別為N、MIN、MAX、MEAN、STD,Score是原數據集中的分析變量,這裡保存了各個統計量的值。
圖10.26 數據集work.summary內容
示例代碼如下:
圖10.27 例10.5TTEST過程報表
可以看出,這裡TTEST過程中除了沒有輸出默認的直方圖和Q-Q圖(因為直方圖和Q-Q圖需要有原始觀測值才能畫出)以外,其餘的報表和例10.4中一模一樣。
在運用TTEST過程進行T檢驗時,當數據集中包含變量_TYPE_或者_STAT_時,系統默認輸入的數據集是一個統計結果,而非原始數據。在此種情況下,_STAT_的取值必須包含統計量N、MEAN和STD。如果數據集中不包含這三個統計量,系統將報錯。
注意:雖然使用統計結果也可以進行均值T檢驗,但是僅從統計結果中,我們無從得知數據的分布情況,在輸出T檢驗的結果時,也沒有辦法檢查數據是否服從檢驗的假設條件。當匯總方法和Satterthwaite方法的P值差別比較大時,就無法分辨該依據哪種方法的P值給出接受原假設或者拒絕原假設的結論。
在獨立雙樣本均值T檢驗中,我們不僅關注兩個樣本所代表的總體的均值是否存在差異,更加關注某一樣本所代表總體的均值是不是顯著比另一樣本所代表總體的均值更高或者更低。例如,在某種新降血壓藥品的研發過程中,公司更關注的是該種藥品是否真的能起到降血壓作用;某廠引進一種新方法生產固體燃料推進器,該廠更關注在新方法下生產的推進器的燃燒率是否較以往生產的有顯著的提高等。這種類型的均值假設檢驗稱為單邊T檢驗。單邊檢驗不僅可以在雙樣本的情況下運用,在單樣本的情況下同樣適用。
單邊T檢驗的原假設H0和備擇假設H1分別為:
在TTEST過程中,選項SIDES=U的原假設H0和備擇假設H1分別為
選項SIDES=L的原假設H0和備擇假設H1分別為
單邊T檢驗除了在雙樣本情況下適用,在單樣本情況下也適用。
在上面分析學生考試成績的例子中,根據以往的考試結果和升學率,該校教導主任一直認為男生考試成績普遍比女生考試成績好,但是最近他似乎覺得情況開始發生了轉變,他偏向於認為現在女生的考試成績優於男生的考試成績,因此他希望通過分析這次的考試成績來證明他的觀點。那麼,他分析的備擇假設應該是:女生的平均成績>=男生的平均成績,也就是>=0,那麼原假設應為H0:<0。
例10.6:分析數據集ex.score中女生的平均成績是否比男生的平均成績顯著更高(=0.05)。
示例代碼如下:
程序中選項H0=0是系統默認的,用戶可以通過選項H0=為原假設指定任何值,選項SIDES=U表示原假設為,因為按字母排Female排在Male前面,所以原假設即為:
Female的考試成績均值-Male的考試成績均值<0
輸出如圖10.28所示。
圖10.28 例10.6TTEST過程報表
可以注意到,差值(Female-Male)均值仍然和例10.4中一樣,但是95%的置信區間已經不一樣了,現在95%的置信區間的置信上限為正無窮。T值為1.92,和例10.4中的t值一樣,因為不管是雙邊檢驗還是單邊檢驗,是用同樣的樣本構造出的統計量t。當SIDES=U時,P值=P{Pr>t值},取值為0.0291<0.05,說明在0.05顯著性水平上,應該拒絕原假設,也就是說,女生考試的平均成績不比男生低。
本文結束,下一篇文章開始介紹「配對樣本均值T檢驗」。
回復【數據和代碼】可以下載《深入解析SAS》一書的數據和代碼。
查詢往期文章,請回復下列關鍵字:
【安全】==>【SAS智能平臺安全管理】系列文章
【Base基礎】==>【Base SAS基礎】系列文章
【編程概念】==>【SAS編程基本概念】系列文章
【描述性統計】==>【SAS統計分析系列:描述性統計分析】系列文章
【讀外部數據】==>【讀取外部數據到SAS數據集】系列文章
讀者可以從以下連結獲取SAS公司提供的免費版環境:
SAS大學版(SAS® University Edition)是SAS為在校大學生免費提供的基於虛擬機和網頁的SAS環境。
下載路徑:
https://www.sas.com/en_us/software/university-edition/download-software.html
SAS學術版(SAS® OnDemand for Academics)是 SAS 為學術屆人士免費提供的、在線的、基於SAS 私有雲上的應用服務環境。
用戶首先需要註冊,然後按照提示信息就可登錄。
註冊路徑:
http://odamid.oda.sas.com
本文轉自《深入解析SAS — 數據處理、分析優化與商業應用 》
作者:夏坤莊、徐唯、潘紅蓮、林建偉
如若轉載本文,請在文章頂部標註 「本文轉自SAS知識 (ID: SASAdvisor),摘自《深入解析SAS — 數據處理、分析優化與商業應用 》」
《深入解析SAS — 數據處理、分析優化與商業應用》第一作者, SAS軟體研究開發(北京)有限公司客戶職能部總監。在承擔研發工作的同時,夏及其團隊負責對SAS非英語市場提供技術支持,並且與在美國及其它地區的團隊一起,服務於SAS的SaaS/RaaS業務,同時提供和驗證關於SAS產品和技術在應用領域的最佳實踐。在加入SAS軟體研究開發(北京)有限公司之前,夏就職於SAS中國公司,歷任資深諮詢顧問、項目經理、首席顧問、諮詢經理,擁有豐富的諮詢和項目實施經驗。在長期的從業經歷中,不但為SAS的金融行業客戶成功實施了眾多深受好評的項目,而且在近年領導實施了非金融行業的多個大數據分析項目。
SAS知識 微信:SASAdvisor 長按二維碼關注
歡迎大家投稿,一起分享SAS的點滴
投稿郵箱: sasadvisor@outlook.com
4月原創好文回顧,請點擊閱讀:
朝陽35處|去哪兒邂逅夢中情人?大數據揭秘各地美女大不同
零道書院|黑產領域再傳噩耗...
7扇門|驚人!這種欺詐手段居然成本這麼低…
朝陽35處|大數據教你如何避開99%的酒駕司機