STATA:一次性實現變量的9種正態變換

2021-03-01 Stata中文社區

各位小夥伴已經陸續開學,見到老朋友和新朋友的欣喜之餘,學習也關閉了摸魚模式,正式開啟科研模式。開學的這幾天,已經有好幾位萌新來問我數據不正態該怎麼辦?今天我們就一起來看一看可以怎麼辦。

1.為什麼要進行正態檢驗?

我們經常使用的參數檢驗,方差分析,線性回歸分析等統計方法只有在變量服從正態分布時才能表現最佳,所以保證變量的正態性是非常重要的,這也是進行統計分析的重要步驟。

2.如何檢驗數據正態與否?

正態性檢驗的方法有兩大類:

一是圖示法:概率圖(probability-probability plot, P-P plot)和分位數圖(quantile-quantile plot, Q-Q plot), 圖示散點幾乎都在一條直線上,可認為資料服從正態分布。①對偏度(skewness和峰度(kurtosis)各用一個指標來評定,其中以矩法(method of moment),又稱動差法,效率最高;矩法是利用數學上的矩原理來檢驗偏度和峰度。偏度指分布不對稱的程度和方向,用偏度係數(coefficient of skewness)衡量。②僅用一個指標來綜合評定,其中以W檢驗法(S.S.shapiro&M.B.Wilk,1965)和W'檢驗法(S.S.Shapiro&R.S.Francia,1972)效率最高,適用於樣本含量n少於100的資料;D檢驗法(R.B.D'Agostino,1971)效率也高,適用於樣本含量n為10-2000的資料。3.怎樣進行數據正態轉換?
 clear all
 sysuse citytemp
 ladder tempjuly  

對變量「tempjuly 」進行梯度正態變換,進行了9種變換,結果發現3種變換的結果符合正態分布(p>0.05),且平方根的效果更好,p=0.400

gladder tempjuly, l1title("") ylabel(none)  xlabel(none)

梯度變換後的直方圖結果可以直觀感受變換的效果

qladder tempjuly, ylabel(none) xlabel(none)

梯度變換後的q-q圖

除了上述轉換方式之外,還有box-cox等轉換方法,具體介紹將在下期推文進行。

參考資料:[1]孫振球,徐勇勇.醫學統計學[M]北京:人民衛生出版社,2014:39[2]stata16.0系統數據

相關焦點

  • 試試Box-Cox變換吧!
    如果有,那一定是Box-Cox變換。Box-Cox變換是一種廣義冪變換方法,可以明顯地改善數據的正態性和方差齊性,但變換後數據是否滿足正態性仍需要考察驗證。y為連續變量,且要求取值為正(若取值為負則需要對原始數據加上一個常數使其為正)。
  • 用 BOX-COX 變換進行數據正態性處理
    筆者之前寫了題為《用Python講解偏度和峰度》的文章,在那篇文章裡,筆者介紹了偏度、峰度以及如何基於二者進行數據正態性的判斷,而今天筆者將介紹一下如何將數據進行正態性轉換。在我們進行數據分析時,遇到的數據往往不是呈正態分布的,而如果數據不是正態性的,那麼在部分情況下會帶來一些問題。
  • 機器學習基礎 - 偏度、正態化以及 Box-Cox 變換
    1引言對於數據挖掘、機器學習中的很多算法,往往會假設變量服從正態分布。例如,在許多統計技術中,假定誤差是正態分布的。這個假設使得能夠構建置信區間並進行假設檢驗。因此,在數據預處理階段會查看目標變量以及各個特徵是否服從或接近正態分布,如果偏離就通過一定變換將該數據的分布正態化。一般來說,數據的直方圖如果單峰並近似正態但看上去又有些扭曲,可以考慮正態化。
  • 標準正態曲線
    標準正態曲線  1.標準正態分布是一種特殊的正態分布,標準正態分布的μ和σ2為0和1,通常用ξ(或Z)表示服從標準正態分布的變量,記為Z~N(0,1)。  2.標準化變換:此變換有特性:若原分布服從正態分布,則Z=(x-μ)/σ~N(0,1)就服從標準正態分布,通過查標準正態分布表就可以直接計算出原正態分布的概率值。故該變換被稱為標準化變換。  3.標準正態分布表:標準正態分布表中列出了標準正態曲線下從-∞到X(當前值)範圍內的面積比例。
  • 標準正態分布
    標準正態分布有很多特殊性,其概率密度函數有很好的性質,其大小可以通過查表獲得(見分享圖片),所以在處理一般正態分布的問題的時候往往先轉化為標準正態分布. 預備知識分布函數是概率密度函數的自變量從負無窮到某定值對應因變量取值累加的結果,又叫累計概率函數,常用F(x)表示. 於是
  • SPSS詳細操作:正態轉換的多種方法
    1、輕度正偏態分布偏度值>0,偏度值為其標準誤差的2-3倍,即Z-score=2~3,此時認為資料分布呈現輕度的正偏態分布,可以考慮對變量x取根號開平方的方法來進行轉換。對於負偏態分布的數據資料,首先需要將負偏態資料進行反轉,轉換為正偏態,然後再參考正偏態分布資料的轉換方法進行轉換。
  • 如何讓Stata按照四分位數間距分組某變量「技巧」
    如何讓Stata按照四分位數間距分組某變量【技巧】做數據分析的時候,有時我們需要把變量進行等分,如按中位數進行二等分,或根據四分位數進行四等分。我們一起看看通過stata如何實現四等分。首先,安裝astile命令:ssc install astileastile的完整命令為:astile newvar=exp [if] [in] [, nquantils(#) qc(string) by(varlist)]其中,nquantils(#)表示將變量取值由小到大分為#個組,如nq(2)表示按中位數進行二等分
  • 正態分布在機器學習中為何如此重要?
    模擬 2000 次擲2顆骰子的結果,完美的正態分布這就是概率統計中大名鼎鼎的中心極限定理:如果樣本量足夠大,則變量均值的採樣分布將近似於正態分布,而與該變量在總體中的分布無關。根據中心極限定理,如果一個事物受到多種因素的影響,不管每個因素本身是什麼分布,它們加總後,結果的平均值就是正態分布。
  • 畢業論文寫作∣調節變量及其Stata應用舉例
    相應的stata命令為:接下來,看M對因變量Y與自變量X之間的關有否調節效應。檢驗如下:1、生成一個新變量XM,該變量為自變量X和M的乘積。Stata的命令為:2、對三個變量進行回歸。我們將這個回歸結果存儲為「result2」,相應的stata命令為:3、我們把這兩個回歸結果分放在一起進行比較,相應的stata命令為:outreg2  [result1 result2]
  • 第三節 正態分布和醫學正常值範圍的估計
    以上均為常數,僅X為變量。   為了應用方便,常將式(18.16)進行變量變換—u變換(即u=(X-μ)/σ),u變換後,μ=0,σ=1,使原來的正態分布變換為標準正態分布(standard normal distribution)亦稱u分布,如圖18-2。
  • 一文搞懂「正態分布」所有重要知識點
    連續型隨機變量研究區間概率了解了正態分布的基本思想,我們來看看實際應用中我們需要掌握的要點。首先,正態分布屬於「連續型隨機變量分布」的一類。我們知道,對於連續型隨機變量,我們不關注「點概率」,只關注「區間概率」,這是什麼意思?
  • 終於搞清楚正態分布、指數分布到底是啥了!
    ,繼續來聊聊連續型隨機變量的概率分布,以及用Python如何實現。下面是三種典型的連續型隨機變量的概率分布隨機變量X服從一個數學期望為μ、方差為σ^2的正態分布,就是正態分布,也叫做高斯分布,通常記做:標準正態分布
  • Stata語言中的常用函數及其用法解釋, 在附上42篇Stata相關學習資料
    Stata所有函數在此集結,8.世界範圍內使用最多的500個Stata程序,9.6張圖掌握Stata軟體的方方面面, 還有誰, 還有誰? 10.LR檢驗、Wald檢驗、LM檢驗什麼鬼?怎麼在Stata實現,11.Stata15版新功能,你竟然沒有想到,一睹為快,12."
  • 一文收藏stata14&15小抄:常用命令匯總
    command 本節主要對stata一些基礎命令例如導入導出和描述性分析以及創建新變量進行學習。圖1.3 stata導入調用數據圖1.4 stata圖1.8  stata描述性命令tabstat圖1.9  創建新變量 命令gene
  • Stata作圖
    默認時,stata將數據確定為連續型,如果我們需要stata做離散直方圖的話,加上選項discrete.histogram educ,discrete (選項用英文逗號隔開)還可以給直方圖加上密度圖像。.histogram educ,normal (這個選項就可以做正態分布密度圖像)
  • 概率|無處不在的高斯分布(1)——標準正態分布
    現在我將試圖解答一個重要的問題:標準正態分布和正態分布有什麼區別?「標準」何意?簡單的說,標準正態分布是正態分布的一種特殊情況。所有的正態分布都可以轉化為標準正態分布,標準正態分布也可以轉化成任何正態分布。我們先來看一個正態分布的PDF:
  • R統計-正態性分布檢驗[Translation]
    為了得到可靠的解釋和分析結果,研究數據的正態性和其它假設都應得到充分的重視。如果樣本足夠大(>30或40),數據很有可能會呈或至少接近正態分布,這樣可以使用參數檢驗,例如t檢驗(中心極限定理)。本流程基於R,通過可視化數據(QQ圖和密度分布)和顯著性性檢驗(Shapiro-Wilk檢驗)數據的正態性。,行為樣品名稱,列為環境因子名稱和分組信息,共有11個環境變量,3個分組信息。
  • 【學習記·第38期】stata常見問題及解決辦法
    先輸入數據(1)Twoway connected 變量1 變量2 //劃出折線圖   (2)twoway scatter 變量1 變量2 //劃出散點圖2. 怎樣在stata中做HAUSMAN檢驗?: reg y x1 x2 i.province9.有會面板數據單位根檢驗,協整實證研究的嗎?
  • Stata應用實例(條件分布、矩與迭代期望iretated expectation))
    1.1 打開此datasetCommand: use "/Users/zhaoshurey/Desktop/STATA/grilic.dta"1.2 描述性語句Command: dobs(observation樣本容量) vars(變量)rnr(是否南方居民) mrt(是否結婚
  • 相關知識考點:標準正態分布
    1概率密度函數  當μ=0,σ=1時,稱X服從標準正態分布,記作X~N(0,1)。  服從標準正態分布的隨機變量記為U,它的概率密度函數記為。  若X~N(μ,σ2),則~N(0,1)。  實際中很少有一個質量特性(隨機變量)的均值恰好為0,方差與標準差恰好為1.一些質量特性的不合格品率均要通過標準正態分布才能算得,這一點將在後面敘述。  2標準正態分布表  標準正態分布函數表,它可用來計算形如「」的隨機事件發生的概率,記為。  正態分布N(0,1)的分位數。