如果讓我推薦一門統計軟體,我就推薦你學R語言。R不僅具有非常強大的統計分析能力和繪圖能力,更重要的是免費。在未來,越來越來的期刊會要求使用正版軟體。
網上有不少針對R語言的教程,有一些確實不錯,但使用起來,總有些實際很常用,卻沒有講的內容,所以我想著從實戰出發,自己爭取出個系列教程,方便大家使用。
導入數據
#刪除內存中變量rm(list = ls())
mydata <- read.delim("clipboard")str(mydata)head(mydata,9)
#取子集1
#年齡>50,BMI>27,男性
newdata1<-mydata[mydata$age>50 & mydata$sex==1 & mydata$bmi>27,]head(newdata1)
#取子集2
#年齡>50或年齡<30,男性,BMI<24
newdata2<-mydata[mydata$age>50 & mydata$sex==1 & mydata$bmi>27 | mydata$age<30 & mydata$sex==1 & mydata$bmi>27,]head(newdata2)
#取子集3、4
#提取sex, age, bmi, work, x, y, disease變量
newdata3<-mydata[,c("sex","age","bmi","work","x","y",'disease')]head(newdata3)
newdata4<-mydata[c("sex","age","bmi","work","x","y",'disease')]head(newdata4)
#取子集5
#取子集subset函數
#年齡大於75或年齡小於20,男性,病人
newdata5<-subset(mydata,age>75 & sex==1 & disease==1 | age<20 & sex==1 & disease==1)head(newdata5)
#取子集6
#不選擇a、b、c三個變量
#年齡大於75或年齡小於20,男性,病人,保留變量sex age bmi work x y disease
newdata6<-subset(mydata,(age>75 | age<20) & sex==1 & disease==1,select = c(sex:work,x:disease))head(newdata6)
#取子集7
#年齡大於75或年齡小於20,男性,病人,去除變量a b c
newdata7<-subset(mydata,(age>75 | age<20) & sex==1 & disease==1,select = -c(a:c))head(newdata7)