「 前面進行了數據導入和整理,接著開始統計分析,一般地,首先要對數據有個整體的了解。這裡就是描述性統計分析,下面看看描述性統計分析在R中的實現。」 導入數據,這裡我通過choose.files()命令調出複選框選擇我存在電腦中的mydata.csv文件,colClasses是對數據框列類型進行設置,這裡我設置mydata數據前4列為字符型,後8列為數值型。
# 導入數據mydata <- read.csv(choose.files(),sep = ",",header = T, colClasses = c("character","character","character","character", "numeric","numeric","numeric","numeric","numeric", "numeric","numeric","numeric")) 常見的描述性統計指標有平均值,最大值,最小值,中位數,眾數,標準差,方差等。下面將各指標概念羅列如下,詳細計算可參看《田間試驗與統計分析》第二版,明道緒主編。也可藉助萬能的度娘(百度)搜索查看。最小值(min),最大值(max):顧名思義,數據集中最小的和最大的數值。中位數(median):數據按照順序排列後居於中間位置的數,若觀測值是奇數時,正好是位於中間的數,若為偶數時,則為位於中間的兩個觀測值的平均數。平均值(mean):也就是算術平均值(arithmetic mean),即所有觀測值的總和除以觀測值個數。四分位數(quantile):把所有數值由小到大排列並分成四等份,處於三個分割點位置的數值,通常所說的四分位數是指處在25%位置上的數值(稱為下四分位數)和處在75%位置上的數值(稱為上四分位數)。標準差(sd):又常稱均方差,是離均差平方的算術平均數的平方根。方差(var):每個樣本值與全體樣本值的平均數之差的平方值的平均數。R中可以用summary()函數進行數據框描述性統計結果的查看。 以上描述性統計是針對某一列的數據進行的,然而試驗數據經常會遇到分組的情況,下面看看怎麼分組匯總。 這裡是將mydata數據框中列變量名稱加入到R語言可搜索範圍,至於attach()函數的作用可以參考《R語言實戰》,與之相反的函數是detach()。我個人的理解,用了attach後,R將列變量名稱放置在了內存中,下次再要調用列變量時,可以直接輸入名稱就行,不用再輸入類似mydata$LER了,直接輸入LER。
aggregate(LER,by=list(year,nitrogen,pattern),FUN=mean)aggregate(cbind(LER,MO,CO)~year+nitrogen+pattern,FUN=mean)library(dplyr)mydata %>% group_by(year,nitrogen,pattern) %>% summarise(count=n(),LERmean=mean(LER,na.rm=TRUE),LERsd=sd(LER,na.rm=TRUE))