R語言data manipulation學習筆記之subset data

2021-03-02 表哥有話講

taoyan：R語言中文社區特約作家，偽碼農，R語言愛好者，愛開源。

個人博客: https://ytlogos.github.io/

公眾號：生信大講堂

往期回顧

數據分析過程中我們常常需要從數據集中抽取部分數據，本文將介紹如何提取子數據集，主要利用R自帶的函數，以後會專門介紹data manipulation包dplyr。提取子數據集主要分為select以及exclude，這裡主要介紹兩種方法，一是利用操作符[]進行選取，二是利用subset()進行抽取。

利用[]進行提取

#use the iris dataset

head(iris)

## Sepal.Length Sepal.Width Petal.Length Petal.Width Species

## 1 5.1 3.5 1.4 0.2 setosa

## 2 4.9 3.0 1.4 0.2 setosa

## 3 4.7 3.2 1.3 0.2 setosa

## 4 4.6 3.1 1.5 0.2 setosa

## 5 5.0 3.6 1.4 0.2 setosa

## 6 5.4 3.9 1.7 0.4 setosa

# check the column namenames(iris)

## [1] "Sepal.Length" "Sepal.Width" "Petal.Length" "Petal.Width" "Species"

加入我們想要提取Sepal.Length、Sepal.Width兩列數據，可以使用如下代碼：

dt1 <- iris[, c("Sepal.Length","Sepal.Width")]head(dt1)

## Sepal.Length Sepal.Width

## 1 5.1 3.5

## 2 4.9 3.0

## 3 4.7 3.2

## 4 4.6 3.1

## 5 5.0 3.6

## 6 5.4 3.9

#也可以直接用列序號代替，比如這裡我們想要提要前兩列

dt2 <- iris[, c(1, 2)]head(dt2)

## Sepal.Length Sepal.Width

## 1 5.1 3.5

## 2 4.9 3.0

## 3 4.7 3.2

## 4 4.6 3.1

## 5 5.0 3.6

## 6 5.4 3.9

如果我們需要刪除前兩列，只需在序號之前添加符號 - 就行

dt3 <- iris[, c(-1, -2)]head(dt3)

## Petal.Length Petal.Width Species

## 1 1.4 0.2 setosa

## 2 1.4 0.2 setosa

## 3 1.3 0.2 setosa

## 4 1.5 0.2 setosa

## 5 1.4 0.2 setosa

## 6 1.7 0.4 setosa

可以看出十分簡單就可以提取子數據集，下面介紹subset()，subset()相比於[]主要是可以方便的根據條件提取子數據集。

利用subset()進行提取

#create a dataset

fy <- c(2010,2011,2012,2010,2011,2012,2010,2011,2012)

company <- c("Apple","Apple","Apple","Google","Google","Google","Microsoft","Microsoft","Microsoft")

revenue <- c(65225,108249,156508,29321,37905,50175,62484,69943,73723)

profit <- c(14013,25922,41733,8505,9737,10737,18760,23150,16978)

companiesData <- data.frame(fy, company, revenue, profit)

head(companiesData)

## fy company revenue profit

## 1 2010 Apple 65225 14013

## 2 2011 Apple 108249 25922

## 3 2012 Apple 156508 41733

## 4 2010 Google 29321 8505

## 5 2011 Google 37905 9737

## 6 2012 Google 50175 10737

假如我們想要提取revenue超過十萬的公司

com1 <- subset(companiesData, revenue>100000)

head(com1)

## fy company revenue profit

## 2 2011 Apple 108249 25922

## 3 2012 Apple 156508 41733

或者我們想要提取在2012年revenue超過6萬的公司

com2 <- subset(companiesData, fy=="2012"&revenue>60000)

head(com2)

## fy company revenue profit

## 3 2012 Apple 156508 41733

## 9 2012 Microsoft 73723 16978

或者提取在2012年revenue超過6萬、profit超過4萬的公司

com3 <- subset(companiesData, fy=="2012"&revenue>60000&profit>40000)

com3

## fy company revenue profit

## 3 2012 Apple 156508 41733

條件選擇也可以使用或，比如我們想要提取profit超過2萬或者revenue低於5萬的公司

com4 <- subset(companiesData, revenue<50000|profit>20000)

com4

## fy company revenue profit

## 2 2011 Apple 108249 25922

## 3 2012 Apple 156508 41733

## 4 2010 Google 29321 8505

## 5 2011 Google 37905 9737

## 8 2011 Microsoft 69943 23150

本文只是粗略的講解，其實subset()的用法很廣，有興趣的朋友可以自行探索。

SessionInfo

sessionInfo()

## R version 3.4.0 (2017-04-21)

## Platform: x86_64-pc-linux-gnu (64-bit)

## Running under: Ubuntu 16.04.2 LTS

## Matrix products: default

## BLAS: /usr/lib/atlas-base/atlas/libblas.so.3.0

## LAPACK: /usr/lib/atlas-base/atlas/liblapack.so.3.0

## locale:

## [1] LC_CTYPE=en_US.UTF-8 LC_NUMERIC=C

## [3] LC_TIME=en_US.UTF-8 LC_COLLATE=en_US.UTF-8

## [5] LC_MONETARY=en_US.UTF-8 LC_MESSAGES=en_US.UTF-8

## [7] LC_PAPER=en_US.UTF-8 LC_NAME=C

## [9] LC_ADDRESS=C LC_TELEPHONE=C

## [11] LC_MEASUREMENT=en_US.UTF-8 LC_IDENTIFICATION=C

## attached base packages:

## [1] stats graphics grDevices utils datasets methods base

## loaded via a namespace (and not attached):

## [1] compiler_3.4.0 backports_1.1.0 magrittr_1.5 rprojroot_1.2

## [5] tools_3.4.0 htmltools_0.3.6 yaml_2.1.14 Rcpp_0.12.11

## [9] stringi_1.1.5 rmarkdown_1.6 knitr_1.16 stringr_1.2.0

## [13] digest_0.6.12 evaluate_0.10.1

公眾號後臺回復關鍵字即可學習

回復 R                  R語言快速入門及數據挖掘
回復 Kaggle案例  Kaggle十大案例精講（連載中）
回復文本挖掘   手把手教你做文本挖掘
回復可視化   R語言可視化在商務場景中的應用
回復大數據         大數據系列免費視頻教程
回復量化投資      張丹教你如何用R語言量化投資
回復用戶畫像      京東大數據，揭秘用戶畫像
回復數據挖掘     常用數據挖掘算法原理解釋與應用
回復機器學習人工智慧系列之機器學習與實踐
回復爬蟲            R語言爬蟲實戰案例分享

相關焦點

R語言學習筆記之——數據處理神器data.table

數據處理在數據分析流程中的地位相信大家都有目共睹，也是每一個數據從業者面臨的最為繁重的工作任務。
R語言 | 數據框data.frame操作一網打盡

函數過濾這樣的查詢寫法還是複雜了點，可以直接使用subset函數，那麼查詢會簡單些，比如我們把查詢條件改為年齡<20的女性，查姓名和年齡，那麼查詢語句為：subset(student,Gender=="F" & Age<20 ,select=c("Name","Age"))subset(student,Name!
【好書共享】《R for Data Science》的中譯版

這本書原版就是開源的（網址：http://r4ds.had.co.nz/），但是中文看得更快，學R語言一定要買一本紙質書放在案頭，多多翻閱。R for Data Science關於這本書這本書將教我們如何用R來做數據科學：學習如何將自己的數據導入R中，把它變成最有用的結構，轉換，可視化並對數據進行建模。
R語言-data.table-數據處理

j 常規計算by 分組新增或刪除更新列排序行篩選data.table包中特殊符號常用函數排序函數 frank判斷函數交集差集合併連接透視表功能運用自定義函數計算帶匯總的聚合運算行列轉變前言官方關於data.table包的介紹請參閱:https://cran.r-project.org
R語言中使用subset函數對數據進行分類管理操作

首先我們要把數據進行分割，得到一個倖存的數據表和一個死亡的數據表，然後再分別統計，我們今天利用R語言自帶的subset函數來演示這一功能，這是一個非常重要的功能，為今後我們對數據進一步分析做準備。我們使用SPSS自帶的一個Breast cancer survival腫瘤數據來演示，首先我們把這個數據導入R，並且刪除缺失值library(foreign)library(survival)bc <-read.spss("E:/r/Breast cancer survival agec.sav",
【R每日一貼】subset()函數使用??

按著以下步驟操作第一步：數據集company.id <- rep(c(1,2,3), each=4)company.date <- rep(c("2007/10/31","2007/11/30", "2007/12/31", "2008/12/31"), time=3)company.number
data.table包R包

如何學習？如何應用？如同三把斧，擺在每位學R和用R的數據人面前，如何輕鬆自如揮舞，仁者見仁、智者見智！」從今天開始，陸續推出一系列關於好用的R包的文章，歡迎各位數據人反饋、留言、投稿。data.table包是對R語言數據框Data.frame的擴展和延伸。data.table要做的事情？
R代碼|data.table包使用示例

轉換為data.tabledata("mtcars")head(mtcars)mtcars$carname <- rownames(mtcars)mtcars_dt <- as.data.table(mtcars)class(mtcars_dt)mtcars_copy <- copy(mtcars)setDT(mtcars_copy
【R學習筆記】- 數據整形 - dplyr and tidyr

更多函數tidyr包separate() 一列按分隔符分割為多列`unite()``將多列按指定分隔符合併為一列dplry包select() 按照列名篩選列，可結合starts_with，ends_with，contains，matches，one_of，num_range和everything等使用filter() 按照已定條件對行做過濾，類似標準函數subset
R語言-stringr-字符串處理

字符串長度char <- "我是R語言學習者"str_length(char)# 向量化str_length(c("a", "R for data science是對x[str_detect(x,pattern)]的包裝#str_subset()#篩選出字母行set.seed(24)dt <- data.table::data.table(col=sample(c(letters,1:10),100,replace = T))head(dt[str_which(col,pattern = '[a-z]')
R語言數據分析利器——data.table包

簡介R語言data.table包是自帶包data.frame的升級版
R語言學習筆記之相關性矩陣分析及其可視化

導入數據data(mtcars)#加載數據集mydata <- mtcars[, c(1,3,4,5,6,7)]head(mydata, 6)#查看數據前6行rcorr(x, type = c(「pearson」,「spearman」))。
薦書 | R for Data Science

This book introduces you to R, RStudio, and the tidyverse, a collection of R packages designed to work together to make data science fast, fluent, and fun.
R語言中plyr包

參考資料數據轉換: split – apply – combine 模式按：這一篇是讀Hadley Wickham的文章The Split-Apply-Combine Strategy for Data Analysis的筆記。在數據分析中，有許多問題可以由類似的類型和方法步驟解決，可稱之為模式，設計模式或者分析模式。
R語言:data.table語句批量生成變量

作者：村長，數據科學、指彈吉他及錄音工程愛好者，浙大金融學博士在讀，在data.table
超級乾貨 :手把手教你學習R語言(附資源連結)

如果您更傾向於在線交流方式學習R語法，DataCamp（https://www.datacamp.com/courses/free-introduction-to-r）提供的免費在線R教程是很好的資源。還可以選擇後續課程:中級R編程（https://www.datacamp.com/courses/intermediate-r）。
獨家 | 手把手教你學習R語言(附資源連結)

如果您更傾向於在線交流方式學習R語法，DataCamp（https://www.datacamp.com/courses/free-introduction-to-r）提供的免費在線R教程是很好的資源。還可以選擇後續課程:中級R編程（https://www.datacamp.com/courses/intermediate-r）。
R語言學習筆記之聚類分析

taoyan：偽碼農，R語言愛好者，愛開源。
R語言中的Pandas:50題搞定 data.table

R語言：50題搞定 data.table 簡介 data.table 是 R 語言中用於處理表格數據的包，相當於 Python 語言的 pandas，是學習 R 語言數據分析與挖掘必備工具。接下來我們用 50 道題學習data.table 的各種技巧。
大數據學習資源之DataCamp

」 ——託尼老師《Nature》雜誌早在2008年第一次提出「Big Data」的概念，到2015年國務院正式印發《促進大數據發展行動綱要》，標誌著大數據正式上升至國家戰略，再到2017年的大數據市場全面打開，各省市積極響應中央號召，大數據行業出現井噴之勢。

R語言data manipulation學習筆記之subset data

相關焦點

R語言學習筆記之——數據處理神器data.table

R語言 | 數據框data.frame操作一網打盡

【好書共享】《R for Data Science》的中譯版

R語言-data.table-數據處理

R語言中使用subset函數對數據進行分類管理操作

【R每日一貼】subset()函數使用??

data.table包R包

R代碼|data.table包使用示例

【R學習筆記】- 數據整形 - dplyr and tidyr

R語言-stringr-字符串處理

R語言數據分析利器——data.table包

R語言學習筆記之相關性矩陣分析及其可視化

薦書 | R for Data Science

R語言中plyr包

R語言:data.table語句批量生成變量

超級乾貨 :手把手教你學習R語言(附資源連結)

獨家 | 手把手教你學習R語言(附資源連結)

R語言學習筆記之聚類分析

R語言中的Pandas:50題搞定 data.table

大數據學習資源之DataCamp