R語言點滴:dplyr函數與查重案例(1)

2021-03-02 醫意貫之

微信公眾號：醫意貫之
如有問題或建議，請公眾號留言;
如果你覺得該文章對你有幫助，歡迎讚賞

R語言點滴：dplyr函數與查重案例（1）參考資料

https://blog.csdn.net/weixin_42873544/article/details/105600548
https://blog.csdn.net/weixin_43770045/article/details/91976434

問題介紹

筆者今日發現數據處理錯誤，但不知道怎麼對比，學習了一下dplyr函數並加以應用。
數據.xls為原始數據，部分錯誤.xls為有部分修改的數據
對比兩組數據是否完全相同，如果相同顯示為1不相同顯示為0

代碼

1#install.packages("dplyr")
2library(dplyr)
3data=read_xls('數據.xls')
4data2=read_xls('數據部分錯誤.xls')
5df1=select(pltdata,OS,osstatus,treatment_R)
6df2=select(pltdata2,OS,osstatus,treatment_R)
7df=add_row(df1,df2)
8df %>%
9  group_by(OS,osstatus,treatment_R) %>%
10  mutate(dup = if (n() ==1) 0 else 1)%>%
11  View()

解釋

通過read_xls函數讀取data和data2
通過select函數選擇需要對比的兩列，形成df1和df2
通過add_row函數對df1和df2行相加
通過group_by函數分組
通過mutate增加dup列 1表示存在相同列，0表示無相同列

↑dup=0時為無重複列

相關焦點

R語言 | 數據操作dplyr包

[更新~] Python網絡爬蟲與文本數據分析公眾號只帶著Python字眼，卻分享著R語言，不務正業，任性了~dplyr簡介dplyr是R語言的數據分析包，很像python中的pandas，能對dataframe
R語言筆記-dplyr-2-表操作

前文：R語言筆記-dplyr-1-基礎篇表操作指像sql中的left join,inner join等表格之間的操作3), y = c(-1, -4, -9))df %>% group_by(g) %>% summarise(across(where(is.numeric), sum))多種函數功能通過在第二個參數提供函數或lambda函數的命名列表，可是使用多個函數轉換每個變量：
R語言基於dplyr實現數據快捷操作

R語言在處理大數據方面一直是被人詬病的地方，那麼有人就為R語言打造了一個dplyr包可以實現高效的數據預處理，減少內存的消耗，提升處理效率
《實習日記》| 7月20日 R語言筆記——dplyr

7月20日R語言筆記——dplyr7月20日R語言筆記——dplyr五個基礎函數1.mutate(),新增列2.select
dplyr和tidyr簡介|數據處理

數據處理兩大利器：dplyr和tidyr1 dplyr 簡介dplyr是Hadley Wickham
dplyr中filter函數的總結

dplyr中filter函數的總結dplyr是R語言中數據比較常用的包之一。其中最常用的兩個函數是filter和select。
從另一個視角看 R 語言的方言 Tidyverse

可教學性概覽•我最大的擔憂來自 R 語言教學。對於需要學習 R 語言的非程式設計師來說，Tidy 讓精通這門語言變得更困難。•Tidyverse 來自這樣一種渴求，即要有一組相互兼容、行為一致的函數或包。這種「純正」哲學對計算機科學家有著難以抗拒的吸引力。
R包之dplyr--處理表格數據的好幫手

R語言作為擁有優良統計血統的程式語言，天生就適合處理各種數據框。我們以一個tcga的表型文件為例。pheno = read.table("./gdc_sample_sheet.2020-09-13.tsv", header = T, sep = "\t", row.names = 1, stringsAsFactors = F)View(pheno)
R語言學習指南(3) tidyverse的基礎使用

tidyverse是為數據科學設計的R軟體包，它包含(ggplot2、dplyr、tidyr、stringr、magrittr、tibble)等一系列熱門軟體包，學好tidyverse的使用可也讓你站上另一個高度，從而高效的處理數據，因此本文檔不僅僅做一些案例介紹，而是希望以較為正確的學習方法來介紹R語言，使大家少走彎路，快速入門掌握R語言
『R腳本練習』dplyr各種join

在剛接觸用代碼行處理數據的時候，受到課題組的影響，是從shell入門的，具體說逃不過sed grep awk,在這之前我只會用excel下的函數，excel下有個很好的垂直查找vertical lookup,也就是vlookup，用來快速匹配數據，碩士的時候也就是憑藉這一個函數解決了2DGel上蛋白質點編號的統一。
「R」dplyr 行式計算

「原文來自：dplyr 文檔」上一篇：「R」dplyr 列式計算通常 dplyr 和 R 更適合對列進行操作，而對行操作則顯得更麻煩。這篇文章，我們將學習圍繞rowwise() 創建的 row-wise 數據框的 dplyr 操作方法。本文將討論 3 種常見的使用案例：這些問題通常可以通過 for 循環簡單地解決掉，但如果能夠自然地將其流程化將是一個非常好的方案。
【R學習筆記】- 數據整形 - dplyr and tidyr

dplyr包裡的group_by()和summarise()，這兩個函數我用過，tidyr包沒接觸過，但接觸過類似裡面的gather()、spread
R語言數據清洗實戰——高效list解析方案

往期回顧往期案例數據請移步本人GitHub：https://github.com/ljtyduyu/DataWarehouse/tree/master/Filelist是R語言中包容性最強的數據對象，幾乎可以容乃所有的其他數據類型
【數據管理】Tidyverse:R 語言學習之旅的新起點

筆者邀請您，先思考：1 您是怎麼學習R語言？
R語言向量化運算:apply函數族用法心得

R語言和Python的忠實擁躉，為成為一名未來的數據科學家而奮鬥終生。個人公眾號：數據科學家養成記（微信ID：louwill12）當初入坑R語言的時候，就在各種場合看到老司機的忠告，「儘量避免使用循環！」一開始並不明白這其中的奧義，直到後來對R語言有深入接觸後，才領會R語言在向量化運算方面的強大功能。本篇內容就總結小編在使用R語言向量化運算apply函數族的一些心得體會。
R語言dplyr包學習筆記(吐血整理宇宙無敵詳細版) - CDA數據分析師

出處：AI入門學習dplyr包主要用於數據清洗和整理，主要功能有：行選擇、列選擇、統計匯總、窗口函數、數據框交集等是非常高效、友好的數據處理包，學清楚了，基本上數據能隨意玩弄，對的，隨意玩弄，簡直大大提高數據處理及分析效率。我以為，該包是數據分析必學包之一。學習過程需要大量試驗，領悟其中設計的精妙之處。
rpy2庫 | 在jupyter中調用R語言代碼

rpy2包rpy2包首先是Python包，ta銜接了Python和R，通過rpy2可以運行R語言相關代碼、函數、包。'R代碼字符串')運行R代碼rpy2.robjects.r('R代碼字符串')rpy2.robjects.r()函數會識別 R代碼字符串, 並將其執行。
強大的數據清理大師:dplyr

。「iris」雖只有5列，但也可以呈現這個函數的功能。dplyr另外一個函數為：%>%，也稱為dplyr的管道系統，可以簡化代碼的複雜程度，更適合人們的閱讀習慣。《R for data science》2. https://cran.r-project.org/web/packages/dplyr/vignettes/dplyr.html
如何高效運行R語言

進入正題 ==>高效的代碼減少函數調用和C/C++等語言強調數據類型不同，R語言為用戶隱藏了數據類型，這為R用戶帶來了方便，但是付出的代價就是運行效率。R語言的很多基礎函數也是用C語言寫的，你可以認為R函數是對C語言函數的包裝，方便用戶的調用。
對照著Excel入門R語言表格數據處理

#在線安裝dplyr包；#install.packages("dplyr")#載入dplyr包；library(dplyr)#改變工作目錄setwd>#select()函數可以選擇特定的列，組成新的表格；select(tb,RNA_log2FC,Group)select()函數還可以使用輔助函數，starts_with(),contains(),matchs()，num_range()等進行模糊匹配；如num_range("CK",1:3)，matchs

R語言點滴:dplyr函數與查重案例(1)

相關焦點

R語言 | 數據操作dplyr包

R語言筆記-dplyr-2-表操作

R語言基於dplyr實現數據快捷操作

《實習日記》| 7月20日 R語言筆記——dplyr

dplyr和tidyr簡介|數據處理

dplyr中filter函數的總結

從另一個視角看 R 語言的方言 Tidyverse

R包之dplyr--處理表格數據的好幫手

R語言學習指南(3) tidyverse的基礎使用

『R腳本練習』dplyr各種join

「R」dplyr 行式計算

【R學習筆記】- 數據整形 - dplyr and tidyr

R語言數據清洗實戰——高效list解析方案

【數據管理】Tidyverse:R 語言學習之旅的新起點

R語言向量化運算:apply函數族用法心得

R語言dplyr包學習筆記(吐血整理宇宙無敵詳細版) - CDA數據分析師

rpy2庫 | 在jupyter中調用R語言代碼

強大的數據清理大師:dplyr

如何高效運行R語言

對照著Excel入門R語言表格數據處理