R語言點滴:dplyr函數與查重案例(1)

2021-03-02 醫意貫之

微信公眾號:醫意貫之
如有問題或建議,請公眾號留言;
如果你覺得該文章對你有幫助,歡迎讚賞

R語言點滴:dplyr函數與查重案例(1)參考資料

https://blog.csdn.net/weixin_42873544/article/details/105600548
https://blog.csdn.net/weixin_43770045/article/details/91976434

                問題介紹

筆者今日發現數據處理錯誤,但不知道怎麼對比,學習了一下dplyr函數並加以應用。
數據.xls為原始數據,部分錯誤.xls為有部分修改的數據
對比兩組數據是否完全相同,如果相同顯示為1不相同顯示為0

代碼

1#install.packages("dplyr")
2library(dplyr)
3data=read_xls('數據.xls')
4data2=read_xls('數據部分錯誤.xls')
5df1=select(pltdata,OS,osstatus,treatment_R)
6df2=select(pltdata2,OS,osstatus,treatment_R)
7df=add_row(df1,df2)
8df %>%
9  group_by(OS,osstatus,treatment_R) %>%
10  mutate(dup = if (n() ==1) 0 else 1)%>%
11  View()

解釋

通過read_xls函數讀取data和data2
通過select函數選擇需要對比的兩列,形成df1和df2
通過add_row函數對df1和df2行相加
通過group_by函數分組
通過mutate增加dup列 1表示存在相同列,0表示無相同列

↑dup=0時為無重複列

相關焦點

  • R語言 | 數據操作dplyr包
    [更新~] Python網絡爬蟲與文本數據分析公眾號只帶著Python字眼,卻分享著R語言,不務正業,任性了~dplyr簡介dplyr是R語言的數據分析包,很像python中的pandas,能對dataframe
  • R語言筆記-dplyr-2-表操作
    前文:R語言筆記-dplyr-1-基礎篇表操作指像sql中的left join,inner join等表格之間的操作3), y = c(-1, -4, -9))df %>% group_by(g) %>% summarise(across(where(is.numeric), sum))多種函數功能通過在第二個參數提供函數或lambda函數的命名列表,可是使用多個函數轉換每個變量:
  • R語言基於dplyr實現數據快捷操作
    R語言在處理大數據方面一直是被人詬病的地方,那麼有人就為R語言打造了一個dplyr包可以實現高效的數據預處理,減少內存的消耗,提升處理效率
  • 《實習日記》| 7月20日 R語言筆記——dplyr
    7月20日R語言筆記——dplyr7月20日R語言筆記——dplyr五個基礎函數1.mutate(),新增列2.select
  • dplyr和tidyr簡介|數據處理
    數據處理兩大利器:dplyr和tidyr1 dplyr 簡介dplyr是Hadley Wickham
  • dplyr中filter函數的總結
    dplyr中filter函數的總結dplyr是R語言中數據比較常用的包之一。其中最常用的兩個函數是filter和select。
  • 從另一個視角看 R 語言的方言 Tidyverse
    可教學性概覽•我最大的擔憂來自 R 語言教學。對於需要學習 R 語言的非程式設計師來說,Tidy 讓精通這門語言變得更困難。•Tidyverse 來自這樣一種渴求,即要有一組相互兼容、行為一致的函數或包。這種「純正」哲學對計算機科學家有著難以抗拒的吸引力。
  • R包之dplyr--處理表格數據的好幫手
    R語言作為擁有優良統計血統的程式語言,天生就適合處理各種數據框。我們以一個tcga的表型文件為例。pheno = read.table("./gdc_sample_sheet.2020-09-13.tsv", header = T, sep = "\t", row.names = 1, stringsAsFactors = F)View(pheno)
  • R語言學習指南(3) tidyverse的基礎使用
    tidyverse是為數據科學設計的R軟體包,它包含(ggplot2、dplyr、tidyr、stringr、magrittr、tibble)等一系列熱門軟體包,學好tidyverse的使用可也讓你站上另一個高度,從而高效的處理數據,因此本文檔不僅僅做一些案例介紹,而是希望以較為正確的學習方法來介紹R語言,使大家少走彎路,快速入門掌握R語言
  • 『R腳本練習』dplyr各種join
    在剛接觸用代碼行處理數據的時候,受到課題組的影響,是從shell入門的,具體說逃不過sed grep awk,在這之前我只會用excel下的函數,excel下有個很好的垂直查找vertical lookup,也就是vlookup,用來快速匹配數據,碩士的時候也就是憑藉這一個函數解決了2DGel上蛋白質點編號的統一。
  • 「R」dplyr 行式計算
    「原文來自:dplyr 文檔」上一篇:「R」dplyr 列式計算通常 dplyr 和 R 更適合對列進行操作,而對行操作則顯得更麻煩。這篇文章,我們將學習圍繞rowwise() 創建的 row-wise 數據框的 dplyr 操作方法。本文將討論 3 種常見的使用案例:這些問題通常可以通過 for 循環簡單地解決掉,但如果能夠自然地將其流程化將是一個非常好的方案。
  • 【R學習筆記】- 數據整形 - dplyr and tidyr
    dplyr包裡的group_by()和summarise(),這兩個函數我用過,tidyr包沒接觸過,但接觸過類似裡面的gather()、spread
  • R語言數據清洗實戰——高效list解析方案
    往期回顧往期案例數據請移步本人GitHub:https://github.com/ljtyduyu/DataWarehouse/tree/master/Filelist是R語言中包容性最強的數據對象,幾乎可以容乃所有的其他數據類型
  • 【數據管理】Tidyverse:R 語言學習之旅的新起點
    筆者邀請您,先思考:1 您是怎麼學習R語言?
  • R語言向量化運算:apply函數族用法心得
    R語言和Python的忠實擁躉,為成為一名未來的數據科學家而奮鬥終生。個人公眾號:數據科學家養成記 (微信ID:louwill12)當初入坑R語言的時候,就在各種場合看到老司機的忠告,「儘量避免使用循環!」一開始並不明白這其中的奧義,直到後來對R語言有深入接觸後,才領會R語言在向量化運算方面的強大功能。本篇內容就總結小編在使用R語言向量化運算apply函數族的一些心得體會。
  • R語言dplyr包學習筆記(吐血整理宇宙無敵詳細版) - CDA數據分析師
    出處:AI入門學習dplyr包主要用於數據清洗和整理,主要功能有:行選擇、列選擇、統計匯總、窗口函數、數據框交集等是非常高效、友好的數據處理包,學清楚了,基本上數據能隨意玩弄,對的,隨意玩弄,簡直大大提高數據處理及分析效率。我以為,該包是數據分析必學包之一。學習過程需要大量試驗,領悟其中設計的精妙之處。
  • rpy2庫 | 在jupyter中調用R語言代碼
    rpy2包rpy2包首先是Python包,ta銜接了Python和R,通過rpy2可以運行R語言相關代碼、函數、包。'R代碼字符串')運行R代碼rpy2.robjects.r('R代碼字符串')rpy2.robjects.r()函數會識別 R代碼字符串, 並將其執行。
  • 強大的數據清理大師:dplyr
    。「iris」雖只有5列,但也可以呈現這個函數的功能。dplyr另外一個函數為:%>%,也稱為dplyr的管道系統,可以簡化代碼的複雜程度,更適合人們的閱讀習慣。《R for data science》2. https://cran.r-project.org/web/packages/dplyr/vignettes/dplyr.html
  • 如何高效運行R語言
    進入正題 ==>高效的代碼減少函數調用和C/C++等語言強調數據類型不同,R語言為用戶隱藏了數據類型,這為R用戶帶來了方便,但是付出的代價就是運行效率。R語言的很多基礎函數也是用C語言寫的,你可以認為R函數是對C語言函數的包裝,方便用戶的調用。
  • 對照著Excel入門R語言表格數據處理
    #在線安裝dplyr包;#install.packages("dplyr")#載入dplyr包;library(dplyr)#改變工作目錄setwd>#select()函數可以選擇特定的列,組成新的表格;select(tb,RNA_log2FC,Group)select()函數還可以使用輔助函數,starts_with(),contains(),matchs(),num_range()等進行模糊匹配;如num_range("CK",1:3),matchs