R語言基本功:數據集取子集

2021-01-13 言爸說育兒

如果讓我推薦一門統計軟體,我就推薦你學R語言。R不僅具有非常強大的統計分析能力和繪圖能力,更重要的是免費。在未來,越來越來的期刊會要求使用正版軟體。

網上有不少針對R語言的教程,有一些確實不錯,但使用起來,總有些實際很常用,卻沒有講的內容,所以我想著從實戰出發,自己爭取出個系列教程,方便大家使用。

導入數據

#刪除內存中變量rm(list = ls())

mydata <- read.delim("clipboard")str(mydata)head(mydata,9)

#取子集1

#年齡>50,BMI>27,男性

newdata1<-mydata[mydata$age>50 & mydata$sex==1 & mydata$bmi>27,]head(newdata1)

#取子集2

#年齡>50或年齡<30,男性,BMI<24

newdata2<-mydata[mydata$age>50 & mydata$sex==1 & mydata$bmi>27 | mydata$age<30 & mydata$sex==1 & mydata$bmi>27,]head(newdata2)

#取子集3、4

#提取sex, age, bmi, work, x, y, disease變量

newdata3<-mydata[,c("sex","age","bmi","work","x","y",'disease')]head(newdata3)

newdata4<-mydata[c("sex","age","bmi","work","x","y",'disease')]head(newdata4)

#取子集5

#取子集subset函數

#年齡大於75或年齡小於20,男性,病人

newdata5<-subset(mydata,age>75 & sex==1 & disease==1 | age<20 & sex==1 & disease==1)head(newdata5)

#取子集6

#不選擇a、b、c三個變量

#年齡大於75或年齡小於20,男性,病人,保留變量sex age bmi work x y disease

newdata6<-subset(mydata,(age>75 | age<20) & sex==1 & disease==1,select = c(sex:work,x:disease))head(newdata6)

#取子集7

#年齡大於75或年齡小於20,男性,病人,去除變量a b c

newdata7<-subset(mydata,(age>75 | age<20) & sex==1 & disease==1,select = -c(a:c))head(newdata7)

相關焦點

  • NLP和其他ML項目的10個最佳 Reddit 數據集
    因此, Reddit 評論和帖子完美適用於測試和訓練自然語言處理( NLP )模型。警告:下面的一些數據集是專門為訓練內容管理模型而編制的。因此,數據可能包括顯式內容。Reddit 評論數據集1.Cryptocurrency Reddit 評論數據集(Cryptocurrency Reddit Comments Dataset) —— 此數據集包含來自 r/cryptocurrency 子reddit 的評論。這些數據包括2017年11月至2018年3月共5個月發布的評論。2.
  • R語言從入門到精通:Day12--R語言統計--回歸分析
    回歸作為一個廣義的概念,涵蓋了許多變種,R語言中也為其提供了強大而豐富的函數和選項(但顯然選項越多,對初學者越不友好),早在2005年,R中就有200多種關於回歸分析的函數 (https://cran.r-project.org/doc/contrib/Ricci-refcard-regression.pdf,這個文檔提供了部分回歸分析函數列表,供大家參考)。
  • 神操作:教你如何將Vim變成一個R語言IDE
    R In Vim  首先,在Vim中尋求R語言支持就是很殘酷的,不僅選擇少,而且支持也很少!下面這個連結中包含了大量的內置快捷鍵,希望能夠對你有所幫助:https://github.com/jalvesaq/Nvim-R/blob/master/doc/Nvim-R.txt  發送:  Nvim - r中有很多方法可以發送代碼行:  Send :: Entire File aa  Send :: Entire Block b
  • C語言入門級教程:基礎數據類型與基本算法,學編程從此刻開始!
    今天帶大家了解一下學C語言必備的基本數據類型和基本算法,適合剛學C以及零基礎的小夥伴! 話不多說,我們一起來學習吧~ 數據類型 ● 基本類型 基本類型就是我們在使用C語言時最基礎的數據類型,包括整形(短整型,基本整型,長整型)、字符型、浮點型(單、雙精度)以及枚舉類型。
  • 肥西縣數據資源局:夯實「軟硬體」 築牢「基本功」
    日前,肥西縣數據資源局進一步夯實「軟硬體」基礎,勤練政務服務「基本功」,全面提升服務體驗和服務品質。  訪局組織業務骨幹前往中國科學技術大學國際金融研究院參加「全省政務服務系統改革創新與業務提升專題班」,專題班主要圍繞未來趨勢和高質量發展、大數據應用、皖事通實踐與應用、營商環境以及7*24小時政務服務地圖等內容,通過本次培訓,進一步推進政務服務標準化、規範化和便利化,提升業務骨幹政務服務工作水平和能力,促進服務再上新臺階。
  • 學好古文重在基本功練習,語文老師分享:這些基本功千萬別丟了
    答題是需要技巧的,但前提是古文學習想要讀得懂,就重在一個基本功的練習上。很多家長不明白基本功練習是什麼?為此,小島老師想分享一下:常見的文言文基本考點,那些基本功別丟了,一旦不注重基本功練習,在考試中就容易丟分。
  • 發布數據集論文和挑戰賽,卻拒絕公開數據集
    Reddit網友找到了谷歌AI一個名叫Conceptual Captions的數據集,發現該數據集並不完善,於是乎聯繫谷歌AI相關人員,卻慘遭三連拒。 向來提倡open的谷歌,現在也玩兒「自閉」?
  • 乾貨| 男朋友老是說自己R語言很6,快來用這40道題目檢測他
    R語言是數據科學領域最流行的語言之一。如果你真想從事數據科學事業,那你要麼已經會用R語言要么正在學習它。R語言同樣是一個擁有廣泛的統計和數據科學庫的生態系統。為了幫助數據科學家測試他們的R語言能力,我們為DataFest 2017設計了一部分技能測試題。超過1500人註冊了這項考試並有接近500人完成了測試。
  • 7 Papers&Radios|字節跳動全球最大鋼琴MIDI數據集;谷歌新型...
    然而長期以來,在計算機音樂領域一直缺少一個大規模的鋼琴 MIDI 數據集。 近期,字節跳動發布了全球最大的古典鋼琴數據集 GiantMIDI-Piano 。在數據規模上,數據集不同曲目的總時長是谷歌 MAESTRO 數據集的 14 倍。
  • 自然語言處理全家福:縱覽當前NLP中的任務、數據、模型與論文
    本文的目的是追蹤自然語言處理(NLP)的研究進展,並簡要介紹最常見 NLP 任務的當前最佳研究和相關數據集。作者 Sebastian Ruder 在文中覆蓋了傳統的和核心的 NLP 任務,例如依存句法分析和詞性標註。以及更多近期出現的任務,例如閱讀理解和自然語言推理。本文最主要的目的是為讀者提供基準數據集和感興趣任務的當前最佳研究的快速概覽,作為未來研究的墊腳石。
  • 資源| 數據至上的人工智慧時代,最好的公開數據集有哪些?
    然而,涉及到機器學習或人工智慧的大多數產品強烈依賴於那些通常沒有開放的私有數據集,而本文將指出解決這種困境的辦法。事實上,我們很難用一篇文章來說明哪些開放數據集是有用的,因為那些有用的開放數據集必須是可概念證明的,而什麼數據集對產品或確認特徵是有用的,在你收集你自己所有數據之前是不知道的。
  • 自然語言處理(NLP)入門指南
    /nll/•  言語和語言處理(Daniel Jurafsky和James H.資料來源:http://gunshowcomic.com/•  Nicolas Iderhoff已經創建了一份公開的、詳盡的NLP數據集的列表。
  • 在R中學習R語言:swirl
    swirl(https://swirlstats.com/)是在R控制臺中,以交互方式進行教授R編程和數據科學的一個免費並且開源的包。一、安裝環境swirl要求R語言版本>=3.1.0,作者十分推薦安裝RStudio,但不是強制的。
  • 基於Android的ARM彙編語言系列之五:ARM指令集與Thumb指令集
    章節列表之一:ARM彙編語言開篇之二:C/C++程序生成ARM彙編程序的過程分析之三:ARM彙編語言程序結構之四:ARM處理器的尋址方式之五
  • 微軟新作,ImageBERT雖好,千萬級數據集才是亮點
    更為重要的是,作者還從網絡上收集了一千萬規模的弱監督圖像-文本數據集LAIT,這也是當前所有視覺-語言數據集中最大的數據集。在這個數據集的加持下,ImageBERT 模型在MSCOCO和Flickr30k的圖像-文本檢索任務上獲得不錯的結果。
  • .| 深度學習理論與實戰:提高篇(14)——Mask R-CNN代碼簡介
    作者李理,環信人工智慧研發中心vp,有十多年自然語言處理和人工智慧研發經驗,主持研發過多款智能硬體的問答和對話系統,負責環信中文語義分析開放平臺和環信智慧機器人的設計與研發。以下為正文。圖:Mask RCNN檢測效果train_shapes.ipynb除了可以使用訓練好的模型,我們也可以用自己的數據進行訓練,為了演示,這裡使用了一個很小的shape數據集。這個數據集是on-the-fly的用代碼生成的一些三角形、正方形、圓形,因此不需要下載數據。
  • 互動設計的三重境界 | 境界一:穩紮穩打,4項基本功
    互動設計中需要掌握很多能力,按照能力進階的過程,我將他們歸納為互動設計的三重境界,第一重境界:穩紮穩打,4項基本功;第二重境界:提升洞察,思維進階;第三重境界:大局出發,產品Owner。一、第一重境界:穩紮穩打,4項基本功產品從抽象到具象的設計過程中,互動設計起到了至關重要的作用。
  • 潮科技行業入門指南 | 深度學習理論與實戰:提高篇(14)——Mask R...
    作者李理,環信人工智慧研發中心vp,有十多年自然語言處理和人工智慧研發經驗,主持研發過多款智能硬體的問答和對話系統,負責環信中文語義分析開放平臺和環信智慧機器人的設計與研發。以下為正文。圖:Mask RCNN檢測效果train_shapes.ipynb除了可以使用訓練好的模型,我們也可以用自己的數據進行訓練,為了演示,這裡使用了一個很小的shape數據集。這個數據集是on-the-fly的用代碼生成的一些三角形、正方形、圓形,因此不需要下載數據。
  • 許昌市示範區舉行教師教學基本功大賽
    為進一步提高教師的專業技術水平,12月2日上午,示範區教師教學基本功大賽在示範區實驗學校隆重舉行,示範區各學校推薦的優秀教師50餘人參加了此次比賽。本次比賽分為微型課、演講、粉筆字和才藝展示四個環節。微型課展示環節,參賽選手以輕鬆自然的教態、富有感染力的語言進行生動的講解演示,充分展示自己紮實的教學功底。粉筆字書寫,參賽老師認真投入,有的字體工整規範,有的遒勁有力,有的則瀟灑飄逸,紛紛展現個人書寫風採。才藝展示課堂上,老師們在體育、音樂、美術三個領域選擇自己最拿手的技藝,或樂器彈奏、或聲樂獨唱、或武術舞蹈、或書法繪畫,紛紛呈現自己的藝術特長,給現場人員留下了深刻的印象。
  • 中道禪舞基本功波浪手
    第六期第二節(功/波浪手+練/破冰舞)基本功:中道禪舞的基本功總共有11個基本功的體驗:1:每一個基本功練習前期都需要腰直頭正,下巴微收,沉肩墜肘,做到放鬆狀態,腋窩是微微的張開的2:整個過程都是氣機帶動手在流動的。3:整體下來,手腕關節、肘關節、肩關節都是放鬆的。