在工作中,我們得到的數據源一般是以Excel文件為多,偶有CSV文件或TXT文件等。資深表哥/表姐們都知道,Excel自帶數據統計功能,但卻處理不了大數據集。而CSV與TXT格式的文件,雖然容量大,但由於是純文本文件,所以不具有數據處理的功能。
為了解決這一尷尬的問題,下面我就教一下大家怎麼用統計專業的R語言來讀取數據(數據處理之前很重要的一個步驟)
用R讀取excel文件中的數據,需要先搭建一個Java的環境(配置好JDK),然後再用 install.packages("xlsx") 指令導入相關的包(常見的Excel文件格式是xlsx,而處理xlsx文件這個包是使用Java語言來寫的)。但是對於很多小白,可能會出現被配置JDK折騰得勸退的現象。所以,在這裡,我就向大家展示用R語言加載外部文件數據的另外3種更簡單的方法,如下:
例如:我先在桌面(路徑為:C:\Users\QDM\Desktop)創建一個Excel文件,並手動輸入數據,構造一張9行*4列的數據表,表格內容截圖如下:
方法①:先按 F12功能鍵 將.xlsx另存為.csv格式的文件,然後用read.csv()函數來讀取該CSV文件中的數據,代碼如下:
> x <- read.csv("C:\\Users\\QDM\\Desktop\\銷售業績.csv",header = T)> x 品牌 產地 銷售數量 銷售金額1 布加迪 法國 10 200,000,000 2 蘭博基尼 義大利 20 160,000,000 3 法拉利 義大利 30 150,000,000 4 豐田 日本 40 6,000,000 5 本田 日本 50 10,000,000 6 五菱 中國 60 3,000,000 7 大眾 德國 70 21,000,000 8 寶馬 德國 80 80,000,000運行結果截圖:
方法②:把.xlsx另存為.txt格式,然後用read.table()函數來讀取該txt文件中的數據,代碼如下:
> y <- read.table("C:\\Users\\QDM\\Desktop\\銷售業績.txt",header = T)> y 品牌 產地 銷售數量 銷售金額1 布加迪 法國 10 200,000,000 2 蘭博基尼 義大利 20 160,000,000 3 法拉利 義大利 30 150,000,000 4 豐田 日本 40 6,000,000 5 本田 日本 50 10,000,000 6 五菱 中國 60 3,000,000 7 大眾 德國 70 21,000,000 8 寶馬 德國 80 80,000,000運行結果截圖:
方法3:先打開Excel文件,按Ctrl+A快捷鍵全選裡面的內容,接著按Ctrl+C複製(默認複製到剪切板上),如圖:
然後在RStudio中輸入以下代碼:
> z <- read.table("clipboard",header = T,sep = "\t")> z 品牌 產地 銷售數量 銷售金額1 布加迪 法國 10 200,000,000 2 蘭博基尼 義大利 20 160,000,000 3 法拉利 義大利 30 150,000,000 4 豐田 日本 40 6,000,000 5 本田 日本 50 10,000,000 6 五菱 中國 60 3,000,000 7 大眾 德國 70 21,000,000 8 寶馬 德國 80 80,000,000運行結果截圖:
結語:作為一名曾經的「統計學」專業的畢業生,在數據分析崗位上,如果被別人知道只會用Excel,而不會用一門本專業相關的專業工具(如:R語言、SAS語言、SPSS等)處理數據,會有一種很尷尬的感覺——可能會很容易被人覺得不學無術。雖然在畢業後,經本人的後天努力自學,掌握了一門更好用的數據分析工具——Python,但為了不愧對自己所學過的專業,為了不愧對那每年¥3500的學費,所以感覺還是挺有必要抽時間來學習一下R語言的!