【每天幾分鐘,從零入門python編程的世界!】
numpy的基本的東西我們學習差不多了,後面具體應用中遇到問題具體分析,然後去深入了解遇到的新的知識點就行。
現在我們開始學習pandas,pandas一般用的更多,pandas是基於numpy去寫的。pandas是一個專門做數據結構和數據分析的庫。
●pandas的安裝
推薦使用anaconda,只要安裝了anaconda,它裡面就會自帶pandas,這會為我們省去很多的麻煩。
接下來就是用pandas去處理數據,數據從哪來呢?
推薦一個數據平臺:www.kaggle.com
數據科學的很多數據是來源於kaggle,這個平臺上有很多公開的數據,而且這些數據都是真實的數據,因此我們後面通過pandas去處理的數據都是從kaggle上下載的數據。
●註冊並激活kaggle帳號
首先你需要在kaggle註冊一個帳號,才能下載它的數據。需要注意的是,填寫完註冊信息並提交後,kaggle官方會給你的註冊郵箱發送一封激活帳號的郵件:
點擊Activate激活kaggle帳戶,但是激活帳戶時,會提示「You did not enter the correct captcha response. Please try again」,這是因為人機測試的圖片加載不出來,需要下載一個谷歌訪問助手並安裝,谷歌訪問助手下載地址:http://www.ggfwzs.com/#1
然後再刷新激活帳戶的頁面,就可以進行人機測試:
人機測試完成,點擊「Verify Account」,就激活了。
●從kaggle上下載數據
接下來我們下載kaggle上的數據,我們在搜索框搜索diabete,在搜索框下面會出現下拉菜單:
我們隨便選一個csv格式的數據點擊打開:
然後點擊download,就可以下載到本地。
下載之後我們雙擊打開,默認會用wps或者Excel打開,打開是這樣:
我們也可以用右鍵-open with sublime-text,
這樣打開csv文件最原始的樣子,就是用逗號隔開的數據:
●pandas讀取外部數據
從kaggle下載好數據之後,我們可以在Python裡面直接引入pandas,然後就可以讀取數據了。
運行結果:
代碼說明:
①在Python中引入pandas,通常我們把pandas簡寫成pd,就像把numpy簡寫成np。
②把從csv文件中讀取的數據保存在data_frame中,dataframe是pandas中的數據框架結構,就相當於numpy中的ndarray。以後我們可以把讀取的數據保存在df,就代表dataframe的簡寫。
③由於我們下載的數據比較大,所以print的時候只把頭部列印出來,所以是data_frame.head()。如果直接print(data_frame)會把所有數據都列印出來。
溫馨提示:
read_csv()裡面時csv數據文件的路徑。寫絕對路徑和相對路徑都可以。
①如果寫絕對路徑,要寫成這樣D:\\anaconda install\\Lib\\site-packages\\pandas\\pima-indians-diabetes.csv。
這裡的絕對路徑就是你的csv文件在電腦上存放的地方,不一定是我寫的這個路徑。在這裡的絕對路徑要寫兩個斜槓。寫一個會報錯。
②如果寫相對路徑,就要把要讀取的csv文件放到你這個Python代碼的工作區,就是你寫的這段代碼保存的文件所在的文件夾。我們所寫的代碼文件都是以.py為後綴名的文件,所以工作區就是我們的代碼文件保存的文件夾路徑。
如果把csv數據文件放到工作區文件夾,就可以在read_csv()中直接寫數據文件的文件名。
如果忘了或者不知道你的工作區是哪個文件夾,可以用以下代碼獲取到:
import os
os.getcwd()
代碼運行後,在IPython console的顯示區域,我們會看到wdir,wdir就是工作區路徑,把數據文件放到這個工作區路徑的文件夾中,就可以在read_csv中直接寫數據文件夾的名字。
我是時問新,歡迎關注我。跟我一起從零開始學習Python,每天花一點時間,開啟python編程新世界的大門,領略新的風光,讓人生多一種可能!