Python學習120課 pandas簡介kaggle下載數據及pandas讀取外部數據

2021-01-08 石問新

【每天幾分鐘,從零入門python編程的世界!】

numpy的基本的東西我們學習差不多了,後面具體應用中遇到問題具體分析,然後去深入了解遇到的新的知識點就行。

現在我們開始學習pandas,pandas一般用的更多,pandas是基於numpy去寫的。pandas是一個專門做數據結構和數據分析的庫。

●pandas的安裝

推薦使用anaconda,只要安裝了anaconda,它裡面就會自帶pandas,這會為我們省去很多的麻煩。

接下來就是用pandas去處理數據,數據從哪來呢?

推薦一個數據平臺:www.kaggle.com

數據科學的很多數據是來源於kaggle,這個平臺上有很多公開的數據,而且這些數據都是真實的數據,因此我們後面通過pandas去處理的數據都是從kaggle上下載的數據。

●註冊並激活kaggle帳號

首先你需要在kaggle註冊一個帳號,才能下載它的數據。需要注意的是,填寫完註冊信息並提交後,kaggle官方會給你的註冊郵箱發送一封激活帳號的郵件:

點擊Activate激活kaggle帳戶,但是激活帳戶時,會提示「You did not enter the correct captcha response. Please try again」,這是因為人機測試的圖片加載不出來,需要下載一個谷歌訪問助手並安裝,谷歌訪問助手下載地址:http://www.ggfwzs.com/#1

然後再刷新激活帳戶的頁面,就可以進行人機測試:

人機測試完成,點擊「Verify Account」,就激活了。

●從kaggle上下載數據

接下來我們下載kaggle上的數據,我們在搜索框搜索diabete,在搜索框下面會出現下拉菜單:

我們隨便選一個csv格式的數據點擊打開:

然後點擊download,就可以下載到本地。

下載之後我們雙擊打開,默認會用wps或者Excel打開,打開是這樣:

我們也可以用右鍵-open with sublime-text,

這樣打開csv文件最原始的樣子,就是用逗號隔開的數據:

●pandas讀取外部數據

從kaggle下載好數據之後,我們可以在Python裡面直接引入pandas,然後就可以讀取數據了。

運行結果:

代碼說明:

①在Python中引入pandas,通常我們把pandas簡寫成pd,就像把numpy簡寫成np。

②把從csv文件中讀取的數據保存在data_frame中,dataframe是pandas中的數據框架結構,就相當於numpy中的ndarray。以後我們可以把讀取的數據保存在df,就代表dataframe的簡寫。

③由於我們下載的數據比較大,所以print的時候只把頭部列印出來,所以是data_frame.head()。如果直接print(data_frame)會把所有數據都列印出來。

溫馨提示:

read_csv()裡面時csv數據文件的路徑。寫絕對路徑和相對路徑都可以。

①如果寫絕對路徑,要寫成這樣D:\\anaconda install\\Lib\\site-packages\\pandas\\pima-indians-diabetes.csv。

這裡的絕對路徑就是你的csv文件在電腦上存放的地方,不一定是我寫的這個路徑。在這裡的絕對路徑要寫兩個斜槓。寫一個會報錯。

②如果寫相對路徑,就要把要讀取的csv文件放到你這個Python代碼的工作區,就是你寫的這段代碼保存的文件所在的文件夾。我們所寫的代碼文件都是以.py為後綴名的文件,所以工作區就是我們的代碼文件保存的文件夾路徑。

如果把csv數據文件放到工作區文件夾,就可以在read_csv()中直接寫數據文件的文件名。

如果忘了或者不知道你的工作區是哪個文件夾,可以用以下代碼獲取到:

import os

os.getcwd()

代碼運行後,在IPython console的顯示區域,我們會看到wdir,wdir就是工作區路徑,把數據文件放到這個工作區路徑的文件夾中,就可以在read_csv中直接寫數據文件夾的名字。

我是時問新,歡迎關注我。跟我一起從零開始學習Python,每天花一點時間,開啟python編程新世界的大門,領略新的風光,讓人生多一種可能!

相關焦點

  • Python數據分析:pandas讀取和寫入數據
    我的公眾號是關於自己在數據分析/挖掘學習過程中的一些技術和總結分享,文章會持續更新......繼續深入學習pandas相關操作,數據讀取寫入、分組、合併,轉換等等。前面一篇文章裡已經寫了關於描述性統計以及常用的基本操作。接下來的一段時間裡,我將陸續地去掌握並輸出。這篇文章是關於數據讀取與寫入的知識點。
  • python數據分析之pandas(二)
    在python數據分析之pandas庫基礎用法(一)數據讀取(read_csv)文章中我們已經學會了用pandas讀取csv文件和索引取數的技巧,在這篇文章中我們來學習如何預處理數據及pandas自定義函數。
  • 探索 COVID-19 新冠數據來學習 Pandas
    使用 Pandas 數據分析工具來學習一些基本的 pandas 命令,並探索數據集中包含的內容。在本教程中,我們將使用 pandas 數據分析工具來學習一些基本的 pandas 命令,並探索數據集中包含的內容。配置開發環境安裝好Python3版本,本文中還須安裝 pandas。
  • python之pandas數據分析
    一簡介我們在《python爬蟲之urllib庫鏈家二手房信息分析》文章裡介紹了如何從鏈家網站爬取房價信息,今天我們來分析下房價總價和其他幾個的關係。分析數據先安裝下相關分析數據的工具,圖一安裝了pandas,圖二安裝了xlrs。pandas是強大的數據分析工具,xlrs是用來讀取excel數據的。
  • Python數據分析之pandas數據讀寫
    本節將學習pandas從多種存儲媒介(比如文件和資料庫)讀取數據的工具,還將學到直接將不同的數據結構寫入不同格式文件的方法,而無需過多考慮所使用的技術。本節的主要內容為pandas的多種I/O API函數,它們為大多數常用格式的數據作為DataFrame對象進行讀寫提供了很大便利。你首先會學會文本文件的讀寫,隨後再逐步過渡到更加複雜的二進位文件。
  • 為什麼要學習pandas來處理分析數據?
    用python代碼完成所有工作,避免數據搬移、格式切換導致的誤差。excel能做的pandas可以自動化、效率更高地完成。更加靈活pandas經過這些年的發展,有著雖然小眾但忠誠的擁躉,功能十分強大,可以算是python+excel+sql的完美結合。
  • 十分鐘學習pandas!pandas常用操作總結!
    學習Python, 當然少不了pandas,pandas是python數據科學中的必備工具,熟練使用pandas是從sql boy/girl 跨越到一名優秀的數據分析師傅的必備技能。這篇pandas常用操作總結幫大家回顧下pandas的常用語法,尤其是我們分析數據時常用的方法。
  • Pandas閃回咒!如何在Python中重寫SQL查詢?
    一些程式設計師只熟悉SQL中的數據操作,卻不熟悉Python中的數據操作,因此在完成項目時,我們不得不頻繁地在SQL和Python之間進行切換,導致了工作效率低下和生產能力下降。本文就教你一種方法,使用pandas在Python中輕鬆重現SQL結果。
  • Pandas閃回咒!如何在Python中重寫SQL查詢?
    入門指南如果電腦中沒有pandas包,則需要先安裝一下:Conda install pandas在這個階段,我們將使用著名的Kaggle泰坦尼克數據集:https://www.kaggle.com/c/titanic
  • 思考python數據分析工具pandas-1簡介
    無論是分析大量數據、呈現數據,還是對數據進行歸一化處理並重新存儲,pandas都有廣泛的功能支持大數據需求。雖然pandas並不是目前性能最強的選擇,但它是用Python編寫的,所以對於初學者來說,它很容易學習,編寫速度快,而且有豐富的API。
  • 思考python數據分析工具pandas-1簡介
    無論是分析大量數據、呈現數據,還是對數據進行歸一化處理並重新存儲,pandas都有廣泛的功能支持大數據需求。雖然pandas並不是目前性能最強的選擇,但它是用Python編寫的,所以對於初學者來說,它很容易學習,編寫速度快,而且有豐富的API。關於pandaspandas 是用 Python 處理大數據集的常用包。
  • Python學習第94課-通過第三方接口獲得數據並導入Python繪圖
    【每天幾分鐘,從零入門python編程的世界!】上節課我們學習了導入外部文件數據並繪圖。這節課我們學習通過第三方接口獲得數據並導入Python進行繪圖。我們的數據接口使用Tushare,Tushare是一個免費、開源的python財經數據接口包。
  • 「Python替代Excel Vba」系列(三):pandas處理不規範數據
    系列文章學Python還不會處理Excel數據?帶你用pandas玩轉各種數據處理「Python替代Excel Vba」系列(二):pandas分組統計與操作Excel前言本系列前2篇已經稍微展示了 python 在數據處理方面的強大能力,這主要得益於 pandas 包的各種靈活處理方式。
  • D04 Pandas簡介 Pandas到底強在哪裡?
    title: D04|Pandas簡介 Pandas到底強在哪裡?Pandas提供的兩個主要數據結構一維數組(Series)和二維數組(DataFrame)強力的支撐著當今金融、統計、社會科學、工程等諸多領域的數據分析工作。通過Pandas我們可以方便的操作數據的增、查、改、刪、合併、重塑、分組、統計分析,此外Pandas還提供了非常成熟的I/O工具,用於讀取文本文件,excel文件,資料庫等不同來源數據,利用超快的HDF5格式保存/加載數據。
  • pandas指南:做更高效的數據科學家
    今天我要告訴你們的是:在數據科學中,有一個軟體包是你們絕對需要學習的,那就是pandas。而pandas真正有趣的地方是,很多其他的包也在裡面。pandas是一個核心包,因此它具有來自其他各種包的特性。pandas類似於Python中的Excel:它使用表(即DataFrame)並對數據進行轉換,但它還能做更多。
  • 柳小白Python學習筆記31 pandas之Series數據結構創建
    這段時間一直在補充類的相關知識,從今天起開始學習pandas模塊相關的知識。也查了好多資料,來來回回重裝了七八次還是不可以使用,就退而求其次學習xlrd,xlwt,xlutils這三個可以處理excel的模塊。學習類有部分原因是看到錯誤代碼指向的文檔含有類,但是看不懂,想著學好了類,是不是就能找到pandas不可以使用的原因了。
  • 柳小白Python學習筆記 17 外部模塊安裝
    接下來打算好好學習使用python操作excel,而操作excel需要安裝外部模塊。剛剛學習不知道安裝什麼外部模塊好。所以看書和查資料後決定安裝下面四個外部模塊:xlrd (excel read):讀取excel文件,只能讀取文件。
  • 自動生成pandas代碼,python數據處理神器
    今天我要說的不是怎麼寫代碼,而是介紹一款我親手打造的小工具,它作為探索數據的工具,你不僅不需要寫任何的代碼,它最終還會自動生成pandas代碼。python 上其實有一些庫或者工具,是基於pandas做的界面操作,而我的工具有兩大特性可以秒殺他們。現在來簡單看看所見即所得,人工操作轉代碼這個工具的核心功能,就是自動生成代碼!!
  • 保姆級Pandas教程-從零開始實踐數據挖掘和數據分析1
    目錄1 概述. 22 數據結構:series和dataframe 33 數據取值. 44 數據操作. 85 結構調整. 176 統計函數. 197 相互關係. 218 文件讀取. 22pandas 是基於NumPy 的一種工具,該工具是為了解決數據分析任務而創建的,,提供了高效地操作大型數據集所需的工具。pandas提供了大量能使我們快速便捷地處理數據的函數和方法。你很快就會發現,它是使Python成為強大而高效的數據分析環境的重要因素之一。
  • python數據分析:pandas的converters參數
    今天給大家介紹一個很多人不太常用的數據預處理的一站式處理技巧----read_csv中的convrters參數。歡迎關注哦。converters在讀入數據時我們可以用converters參數設定一個函數字典,然後就可以將函數應用到不同的列。有同學問:有啥好處呢?