Python入門學習之數據分析實戰獲取數據

2020-12-16 Python云云

想用一個完整的案例講解Python數據分析的整個流程和基礎知識,實際上以一個數據集為例,數據集是天池上的一個短租數據集,後臺回覆:短租數據集,即可獲得。

先來想一下數據分析的流程,第一步獲取數據,因此本節內容就是獲取數據以及對數據的基本操作。

數據導入

導入.xlsx文件

要導入一個.xlsx後綴的Excel文件,可以使用pd.read_excel(路徑)方法

# 導入.xlsx文件

df_review = pd.read_excel(r"D:\個人\data\reviews.xlsx")df_review

結果:

請點擊輸入

df_review數據包含了兩個欄位,listing_id和date

讀入數據時必不可少的參數就是路徑,不同的作業系統下文件路徑的寫法也不同,通常windows作業系統下關於路徑有兩種寫法:

反斜槓「 \ 」:右鍵點擊這個文件,選擇屬性,可以看到它所在的位置,默認是使用 \ 來表示,由於反斜槓「\」在Python中被定義為轉義符號,因此在寫的時候就要在路徑的最前方加一個轉義符 r,r"D:\個人\data\reviews.xlsx"

斜槓「 / 」:不需要加r,全部用 / 來寫:"D:/個人/data/reviews.xlsx"

兩種方式看個人習慣吧。

(想了解更多的Python數據分析,爬蟲,web,人工智慧等資料請看文章末尾,免費獲取。)

sheet_name 參數

對於.xlsx文件來說,可能會存在多個sheet表,因此也可以設置sheet_name參數指定導入的sheet表,可以傳入sheet表的 名字,也可以按照從0遞增的 順序 來指定,不指定sheet表則默認第一個sheet.

# 指定Sheet表

df_review = pd.read_excel(r"D:\個人\data\reviews.xlsx",sheet_name = 0) # 指定名字或順序df_review

導入.csv文件

導入.csv格式的文件使用pd.read_csv(路徑)的方法

# 導入csv文件

df_list = pd.read_csv(r"D:\個人\data\listings.csv")df_list

df_list數據主要包括:房東ID、房東姓名、經緯度、房間類型、價格、最小可租天數、評論數量、最後一次評論時間、每月評論佔比、可出租房屋、每年可出租時長等欄位

指定編碼格式

對於.csv文件有個重要的知識點,就是編碼格式,尤其是在導入文件的時候,需要了解文件的編碼格式,以免出現亂碼,那麼如何知道文件是什麼類型的編碼呢?用notepad++軟體打開,右下角會顯示該文件的編碼格式,如剛剛導入的listings.csv文件,是utf-8編碼,在書寫編碼時,大小寫通用,且utf-8也可以寫成utf8.

可以用encoding參數來設置編碼格式,Python默認的編碼格式是utf-8。

中文亂碼問題

對於文件路徑中因為出現中文而導致的亂碼問題,可以加入參數engine來避免。

# 避免出現亂碼

df_list = pd.read_csv(r"D:\個人\data\listings.csv",engine = "python")df_list

指定行索引

不指定行索引的話,從0開始遞增的一列作為行索引,也可以指定id一列為行索引,傳入參數index_col

# 指定行索引

df_list = pd.read_csv(r"D:\個人\data\listings.csv",index_col = "id")df_list.head()

結果:可以看到,id列成了行索引列。

指定列索引

默認第一行是列索引,也可以指定,使用header參數,header = 0,表示指定第一行為列索引。

# 指定列索引

df_list = pd.read_csv(r"D:\個人\data\listings.csv",header = 0)df_list.head()

對數據的基本操作

導入數據後,需要對數據進行一個大概的了解,比如數據集有幾行幾列,每個欄位的數據類型是什麼,有無空值等。

預覽

不必完全跑出數據,只需看下前幾行,用head方法,得到的是前5行數據

# 預覽數據

df_list = pd.read_csv(r"D:\個人\data\listings.csv")df_list.head()

head()裡也可傳入數字,如預覽前10行數據

df_list = pd.read_csv(r"D:\個人\data\listings.csv")df_list.head(10)

查看數據維度

數據集有幾行幾列,用shape

# 查看數據集維度df_list.shape

結果:可以看到df_list數據集有28452行,16列

查看數據類型

使用dtypes可以查看數據集所有欄位的數據類型

# 數據類型df_list.dtypes

也可以單獨查看某一個欄位的數據類型

# 單獨查看某個欄位的數據類型df_list["host_id"].dtypes

以上所述都是Python入門數據分析要學習的了。但是很多朋友可能還是不知道如何去學習Python數據分析學習Python數據分析學上述這些是否就夠了。完全不用擔心,小編整理了全套的Python零基礎學習資料。可以找我拿,什麼都不要,拿的方式是:看我的網名,也就是Python芸芸的全拼音,然後用這個名字,在(魏X)上找我就行,我還可以給大家一些比較基礎的python項目視頻!

相關焦點

  • Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...
    22機器學習 23深度學習 24數據結構和算法 25python網絡爬蟲 26機器學習入門篇 27機器學習入門篇2 28機器學習提升篇 29數據挖掘篇 30深度學習必備原理與實戰 31深度學習必備原理與實戰2 32深度學習必備原理與實戰3
  • 數據分析入門學習指南,零基礎小白都能輕鬆看懂
    數據分析在如今的求職場上越來越重要。然而,讓很多朋友困惑的是,我是沒有編程基礎的小白,能學會數據分析麼?該如何學習數據分析呢?其實,如果你打算成為一名數據分析師,如何出身並不重要,數據科學是一門應用學科,你需要系統提升數據獲取、數據分析、數據可視化、機器學習的水平。下面我就簡單提供一個數據分析入門的路徑。
  • Python數據分析入門教程(一):獲取數據源
    作者 | CDA數據分析師俗話說,巧婦難為無米之炊。不管你廚藝有多好,如果沒有食材,也做不出香甜可口的飯菜來,所以想要做出飯菜來,首先要做的就是要買米買菜。而數據分析就好比是做飯,首先也應該是準備食材,也就是獲取數據源。
  • 超適合Python小白的乾貨,Python數據分析50個實戰項目
    2.大話NBA | 用數據帶你回顧喬丹的職業生涯3.分析幾十萬條知乎數據,我挖掘出了這些秘密4.用(大)數據全方位解讀電視劇《大秦帝國之崛起》5.以虎嗅網4W+文章的文本挖掘為例,展現數據分析的一整套流程
  • 大數據時代,如何培養數據分析思維?|數據分析|python|資料庫|...
    大數據時代來臨,「數據」熱度飆升,衍生出的行業也受到追捧。據悉,中國大數據行業人才需求2020年將達210萬,未來5年需求量在2000萬人左右。可見,國內數據分析崗錢途與前景並存,想入門該朝陽產業,需要先明白數據分析究竟是什麼?
  • Python3 量化分析筆記從小白到破產-學習路線規劃
    理由如下:其一,python的基礎語法很簡單,和自然語言非常接近,所以上手很快;其二,各種工具箱很多,編程其實就是在工具箱裡找各種工具,拼出你想要的機器;其三:用python做量化分析的入門級資料真的太多了。量化分析的過程,主要就是收集數據、處理數據、分析數據、結果可視化這麼幾步。
  • 深度|Python股票數據分析
    最近在學習基於python的股票數據分析,其中主要用到了tushare和seaborn。
  • 2020重磅升級「Python數據科學入門與網絡爬蟲案例實戰研討會」
    Python作為一門面向對象的程式語言,簡潔的語法使得編寫十幾行代碼即可實現爬蟲功能,獲取海量網際網路數據。使用Python來編寫爬蟲實現簡單且效率高,同時爬取的數據可以使用Python強大的第三方數據處理庫來進行分析,最重要的是學習成本低,如此之好的東西怎能不學習呢?
  • Python最佳經典學習路線
    如何學習Python python語言基礎:(帶你熟悉python語言的特性,學會使用python開發環境,使用python開發一些簡單的案例) (1)Python3入門,數據類型,字符串 (2)判斷/循環語句,函數,
  • Python開發簡單爬蟲【學習資料總結】
    (1)Python3入門,數據類型,字符串 (2)判斷/循環語句,函數, (3)類與對象,繼承,多態 (4)tkinter界面編程 (5)文件與異常,數據處理簡介 (6)Pygame實戰飛機大戰
  • 十六本python入門學習書籍推薦,python入門新手必看
    隨著人工智慧時代的到來,python程式語言一步登天衝到編程排行榜第一名,因此更多朋友想轉行學習python程式語言的朋友,可以一起看一下:python入門新手必看的十六本python入門學習書籍1、python基礎教程司維所著圖書:本書包括Python程序設計的方方面面,首先從Python
  • Python數據分析方向——學習資源推薦
    《Python3網絡爬蟲開發實戰》:0基礎小白的入門級別教科書給大家推薦了我學習過程中用到的一本適合小白的書後,因我在文章中提到學完爬蟲後,可以進一步學習數據分析,不少同學在後臺給我留言,問我有沒有適合的書推薦。
  • 薦書丨Python數據分析從入門到精通
    再加上Python擁有非常豐富的庫,這也使得它在數據分析領域有著越來越廣泛的應用。如果你已經決定學習Python數據分析,但是之前沒有編程經驗,那麼本書將會是你的正確選擇。《Python數據分析從入門到精通》主要內容對於希望使用Python來完成數據分析工作的人來說
  • 為什麼數據分析要學習Python?
    酷炫的圖表,理性的分析闡述,出其不意又在情理之中的思考角度,總讓人對這群「用數據講故事的人」充滿了嚮往。:數據獲取整理——數據分析——數據報告幾個關鍵環節。2、進階能力:使用Python語言進行更高效、更深入、更強大的數據分析Python是近年來最火的程式語言之一,在數據分析領域,Python語言的運行效率是Excel望塵莫及的,圖表的交互性和工作可復用性也非Excel可比擬。
  • python初學者必看的學習路線 Python是近幾年比較火的程式語言
    Python是近幾年比較火的程式語言之一,因為人工智慧的火爆,讓很多人都想從事python開發。很多零基礎學員在學習python的時候都會走一些彎路,下面小編就為大家分享python學習路線圖,幫助零基礎學員在學習的時候少走彎路。 很多人都在問Python學習步驟應該如何安排?
  • 學習Python數據分析,需要幾個階段?
    為什麼選擇Python進行數據分析? Python是一門動態的、面向對象的腳本語言,同時也是一門簡約,通俗易懂的程式語言。 Python入門簡單,代碼可讀性強,一段好的Python代碼,閱讀起來像是在讀一篇外語文章。
  • 學習python必備暢銷書排行榜top5書單
    目前幾乎所有Linux發行版中都自帶了Python解釋器,python語言在數據分析可視化方面的便捷性,以及python在人工智慧方面的應用,以上諸多因素導致了該語言有流行趨勢,佔據程式語言榜單的前幾位,雖然有培訓機構炒作的成分,但,python這麼語言確實有它的可圈可點之處。
  • 新手學python如何快速入門呢?
    對於python,也許你不會,但是你一定聽過「人生苦短,我用python」這句話,隨著人工智慧的火熱,python作為人工智慧的首要開發語言,受到了越來越多人的關注。因此不少人都想抓住風口,學習python。那麼,新手學python如何快速入門呢?
  • python爬蟲入門實戰!爬取博客文章標題和連結!
    importrequestsimportre爬蟲可以簡單地分為獲取數據,分析數據,存儲數據三個步驟。下載數據簡單來說一個網頁是由一個html文件解析構成,我們需要獲取這個文本內容。每個瀏覽器都可以通過開發者工具獲取到文本內容,以chrome為例,打開網頁後,右鍵->檢查。
  • 三個月從小白到數據分析師,都是靠著這份書單!
    如何快速成為數據分析師?是很多想轉行數據分析的人經常問的問題,數據分析設計多個領域的知識,內容繁雜,很多人沒有基礎的人自學起來,感覺摸不著頭腦,今天就圍繞數據分析師的成長路徑為大家整理了一個相對完整的從入門到進階的學習書單,內容較多,建議大家採取階段性學習。