Python入門學習之數據分析實戰獲取數據

2021-01-07 Python云云

想用一個完整的案例講解Python數據分析的整個流程和基礎知識,實際上以一個數據集為例,數據集是天池上的一個短租數據集,後臺回覆:短租數據集,即可獲得。

先來想一下數據分析的流程,第一步獲取數據,因此本節內容就是獲取數據以及對數據的基本操作。

數據導入

導入.xlsx文件

要導入一個.xlsx後綴的Excel文件,可以使用pd.read_excel(路徑)方法

# 導入.xlsx文件

df_review = pd.read_excel(r"D:\個人\data\reviews.xlsx")df_review

結果:

請點擊輸入

df_review數據包含了兩個欄位,listing_id和date

讀入數據時必不可少的參數就是路徑,不同的作業系統下文件路徑的寫法也不同,通常windows作業系統下關於路徑有兩種寫法:

反斜槓「 \ 」:右鍵點擊這個文件,選擇屬性,可以看到它所在的位置,默認是使用 \ 來表示,由於反斜槓「\」在Python中被定義為轉義符號,因此在寫的時候就要在路徑的最前方加一個轉義符 r,r"D:\個人\data\reviews.xlsx"

斜槓「 / 」:不需要加r,全部用 / 來寫:"D:/個人/data/reviews.xlsx"

兩種方式看個人習慣吧。

(想了解更多的Python數據分析,爬蟲,web,人工智慧等資料請看文章末尾,免費獲取。)

sheet_name 參數

對於.xlsx文件來說,可能會存在多個sheet表,因此也可以設置sheet_name參數指定導入的sheet表,可以傳入sheet表的 名字,也可以按照從0遞增的 順序 來指定,不指定sheet表則默認第一個sheet.

# 指定Sheet表

df_review = pd.read_excel(r"D:\個人\data\reviews.xlsx",sheet_name = 0) # 指定名字或順序df_review

導入.csv文件

導入.csv格式的文件使用pd.read_csv(路徑)的方法

# 導入csv文件

df_list = pd.read_csv(r"D:\個人\data\listings.csv")df_list

df_list數據主要包括:房東ID、房東姓名、經緯度、房間類型、價格、最小可租天數、評論數量、最後一次評論時間、每月評論佔比、可出租房屋、每年可出租時長等欄位

指定編碼格式

對於.csv文件有個重要的知識點,就是編碼格式,尤其是在導入文件的時候,需要了解文件的編碼格式,以免出現亂碼,那麼如何知道文件是什麼類型的編碼呢?用notepad++軟體打開,右下角會顯示該文件的編碼格式,如剛剛導入的listings.csv文件,是utf-8編碼,在書寫編碼時,大小寫通用,且utf-8也可以寫成utf8.

可以用encoding參數來設置編碼格式,Python默認的編碼格式是utf-8。

中文亂碼問題

對於文件路徑中因為出現中文而導致的亂碼問題,可以加入參數engine來避免。

# 避免出現亂碼

df_list = pd.read_csv(r"D:\個人\data\listings.csv",engine = "python")df_list

指定行索引

不指定行索引的話,從0開始遞增的一列作為行索引,也可以指定id一列為行索引,傳入參數index_col

# 指定行索引

df_list = pd.read_csv(r"D:\個人\data\listings.csv",index_col = "id")df_list.head()

結果:可以看到,id列成了行索引列。

指定列索引

默認第一行是列索引,也可以指定,使用header參數,header = 0,表示指定第一行為列索引。

# 指定列索引

df_list = pd.read_csv(r"D:\個人\data\listings.csv",header = 0)df_list.head()

對數據的基本操作

導入數據後,需要對數據進行一個大概的了解,比如數據集有幾行幾列,每個欄位的數據類型是什麼,有無空值等。

預覽

不必完全跑出數據,只需看下前幾行,用head方法,得到的是前5行數據

# 預覽數據

df_list = pd.read_csv(r"D:\個人\data\listings.csv")df_list.head()

head()裡也可傳入數字,如預覽前10行數據

df_list = pd.read_csv(r"D:\個人\data\listings.csv")df_list.head(10)

查看數據維度

數據集有幾行幾列,用shape

# 查看數據集維度df_list.shape

結果:可以看到df_list數據集有28452行,16列

查看數據類型

使用dtypes可以查看數據集所有欄位的數據類型

# 數據類型df_list.dtypes

也可以單獨查看某一個欄位的數據類型

# 單獨查看某個欄位的數據類型df_list["host_id"].dtypes

以上所述都是Python入門數據分析要學習的了。但是很多朋友可能還是不知道如何去學習Python數據分析學習Python數據分析學上述這些是否就夠了。完全不用擔心,小編整理了全套的Python零基礎學習資料。可以找我拿,什麼都不要,拿的方式是:看我的網名,也就是Python芸芸的全拼音,然後用這個名字,在(魏X)上找我就行,我還可以給大家一些比較基礎的python項目視頻!

相關焦點

  • 基於python的大數據分析-pandas數據讀取(代碼實戰)
    書籍推薦《大話軟體測試》出版啦,內容包括但不限於性能、自動化、接口、安全、移動APP非功能測試、抓包、loadrunner、jmeter、soapui、Appium、python
  • Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...
    22機器學習 23深度學習 24數據結構和算法 25python網絡爬蟲 26機器學習入門篇 27機器學習入門篇2 28機器學習提升篇 29數據挖掘篇 30深度學習必備原理與實戰 31深度學習必備原理與實戰2 32深度學習必備原理與實戰3
  • 首發‖全網最適合小白學習的python+數據分析資料,免費領取
    話外之意,數據將成核心推動力,引領一個時代。而數據分析人才也因此更加重要。本次便為大家帶來由光環大數據特邀北大碩士李曉華老師,斥重金打造的《python+數據分析》視頻,幫助大家完成從零到一的蛻變。內容包括python環境安裝,python語法,實戰項目等等,絕對友好,有無計算機基礎皆可以學習。除此之外,為了將門檻降到最低,我們還邀請了企業大牛tommy老師為大家錄製了一期《數據分析導論》。真正意義上實現了零門檻,甚至可以說包聽包會。
  • 數據分析學習入門寶典 狗熊會《R語言:從數據思維到數據實戰》
    近日,數據產業高端智庫,狗熊會推出又一教材力作——《R語言:從數據思維到數據實戰》。這本書可以作為高等院校數據科學相關專業教學的通用教材,也是新手學習的入門寶典。全書採用實例講解,新穎有趣,深入淺出,把R語言簡單靈活、包羅萬象的特點體現得淋漓盡致。無論讀者數據分析基礎如何,都能通過這本書快速上手,提升實戰能力。
  • Python數據分析入門教程(一):獲取數據源
    作者 | CDA數據分析師俗話說,巧婦難為無米之炊。不管你廚藝有多好,如果沒有食材,也做不出香甜可口的飯菜來,所以想要做出飯菜來,首先要做的就是要買米買菜。而數據分析就好比是做飯,首先也應該是準備食材,也就是獲取數據源。
  • Python數據分析實戰之數據獲取三大招
    一個數據分析師,最怕的一件事情莫過於在沒有數據的情況下,讓你去做一個詳細的數據分析報告。
  • 數據分析課程清單,從入門到精通
    A:可以的,聯繫網易雲課堂的客服即可入門第一門:數據分析第一堂課   這門課的特點:系統性學習(理論+工具+實戰)、內容更接地氣(整合萬名初學者的難點梳理而成,有2位經驗豐富的實戰從業者合力而成)、通俗易懂(由淺入深、
  • 數據分析入門學習指南,零基礎小白都能輕鬆看懂
    數據分析在如今的求職場上越來越重要。然而,讓很多朋友困惑的是,我是沒有編程基礎的小白,能學會數據分析麼?該如何學習數據分析呢?其實,如果你打算成為一名數據分析師,如何出身並不重要,數據科學是一門應用學科,你需要系統提升數據獲取、數據分析、數據可視化、機器學習的水平。下面我就簡單提供一個數據分析入門的路徑。
  • 我整理了大數據入門帖子200篇並用python分析了一下
    部分大數據入門帖子000我通過 數據挖掘入門,自學人工智慧,python入門,nlp是什麼,統計學入門,大數據入門,爬蟲是什麼意思,學習大數據要什麼基礎,數據分析師適合女生嘛,自學大數據該怎麼入手等63個入門相關關鍵問題,找了200篇左右的高票入門帖子。
  • Python數據分析學習路線個人總結
    下面探討Python數據分析需要學習的知識範疇,結合自己的經歷和理解,總結的學習大綱,有些章節帶有解釋,有些沒有。當然,關於學習範疇,可能每個人的理解都不太一樣,以下僅供參考。數據分析屬於分析思維的一個子類,有專門的數據方法論。只有先養成正確的分析思維,才能使用好數據。
  • python金融風控評分卡模型和數據分析
    (原創課程,版權所有,項目合作QQ:231469242,微信公眾號:pythonEducation) 課程介紹python金融風控評分卡模型和數據分析微專業課包含《python信用評分卡建模(附代碼)》,《python風控建模實戰lendingClub》,《金融現金貸用戶數據分析和畫像》三套課程系列
  • Python數據分析學習路線詳細版總結
    下面探討Python數據分析需要學習的知識範疇,結合自己的經歷和理解,總結的學習大綱,有些章節帶有解釋,有些沒有。當然,關於學習範疇,可能每個人的理解都不太一樣,以下僅供參考。數據分析屬於分析思維的一個子類,有專門的數據方法論。只有先養成正確的分析思維,才能使用好數據。
  • 2020重磅升級「Python數據科學入門與網絡爬蟲案例實戰研討會」
    Python作為一門面向對象的程式語言,簡潔的語法使得編寫十幾行代碼即可實現爬蟲功能,獲取海量網際網路數據。使用Python來編寫爬蟲實現簡單且效率高,同時爬取的數據可以使用Python強大的第三方數據處理庫來進行分析,最重要的是學習成本低,如此之好的東西怎能不學習呢?
  • python數據分析專題 (7):python數據分析模塊
    也就是這些python的擴展包讓python可以做數據分析,主要包括numpy,scipy,pandas,matplotlib,scikit-learn等等諸多強大的模塊,在結合上ipython交互工具 ,以及python強大的爬蟲數據獲取能力,字符串處理能力,讓python成為完整的數據分析工具。
  • 超適合Python小白的乾貨,Python數據分析50個實戰項目
    2.大話NBA | 用數據帶你回顧喬丹的職業生涯3.分析幾十萬條知乎數據,我挖掘出了這些秘密4.用(大)數據全方位解讀電視劇《大秦帝國之崛起》5.以虎嗅網4W+文章的文本挖掘為例,展現數據分析的一整套流程6.從大數據輿情傳播角度看《三生三世十裡桃花》7.北京二手房房價分析8.kaggle數據分析實踐項目練習
  • 為什麼入門大數據選擇Python而不是Java?
    畢竟出自wuli馬大大之口,今年二月份我開始了學習大數據的道路,直到現在對大數據的學習脈絡和方法也漸漸清晰。今天我們就來談談學習大數據入門語言的選擇。當然並不只是我個人之見,此外我搜集了各路大神的見解綜合起來跟大家做個討論。java和python的區別到底在哪裡?
  • 《DEEP LEARNING》《機器學習-周志華》《統計學習方法-李航》《機器學習實戰》《利用Python進行數據分析》
    以下每一本書,都是引領你從入門到精通機器學習的重要武器。
  • 大數據時代,如何培養數據分析思維?|建模|excel|數據分析|python|...
    大數據時代來臨,「數據」熱度飆升,衍生出的行業也受到追捧。據悉,中國大數據行業人才需求2020年將達210萬,未來5年需求量在2000萬人左右。可見,國內數據分析崗錢途與前景並存,想入門該朝陽產業,需要先明白數據分析究竟是什麼?
  • 量化交易之《Python數據分析》
    Numpy:提供數值數組和函數Scipy:科學計算庫Matplotlib:數據可視化 Numpy 數組的優勢1 Numpy數組能夠運用向量化運算來處理整個數組,而完成同樣的任務,python的列表則通常必須藉助循環語句遍歷列表,並對逐個元素進行相應的處理2 Numpy使用了優化過的C
  • 精品數據分析課程推薦
    A:可以的,聯繫網易雲課堂的客服即可入門第一門:數據分析第一堂課   這門課的特點:系統性學習(理論+工具+實戰)、內容更接地氣(整合萬名初學者的難點梳理而成,有2位經驗豐富的實戰從業者合力而成)、通俗易懂(由淺入深、上線連貫、課件風趣好懂