原創: 未明學院
Pandas是一個強大的分析結構化數據的工具集;它基於numpy,用於數據分析和數據挖掘,同時也提供數據清洗功能。pandas與numpy一起構成了數據分析的基礎雙生庫。
今天小明邀請了未明的王老師,給大家總結了pandas的核心知識,主要包括以下幾個方面。
pandas核心知識
01、首先我們來認識一下pandas的一些基本概念。
pandas概述
02在使用pandas做數據分析的時候往往第一步就是將數據導入進來,比如csv或者excel格式的數據,下面這張圖就是我們讀取數據時候的方法和參數。
數據讀入
03、當多個數據表需要合併時可以按照下面的三種方式來進行,merge,join和concat。
數據集合併
04、在做數據分析與挖掘的時候往往都要對數據的缺失值異常值進行處理,也需要將數據變換格式從而滿足特定的分析和挖掘工具的需求,下面這張圖梳理了pandas常用的函數方法。
常用函數方法
05、也許大多數人都有在Excel中使用數據透視表的經歷,其實Pandas也提供了一個類似的功能,名為pivot_table。
數據透視表
06、Groupby就是對指定的索引進行分類聚合,是pandas用於數據分析一個強大的動能函數,很多對數據的清洗、轉換、聚合都需要用到。
Groupby
07、處理好的數據最終將要導出保存,常用的兩種數據導出格式就是excel和csv文件兩種。
數據導出
這個是完整的導圖,方便大家收藏查看。
經過老師的梳理,大家是不是對數據分析關鍵庫pandas有了更清晰的認識呢?
小明以後還會推出更多與Python學習相關的乾貨,快留言告訴我們你最想了解的內容吧!