【Python基礎】Pandas數據可視化原來也這麼厲害

2021-03-02 機器學習初學者

一、可視化概述

在Python中,常見的數據可視化庫有3個:

matplotlib:最常用的庫,可以算作可視化的必備技能庫,比較底層,api多,學起來不太容易。

seaborn:是建構於matplotlib基礎上,能滿足絕大多數可視化需求,更特殊的需求還是需要學習matplotlib。

pyecharts:上面的兩個庫都是靜態的可視化庫,而pyecharts有很好的web兼容性,可以做到可視化的動態效果。並且種類也比較豐富。比如這個圖,就非常厲害:畫圖神器pyecharts-旭日圖

Pandas:而今天要講的是Pandas的可視化,Pandas主要作為數據分析的庫,雖然沒有上述三個庫那個強大,但是勝在方便,在數據分析的過程中,只要一行代碼就能實現。並且圖形也非常漂亮。


二、直接看案例

Pandas 中,有11個比較常見的圖形可視化,還有幾個比較進階的,我們一個一個看看怎麼畫的

import pandas as pdimport numpy  as npdf= pd.DataFrame(np.random.rand(10, 4), columns=['A','B','C','D'])

01、柱狀圖-縱向

             

stacked=True,畫堆疊柱狀圖

df.plot.bar(stacked=True)

             

 

02、柱狀圖-橫向

             

同樣,stacked=True,畫堆疊柱狀圖

df.plot.barh(stacked=True)

             

 

03、面積圖

df.plot.area(alpha = 0.9)

             

df.plot.area(stacked=True,alpha = 0.9)

             

04、密度圖-kde

             


05、密度圖-density

             

 

06、直方圖

換個數據集

df = pd.DataFrame({'A': np.random.randn(1000) + 1,                   'B': np.random.randn(1000),                   'C': np.random.randn(1000) - 1},                  columns=['A', 'B', 'C']) df.plot.hist(bins=200)

             

df.plot.hist(stacked=True, bins=20)

             

 

df= pd.DataFrame(np.random.rand(1000, 4), columns=['A','B','C','D'])df.diff().hist(color='k', alpha=0.7, bins=50)

             

 

07、箱盒圖

df= pd.DataFrame(np.random.rand(100, 4), columns=['A','B','C','D'])df.plot.box()

             

vert=False也可以換成橫向

             

 

08、散點圖

df.plot.scatter(x='A',y='B')

             

 

09、蜂巢圖

df = pd.DataFrame(np.random.randn(1000, 2), columns=['a', 'b'])df['b'] = df['b'] + np.arange(1000)df.plot.hexbin(x='a', y='b', gridsize=25)

 

             


07、餅圖

series = pd.Series(3 * np.random.rand(4), index=['a', 'b', 'c', 'd'], name='series')series.plot.pie(figsize=(6, 6))

             

series.plot.pie(labels=['AA', 'BB', 'CC', 'DD'], colors=['r', 'g', 'b', 'c'],autopct='%.2f', fontsize=20, figsize=(6, 6))



             

 

08、矩陣散點圖

from pandas.plotting import scatter_matrixdf = pd.DataFrame(np.random.randn(1000, 4), columns=['a', 'b', 'c', 'd'])scatter_matrix(df, alpha=0.2, figsize=(6, 6), diagonal='kde')

             

 

09、安德魯斯曲線

加載自己的數據,關注公眾號【AI入門學習】回復 iris 獲取數據集

data = pd.read_csv('C:/Users/wuzhengxiang/Desktop/iris.csv')pd.plotting.andrews_curves(data , 'Name')

             

andrews_curves(data, 'Name', colormap='winter')

             

 

10、平行坐標圖

該圖也是使用自己加載的iris數據集

from pandas.plotting import parallel_coordinatesparallel_coordinates(data, 'Name', colormap='gist_rainbow')

             

 

11、Lag Plot

from pandas.plotting import lag_plotdf= pd.Series(0.1 * np.random.rand(1000) +        0.9 * np.sin(np.linspace(-99 * np.pi, 99 * np.pi, num=1000)))lag_plot(df)

             

 

12、默認函數plot

直接畫圖,默認為折線圖

df= pd.DataFrame(np.random.rand(12, 4), columns=['A','B','C','D'])df.plot()

             

df.plot(subplots=True,layout=(2, 2), figsize=(15, 8))

       

df= pd.DataFrame(np.random.rand(1000, 4), columns=['A','B','C','D'])df.plot()

             

df.plot(subplots=True,layout=(2, 2), figsize=(15, 8))

             

 

13、bootstrap_plot

s = pd.Series(np.random.uniform(size=100))pd.plotting.bootstrap_plot(s)

             

 

 

三、參數詳解

1、官方文檔

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html

https://pandas.pydata.org/pandas-docs/version/0.18.1/visualization.html

2、參數介紹

DataFrame.plot(x=None, y=None, kind='line', ax=None, subplots=False, sharex=None, sharey=False, layout=None, figsize=None, use_index=True, title=None, grid=None, legend=True, style=None, logx=False, logy=False, loglog=False, xticks=None, yticks=None, xlim=None, ylim=None, rot=None, fontsize=None, colormap=None, position=0.5, table=False, yerr=None,xerr=None, stacked=True/False, sort_columns=False, secondary_y=False, mark_right=True, **kwds)

e, legend=True, style=None, logx=False, logy=False, loglog=False, xticks=None, yticks=None, xlim=None, ylim=None, rot=None, fontsize=None, colormap=None, position=0.5, table=False, yerr=None, xerr=None, stacked=True/False, sort_columns=False, secondary_y=False, mark_right=True, **kwds)

注意:每種繪圖類型都有相對應的方法: df.plot(kind='line')與df.plot.line()等價

x : label or position, default None#指數據列的標籤或位置參數

y : label, position or list of label, positions, default None

kind : str#繪圖類型

『line』 : line plot (default)#折線圖

『bar』 : vertical bar plot#條形圖。stacked為True時為堆疊的柱狀圖

『barh』 : horizontal bar plot#橫向條形圖

『hist』 : histogram#直方圖(數值頻率分布)

『box』 : boxplot#箱型圖

『kde』 : Kernel Density Estimation plot#密度圖,主要對柱狀圖添加Kernel 概率密度線

『density』 : same as 『kde』

『area』 : area plot#與x軸所圍區域圖(面積圖)。Stacked=True時,每列必須全部為正或負值,stacked=False時,對數據沒有要求

『pie』 : pie plot#餅圖。數值必須為正值,需指定Y軸或者subplots=True

『scatter』 : scatter plot#散點圖。需指定X軸Y軸

『hexbin』 : hexbin plot#蜂巢圖。需指定X軸Y軸

『hexbin』 : hexbin plot#蜂巢圖。需指定X軸Y軸

ax : matplotlib axes object, default None#**子圖(axes, 也可以理解成坐標軸) 要在其上進行繪製的matplotlib subplot對象。如果沒有設置,則使用當前matplotlib subplot**其中,變量和函數通過改變figure和axes中的元素(例如:title,label,點和線等等)一起描述figure和axes,也就是在畫布上繪圖。

subplots : boolean, default False#是否對列分別作子圖

sharex : boolean, default True if ax is None else False#如果ax為None,則默認為True,否則為False

In case subplots=True, share x axis and set some x axis labels to invisible; defaults to True if ax is None otherwise False if an ax is passed in; Be aware, that passing in both an ax and sharex=True will alter all x axis labels for all axis in a figure!

sharey : boolean, default False#如果有子圖,子圖共y軸刻度,標籤

In case subplots=True, share y axis and set some y axis labels to invisible

layout : tuple (rows, columns) for the layout of subplots#子圖的行列布局

figsize : a tuple (width, height) in inches#圖片尺寸大小

use_index : boolean, default True#默認用索引做x軸

title : string#圖片的標題用字符串

Title to use for the plot

grid : boolean, default None#圖片是否有網格

legend : False/True/’reverse』#子圖的圖例 (默認為True)

style : list or dict#對每列折線圖設置線的類型

logx : boolean, default False#設置x軸刻度是否取對數

logy : boolean, default False

loglog : boolean, default False#同時設置x,y軸刻度是否取對數

xticks : sequence#設置x軸刻度值,序列形式(比如列表)

yticks : sequence#設置y軸刻度,序列形式(比如列表)

xlim : float/2-tuple/list#設置坐標軸的範圍。數值(最小值),列表或元組(區間範圍)

ylim : float/2-tuple/list

rot : int, default None#設置軸標籤(軸刻度)的顯示旋轉度數  

fontsize : int, default None#設置軸刻度的字體大小

colormap : str or matplotlib colormap object, default None#設置圖的區域顏色

colorbar : boolean, optional  #柱子顏色

If True, plot colorbar (only relevant for 『scatter』 and 『hexbin』 plots)

position : float  #條形圖的對齊方式,取值範圍[0,1],即左下端到右上端默認0.5(中間對齊) 

layout : tuple (optional)  #布局。layout=(2, 3)兩行三列,layout=(2, -1)兩行自適應列數

Eg. df.plot(subplots=True, layout=(2, -1), sharex=False)

table : boolean, Series or DataFrame, default False  #圖下添加表。如果為True,則使用DataFrame中的數據繪製表格,並且數據將被轉置以滿足matplotlib的默認布局。。

yerr : DataFrame, Series, array-like, dict and str

See Plotting with Error Bars for detail.

xerr : same types as yerr.

stacked : boolean, default False in line and bar plots, and True in area plot. If True, create stacked plot. #前面有介紹

sort_columns : boolean, default False  #對列名稱進行排序以確定繪圖順序

secondary_y : boolean or sequence, default False  #設置第二個y軸(右輔助y軸)

Whether to plot on the secondary y-axis If a list/tuple, which columns to plot on secondary y-axis

mark_right : boolean, default True


獲取本站知識星球優惠券,複製連結直接打開:

https://t.zsxq.com/qFiUFMV

本站qq群704220115。

加入微信群請掃碼:

相關焦點

  • pandas數據可視化原來也這麼厲害
    作者:小伍哥 來源:AI入門學習(公眾號)在python中,常見的數據可視化庫有3個:matplotlib:最常用的庫,可以算作可視化的必備技能庫,比較底層,api多,學起來不太容易。seaborn:是建構於matplotlib基礎上,能滿足絕大多數可視化需求,更特殊的需求還是需要學習matplotlib。pyecharts:上面的兩個庫都是靜態的可視化庫,而pyecharts有很好的web兼容性,可以做到可視化的動態效果。並且種類也比較豐富。
  • Pandas數據可視化原來也這麼厲害
    >一、可視化概述在Python中,常見的數據可視化庫有3個:matplotlib:最常用的庫,可以算作可視化的必備技能庫,比較底層,api多,學起來不太容易。seaborn:是建構於matplotlib基礎上,能滿足絕大多數可視化需求,更特殊的需求還是需要學習matplotlib。pyecharts:上面的兩個庫都是靜態的可視化庫,而pyecharts有很好的web兼容性,可以做到可視化的動態效果。
  • Python數據可視化教程之基礎篇
    經過學習之後,我總結了利用python實現可視化的三個步驟:確定問題,選擇圖形轉換數據,應用函數參數設置,一目了然python中最基本的作圖庫就是matplotlib,是一個最基礎的Python可視化庫,一般都是從matplotlib上手Python數據可視化,
  • Python數學建模技巧之pandas數據處理
    最常見的庫有進行矩陣運算的Numpy、進行數據處理的pandas、進行科學計算的Scipy、進行圖形繪製及科學可視化的matplotlib、進行符號計算的Sympy以及方便進行機器學習任務的Sklearn。由於今年美賽官方公告中稱,將會提前在賽題公布之前就提供下載C題數據集的方式。
  • 想用Python做數據可視化?先邁過這個「坎」
    用過python的人都會面臨一個問題,尤其是初學者:我應該選哪個來實現數據可視化? 以下就是將要用來創建繪製數據的示例: ·Pandas ·Seaborn ·Ggplot 在示例中,我將使用pandas進行數據處理並使用它來完成可視化的效果。
  • 推薦: 一本「高顏值」的Python語言數據可視化圖書
    另外,《R語言數據可視化之美》基於R中的ggplot2包及其拓展包等,系統性地介紹了幾乎所有常見的二維和三維圖表的繪製方法。所以很有必要系統性地介紹python的繪圖語法系統,包括最基礎也最常用的matplotlib包、常用於統計分析的seaborn、最新出現類似R ggplot2語法的plotnine以及用於地理空間數據可視化的basemap包。
  • python數據分析專題 (7):python數據分析模塊
    也就是這些python的擴展包讓python可以做數據分析,主要包括numpy,scipy,pandas,matplotlib,scikit-learn等等諸多強大的模塊,在結合上ipython交互工具 ,以及python強大的爬蟲數據獲取能力,字符串處理能力,讓python成為完整的數據分析工具。
  • Python的數據可視化:對比7種工具包
    幸運的是,近幾年出現很多新的數據可視化Python庫彌補了這個差距,matplotlib已經成為主要的數據可視化庫,但是還有很多其它的庫,比如vispy,bokeh,seaborn,pygal,folium,和networkx,他們都建立在matplotlib的基礎之上,或者擁有matplotlib所不具有的功能。
  • Python數據可視化—Seaborn
    今天為大家分享的小技巧是python的可視化畫圖庫Seaborn。相信很多小俠客用過matplotlib、pyecharts等可視化庫,可是為什麼還要介紹Seaborn呢?因為它修復了上述兩個庫的一些缺點,比如Seaborn提供了大量的高級接口和自定義主題,而matplotlib沒有這些接口使得很難確定哪些設置來自定義圖表。
  • Python可視化教程(上)-基礎篇
    經過學習之後,我總結了利用python實現可視化的三個步驟:確定問題,選擇圖形轉換數據,應用函數參數設置,一目了然python中最基本的作圖庫就是matplotlib,是一個最基礎的Python可視化庫,一般都是從matplotlib上手Python數據可視化,
  • Python的可視化工具概述
    >ggplotBokehpygalPlotly在例子用,我將使用pandas操作數據,並啟動其可視化.在大多數情況下使用這些工具不需要pandas,但是我覺得pandas+可視化工具如此普遍,這是最好的起點。
  • 懂Excel就能輕鬆入門Python數據分析包pandas(十五):拆分數據
    此系列文章收錄在公眾號中:數據大宇宙 > 數據處理 >E-pd轉發本文並私信我"python",即可經常聽別人說 Python 在數據領域有多厲害,結果學了很長時間,連數據處理都麻煩得要死。
  • python數據分析萬字乾貨!一個數據集全方位解讀pandas
    說到python與數據分析,那肯定少不了pandas的身影,本文希望通過分析經典的NBA數據集來系統的全方位講解pandas包,建議搭配IDE一遍敲一邊讀哦。話不多說,開始吧!>對列進行操作指定數據類型數據清洗數據可視化pandas的安裝建議直接安裝anaconda,會預置安裝好所有數據分析相關的包,當然也可以使用pip安裝。
  • 【Python教程】用Python進行數據可視化
    通過上面的例子,我們應該可以感受到利用可視化能多麼美麗的展示數據。而且和其它語言相比,使用 Python 進行可視化更容易簡便一些。/二、可視化示例詳情2.1 基礎概念數據:離散的,客觀事實的數字表示信息:處理後的數據,為實際問題提供答案    為數據提供一種關係或一個關聯後,數據就成了信息,這種關聯通過提供數據背景來完成  知識包括做出適當決策的能力和執行時所需的技能      如何獲取觀點: 基於已有數據信息得到最佳或現實的決策
  • python數據分析常用庫之pandas入門(2)
    索引、選擇和賦值昨天介紹了pandas的模塊引入、創建和讀取數據,今天主要看看怎麼從數據結構中獲得想要的值,也就是數據的索引查找、
  • pandas數據可視化教學,一招即懂
    數據可視化可以讓我們很直觀的發現數據中隱藏的規律,察覺到變量之間的互動關係,可以幫助我們更好的給他人解釋現象,做到一圖勝千文的說明效果。
  • Python數據分析:pandas讀取和寫入數據
    我的公眾號是關於自己在數據分析/挖掘學習過程中的一些技術和總結分享,文章會持續更新......繼續深入學習pandas相關操作,數據讀取寫入、分組、合併,轉換等等。前面一篇文章裡已經寫了關於描述性統計以及常用的基本操作。接下來的一段時間裡,我將陸續地去掌握並輸出。這篇文章是關於數據讀取與寫入的知識點。
  • 懂Excel輕鬆入門Python數據分析包pandas(二十八):二分法查找
    此系列文章收錄在:數據大宇宙 > 數據處理 > E-pd轉發本文並私信我"python",即可獲得Python資料以及更多系列文章(持續更新的)經常聽別人說 Python 在數據領域有多厲害,結果學了很長時間,連數據處理都麻煩得要死。
  • 如何用pandas更快地進行數據可視化?
    作者:劉早起來源:早起Python(公眾號)如果你經常使用Python進行數據分析,那麼對於pandas一定不會陌生,但是Pandas除了在數據處理上大放異彩,隨著版本的不斷更新,Pandas的繪圖功能在某些情況下甚至要比matplotlib更加適用,本文就將介紹如何用Pandas更快的進行數據可視化!
  • Python學習120課 pandas簡介kaggle下載數據及pandas讀取外部數據
    【每天幾分鐘,從零入門python編程的世界!】numpy的基本的東西我們學習差不多了,後面具體應用中遇到問題具體分析,然後去深入了解遇到的新的知識點就行。現在我們開始學習pandas,pandas一般用的更多,pandas是基於numpy去寫的。pandas是一個專門做數據結構和數據分析的庫。