超硬核的 Python 數據可視化教程!

Python實現可視化的三個步驟：

確定問題，選擇圖形轉換數據，應用函數參數設置，一目了然 1、首先，要知道我們用哪些庫來畫圖?

matplotlib

python中最基本的作圖庫就是matplotlib，是一個最基礎的Python可視化庫，一般都是從matplotlib上手Python數據可視化，然後開始做縱向與橫向拓展。

Seaborn

是一個基於matplotlib的高級可視化效果庫，針對的點主要是數據挖掘和機器學習中的變量特徵選取，seaborn可以用短小的代碼去繪製描述更多維度數據的可視化效果圖

其他庫還包括

Bokeh(是一個用於做瀏覽器端交互可視化的庫，實現分析師與數據的交互);Mapbox(處理地理數據引擎更強的可視化工具庫)等等

本篇文章主要使用matplotlib進行案例分析

第一步：確定問題，選擇圖形

業務可能很複雜，但是經過拆分，我們要找到我們想通過圖形表達什麼具體問題。分析思維的訓練可以學習《麥肯錫方法》和《金字塔原理》中的方法。

這是網上的一張關於圖表類型選擇的總結。

在python中，我們可以總結為以下四種基本視覺元素來展現圖形：

點：scatter plot 二維數據，適用於簡單二維關係; 線：line plot 二維數據，適用於時間序列; 柱狀：bar plot 二維數據，適用於類別統計; 顏色：heatmap 適用於展示第三維度;

數據間存在分布，構成，比較，聯繫以及變化趨勢等關係。對應不一樣的關係，選擇相應的圖形進行展示。

第二步：轉換數據，應用函數

數據分析和建模方面的大量編程工作都是用在數據準備的基礎上的：加載、清理、轉換以及重塑。我們可視化步驟也需要對數據進行整理，轉換成我們需要的格式再套用可視化方法完成作圖。

下面是一些常用的數據轉換方法：

合併：merge，concat，combine_frist(類似於資料庫中的全外連接) 重塑：reshape;軸向旋轉：pivot(類似excel數據透視表) 去重：drop_duplicates 映射：map 填充替換：fillna,replace 重命名軸索引：rename

將分類變量轉換『啞變量矩陣』的get_dummies函數以及在df中對某列數據取限定值等等。

函數則根據第一步中選擇好的圖形，去找python中對應的函數。

第三步：參數設置，一目了然

原始圖形畫完後，我們可以根據需求修改顏色(color)，線型(linestyle)，標記(maker)或者其他圖表裝飾項標題(Title)，軸標籤(xlabel，ylabel)，軸刻度(set_xticks)，還有圖例(legend)等，讓圖形更加直觀。

第三步是在第二步的基礎上,為了使圖形更加清晰明了，做的修飾工作。具體參數都可以在製圖函數中找到。

2、可視化作圖基礎

Matplotlib作圖基礎

#導入包 import numpy as np import pandas as pd import matplotlib.pyplot as plt

Figure和Subplot

matplotlib的圖形都位於Figure(畫布)中，Subplot創建圖像空間。不能通過figure繪圖，必須用add_subplot創建一個或多個subplot。

figsize可以指定圖像尺寸。

figure() #創建subplot，221表示這是2行2列表格中的第1個圖像。 ax1 = fig.add_subplot(221) #但現在更習慣使用以下方法創建畫布和圖像，2,2表示這是一個2*2的畫布，可以放置4個圖像 fig , axes = plt.subplots(2,2,sharex=True,sharey=True) #plt.subplot的sharex和sharey參數可以指定所有的subplot使用相同的x，y軸刻度。

利用Figure的subplots_adjust方法可以調整間距。

subplots_adjust(left=None,bottom=None,right=None,top=None,wspace=None,hspace=None)

顏色color，標記marker，和線型linestyle

matplotlib的plot函數接受一組X和Y坐標，還可以接受一個表示顏色和線型的字符串縮寫：'g--'，表示顏色是綠色green，線型是'--'虛線。也可以使用參數明確的指定。

線型圖還可以加上一些標記(marker)，來突出顯示數據點的位置。標記也可以放在格式字符串中，但標記類型和線型必須放在顏色後面。

plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o') [<matplotlib.lines.Line2D at 0x8c919b0>]

刻度，標籤和圖例

plt的xlim、xticks和xtickslabels方法分別控制圖表的範圍和刻度位置和刻度標籤。

調用方法時不帶參數，則返回當前的參數值;調用時帶參數，則設置參數值。

plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o') plt.xlim() #不帶參數調用，顯示當前參數； #可將xlim替換為另外兩個方法試試 (-1.4500000000000002, 30.45)

plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o') plt.xlim([0,15]) #橫軸刻度變成0-15 (0, 15)

設置標題，軸標籤，刻度以及刻度標籤

fig = plt.figure();ax = fig.add_subplot(1,1,1) ax.plot(np.random.randn(1000).cumsum()) ticks = ax.set_xticks([0,250,500,750,1000]) #設置刻度值 labels = ax.set_xticklabels(['one','two','three','four','five']) #設置刻度標籤 ax.set_title('My first Plot') #設置標題 ax.set_xlabel('Stage') #設置軸標籤 Text(0.5,0,'Stage')

添加圖例

圖例legend是另一種用於標識圖標元素的重要工具。可以在添加subplot的時候傳入label參數。

fig = plt.figure(figsize=(12,5));ax = fig.add_subplot(111) ax.plot(np.random.randn(1000).cumsum(),'k',label='one') #傳入label參數，定義label名稱 ax.plot(np.random.randn(1000).cumsum(),'k--',label='two') ax.plot(np.random.randn(1000).cumsum(),'k.',label='three') #圖形創建完後，只需要調用legend參數將label調出來即可。 ax.legend(loc='best') #要求不是很嚴格的話，建議使用loc=『best』參數來讓它自己選擇最佳位置 <matplotlib.legend.Legend at 0xa8f5a20>

註解

除標準的圖表對象之外，我們還可以自定義添加一些文字註解或者箭頭。

註解可以通過text，arrow和annotate等函數進行添加。text函數可以將文本繪製在指定的x，y坐標位置，還可以進行自定義格式

plt.plot(np.random.randn(1000).cumsum()) plt.text(600,10,'test ',family='monospace',fontsize=10) #中文注釋在默認環境下並不能正常顯示，需要修改配置文件，使其支持中文字體。具體步驟請自行搜索。

保存圖表到文件

利用plt.savefig可以將當前圖表保存到文件。例如，要將圖表保存為png文件，可以執行

文件類型是根據拓展名而定的。其他參數還有：

fname：含有文件路徑的字符串，拓展名指定文件類型 dpi：解析度，默認100 facecolor,edgcolor 圖像的背景色，默認『w』白色 format：顯示設置文件格式('png','pdf','svg','ps','jpg'等) bbox_inches：圖表需要保留的部分。如果設置為「tight」，則將嘗試剪除圖像周圍的空白部分 plt.savefig('./plot.jpg') #保存圖像為plot名稱的jpg格式圖像 3、Pandas中的繪圖函數

Matplotlib作圖

matplotlib是最基礎的繪圖函數，也是相對較低級的工具。組裝一張圖表需要單獨調用各個基礎組件才行。Pandas中有許多基於matplotlib的高級繪圖方法，原本需要多行代碼才能搞定的圖表，使用pandas只需要短短幾行。

我們使用的就調用了pandas中的繪圖包。

import matplotlib.pyplot as plt

線型圖

Series和DataFrame都有一個用於生成各類圖表的plot方法。默認情況下，他們生成的是線型圖。

s = pd.Series(np.random.randn(10).cumsum(),index=np.arange(0,100,10)) s.plot() #Series對象的索引index會傳給matplotlib用作繪製x軸。 <matplotlib.axes._subplots.AxesSubplot at 0xf553128>

df = pd.DataFrame(np.random.randn(10,4).cumsum(0),columns=['A','B','C','D']) df.plot() #plot會自動為不同變量改變顏色，並添加圖例 <matplotlib.axes._subplots.AxesSubplot at 0xf4f9eb8>

Series.plot方法的參數

label：用於圖表的標籤 style：風格字符串，'g--' alpha：圖像的填充不透明度(0-1) kind：圖表類型(bar，line，hist，kde等) xticks：設定x軸刻度值 yticks：設定y軸刻度值 xlim，ylim：設定軸界限，[0,10] grid：顯示軸網格線，默認關閉 rot：旋轉刻度標籤 use_index：將對象的索引用作刻度標籤 logy：在Y軸上使用對數標尺

DataFrame.plot方法的參數

DataFrame除了Series中的參數外，還有一些獨有的選項。

subplots：將各個DataFrame列繪製到單獨的subplot中 sharex，sharey：共享x，y軸 figsize：控制圖像大小 title：圖像標題 legend：添加圖例，默認顯示 sort_columns：以字母順序繪製各列，默認使用當前順序

柱狀圖

在生成線型圖的代碼中加上kind=『bar』或者kind=『barh』，可以生成柱狀圖或水平柱狀圖。

fig,axes = plt.subplots(2,1) data = pd.Series(np.random.rand(10),index=list('abcdefghij')) data.plot(kind='bar',ax=axes[0],rot=0,alpha=0.3) data.plot(kind='barh',ax=axes[1],grid=True) <matplotlib.axes._subplots.AxesSubplot at 0xfe39898>

柱狀圖有一個非常實用的方法：利用value_counts圖形化顯示Series或者DF中各值的出現頻率。

比如df.value_counts().plot(kind='bar')

Python可視化的基礎語法就到這裡，其他圖形的繪製方法大同小異。

重點是遵循三個步驟的思路來進行思考、選擇、應用。多多練習可以更加熟練。

超硬核的 Python 數據可視化教程!

相關焦點

重磅:包郵寄送《Python數據可視化之美》

想用Python做數據可視化?先邁過這個「坎」

酷炫的可視化圖表工具來幫忙深度評測五大Python數據可視化工具

用python和BI可視化分析，湖人贏在這點上

Python和VizViewer進行自動駕駛數據集可視化

Python爬30W數據後,我有了答案

數據分析:R與Python怎麼選?

Python數據可視化分析告訴你答案

Python學習第88課-數據可視化之柱狀圖繪製

蒙特卡洛模擬(Python)深入教程

在XGBoost和LightGBM模型中強制執行單調約束的python教程

教程|Python Web頁面抓取:循序漸進

堪比Excel,Python可視化神器Altair入門詳解

Python中的交互式數據可視化與Bokeh(系列四)

這10 個 Python 可視化工具,你都用過?

Python入門小迷宮,走完這個迷宮,就能掌握python編程基礎

分享:關於NBA數據分析可視化(Python)

Python腳本示例:從log中讀取數據,進行分析和可視化

Python數據分析入門教程(一):獲取數據源

如何自學成 Python 大神?這裡有些建議

超硬核的 Python 數據可視化教程!

相關焦點

重磅:包郵寄送《Python數據可視化之美》

想用Python做數據可視化?先邁過這個「坎」

酷炫的可視化圖表工具來幫忙 深度評測五大Python數據可視化工具

用python和BI可視化分析，湖人贏在這點上

Python和VizViewer進行自動駕駛數據集可視化

Python爬30W數據後,我有了答案

數據分析:R與Python怎麼選?

Python數據可視化分析告訴你答案

Python學習第88課-數據可視化之柱狀圖繪製

蒙特卡洛模擬(Python)深入教程

在XGBoost和LightGBM模型中強制執行單調約束的python教程

教程|Python Web頁面抓取:循序漸進

堪比Excel,Python可視化神器Altair入門詳解

Python中的交互式數據可視化與Bokeh(系列四)

這10 個 Python 可視化工具,你都用過?

Python入門小迷宮,走完這個迷宮,就能掌握python編程基礎

分享:關於NBA數據分析可視化(Python)

Python腳本示例:從log中讀取數據,進行分析和可視化

Python數據分析入門教程(一):獲取數據源

如何自學成 Python 大神?這裡有些建議

酷炫的可視化圖表工具來幫忙深度評測五大Python數據可視化工具