超硬核的 Python 數據可視化教程!

2021-01-13 TechWeb

Python實現可視化的三個步驟:

確定問題,選擇圖形 轉換數據,應用函數 參數設置,一目了然 1、首先,要知道我們用哪些庫來畫圖?

matplotlib

python中最基本的作圖庫就是matplotlib,是一個最基礎的Python可視化庫,一般都是從matplotlib上手Python數據可視化,然後開始做縱向與橫向拓展。

Seaborn

是一個基於matplotlib的高級可視化效果庫,針對的點主要是數據挖掘和機器學習中的變量特徵選取,seaborn可以用短小的代碼去繪製描述更多維度數據的可視化效果圖

其他庫還包括

Bokeh(是一個用於做瀏覽器端交互可視化的庫,實現分析師與數據的交互);Mapbox(處理地理數據引擎更強的可視化工具庫)等等

本篇文章主要使用matplotlib進行案例分析

第一步:確定問題,選擇圖形

業務可能很複雜,但是經過拆分,我們要找到我們想通過圖形表達什麼具體問題。分析思維的訓練可以學習《麥肯錫方法》和《金字塔原理》中的方法。

這是網上的一張關於圖表類型選擇的總結。

在python中,我們可以總結為以下四種基本視覺元素來展現圖形:

點:scatter plot 二維數據,適用於簡單二維關係; 線:line plot 二維數據,適用於時間序列; 柱狀:bar plot 二維數據,適用於類別統計; 顏色:heatmap 適用於展示第三維度;

數據間存在分布,構成,比較,聯繫以及變化趨勢等關係。對應不一樣的關係,選擇相應的圖形進行展示。

第二步:轉換數據,應用函數

數據分析和建模方面的大量編程工作都是用在數據準備的基礎上的:加載、清理、轉換以及重塑。我們可視化步驟也需要對數據進行整理,轉換成我們需要的格式再套用可視化方法完成作圖。

下面是一些常用的數據轉換方法:

合併:merge,concat,combine_frist(類似於資料庫中的全外連接) 重塑:reshape;軸向旋轉:pivot(類似excel數據透視表) 去重:drop_duplicates 映射:map 填充替換:fillna,replace 重命名軸索引:rename

將分類變量轉換『啞變量矩陣』的get_dummies函數以及在df中對某列數據取限定值等等。

函數則根據第一步中選擇好的圖形,去找python中對應的函數。

第三步:參數設置,一目了然

原始圖形畫完後,我們可以根據需求修改顏色(color),線型(linestyle),標記(maker)或者其他圖表裝飾項標題(Title),軸標籤(xlabel,ylabel),軸刻度(set_xticks),還有圖例(legend)等,讓圖形更加直觀。

第三步是在第二步的基礎上,為了使圖形更加清晰明了,做的修飾工作。具體參數都可以在製圖函數中找到。

2、可視化作圖基礎

Matplotlib作圖基礎

#導入包 import numpy as np import pandas as pd import matplotlib.pyplot as plt 

Figure和Subplot

matplotlib的圖形都位於Figure(畫布)中,Subplot創建圖像空間。不能通過figure繪圖,必須用add_subplot創建一個或多個subplot。

figsize可以指定圖像尺寸。

figure()  #創建subplot,221表示這是2行2列表格中的第1個圖像。 ax1 = fig.add_subplot(221) #但現在更習慣使用以下方法創建畫布和圖像,2,2表示這是一個2*2的畫布,可以放置4個圖像 fig , axes = plt.subplots(2,2,sharex=True,sharey=True) #plt.subplot的sharex和sharey參數可以指定所有的subplot使用相同的x,y軸刻度。 

利用Figure的subplots_adjust方法可以調整間距。

subplots_adjust(left=None,bottom=None,right=None,top=None,wspace=None,hspace=None) 

顏色color,標記marker,和線型linestyle

matplotlib的plot函數接受一組X和Y坐標,還可以接受一個表示顏色和線型的字符串縮寫:'g--',表示顏色是綠色green,線型是'--'虛線。也可以使用參數明確的指定。

線型圖還可以加上一些標記(marker),來突出顯示數據點的位置。標記也可以放在格式字符串中,但標記類型和線型必須放在顏色後面。

plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o') [<matplotlib.lines.Line2D at 0x8c919b0>] 

刻度,標籤和圖例

plt的xlim、xticks和xtickslabels方法分別控制圖表的範圍和刻度位置和刻度標籤。

調用方法時不帶參數,則返回當前的參數值;調用時帶參數,則設置參數值。

plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o') plt.xlim() #不帶參數調用,顯示當前參數; #可將xlim替換為另外兩個方法試試 (-1.4500000000000002, 30.45) 

plt.plot(np.random.randn(30),color='g',linestyle='--',marker='o') plt.xlim([0,15]) #橫軸刻度變成0-15 (0, 15) 

設置標題,軸標籤,刻度以及刻度標籤

fig = plt.figure();ax = fig.add_subplot(1,1,1) ax.plot(np.random.randn(1000).cumsum()) ticks = ax.set_xticks([0,250,500,750,1000]) #設置刻度值 labels = ax.set_xticklabels(['one','two','three','four','five']) #設置刻度標籤 ax.set_title('My first Plot') #設置標題 ax.set_xlabel('Stage') #設置軸標籤 Text(0.5,0,'Stage') 

添加圖例

圖例legend是另一種用於標識圖標元素的重要工具。可以在添加subplot的時候傳入label參數。

fig = plt.figure(figsize=(12,5));ax = fig.add_subplot(111) ax.plot(np.random.randn(1000).cumsum(),'k',label='one') #傳入label參數,定義label名稱 ax.plot(np.random.randn(1000).cumsum(),'k--',label='two') ax.plot(np.random.randn(1000).cumsum(),'k.',label='three') #圖形創建完後,只需要調用legend參數將label調出來即可。 ax.legend(loc='best') #要求不是很嚴格的話,建議使用loc=『best』參數來讓它自己選擇最佳位置 <matplotlib.legend.Legend at 0xa8f5a20> 

註解

除標準的圖表對象之外,我們還可以自定義添加一些文字註解或者箭頭。

註解可以通過text,arrow和annotate等函數進行添加。text函數可以將文本繪製在指定的x,y坐標位置,還可以進行自定義格式

plt.plot(np.random.randn(1000).cumsum()) plt.text(600,10,'test ',family='monospace',fontsize=10) #中文注釋在默認環境下並不能正常顯示,需要修改配置文件,使其支持中文字體。具體步驟請自行搜索。 

保存圖表到文件

利用plt.savefig可以將當前圖表保存到文件。例如,要將圖表保存為png文件,可以執行

文件類型是根據拓展名而定的。其他參數還有:

fname:含有文件路徑的字符串,拓展名指定文件類型 dpi:解析度,默認100 facecolor,edgcolor 圖像的背景色,默認『w』白色 format:顯示設置文件格式('png','pdf','svg','ps','jpg'等) bbox_inches:圖表需要保留的部分。如果設置為「tight」,則將嘗試剪除圖像周圍的空白部分 plt.savefig('./plot.jpg') #保存圖像為plot名稱的jpg格式圖像 3、Pandas中的繪圖函數

Matplotlib作圖

matplotlib是最基礎的繪圖函數,也是相對較低級的工具。組裝一張圖表需要單獨調用各個基礎組件才行。Pandas中有許多基於matplotlib的高級繪圖方法,原本需要多行代碼才能搞定的圖表,使用pandas只需要短短幾行。

我們使用的就調用了pandas中的繪圖包。

import matplotlib.pyplot as plt 

線型圖

Series和DataFrame都有一個用於生成各類圖表的plot方法。默認情況下,他們生成的是線型圖。

s = pd.Series(np.random.randn(10).cumsum(),index=np.arange(0,100,10)) s.plot() #Series對象的索引index會傳給matplotlib用作繪製x軸。 <matplotlib.axes._subplots.AxesSubplot at 0xf553128> 

df = pd.DataFrame(np.random.randn(10,4).cumsum(0),columns=['A','B','C','D']) df.plot() #plot會自動為不同變量改變顏色,並添加圖例 <matplotlib.axes._subplots.AxesSubplot at 0xf4f9eb8> 

Series.plot方法的參數

label:用於圖表的標籤 style:風格字符串,'g--' alpha:圖像的填充不透明度(0-1) kind:圖表類型(bar,line,hist,kde等) xticks:設定x軸刻度值 yticks:設定y軸刻度值 xlim,ylim:設定軸界限,[0,10] grid:顯示軸網格線,默認關閉 rot:旋轉刻度標籤 use_index:將對象的索引用作刻度標籤 logy:在Y軸上使用對數標尺

DataFrame.plot方法的參數

DataFrame除了Series中的參數外,還有一些獨有的選項。

subplots:將各個DataFrame列繪製到單獨的subplot中 sharex,sharey:共享x,y軸 figsize:控制圖像大小 title:圖像標題 legend:添加圖例,默認顯示 sort_columns:以字母順序繪製各列,默認使用當前順序

柱狀圖

在生成線型圖的代碼中加上kind=『bar』或者kind=『barh』,可以生成柱狀圖或水平柱狀圖。

fig,axes = plt.subplots(2,1) data = pd.Series(np.random.rand(10),index=list('abcdefghij')) data.plot(kind='bar',ax=axes[0],rot=0,alpha=0.3) data.plot(kind='barh',ax=axes[1],grid=True) <matplotlib.axes._subplots.AxesSubplot at 0xfe39898> 

柱狀圖有一個非常實用的方法:利用value_counts圖形化顯示Series或者DF中各值的出現頻率。

比如df.value_counts().plot(kind='bar') 

Python可視化的基礎語法就到這裡,其他圖形的繪製方法大同小異。

重點是遵循三個步驟的思路來進行思考、選擇、應用。多多練習可以更加熟練。

 

相關焦點

  • 重磅:包郵寄送《Python數據可視化之美》
    Rggplot2有兩本很經典的教程:ggplot2 Elegant Graphicsfor Data Analysis和R Graphics Cookbook,兩本書重點介紹了ggplot2包的繪圖語法及常見圖表的繪製方法。另外,《R語言數據可視化之美》基於R中的ggplot2包及其拓展包等,系統性地介紹了幾乎所有常見的二維和三維圖表的繪製方法。
  • 想用Python做數據可視化?先邁過這個「坎」
    用過python的人都會面臨一個問題,尤其是初學者:我應該選哪個來實現數據可視化? 以下就是將要用來創建繪製數據的示例: ·Pandas ·Seaborn ·Ggplot 在示例中,我將使用pandas進行數據處理並使用它來完成可視化的效果。
  • 酷炫的可視化圖表工具來幫忙 深度評測五大Python數據可視化工具
    不少Python用戶的一大訴求是做出各種酷炫的可視化圖表,而這就需要了解清楚工具特色,才好在製作不同類型圖表順利找到適合自己的那一款。今天就來聊聊五個Python數據可視化的庫Matplotlib、Pyecharts、Seaborn、Plotly、Bokeh各有哪些優缺點。
  • 用python和BI可視化分析,湖人贏在這點上
    python和BI可視化分析,湖人贏在這點上。在經歷了很多很多之後,湖人隊終於獲得了總冠軍,眾望所歸。如果科比還在的話,一定也很自豪吧,畢竟上一次奪冠還是10年前。口說無憑,我覺得只有數據能說明一切,為此,我特地爬取了NBA和湖人以及季後賽對手的相關數據,意在從數據的角度看看球員的表現。註:數據來源準確,所使用的爬蟲工具為Python,分析工具為國產數據分析工具FineBI。大家都應該知道python是幹什麼的吧,那這裡就不再重複了,從獲取數據的角度上來看,python確實是一個很不錯的工具。
  • Python和VizViewer進行自動駕駛數據集可視化
    Lyft在L5預測數據集中提供了大量的訓練數據;數以萬計25秒的數據序列超過100GB。除了這些數據,Lyft還提供了一組用於解析和可視化數據的工具。 本文將使用這些工具和一個名為VizViewer(簡稱「VV」)的新數據可視化平臺探究L5預測數據集的細節。
  • Python爬30W數據後,我有了答案
    小編一直也比較喜歡打籃球,雖然變成程序猿之後不怎麼打了,平常沒事也喜歡看看新聞,慢慢的就找到了虎撲,這樣一個「體育「論壇,了解了很多有意思的事情,所以趁有時間,利用python爬蟲,然後利用pands做可視化處理,來好好了解下虎撲。
  • 數據分析:R與Python怎麼選?
    以下羅列R和python在各數據工作領域的資料信息,看看它們都有啥?    在數據可視化領域,雖然Python有一些很好的可視化程序庫,例如Seaborn、Bokeh和Pygal,但與R對比,在Python中進行可視化有些複雜,可調節的參數較少,且圖表樣式的控制會更麻煩一些。
  • Python數據可視化分析告訴你答案
    這背後肯定是有原因的,大家各有各的說法,但我覺得數據不會說謊,我想通過數據來分析勇士隊成功背後的原因。▍數據源對於數據源,我並沒有採用爬蟲去採集數據,因為我的重點是分析數據,因此選擇直接使用了現有數據源。
  • Python學習第88課-數據可視化之柱狀圖繪製
    【每天幾分鐘,從零入門python編程的世界!】我們之前用Python的第三方庫matplotlib繪製折線圖,折線圖一般用於分析帶有時間的序列,比如股價,昨天是怎樣,今天是怎樣,上個月怎樣,這個月怎樣,去年是怎樣,今年是怎樣,通過折現圖來反映變化的趨勢。
  • 蒙特卡洛模擬(Python)深入教程
    字幕組雙語原文:蒙特卡洛模擬(Python)深入教程英語原文:Monte Carlo Simulation An In-depth Tutorial with Python翻譯:大表哥、wiige什麼是蒙特卡羅模擬?
  • 在XGBoost和LightGBM模型中強制執行單調約束的python教程
    在數據科學和人工智慧領域取得重大進展之後,我們往往會聽到有關倫理和可解釋性AI的討論,尤其是在銀行和保險等行業中。儘管有許多易於訪問且具有高度預測性的算法可供使用,但是對於從事這些行業的分析師和數據科學家而言,面臨著選擇預測準確性還是履行其監管職責的兩難選擇。
  • 教程|Python Web頁面抓取:循序漸進
    這次小Oxy會概述入門所需的知識,包括如何從頁面源獲取基於文本的數據以及如何將這些數據存儲到文件中並根據設置的參數對輸出進行排序。最後,還會介紹Python Web爬蟲的高級功能。按照小Oxy今天所介紹的按部就班的學習就能學會Web爬蟲喲。另外,小Oxy所介紹的教程適用於所有作業系統。
  • 堪比Excel,Python可視化神器Altair入門詳解
    來源:量子位 數據轉化成更直觀的圖片,對於理解數據背後的真相很有幫助。
  • Python中的交互式數據可視化與Bokeh(系列四)
    添加交互將Bokeh與眾不同的功能是它能夠在您的可視化中輕鬆實現交互性。Bokeh甚至將自己描述為交互式可視化庫:Bokeh是一個交互式可視化庫,面向現代Web瀏覽器進行演示。(來源)在本節中,我們將介紹五種可以添加交互性的方法:配置工具欄選擇數據點添加懸停操作連結軸和選擇使用圖例突出顯示數據實現這些交互式元素為探索靜態可視化本身無法完成的數據開闢了可能性。
  • 這10 個 Python 可視化工具,你都用過?
    雖然用 matplotlib 可以很方便的得到數據的大致信息,但是如果要更快捷簡單地製作可供發表的圖表就不那麼容易了。 就像Chris Moffitt 在「Python可視化工具簡介」中提到的一樣:「功能非常強大,也非常複雜。」
  • Python入門小迷宮,走完這個迷宮,就能掌握python編程基礎
    這是一個很神奇的迷宮,走完這個迷宮就能掌握python基礎。其實,這是一個用python做的迷宮小遊戲,非常簡單,但對於python初學者來說,還是有一定的挑戰性,但TONOW有源碼和教程,只要跟著python迷宮小遊戲的教程和相應的源碼,不僅很容易就能自己開發出這個遊戲,還能在這個過程中,掌握python編程的基礎哦!
  • 分享:關於NBA數據分析可視化(Python)
    這兩周上課剛給同學們嘰嘰歪歪聊完如何基於半結構化數據實現NBA的各種數據可視化,如圖然而,就在今天,發現了如此神器!!!我們就拿2019-2020賽季數據來試試這個神器吧!首先,from shot_chart.core import *下載裝載數據shots_2019 = make_df(untar_data(URLs.SHOTS_2019))大家也可以直接去https://nba-shot-charts.s3.amazonaws.com/shots-2019.
  • Python腳本示例:從log中讀取數據,進行分析和可視化
    Python腳本示例:從log中讀取數據,進行分析和可視化 Python是數據處理常用工具,具有較好的通用性和跨平臺性,使用起來也非常簡單。
  • Python數據分析入門教程(一):獲取數據源
    將python與資料庫連接時利用的是python模塊,這個模塊Anaconda沒有,需要我們手動安裝的,打開Anaconda Promt,然後輸入pip install pymysql進行安裝即可,安裝完成以後直接用import導入就可以使用了,具體連接方法如下:連接好資料庫以後,我們就可以執行SQL查詢語句了,利用的是
  • 如何自學成 Python 大神?這裡有些建議
    一種特定的語法除了適用於特定的數據結構之外,還適用於其他類似的數據結構,比如 Python 的內置函數 len(),它用於返回一個Python列表( https://coolpythoncodes.com/python-list-tutorial )、元組、字符串、集合等多種數據結構的長度,而在 Java 中則有多種不同的語法,如 [variable].length、[variable].length