14個Seaborn數據可視化圖

2021-01-11 deephub

調查數據並從中提取信息和趨勢的工具。

數據可視化在數據挖掘中起著非常重要的作用。各種數據科學家花費了他們的時間通過可視化來探索數據。為了加快這一進程,我們需要有合適的工具。

沒有規劃的情況下,資源也無法轉化為有價值的商品。因此,我希望本文能夠為您提供關於所有可視化方法的架構。

目錄

簡介了解你的數據分布曲線a. 直方圖b. 聯合圖c. 配對圖d. Rug圖分布圖a. 條形圖b. 統計圖c. 箱型圖d. Violin圖高級繪製方法a. Strip圖b. Swarm圖矩陣圖a. Heat Mapb. Cluster Map網格a. Facet Grid回歸圖簡介

Seaborn是一個基於matplotlib的Python數據可視化庫。它提供了一個高級界面,以繪製曲線和信息統計圖形。

您可以在命令行中運行以下任何一個命令來安裝Seaborn。

pip install seabornconda install seaborn

運行以下命令可以導入seaborn。

import seaborn as sns

了解你的數據

圖中使用的數據集為著名的泰坦尼克數據集(圖1),下面將數據集用變量df表示。

分布曲線

我們可以使用這些圖來理解數據的平均值、中位數、範圍、方差、偏差等。

a. 直方圖

Dist plot給出了所選連續變量的直方圖。這是單變量分析的一個例子。我們可以改變箱子的數量,即直方圖中垂直條的數量import seaborn as snssns.distplot(x = df['age'], bins = 10)

這裡x軸表示年齡,y軸表示頻率。例如,對於Bins= 10的分布圖,大約有50個人年齡在0到10歲之間b.聯合圖

它是兩個變量的組合。這是一個二元分析的例子。我們還得到了變量之間的散點圖來反映它們的線性關係。我們可以自定義散點圖為六邊形圖,其中,顏色越深,出現的次數就越多。import seaborn as sns# For Plot 1sns.jointplot(x = df['age'], y = df['Fare'], kind = 'scatter')# For Plot 2sns.jointplot(x = df['age'], y = df['Fare'], kind = 'hex')

我們可以看到,年齡和票價之間並沒有合適的線性關係。kind = ' hex '提供了六邊形圖,kind = ' reg '提供了圖形上的回歸線。c.配對圖

它取數據的所有數值屬性,繪製兩個不同變量的兩兩散點圖和同一變量的直方圖。import seaborn as snssns.pairplot(df)

d.Rug圖

它畫了一條線,而不是像在直方圖中那樣二維分布圖。這是單變量分析的一個例子。import seaborn as snssns.rugplot(x = df['Age'])

分類圖

這些圖幫助我們理解分類變量。我們可以用它們進行單變量和雙變量分析。

a.條形圖

這是一個二元分析的例子。在x軸上有一個分類變量,在y軸上有一個連續變量。import seaborn as snssns.barplot(x = df['Sex'], y = df['Fare'])

我們可以推斷出女性的平均票價比男性高。b.統計圖

它計算分類變量出現的次數。這是單變量分析的一個例子。import seaborn as snssns.countplot(df['Pclass'])

c.箱型圖

這是一個總結圖。它給出了一個連續變量的最大值、最小值、平均值、第一個四分位數和第三個四分位數的信息。同時,它讓我們掌握了離群值的信息。我們可以對一個連續變量進行繪圖,也可以根據一個連續變量分析不同的分類變量。import seaborn as sns#For plot 1sns.countplot(df['Pclass'])#For plot 2sns.boxplot(y = df['Age'], x = df['Sex'])

d.Violin圖

它類似於箱型圖,但它也提供了關於數據分布的補充信息。

import seaborn as snssns.violinplot(y = df['Age'], x = df['Sex'])

高級繪製方法

a.strip圖

這是一個連續變量和分類變量之間的圖。它以散點圖為主,但補充使用分類變量的分類編碼。import seaborn as snssns.stripplot(y = df['Age'], x = df['Pclass'])

我們可以看到,1班和2班沒有10歲左右的兒童,60歲以上的兒童多集中在1班。通常,這種圖被用來填補缺失值。b.swarm圖

這是一個strip圖和violin圖的結合。除了數據點的數量,它還提供了它們各自的分布。import seaborn as snssns.swarmplot(y = train['Age'], x = train['Pclass'])

矩陣圖

這些是使用二維矩陣數據進行可視化的特殊類型的圖形。由於矩陣數據的維數較大,很難對其進行分析和可視化。因此,通過為矩陣數據提供顏色編碼,使這個更容易。

a.熱力圖

在給定的原始數據集「df」中,我們有七個數值變量。那麼,讓我們在這七個變量之間生成一個相關矩陣。df.corr()

雖然只有49個值,但要讀取每個值似乎非常困難。因為我們遍歷數以千計的特徵。所以,讓我們嘗試實現一些顏色編碼,這會大大簡化模型。sns.heatmap(df.corr(), annot = True, cmap = 'viridis')

同樣的矩陣現在表達了更多的信息。另一個非常明顯的例子是使用heatmap來理解缺失的值。在圖14中,黃色的虛線表示一個缺失的值,因此它使我們的任務更容易識別缺失的值。sns.heatmap(df.isnull(),yticklabels=False,cbar=False,cmap='viridis')

b.聚類圖

如果我們有一個矩陣數據,並想要根據其相似性對一些特徵進行分組,聚類映射可以幫助我們。先看一下熱圖(圖13),然後再看一下聚類圖(圖15)。sns.clustermap(tran.corr(), annot='True',cmap='viridis')

x-label和y-label是一樣的,但是它們協調的方式不同。這是因為它們是根據它們的相似性分組的。頂部和左側的類似流程圖的結構描述了它們的相似程度。聚類圖使用層次聚類來形成不同的集群。網格

網格圖為我們提供了對可視化的更多控制,並通過一行代碼繪製各種各樣的圖形。

a.面網格

假設我們想要繪製所有三類票中男性和女性的年齡分布,我們總共有6個圖。sns.FacetGrid(train, col = 'Pclass', row = 'Sex').map(sns.distplot, 'Age')

面網格可以按要求提供非常清晰的圖形。sns.FacetGrid( col = 『col』, row = 『row』, data = data) 提供一個包含col和行中所有唯一類別的空網格。之後,我們可以使用不同的圖和常見的變量來進行特殊的變化。回歸圖

這是一個更高級的統計圖,它提供了散點圖以及對數據的線性擬合。

sns.lmplot(x = 'Age', y = 'PassengerId', data = df, hue = 'Sex)

圖17為男女乘客身份證與年齡的線性回歸擬合。

總結

在本文中,我們看到了14種使用seaborn的可視化技術。

我相信數據可視化增強了我們對數據解釋的理解和潛力。它給我們提供了更令人滿意的技能來表示數據,輸入缺失值,識別異常值,檢測異常,以及更多。

數據分析師就像警察一樣,需要詢問數據並通過它們得到信息。使用合適的工具來完成這項工作是非常必要的。因此,我希望這篇文章能夠成為您查詢數據的工具。

作者:Aayush Ostwal

deephub翻譯組:孟翔傑

相關焦點

  • Matplotlib+Seaborn:一文掌握Python可視化庫的兩大王者
    · 如今有四個plt.scatter()函數,對應四個不同的季節,這一點在數據參數中再次出現,而這些數據參數已被子集化以對應不同單一季節。「o」表示不同的標記和顏色參數,這可以直觀地顯示數據點的位置以及其顏色。· 在plt.legend()中輸入參數形成圖例。前兩個參數是句柄:圖例和標籤會展示真正的散點圖;而於各個圖對應的名字也會在圖例中出現。
  • 技能分享|Python數據可視化利器:Seaborn使用方法(一)
    本篇我們的主題是數據可視化的利器——seaborn庫的使用。Seaborn是基於matplotlib,在matplotlib的基礎上進行了更高級的API封裝,便於用戶可以更加簡便地做出各種有吸引力的統計圖表。
  • python數據可視化(一)seaborn介紹及繪圖風格設置
    seaborn整體布局及風格設置seaborn調色板及顏色設置seaborn單變量分析繪圖(直方圖、條形圖)seaborn回歸分析繪圖seaborn繪製散點圖(分布散點圖、分簇散點圖)seaborn繪製盒圖、小提琴圖seaborn繪製熱度圖seaborn多圖繪製及facetgrid使用方法對於seaborn庫的內容,拆分比較細,這樣做的目的是一是想每篇文章具有一定的針對性,而是想看每篇文章的時間不要太長
  • 用Seaborn繪製圖表
    確保系統中安裝了必要的庫:使用conda:conda install pandasconda install matplotlibconda install seaborn使用pip:pip install pandaspip install matplotlibpip install seaborn讓我們首先導入所需的Python庫和數據集。
  • Seaborn的6個簡單技巧
    讓我們使用Seaborn內置的penguins數據集作為樣本數據:# 導入包import matplotlib.pyplot as pltimport seaborn as sns# 導入數據df = sns.load_dataset('penguins').rename(columns={'sex': 'gender'})df我們將使用默認圖表設置構建標準散點圖
  • Python可視化23|seaborn.distplot單變量分布圖(直方圖|核密度圖)
    目錄 1、seaborn.distplot數據準備繪製直方圖hist修改直方圖hist中箱子數bins 直方圖成箱方式 繪製核密度曲線kernel density estimate (KDE)seaborn.kdeplot繪製窄寬度核密度曲線 bandwidth (bw),控制核密度曲線胖瘦核密度曲線結合直方圖fit參數seaborn.distplot簡介 seaborn.distplot(a, bins=None, hist
  • Seaborn可視化-箱型圖 seaborn.boxplot
    箱型圖的作用: 1.直觀明了地識別數據批中的異常值 其實箱線圖判斷異常值的標準以四分位數和四分位距為基礎,四分位數具有一定的耐抗性,多達25%的數據可以變得任意遠而不會很大地擾動四分位數,所以異常值不會影響箱形圖的數據形狀,箱線圖識別異常值的結果比較客觀。
  • Seaborn可視化-核密度分布圖 seaborn.kdeplot
    通過核密度估計圖可以比較直觀的看出數據樣本本身的分布特徵。具體用法如下。kernel='gau',bw='scott',gridsize=100,cut=3,clip=None, legend=True,cumulative=False,shade_lowest=True,cbar=False, cbar_ax=None,cbar_kws=None,ax=None,**kwargs) 生成一組數據繪製第一張核密度分布圖
  • 小白也能看懂的seaborn入門示例
    seaborn一共有5個大類21種圖,分別是:relplot() 關係類圖表的接口,其實是下面兩種圖的集成,通過指定kind參數可以畫出下面的兩種圖scatterplot() 散點圖lineplot() 折線圖stripplot() 分類散點圖swarmplot() 能夠顯示分布密度的分類散點圖boxplot()
  • python可視化(三)seaborn單變量分析繪圖(直方圖、條形圖)
    在前面兩篇文章中,我們已經學習了seaborn繪圖的風格和顏色設置,從本篇文章開始,我們開始選一些有意思的數據集進行各種圖形繪製,在實踐中感受數據可視化的魅力。本篇文章主要講2個繪圖函數,那就是繪製直方圖的函數seaborn,distplot()和繪製條形圖的函數seaborn.barplot()(關於直方圖和條形圖的區別請查閱前面matplotlib系列中的相關文章)。處理繪圖數據今天我們用直方圖和條形圖展示下NBA2017-2018賽季各球員薪資情況。
  • 使用Seaborn和Pandas進行相關性分析和可視化
    數據集可以講述很多故事。要想了解這些故事的展開,最好的方法就是從檢查變量之間的相關性開始。在研究數據集時,我首先執行的任務之一是查看哪些變量具有相關性。這讓我更好地理解我正在使用的數據。這也是培養對數據的興趣和建立一些初始問題來嘗試回答的好方法。簡單地說,相關性是非常重要的。
  • 韋編|五分鐘學會Seaborn常用圖表繪製
    Seaborn是基於matplotlib的Python數據可視化庫。它提供了一個高級界面,用於繪製引人入勝且內容豐富的統計圖形。使用Seaborn可以輕鬆查看多個變量之間的關係,分類顯示觀察結果或統計匯總信息,還可以隨意設置顏色,是數據分析的必備工具之一。Seaborn 根據數據特徵分為五種類型:關係圖、分類圖、分布圖、回歸圖、矩陣圖。五個類型共21種圖。
  • Python數據可視化:用Seaborn繪製高端玩家版散點圖
    如果數據中有多個組,則可能需要以不同顏色可視化每個組。  今天我們畫普通散點圖、邊際分布線性回歸散點圖、散點圖矩陣、帶線性回歸最佳擬合線的散點圖  本文示例多是來自官方文檔,這裡我只是做一下整理,讓大家知道散點圖的不同玩法,不要再繪製老掉牙的普通玩家版散點圖了。
  • 這16個數據可視化案例,驚豔了全球數據行業
    通過下面的16個有趣的例子獲得啟發,它們是既注重風格和也注重內容的數據可視化案例。  什麼是數據可視化?  數據可視化是指將數據以視覺形式來呈現,如圖表或地圖,以幫助人們了解這些數據的意義。  文本形式的數據很混亂(更別提有多空洞了),而可視化的數據可以幫助人們快速、輕鬆地提取數據中的含義。
  • 5個可以幫助pandas進行數據預處理的可視化圖表
    在現實生活中,從多個來源收集到的大多數時間數據都有空白值、打字錯誤和其他異常。在進行任何數據分析之前,清除數據是至關重要的。 在本文中,我將討論五個強大的數據可視化選項,它們可以立即提供數據特徵的感覺。即使在正式建模或假設測試任務之前,執行EDA就可以傳達大量關於數據和特徵之間關係的信息。
  • 數據可視化最有價值的50個圖表 | 網際網路數據資訊網-199IT | 中文...
    在數據分析和可視化中最有用的 50 個 Matplotlib 圖表。 這些圖表列表允許您使用 python 的 matplotlib 和 seaborn 庫選擇要顯示的可視化對象。這些圖表根據可視化目標的7個不同情景進行分組。 例如,如果要想像兩個變量之間的關係,請查看「關聯」部分下的圖表。 或者,如果您想要顯示值如何隨時間變化,請查看「變化」部分,依此類推。
  • 如何用pandas更快地進行數據可視化?
    作者:劉早起來源:早起Python(公眾號)如果你經常使用Python進行數據分析,那麼對於pandas一定不會陌生,但是Pandas除了在數據處理上大放異彩,隨著版本的不斷更新,Pandas的繪圖功能在某些情況下甚至要比matplotlib更加適用,本文就將介紹如何用
  • 掌握Seaborn的三分之一:使用relplot進行統計繪圖
    Seaborn將其所有API分為三類:繪製統計關係、可視化數據分布和分類數據繪圖。Seaborn提供了三個高級函數,它們包含了它的大部分特徵,其中之一是relplot()。relplot()可以可視化定量變量之間的任何統計關係。在本文中,我們將介紹這個函數的幾乎所有特性,包括如何創建子圖等等。
  • python數據分析常用圖大集合
    以下默認所有的操作都先導入了numpy、pandas、matplotlib、seabornimport numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns一、折線圖折線圖可以用來表示數據隨著時間變化的趨勢x