箱型圖的作用:
1.直觀明了地識別數據批中的異常值 其實箱線圖判斷異常值的標準以四分位數和四分位距為基礎,四分位數具有一定的耐抗性,多達25%的數據可以變得任意遠而不會很大地擾動四分位數,所以異常值不會影響箱形圖的數據形狀,箱線圖識別異常值的結果比較客觀。由此可見,箱型圖在識別異常值方面有一定的優越性。
2.利用箱型圖判斷數據批的偏態和尾重 對於標準正態分布的樣本,只有極少值為異常值。異常值越多說明尾部越重,自由度越小(即自由變動的量的個數);而偏態表示偏離程度,異常值集中在較小值一側,則分布呈左偏態;異常值集中在較大值一側,則分布呈右偏態。
函數原型
seaborn.boxplot(x=None, y=None, hue=None, data=None, order=None, hue_order=None, orient=None, color=None, palette=None, saturation=0.75, width=0.8, dodge=True, fliersize=5, linewidth=None, whis=1.5, notch=False, ax=None, **kwargs)
導入數據
tips = pd.read_csv('tips.csv')tips.head()
繪製total_bill的箱型圖
sns.boxplot(x=tips["total_bill"])
以day為x軸,total_bill為y軸繪製箱型圖
sns.boxplot(x="day", y="total_bill", data=tips)
以day為x軸,total_bill為y軸,按照smoke區分類別,調色方案為Set3,繪製箱型圖
sns.boxplot(x="day", y="total_bill", hue="smoker", data=tips, palette="Set3")
以day為x軸,total_bill為y軸,按照time區分類別,描邊寬度為1.5,繪製箱型圖
sns.boxplot(x="day", y="total_bill", hue="time", data=tips, linewidth=1.5)
導入鳶尾花數據
iris = pd.read_csv('iris.csv')iris.head()
繪製鳶尾花數據箱型圖
sns.boxplot(data=iris, orient="h", palette="Set2")
區分數據類別繪製箱型圖
tips["weekend"] = tips["day"].isin(["Sat", "Sun"])ax = sns.boxplot(x="day", y="total_bill", hue="weekend", data=tips, dodge=False)
以上就是箱型圖的分享,下期我們將分享小提琴圖seborn.violinplot的繪製方法。
如果喜歡,請點讚和收藏,這對我非常重要,萬分感謝。