根據Wikipedia的說法,探索性數據分析(EDA)是一種分析數據集以總結其主要特徵的方法,通常使用視覺方法。
因此,EDA是理解基礎數據,變量分布及其相關性的過程。這使得EDA成為構建任何統計模型之前任何數據科學過程中的第一步。
EDA通常是一項非常耗時的任務,需要您構建多個視覺效果來檢查變量之間的分布和交互。
有一些函數(例如info()和describe())在一定程度上有所幫助,但是即使使用了這些函數,您仍然必須執行許多手動步驟。
這是一個非常實用的庫,叫做Pandas Profiling。該庫自動生成詳細的報告,只需一行代碼即可解釋數據!快速瀏覽一下報告的外觀。
變量概述:
可變統計信息:
變量之間的相互作用:
變量之間的相關性:
缺失值數量:
樣本數據:
對於每列,報告中都會顯示以下統計信息(如果與列類型相關):
類型推斷:檢測數據框中列的類型。
要點:類型,唯一值,缺失值
分位數統計信息,例如最小值,Q1,中位數,Q3,最大值,範圍,四分位數範圍描述性統計數據,例如平均值,眾數,標準偏差,總和,中位數絕對偏差,變異係數,峰度,偏度最常使用的值直方圖高相關變量Spearman,Pearson和Kendall矩陣的相關性突出顯示缺失值矩陣,計數,熱圖和缺失值樹狀圖文本分析了解文本數據的類別(大寫,空格),腳本(拉丁,西裡爾字母)和塊(ASCII)。文件和圖像分析可提取文件大小,創建日期和尺寸,並掃描截斷的圖像或包含EXIF信息的圖像。除此之外,報告中還介紹了變量之間的相關性和相互作用。
所有這些僅需一行代碼!
安裝庫
pip install pandas-profiling
導入庫
from pandas_profiling import ProfileReportprofile = ProfileReport(df, title=」Pandas Profiling Report」)
您可以直接在jupyter筆記本上查看報告,但我更希望將報告轉換為HTML文件,然後在瀏覽器上查看。
profile.to_file(「your_report.html」)
這將生成一個交互式儀錶板,您可以在其中瀏覽所需的所有內容。
儘管它是一種出色的工具,但它也有一些缺點。處理大型數據集時,生成報告要花費大量時間。
解決此問題的一種方法是通過使用以下語法禁用昂貴的計算(例如相關性和動態合併)。
profile = ProfileReport(large_dataset, minimal=True)