數據分析是任何數據科學項目中最重要的部分。分析數據可為我們提供有關數據的一些重要而優美的見解。Python中有許多庫可以執行分析,例如Pandas,Matplotlib,Seaborn等。
最近,開發人員引入了新的「 dtale」庫,以更少的代碼執行分析。
D-Tale是Flask後端和React前端的結合,為我們提供了一種查看和分析Pandas數據結構的簡便方法。它與Jupyter筆記本和Python終端無縫集成。當前,此工具支持諸如DataFrame,Series,MultiIndex,DatetimeIndex和RangeIndex之類的Pandas對象。
讓我們深入了解如何在Python中使用此dtale庫!
1.為dtale設置環境
conda create -n dtale pythonconda activate dtale現在,我們首先需要在各自的環境中安裝dtale庫。
2.使用dtale進行探索性數據分析
現在,讓我們使用dtale深入研究我們的數據。
import dtale ## importing D-Tale library導入Seaborn將有助於我們加載數據集。Seaborn有許多默認數據集。我們將使用「planets」數據集進行以下分析。
import seaborn as snsdf=sns.load_dataset(『planets』)dtale.show(df, ignore_duplicate=True)運行上述代碼後,用戶可以訪問下面的交互式表以執行多個操作並可視化數據集。
在左上角顯示數據集的列數和行數(在這種情況下,為1035行和6列)
D-Tale以與pandas相同的方式向我們顯示數據。唯一的不同是,左上角的菜單使我們可以對數據進行很多處理。
單擊任何列標題會打開一個下拉菜單,該菜單為我們提供了對數據進行排序並根據需要準確顯示的選項。
3.1描述選項
在此菜單中,我們可以找到的最有趣的選項是Describe(描述),它顯示了所選列的統計分析結果;Column Analysis(列分析),顯示了所選列的直方圖。
選擇所需的列後,我們將能夠在屏幕中間看到三個主要選項「Describe」,「Histogram」和「Categories」選項。Describe選項為我們提供有關所選列數據的統計信息,而Histogram則為相應的圖形表示。第三個選項是「Categories」,因為我們可以從「Category Breakd」中選擇X軸變量。
該庫的另一個重要功能是在右上角的「Code Export」選項。此功能提供了特定輸出的代碼。同樣,在「Describe」菜單中,我們將能夠在底部看到所有異常值和「唯一性」值。
3.2尺寸/主菜單:
在D-Tale主菜單中,將找到D-Tale中所有可用的選項。這就是D-Tale的所有魔力所在。通過單擊DataFrame左上角突出顯示的播放按鈕,將能夠查看所有選項,如下圖所示。
D-Tale提供執行簡單操作(例如排序,過濾和格式化)的功能。
重複選項是主要的幫助,它可以幫助我們刪除數據集中的重複值,並且「自定義過濾器」選項可以將過濾器應用於列。用於數據可視化的最重要的選項是相關性,圖表和熱圖。
3.3相關性
在主菜單中單擊「Correlations」選項後,它將重定向到另一個「Correlations」選項卡。在這種情況下,我們必須在「View correlation for」下拉列表中選擇變量。在下拉列表中選擇值之後,如果單擊「 Correlation」值,將能夠看到散點圖中兩個變量之間的Correlation的直觀表示,如下圖所示。
3.4圖表
主菜單中的圖表選項可幫助我們可視化所有不同類型的圖表(折線圖,條形圖,ScatterPlot,圓形圖,Wordcloud,Heatmap,3D ScatterPlot和Surface)。D-Tale的神奇功能之一是交互式繪圖,它還支持3D圖表和帶有group by和聚合功能的動畫。它非常有用,因為可以使用不同的圖表來可視化任何類型的關係。下圖顯示了我們可以使用D-Tale中的Chart選項生成的一些圖表示例。
最後,最理想的選擇之一是Heatmap。它根據每個單元格的值在數據表中顯示顏色。可以使用b中的export CSV選項將圖形數據導出到CSV文件。
4.結論
在本文中,我們了解了D-tale如何節省我們的時間和精力來創建具有視覺吸引力和洞察力的EDA報告。該EDA報表工具在分析和可視化所有類型的數據集時非常有用。D-Tale是數據科學社區中最受歡迎的圖書館之一。D-Tale有很多選項,可以幫助我們從統計角度了解數據的趨勢,因此請繼續探索。