數據科學|使用Python中的dtale庫進行數據探索

2021-02-20 沈浩老師

數據分析是任何數據科學項目中最重要的部分。分析數據可為我們提供有關數據的一些重要而優美的見解。Python中有許多庫可以執行分析,例如Pandas,Matplotlib,Seaborn等。

最近,開發人員引入了新的「 dtale」庫,以更少的代碼執行分析。

D-Tale是Flask後端和React前端的結合,為我們提供了一種查看和分析Pandas數據結構的簡便方法。它與Jupyter筆記本和Python終端無縫集成。當前,此工具支持諸如DataFrame,Series,MultiIndex,DatetimeIndex和RangeIndex之類的Pandas對象。

讓我們深入了解如何在Python中使用此dtale庫!

1.為dtale設置環境

conda create -n dtale pythonconda activate dtale

現在,我們首先需要在各自的環境中安裝dtale庫。

2.使用dtale進行探索性數據分析

現在,讓我們使用dtale深入研究我們的數據。

import dtale   ## importing D-Tale library

導入Seaborn將有助於我們加載數據集。Seaborn有許多默認數據集。我們將使用「planets」數據集進行以下分析。

import seaborn as snsdf=sns.load_dataset(『planets』)dtale.show(df, ignore_duplicate=True)

運行上述代碼後,用戶可以訪問下面的交互式表以執行多個操作並可視化數據集。

在左上角顯示數據集的列數和行數(在這種情況下,為1035行和6列)

D-Tale以與pandas相同的方式向我們顯示數據。唯一的不同是,左上角的菜單使我們可以對數據進行很多處理。

單擊任何列標題會打開一個下拉菜單,該菜單為我們提供了對數據進行排序並根據需要準確顯示的選項。

3.1描述選項

在此菜單中,我們可以找到的最有趣的選項是Describe(描述),它顯示了所選列的統計分析結果;Column Analysis(列分析),顯示了所選列的直方圖。

選擇所需的列後,我們將能夠在屏幕中間看到三個主要選項「Describe」,「Histogram」和「Categories」選項。Describe選項為我們提供有關所選列數據的統計信息,而Histogram則為相應的圖形表示。第三個選項是「Categories」,因為我們可以從「Category Breakd」中選擇X軸變量。

該庫的另一個重要功能是在右上角的「Code Export」選項。此功能提供了特定輸出的代碼。同樣,在「Describe」菜單中,我們將能夠在底部看到所有異常值和「唯一性」值。

3.2尺寸/主菜單:

在D-Tale主菜單中,將找到D-Tale中所有可用的選項。這就是D-Tale的所有魔力所在。通過單擊DataFrame左上角突出顯示的播放按鈕,將能夠查看所有選項,如下圖所示。

D-Tale提供執行簡單操作(例如排序,過濾和格式化)的功能。

重複選項是主要的幫助,它可以幫助我們刪除數據集中的重複值,並且「自定義過濾器」選項可以將過濾器應用於列。用於數據可視化的最重要的選項是相關性,圖表和熱圖。

3.3相關性

在主菜單中單擊「Correlations」選項後,它將重定向到另一個「Correlations」選項卡。在這種情況下,我們必須在「View correlation for」下拉列表中選擇變量。在下拉列表中選擇值之後,如果單擊「 Correlation」值,將能夠看到散點圖中兩個變量之間的Correlation的直觀表示,如下圖所示。

3.4圖表

主菜單中的圖表選項可幫助我們可視化所有不同類型的圖表(折線圖,條形圖,ScatterPlot,圓形圖,Wordcloud,Heatmap,3D ScatterPlot和Surface)。D-Tale的神奇功能之一是交互式繪圖,它還支持3D圖表和帶有group by和聚合功能的動畫。它非常有用,因為可以使用不同的圖表來可視化任何類型的關係。下圖顯示了我們可以使用D-Tale中的Chart選項生成的一些圖表示例。

最後,最理想的選擇之一是Heatmap。它根據每個單元格的值在數據表中顯示顏色。可以使用b中的export CSV選項將圖形數據導出到CSV文件。

4.結論

在本文中,我們了解了D-tale如何節省我們的時間和精力來創建具有視覺吸引力和洞察力的EDA報告。該EDA報表工具在分析和可視化所有類型的數據集時非常有用。D-Tale是數據科學社區中最受歡迎的圖書館之一。D-Tale有很多選項,可以幫助我們從統計角度了解數據的趨勢,因此請繼續探索。

相關焦點

  • 數據科學探索(python 與 R 的比較)
    這一期主要應用python和R 這2種工具對某真實信貸數據進行分析,通過數據的讀取、清洗、探索、模型構建等,比較2種方法在機器學習數據科學上的實現
  • 數據科學|十大最受歡迎的Python庫
    隨著在人工智慧、機器學習、web開發和桌面應用程式開發等領域的廣泛使用,Python在數據分析市場上佔據了壟斷地位。考慮到Python廣泛的普及和認可,那麼它具有歸因於數據科學的豐富庫也就不足為奇了。科學庫是Python的代名詞! 您只要給它起個名字,就有幾乎所有囊括了所有。考慮到目前的市場趨勢,數據科學是最受歡迎的職業選擇之一。
  • 2017年數據科學15個最好用的Python庫
    導讀:隨著近幾年Python已成為數據科學行業中大火的程式語言,我們將根據以往的經驗來為大家總結一下數據科學家和工程師幾個最實用的python庫。因為所有的python庫都是開源的,所以我們還列出了每個庫的提交次數、貢獻者人數和其他一些來自Github可以代表Python庫流行度的指標。1. NumPy(Github提交次數:15980,貢獻者人數:522)在用Python處理科學任務時,我們常常需要使用Python的SciPy Stack。
  • Python數據科學計算庫的安裝和numpy簡單
    作者   Airy本文轉自AiryData,轉載需授權如何使用Python進行科學計算和數據分析,這裡我們就要用到Python的科學計算庫,今天來分享一下如何安裝Python的數據科學計算庫。Python中的數據科學計算庫有Numpy、Scipy、pandas、matplotlib(前面我分享了一篇matplotlib的簡單應用,歷史文章裡面就有)。Numpy是一個基礎性的Python庫,為我們提供了常用的數值數組和函數。Scipy是Python的科學計算庫,對Numpy的功能進行了擴充,同時也有部分功能是重合的。
  • 數據科學中一些不常用但很有用的Python庫
    導讀提到數據科學的python包,大家想到的估計是numpy,pandas,scikit-learn之類的,這裡給大家介紹一些不常用,但是非常有用的python包,就像是痒痒撓,雖然大部分時間用不上,但是真要用起來,還是挺爽的。
  • 數據科學中的Python與R
    假設我們擁有其中某項活動的數據。    以原始數據為起點(需要注意的是,在我們拿到這些原始數據時,這項活動中某些方面的信息已經缺失了)。我們需要處理這些原始數據,使得其便於分析。因此我們創建出管道對數據進行再加工:聯合、拼湊、清理,隨便你叫它們什麼好了,就是要對數據進行再加工。我們可以使用Excel、Python、R、SQL 等完成這件任務。
  • 盤點數據科學20個最好的Python庫(附連結)
    本文將給大家介紹數據科學領域20個最好的Python庫。Python 在解決數據科學任務和挑戰方面繼續處於領先地位。去年,我們曾發表一篇博客文章 Top 15 Python Libraries for Data Science in 2017,概述了當時業已證明最有幫助的Python庫。
  • 在Python中進行探索式數據分析(EDA)
    Python中的EDA在python中有很多可用的庫,例如pandas,NumPy,matplotlib,seaborn等。藉助這些庫,我們可以對數據進行分析並提供有用的見解。我將同時使用這些庫和Jupyter Notebook。
  • 一文總結數據科學家常用的Python庫(下)
    一文總結數據科學家常用的Python庫(上)用於建模的Python庫我們已經到達了本文最受期待的部分 - 構建模型!這就是我們大多數人首先進入數據科學領域的原因,不是嗎?讓我們通過這三個Python庫探索模型構建。
  • 數據科學和機器學習的最佳Python庫
    數據科學和機器學習是該時代最需求的技術,這一需求促使每個人都學習不同的庫和軟體包以實現它們。這篇博客文章將重點介紹用於數據科學和機器學習的Python庫。這些是您掌握市場上最被炒作的兩項技能的庫。以下是此博客中將涉及的主題列表:數據科學與機器學習導論為什麼要使用Python進行數據科學和機器學習?
  • wxpy庫+Pyecharts庫:用Python對微信好友進行數據分析
    二、Python庫簡單介紹wxpy庫wxpy庫基於ichat庫,為我們提供了個人微信號的Python接口。我們可以使用wxpy庫來進行個人微信的登錄、微信消息的發送、添加微信好友等等操作。在本文中我們將使用該庫登錄個人微信,批量獲取微信好友暱稱、備註、性別、省份、城市、個性籤名等信息,然後進行簡單的數據分析。
  • 大數據分析Python NumPy庫使用教程
    目前,這是我們數據工程專業課程中的關於算法複雜性的課程。 我將在大數據分析Python NumPy庫使用教程中學到什麼? 大數據分析Python NumPy庫使用教程為數據工程師提供有關NumPy的從零開始的培訓。
  • 【知識】使用Python來學習數據科學的完整教程
    對於數據科學工作中各個環節都有合適的解決方案。由於缺少Python數據科學資源,我決定創建本教程,旨在幫助大家快速入門。在本教程中,我們將討論如何使用Python來進行數據分析,在實踐中總結方法。Python數據分析基礎為什麼要學習使用Python來進行數據分析?
  • Python數據分析之NumPy庫
    NumPy庫簡介NumPy庫使用Python進行科學計算,尤其是數據分析時,所用到的一個基礎庫。它是大量Python數學和科學計算包的基礎,比如我們後面會講到的pandas庫就用到了NumPy。pandas庫專門用於數據分析,充分借鑑了Python標準庫NumPy的相關概念。
  • 2019年必知的10大頂級Python庫 | 網際網路數據資訊網-199IT | 中文...
    它是一個與 NumPy 和 SciPy 相關聯的 python 庫。它被認為是處理複雜數據的最佳庫之一。在這個庫中進行了許多修改。其中一個修改是交叉驗證特性,它提供了使用多個度量的能力。許多訓練方法,如物流回歸和最鄰近算法,都沒有得到什麼改善。
  • 盤點python數據工程師需要掌握的18個庫
    很多同學學習Python的目的都是為了進行數據分析。今天我們就來整理一下Python中在數據分析領域使用最廣泛的一些庫。掌握這些庫,進行數據分析相關任務時就可以隨心所欲了!所以使用 來安裝,然後使用 來安裝scrapy就可以了數據獲取Beautiful SoupBeautiful Soup也是一個從網站爬取數據的庫,他提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。它是一個工具箱,通過解析文檔為用戶提供需要抓取的數據,因為簡單,所以不需要多少代碼就可以寫出一個完整的應用程式。
  • Kaggle秘笈|使用Python進行全面的數據探索
    「算法工程師的日常工作中基礎最多的便是數據,但是大多數的算法工程師在使用數據過程中,最缺少的還是對數據的整體把控和分析,更多靠的是業務經驗。但是嚴謹的算法工程師在建模之前是需要對數據進行探索和分析的,以便於在建模過程中能給更快的做出更優的模型。
  • 數據科學中必須了解的Python基礎庫
    和其他數據科學庫相比,Matplotlib可能略遜一籌,但它是Python中繪圖的核心庫。功能強大,可以在需要時進行有效控制。第二代庫核心庫非常棒,也很常用。不過,還有三個基於核心庫的第二代庫,它們提供的功能更多,使用的代碼更少。
  • Python中使用pyqtgraph庫實現數據可視化之逐點刷新波形圖
    相對於matplotlib庫,由於內部實現方式上,使用了高速計算的numpy信號處理庫以及Qt的GraphicsView框架,因此,它在大數據量的數字處理和快速顯示方面有著巨大的優勢另外,它不僅為各種數據提供了快速可交互式的圖形顯示,同時也提供了用於快速開發應用程式的各種小工具,如屬性樹、流程圖等小部件,在數學、科學和工程領域都有著廣泛的應用。
  • 【Python教程】用Python進行數據可視化
    在本文中,我將介紹如何開始使用Python和matplotlib、seaborn兩個庫對數據進行可視化。在跨平臺和互動式環境中生成高質量數據時,matplotlib 會很有幫助。也可以用作製作動畫。Seaborn:該 Python 庫能夠創建富含信息量和美觀的統計圖形。Seaborn 基於 matplotlib,具有多種特性,比如內置主題、調色板、可以可視化單變量數據、雙變量數據,線性回歸數據和數據矩陣以及統計型時序數據等,能讓我們創建複雜的可視化圖形。