Pandas自動進行探索性數據分析,節省可視化和理解數據的時間

2021-01-14 人工智慧研究院

根據Wikipedia的說法,探索性數據分析(EDA)是一種分析數據集以總結其主要特徵的方法,通常使用視覺方法。

因此,EDA是理解基礎數據,變量分布及其相關性的過程。這使得EDA成為構建任何統計模型之前任何數據科學過程中的第一步。

EDA通常是一項非常耗時的任務,需要您構建多個視覺效果來檢查變量之間的分布和交互。

有一些函數(例如info()和describe())在一定程度上有所幫助,但是即使使用了這些函數,您仍然必須執行許多手動步驟。

這是一個非常實用的庫,叫做Pandas Profiling。該庫自動生成詳細的報告,只需一行代碼即可解釋數據!快速瀏覽一下報告的外觀。

變量概述:

可變統計信息:

變量之間的相互作用:

變量之間的相關性:

缺失值數量:

樣本數據:

對於每列,報告中都會顯示以下統計信息(如果與列類型相關):

類型推斷:檢測數據框中列的類型。

要點:類型,唯一值,缺失值

分位數統計信息,例如最小值,Q1,中位數,Q3,最大值,範圍,四分位數範圍描述性統計數據,例如平均值,眾數,標準偏差,總和,中位數絕對偏差,變異係數,峰度,偏度最常使用的值直方圖高相關變量Spearman,Pearson和Kendall矩陣的相關性突出顯示缺失值矩陣,計數,熱圖和缺失值樹狀圖文本分析了解文本數據的類別(大寫,空格),腳本(拉丁,西裡爾字母)和塊(ASCII)。文件和圖像分析可提取文件大小,創建日期和尺寸,並掃描截斷的圖像或包含EXIF信息的圖像。除此之外,報告中還介紹了變量之間的相關性和相互作用。

所有這些僅需一行代碼!

安裝庫

pip install pandas-profiling

導入庫

from pandas_profiling import ProfileReportprofile = ProfileReport(df, title=」Pandas Profiling Report」)

您可以直接在jupyter筆記本上查看報告,但我更希望將報告轉換為HTML文件,然後在瀏覽器上查看。

profile.to_file(「your_report.html」)

這將生成一個交互式儀錶板,您可以在其中瀏覽所需的所有內容。

儘管它是一種出色的工具,但它也有一些缺點。處理大型數據集時,生成報告要花費大量時間。

解決此問題的一種方法是通過使用以下語法禁用昂貴的計算(例如相關性和動態合併)。

profile = ProfileReport(large_dataset, minimal=True)

相關焦點

  • 如何使用Pandas-Profiling進行探索性數據分析
    當開始一個新的機器學習項目時,獲得機器學習數據集之後的第一步就是要了解它。我們可以通過執行探索性數據分析(EDA)來實現這一點。這包括找出每個變量的數據類型、目標變量的分布、每個預測變量的不同值的數量、數據集中是否有重複值或缺失值等。進行EDA探索機器學習數據集的過程往往是非常耗時的。什麼是Pandas-Profiling?
  • 5個可以幫助pandas進行數據預處理的可視化圖表
    分析數據點的探索性數據分析(EDA)是在算法的數據建模之前制定假設的正確步驟。 數據科學行業中一個最常見的陷阱是花費數小時為他們的項目尋找最佳算法,而沒有花足夠的時間首先理解數據。
  • 數據分析領域的探索性數據分析究竟是什麼?
    我們經常討論數據分析和Bl科學方面:執行複雜查詢所需的計算和算法。當然,Bl的很大一部分是數學,在一般情況下理解數據需要計劃如何在一端構建分析結構,在另一端解釋結果,在一些人眼中這是一種藝術形式。什麼是探索性數據分析?探索性數據分析(EDA)是數據分析過程的第一步。
  • 如何用pandas更快地進行數據可視化?
    作者:劉早起來源:早起Python(公眾號)如果你經常使用Python進行數據分析,那麼對於pandas一定不會陌生,但是Pandas除了在數據處理上大放異彩,隨著版本的不斷更新,Pandas的繪圖功能在某些情況下甚至要比matplotlib更加適用,本文就將介紹如何用
  • 從數據可視化到交互式數據分析
    當然,解釋性可視化也有助於人們理解某些事物。但這裡的主要區別在於,在解釋性的可視化中,作者已經知道了可視化的內容(在執行了一些分析之後),而在分析學中,可視化的主要價值是幫助人們第一時間理解數據。人們已經使用了一百萬個名字來定義此活動。最新和最時尚的名字是數字科學,更具體地說是數據科學的一部分,稱為「探索性數據分析」,這是幾十年前偉大的約翰·圖基(John Tukey)發明的術語。
  • 探索性數據分析(EDA),你會使用嗎?
    所謂探索性數據分析(Exploratory Data Analysis,以下簡稱EDA),是指對已有的數據(特別是調查或觀察得來的原始數據)在儘量少的先驗假定下進行探索,通過作圖、制表、方程擬合、計算特徵量等手段探索數據的結構和規律的一種數據分析方法。
  • 教你用Pandas和Plotly進行數據可視化
    數據太多難道不會讓人感到不知所措嗎?講真的,數據可視化了解一下。數據可視化是將原始數據轉換成可視化的圖形和圖表,從而更易於理解,它的主要目的是更快地進行研究和數據分析,並有效傳達趨勢和模式。相較於冗長的純文本,人腦能夠更好地理解具有視覺吸引力的數據。
  • 資料|利用Python進行數據分析
    ——Fernando Pérez 加州大學伯克利分校 研究科學家, IPython的創始人之一【內容簡介】還在苦苦尋覓用Python控制、處理、整理、分析結構化數據的完整課程?本書含有大量的實踐案例,你將學會如何利用各種Python庫(包括NumPy、pandas、matplotlib以及IPython等)高效地解決各式各樣的數據分析問題。
  • Python數據分析:pandas讀取和寫入數據
    我的公眾號是關於自己在數據分析/挖掘學習過程中的一些技術和總結分享,文章會持續更新......繼續深入學習pandas相關操作,數據讀取寫入、分組、合併,轉換等等。前面一篇文章裡已經寫了關於描述性統計以及常用的基本操作。接下來的一段時間裡,我將陸續地去掌握並輸出。這篇文章是關於數據讀取與寫入的知識點。
  • 從電影中看:探索性數據分析思維應用
    謀殺發生在那個時間嗎?還是在那個時間之前?或是之後?能確信殺手不止一個人嗎?死者身上的刀傷還有其它解釋嗎?這些是否也是你的疑問?或者說,在聽過各位乘客的回答後,你是否也產生了一些疑問?如果答案是「yes」,恭喜你,你已經在做探索性分析了!EDA——探索性數據分析探索性數據分析(EDA)是數據分析過程的第一部分。
  • Python數據分析利器,Pandas入門介紹,幫你便捷高效處理複雜數據
    關於Python的數據分析,當我們遇到的數據量小、數據結構簡單時,可以通過字典、列表等Python常見的數據結構來處理。但是當我們面對的大量數據以及複雜數據的局面時,就需要用一些專門用於數據分析的擴展庫來處理數據了。今天給大家介紹一個Python裡專門用來做數據分析和處理的擴展庫。
  • 數據分析從業者必看,10 個加速 python 數據分析的簡單的小技巧
    數據科學愛好者 Parul Pandey 在近日發表了一篇博文,分享了在數據科學中非常實用的 10 個小技巧。雷鋒網 AI 科技評論將他的文章編譯整理如下。有時候,一點小小的黑客行為可以節省時間,挽救生命。一個小小的快捷方式或附加組件有時會被證明是天賜之物,並且可以真正提高生產力。所以,下面是我最喜歡的一些技巧,我以本文的形式一起使用和編譯它們。
  • 數據分析?從一開始你就錯了!探索性數據分析套路解讀
    第一次接觸在Coursera網站的這門ExploratoryData Analysis課程裡,這是一整套「數據分析課程」的其中一門,主要介紹了如何運用R語言對數據進行探索性的發現,將數據用簡單的圖示表示以便於更好的發現數據的潛在特徵。完成課程之初,並不以為這是數據分析過程中一個關鍵的步驟,在做項目時只是簡單的跑跑summary語句大概看看分布,之後還是我行我素。
  • Pandas GUI:如何輕鬆獲取Pandas數據幀?
    全文共2071字,預計學習時長6分鐘Pandas庫目前已經成為用Python進行探索性數據分析的絕佳伴侶。它功能豐富,靈活易用,成為了當今許多數據科學家的首選。Pandas庫的社區也很完善,這讓它能夠一直積極發展和改進。提到Pandas,就不得不提到這兩種工具:· 可以用簡短的代碼執行基本EDA的工具。
  • 教程| pandas輕鬆入門 之 數據結構介紹 1
    訪問flyai.club,一鍵創建你的人工智慧項目Pandas含有使數據清洗和分析工作變得更快更簡單的數據結構和操作工具。pandas經常和其它工具一同使用,如數值計算工具NumPy和SciPy,分析庫statsmodels和scikit-learn,和數據可視化庫matplotlib。
  • 數據科學家和數據分析師的區別在哪兒?
    這些工具包括但不限於SQL、Tableau,以及相似的分析流程,定義問題、分析數據和輸出結果;一部分差異在分析的自動化上,數據科學家專注於使用Python等語言編寫算法,進行自動化分析和預測;而數據分析師則使用靜態的或者過往的數據,在某些情況下會使用Tableau和SQL等工具去做預測。
  • python時間序列分析之_用pandas中的rolling函數計算時間窗口數據
    上篇文章中,我們講解了如何對時間數據進行重採樣及重採樣中降採樣和升採樣的概覽和使用方法,通過重採樣我們可以得到任何想要頻率的數據,但是這些數據也是一個時點的數據,那麼就存在這樣一個問題:時點的數據波動較大,某一點的數據不能很好的表現它本身的特性,於是我們就想,能否用一個區間的的數據去表現呢,這樣數據的準確性是不是更好一些呢?
  • 懂Excel就能輕鬆入門Python數據分析包pandas(十六):合併數據
    此系列文章收錄在公眾號中:數據大宇宙 > 數據處理 >E-pd經常聽別人說 Python 在數據領域有多厲害,結果學了很長時間,連數據處理都麻煩得要死。後來才發現,原來不是 Python 數據處理厲害,而是他有數據分析神器—— pandas前言本系列上一節說了拆分數據的案例,這次自然是說下怎麼合併數據。
  • 大數據開發和大數據分析有什麼不同?
    為幫助那些往想網際網路方向轉行想學習,卻因為時間不夠,資源不足而放棄的人。我自己整理的一份最新的大數據進階資料和高級開發教程,大數據學習群:458345782 歡迎進階中和進想深入大數據的小夥伴加入。什麼是數據分析工程師?數據分析通過談論數據來像他們的公司傳遞價值,用數據來回答問題,交流結果來幫助做商業決策。數據分析師的一般工作包括數據清洗,執行分析和數據可視化。
  • 使用Pandas的resample函數處理時間序列數據的技巧
    時間序列數據在數據科學項目中很常見。 通常,可能會對將時序數據重新採樣到要分析數據的頻率或從數據中汲取更多見解的頻率感興趣。在本文中,我們將介紹一些使用Pandas resample()函數對時間序列數據進行重採樣的示例。 我們將介紹以下常見問題,並應幫助您開始使用時序數據操作。