不知道數據如何進行拆分?python數據拆分3步法,靈活易用

2021-01-10 素食先生lpt

python的三方庫pandas有一些能根據指定面元或樣本分位數將數據拆分成多塊的工具(比如cut或qcut)。將這些函數跟groupby結合起來,就能非常輕鬆地實現對數據集的桶(bucket)或分位數(quantile)分析了。下面通過三步法來講解如何使用完成數據拆分,具體如下:

第一步:使用cut方法進行數據切分

在第一步中,我們首先需要先導入pandas以及pandas中的兩種數據結構,分別為Series和DataFrame。然後創建一個frame對象,裡面包含兩個鍵值對。然後對frame對象進行數據切分。具體代碼如下所示:

第二步:基於cut結果進行統計計算

由cut返回的Factor對象可直接用於groupby。因此,可以像下面這樣對data2做一些統計計算:

我們首先定義了一個get_stats函數,然後針對frame對象的『data2』值依據factor進行分組,賦予一個新的對象grouped。然後對grouped對象應用get_stats函數,獲得結果如上圖所示。然後進行了軸向轉換,使用unstack方法。

這些都是長度相等的桶。要根據樣本分位數得到大小相等的桶,使用qcut即可。傳入labels=False即可只獲取分位數的編號。

第三步:返回分位數編號

如上圖所示,首先使用panda的qcut方法,對frame對象對data1鍵進行數據切分,獲得一個新的對象grouping。然後對frame對象對data2依據grouping結果進行分組,獲得grouped對象。最後將get_stats函數應用導grouped對象上,並使用unstack方法進行軸向轉換。從這裡我們可以看到,使用groupby進行分組的過程中,如果不對分組結果進行下一步操作,則獲得是一個中間狀態,只有對其進行下一步操作後才會生成一個結果集,並且可以將這個結果集賦予一個對象進行存儲等。

總結

綜上所述,我們在本文講解了python數據拆分3步法,分別是「使用cut方法進行數據切分」、「基於cut結果進行統計計算」、「返回分位數編號」。三個步驟的靈活應用可以充分掌握數據拆分的不同的應用場景的解決方案。有些人可能認為數據拆分在實際的應用過程中使用的並不頻繁,其實則不然,數據拆分與合併是一類操作對,經常如影隨形,它們的有效結合,能夠提供完美的數據處理解決方案。

所以,使用python三方庫pandas對數據進行拆分的方法,靈活且易用。在實際的使用過程中可以對其具體的使用場景和相應的處理方法進行不斷的沉澱,這樣會更便於以後的系統化學習。

相關焦點

  • excel批量拆分工作簿,用VBA一鍵拆分,把數據分解到N個工作簿
    在各行各業的日常工作中,經常需要把一份工作表的內容歸類拆分到N個工作簿,最基礎的辦法就是通過篩選、排序歸類數據,然後複製原數據,再新建工作簿,粘貼數據,如此往復......如果數量較小,這樣操作沒問題,如果分類的數據非常多,要新建幾百,幾千個工作簿,那就是一個非常大的工作量了。
  • Excel如何拆分單元格內容
    1、本文以Excel2019軟體進行演示說明,讓大家能夠清楚明白地了解Excel如何拆分單元格內容,讓大家都會進行此項操作;用該軟體打開Excel文檔,選中需要拆分內容的單元格2、在Excel2019軟體的菜單欄找到「數據」選項,並用滑鼠左鍵點擊該選項
  • Excel單元格一列如何拆分兩列?分列功能強大
    在網上拷貝資料的時候,複製過來的信息不是很規範,很多數據都在一個單元格中,如何拆分單元格,使其規範的顯示在單元格中呢?今天給大家分享使用分列功能,支持不規範單元格拆分。1、按空格拆分列根據表格的例子所示,兩個名字使用空格連接顯示在一個單元格上,如何將其拆分成兩個單元格呢?操作方法:點擊數據-分列-下一步-選擇空格,然後選擇拆分放置的單元格,點擊完成即可。2、按逗號拆分列如果表格上的數據是使用逗號(英文下的逗號)連接的話,那麼只需要在選擇分隔符的時候,選擇逗號即可拆分兩列。
  • 解決問題的方法——拆分(分而治之)
    笛卡爾的第四條要做到全面考察,不遺漏。如果你知道金字塔MECE的核心原則是不重不漏,你就會發現金字塔原理的不漏其實笛卡爾早都說過。圖19 足彩郵件騙局流氓不可怕,就怕流氓有文化。學習知識是有用的,否則就會像小劉一樣,直到被騙了都不知道自己怎麼被騙的。
  • 「Excel技巧」利用數據透視表快速將一個匯總表拆分成多個工作表
    今天要說的是,如何根據某一列將一個Exce工作表拆分成多個工作表。舉慄子,以下這麼一份總表,需要按照班級將其拆分成多個單獨的表,一個班級為一個表。你會按照班級一個一個地篩選複製出來嗎?如果班級多,有幾十個班級,顯然這種方法就不適用。那麼,怎麼操作比較省時省力?Excel的數據透視表功能就可以幫我們完成這個工作。
  • 一個複雜系統的拆分改造實踐!
    insert語句插入一條記錄,如果主鍵衝突,插入不進去。3.1.3 聯表查詢sql改造現在主鍵已經接入全局唯一id,新的庫表、索引已經建立,且數據也在實時追平,現在可以開始切庫了嗎?no!考慮以下非常簡單的聯表查詢sql,如果將B表拆分到另一個庫裡的話,這個sql怎麼辦?
  • Excel工作表拆分你喜歡哪一種?
    各位小夥伴有沒有遇到過這樣的問題:當我們把所有的信息匯總在一張表裡後,又需要將這張大表按某一條件再拆分成多個工作表。那怎麼才能實現呢?可能最笨的方法就是在原工作表篩選數據然後複製粘貼到新工作表,不過這種方法不適合數據多的案例,並且新工作表也需要一一重命名,顯得繁瑣。今天就給大家介紹兩種快捷實用的工作表拆分方法。
  • Excel表中數據如何進行抽取、分組、計算
    如何用DataFocus對Excel表中數據進行處理? 對Excel表中數據的處理,除了之前介紹過的「處理重複數據」、「處理缺失數據」、「數據轉換」,還會涉及「數據抽取」、「數據分組」、「數據計算」等方面。
  • 如何在Word 裡拆分表格
    利用Word文檔辦公時,不僅僅是用到簡單的文字操作,還會在Word中進行一些表格操作,例如,插入表格,繪製表格,拆分表格等。那麼今天,就讓我們一起來學習一下如何在Word裡拆分表格。首先,我們新建一個Word文檔:然後,我們在上方工具欄裡依次選擇「插入」—「表格」,根據自己的需要插入一個表格:表格插入完成,例如我們現在要對表格內第一個單元格進行拆分。
  • 英語長難句翻譯應該如何拆分與組合
    所以,在考試的時候用有限的時間來成功的完成翻譯試題,交上一份讓自己滿意的答卷,需要平時有效的練習。下文中就為考生詳細分析長難句翻譯的拆分與組合。   首先,筆者認為每天持之以恆的練習是關鍵。那麼,考研英語翻譯的練習,我建議每天堅持只用二十到三十分鐘的時間來進行強化練習就可以了。這大約半個小時的時間是比較可行的,就是說,即使再忙,每天也要保證這點練習的時間。
  • 超硬核的 Python 數據可視化教程!
    Python實現可視化的三個步驟:確定問題,選擇圖形 轉換數據,應用函數 參數設置,一目了然 1、首先,要知道我們用哪些庫來畫圖?matplotlibpython中最基本的作圖庫就是matplotlib,是一個最基礎的Python可視化庫,一般都是從matplotlib上手Python數據可視化,然後開始做縱向與橫向拓展。
  • 如何在蘋果Mac上使用拆分視圖?
    下面小編就為大家介紹一下如何在Mac上使用Split View功能 。無論您是想更有效地完成某些工作還是瀏覽網頁時更輕鬆地執行多任務,在Split View中構建的macOS都是一項非常有用的功能。1.在第一個程序中,將滑鼠懸停在關閉和最小化按鈕旁邊的綠色全屏圖標上。2.將出現一個菜單。這兩個相關的選項有平鋪窗口到屏幕的左邊和平鋪窗口到屏幕右側。
  • 如何使用Python對Instagram進行數據分析?
    我的方法可用於數據分析、計算機視覺以及任何你所能想到的酷炫項目中。Instagram是最大的圖片分享社交媒體平臺,每月活躍用戶約五億,每日有九千五百萬的圖片和視頻被上傳到Instagram。其數據規模巨大,具有很大的潛能。本文將給出如何將Instagram作為數據源而非一個平臺,並介紹在項目中使用本文所給出的開發方法。
  • 拆分「Facebook」
    將近30個美國州政府的檢察官系統,用了將近一年的時間收集證據,並將對Facebook集體訴訟。甚至這場訴訟的目的都已經半公開化:拆分Facebook。 「或者讓Facebook業務剝離,或者讓Facebook改變現有的商業模式。」一位美股分析師認為,現有的Facebook賺錢模式已經引起了多方不滿。
  • 詳解傳銷邪教ACE拆分!
    TM不就是別人的數字嗎!第3:(靜態)也發財:靜態一年回本,兩年翻倍,開盤到現在經歷14次拆分68次指導銷售,你有沒有腦子一年回本,強制你的盈利%36復投,你也就贖回了成本的%64,讓你無法全身而退,繼續收割你,,就這還不考慮其他風險,崩盤。跑路,公安打擊,在傳銷界哪有不拉人頭髮財的,看看你們的領導人那個不是瘋狂的拉人頭,都回家搞靜態多好不費力還賺錢!
  • java大數據和python大數據的全面對比,哪個更主流?
    未來大數據是對於一家企業有多重要,通過對數據的分析,可以了解市場需求、發展方向,對公司未來的定位,把數量龐大、不規整的數據信息進行梳理,總結出可供查詢的特徵。處理大規模數據時有那些常用的Python庫,他們有什麼優缺點?適用範圍如何?
  • 原神官方刪除魈的觀測樞數據,又要拆分機制嗎?策劃應該不傻吧?
    不過在細心玩家們的研究中,米遊社裡觀測樞中魈的數據居然被完全刪除,這讓旅行者們陷入不安之中。在米遊社的觀測樞中,角色索引篩選器裡已經沒有了魈的身影。但在網上原神玩家們給出的原來版本觀測樞的截圖中,魈和他的詳細資料赫然在目。這個稍顯迷惑的操作被外界認為是害怕對比,因為魈在上線之後很可能會遭遇到鍾離式的拆分命座待遇。
  • 拆分盤與區塊鏈(數字幣)的關係
    今年2018年,也是區塊鏈最火的時代,各種區塊鏈概念火了,發現很多拆分盤,都各種區塊鏈,數字幣來消化,對接,下面我簡單的來分析這2者的關係。這裡我們老話常說。黃彥清設計拆分模式的時候就想假如我們都很笨,不會找人怎麼辦?所以我就設計了倍增,自己推薦自己。那我們不會賣產品怎麼辦?所以我設計了利複利,錢生錢。我最佩服的人是巴菲特,他就是用利複利成為世界首富。
  • 如何把長句拆分成短句?4步搞定句子結構拆分(新東方)
    在讀一些英語長句時,總會有這樣的感覺:好長,讀完不知道重點。那麼,就要把長句拆分成一個個短句來看。為什麼這麼做?該怎麼做?   1   句子基本結構   先從漢語的句子說起,我們所有的表達就兩種內容:誰是什麼,或誰幹什麼。
  • 數據清洗要了命?這有一份手把手Python攻略
    在這個任務中,我使用了python和配套的庫,包括pandas和numpy。之前我已經成功地從美國不同的城市中抓取並保存了大量的招聘信息,並將其導入到pandas數據框架中,如下圖所示(你會發現絕大多數職位不包括工資信息):為了完成清洗數據的任務,我有如下目標:從數據中刪除所有重複的招聘信息格式化所有可用的薪資數據,以便只顯示預期年薪這一數據。