懂Excel就能輕鬆入門Python數據分析包pandas(五):重複值處理

2020-12-27 Python數據世界

經常聽別人說 Python 在數據領域有多厲害,結果學了很長時間,連數據處理都麻煩得要死。後來才發現,原來不是 Python 數據處理厲害,而是他有數據分析神器—— pandas

前言

有時候數據中出現重複值,可能會導致最後的統計結果出現錯誤,因此,查找和移除重複值是數據處理中的常見操作。今天我們來看看 pandas 中是如何實現。

Excel 處理重複值

Excel 中直接提供了去除重複的功能,因此簡單操作即可實現。如下:

功能卡"數據","數據工具"中有"刪除重複項"按鈕接著可以選擇以哪些列作為重複判斷除此之外,Excel 中還可以使用條件格式、高級篩選或函數公式實現差不多的功能

pandas 標記重複值

pandas 中同樣提供一個簡單方法標記出重複值,並且比 Excel 有更多靈活處理方式供你選擇,我們來看看:

DataFrame.duplicated() ,生成是否為重複記錄的布爾標記。默認是整行所有數據作為判斷依據結果很明顯,最後一行是重複行,因此標記列最後一行的值是 True我們可以指定,當有重複值時,保留哪個位置的行。如下:

默認情況下,duplicated() 的 keep 參數為 "first",意思為"保留第一個"現在我們把 keep 設置為"last",那麼保留最後一個,因此現在重複的行中的第一行被標記為 True除此之外,我們還可以把 keep 參數設置為 False,意思是"不保留",如下:

現在凡是存在重複的行,都被標記 True通過參數 subset 可以指定哪些列作為判斷依據:

像 Excel 一樣去除重複

其實把重複值標記後,只需要簡單篩選即可得到非重複的記錄。但是 pandas 中有直接的方法去除重複。如下:

調用 DataFrame.drop_duplicates() ,即可去除重複他的參數與規則與 duplicated 一模一樣。實際就是把 duplicated() 標記為 True 的行去掉而已

最後

DataFrame.duplicated() ,標記出重複項。使用 subset 指定重複值判斷列,keep={'first','last',False} 指定怎麼判斷哪些是重複項DataFrame.drop_duplicates() ,去除重複項下一節,將看看排序功能的實現。敬請關注。

如果希望從零開始學習 pandas ,那麼可以看看我的 pandas 專欄。

相關焦點

  • 懂Excel輕鬆入門Python數據分析包pandas(十七):合併不規範數據
    此系列文章收錄在公眾號中:數據大宇宙 > 數據處理 >E-pd經常聽別人說 Python 在數據領域有多厲害,結果學了很長時間,連數據處理都麻煩得要死。後來才發現,原來不是 Python 數據處理厲害,而是他有數據分析神器—— pandas前言本系列上一篇文章關於合併多個 Excel 數據,許多小夥伴似乎對此比較感興趣,問我是否可以合併不規範的數據,本文就用他們提出的需求做一個大致講解上一節文章:懂Excel就能輕鬆入門Python數據分析包pandas(十六):合併數據奇葩格式
  • 懂Excel就能輕鬆入門Python數據分析包pandas(十五):拆分數據
    此系列文章收錄在公眾號中:數據大宇宙 > 數據處理 >E-pd轉發本文並私信我"python",即可經常聽別人說 Python 在數據領域有多厲害,結果學了很長時間,連數據處理都麻煩得要死。
  • 懂Excel就能輕鬆入門Python數據分析包pandas(十三):合併單元格
    經常聽別人說 Python 在數據領域有多厲害,結果學了很長時間,連數據處理都麻煩得要死。後來才發現,原來不是 Python 數據處理厲害,而是他有數據分析神器—— pandas前言做數據分析時,當你拿到一份 Excel 數據之後,我相信你還沒有看數據,心就已經涼了一半。這是因為大概率數據格式"好看不好算",今天來看看怎麼解決報表格式常見的合併單元格問題。案例1今天你接到一個分析需求,需要統計2年內個城市月度平均銷量。
  • 懂Excel輕鬆入門Python數據分析包pandas(二十八):二分法查找
    此系列文章收錄在:數據大宇宙 > 數據處理 > E-pd轉發本文並私信我"python",即可獲得Python資料以及更多系列文章(持續更新的)經常聽別人說 Python 在數據領域有多厲害,結果學了很長時間,連數據處理都麻煩得要死。
  • Python數據處理庫pandas入門教程
    本文是對它的一個入門教程。pandas提供了快速,靈活和富有表現力的數據結構,目的是使「關係」或「標記」數據的工作既簡單又直觀。它旨在成為在Python中進行實際數據分析的高級構建塊。入門介紹pandas適合於許多不同類型的數據,包括:由於這是一個Python語言的軟體包,因此需要你的機器上首先需要具備Python語言的環境。關於這一點,請自行在網絡上搜索獲取方法。關於如何獲取pandas請參閱官網上的說明:pandas Installation。
  • Python數據分析:pandas讀取和寫入數據
    我的公眾號是關於自己在數據分析/挖掘學習過程中的一些技術和總結分享,文章會持續更新......繼續深入學習pandas相關操作,數據讀取寫入、分組、合併,轉換等等。前面一篇文章裡已經寫了關於描述性統計以及常用的基本操作。接下來的一段時間裡,我將陸續地去掌握並輸出。這篇文章是關於數據讀取與寫入的知識點。
  • 「Python替代Excel Vba」系列(三):pandas處理不規範數據
    帶你用pandas玩轉各種數據處理前言本系列前2篇已經稍微展示了 python 在數據處理方面的強大能力,這主要得益於 pandas 包的各種靈活處理方式。這裡的名字按照原有數據做了脫敏。這是典型的報表輸出格式,其中有合併單元格,內容把科目和人名回到一起去。由於案例原有的需求比較繁瑣,本文核心是處理數據,因此簡化了需求。不管我們的分析目的是什麼,第一步就是要把這份數據整理好,才能應對各種分析。我們開始吧。
  • 基於python的大數據分析-pandas數據讀取(代碼實戰)
    書籍推薦《大話軟體測試》出版啦,內容包括但不限於性能、自動化、接口、安全、移動APP非功能測試、抓包、loadrunner、jmeter、soapui、Appium、python
  • Python數學建模技巧之pandas數據處理
    最常見的庫有進行矩陣運算的Numpy、進行數據處理的pandas、進行科學計算的Scipy、進行圖形繪製及科學可視化的matplotlib、進行符號計算的Sympy以及方便進行機器學習任務的Sklearn。由於今年美賽官方公告中稱,將會提前在賽題公布之前就提供下載C題數據集的方式。
  • 懂Excel輕鬆入門Python數據分析包pandas(二十一):透視表
    > 數據處理 >E-pd> 經常聽別人說 Python 在數據領域有多厲害,結果學了很長時間,連數據處理都麻煩得要死。後來才發現,原來不是 Python 數據處理厲害,而是他有數據分析神器—— pandas本系列上一節文章最後我隨手使用了 pandas 中的透視表操作,之後有些小夥伴詢問我相關的問題。
  • 像Excel一樣使用python進行數據分析
    Excel是數據分析中最常用的工具,本篇文章通過python與excel的功能對比介紹如何使用python通過函數式編程完成excel中的數據處理及分析工作。在Python中pandas庫用於數據處理,我們從1787頁的pandas官網文檔中總結出最常用的36個函數,通過這些函數介紹如何通過python完成數據生成和導入,數據清洗,預處理,以及最常見的數據分類,數據篩選,分類匯總,透視等最常見的操作。文章內容共分為9個部分。這是第一篇,介紹前3部分內容,數據表生成,數據表查看,和數據清洗。
  • 如何快速學會Python處理數據?(5000字走心總結)
    1.2 明確Python的學習方向Python的學習方向有很多,比如:我是日常用Python主要做數據處理和數據分析工作,所以我選擇的是數據處理和數據分析方向,其他Python功能接觸的比較少。所以,要利用工作之餘的時間,把python基礎打紮實。2 Python數據處理示例 2.1  安裝並搭建python環境首先,需要安裝python,我要推薦Anaconda3,從事數據分析的夥伴們,嚴重推薦此軟體!
  • python數據分析常用庫之pandas入門(2)
    索引、選擇和賦值昨天介紹了pandas的模塊引入、創建和讀取數據,今天主要看看怎麼從數據結構中獲得想要的值,也就是數據的索引查找、
  • Python數據核對系列之2—power query VS pandas
    上一篇文章我們整體梳理了我核對兩個表數據,從excel query模式一版版過渡到python多線程多進程讀取資料庫數據後完成核對並輸出結果到資料庫表中的整個版本迭代過程
  • python數據分析專題 (7):python數據分析模塊
    也就是這些python的擴展包讓python可以做數據分析,主要包括numpy,scipy,pandas,matplotlib,scikit-learn等等諸多強大的模塊,在結合上ipython交互工具 ,以及python強大的爬蟲數據獲取能力,字符串處理能力,讓python成為完整的數據分析工具。
  • 未明學院:用excel不好嗎?為什麼還要學python?
    在大數據背景的今天,面對千萬條以上動輒成百上千G的數據,單用excel難免顯得力不從心,越來越多的人將關注點轉向python。1、易踩坑!Excel輸給Python(1)數據量級太大,報表來不及保存,Excel崩潰無響應比如,工作中經常需要對一個表進行刪除重複值處理,當工作表中格式過於複雜、數據量過於龐大時,Excel在計算時容易報錯崩潰。
  • 使用Pandas數據處理與分析
    前言:這是關於個人關於對pandas可以進行的數據處理和數據分析的見解的初版,其中肯定不乏一些錯誤之處,希望大家能多多指正。但是,在一般的數據處理分析中,往往自我生成數據情況較少,更多的是導入數據。這些pandas的解析函數參數較為複雜,具體了解可以在pandas官網上自行查閱,或者可以再Jupyter Notebook 中採用help(pd.read_excel)命令查閱。2.審閱數據在成功導入數據以後,需要對數據進行審閱,目的是,了解數據結構、類型、大小等情況。
  • Pandas進階Excel(一)——讀取
    今天開始介紹python可以操作Excel的另一個強大的庫——pandas庫。個人認為,pandas庫對於操作Excel有著極好的支撐。在數據導入、數據清洗、數據計算、數據導出都有著完整性的支撐,是一個提供高性能易用數據類型和分析工具,並且用一段時間你就會發現如果拿pandas只操作表格數據,是真的大材小用。 它不僅可以處理數據,更可以可視化數據。譬如可以做出這樣的圖表。
  • Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...
    22機器學習 23深度學習 24數據結構和算法 25python網絡爬蟲 26機器學習入門篇 27機器學習入門篇2 28機器學習提升篇 29數據挖掘篇 30深度學習必備原理與實戰 31深度學習必備原理與實戰2 32深度學習必備原理與實戰3
  • n種方式教你用python讀寫excel等數據文件
    點擊上方「濤哥聊Python」,選擇「星標」公眾號重磅乾貨,第一時間送達來源:Python大數據分析python處理數據文件的途徑有很多種,可以操作的文件類型主要包括文本文件(csv、txt、json等)、excel