python利用Counter模塊快速查找重複數據

2021-03-02 python小工具

在上一篇中,我介紹了collections中的counter模塊,並簡單介紹了其使用。這一篇中,我將通過一個例子展示其如何在pandas中快速查找某列中的重複數據。

>>> import pandas as pd
>>> import numpy as np
>>> df = pd.read_excel('D:/2.xlsx')
>>> df
姓名 電話
0 lb 1232
1 lc 3222
2 ac 1222
3 ah 1433
4 eg 1222
5 fs 1232
6 ee 4333
7 rr 1111
8 afa 1222
9 fa 3232
10 fg 3232

我將通過代碼展示如何快速查找電話中重複的電話號碼。

>>> from collections import Counter
>>> phones = Counter(df['電話'])
# 通過調用most_common()方法,能夠獲取到
# 排序以後的結果
>>> phones_sort = phones.most_common()
# 以下列表解析的結果是遍歷結果並
# 排除掉val <= 1的結果,並返回key
>>> [ item[0] for item in phones_sort if item[1] > 1]
[1222, 1232, 3232]

# phones_sort的結果
>>> phones_sort
[(1222, 3), (1232, 2), (3232, 2), (3222, 1), (1433, 1), (4333, 1), (1111, 1)]

昨天通過200個以上的電話號碼實驗,速度也是非常快的,非常適合辦公人事使用哦。有興趣歡迎關注python小工具,一起學習python和pandas.

相關焦點

  • python數據分析專題 (7):python數據分析模塊
    python是一門優秀的程式語言,而是python成為數據分析軟體的是因為python強大的擴展模塊。
  • excel查找重複內容或不同的內容,利用條件格式輕鬆快速查找
    工作中,我們需要對excel工作表中的重複值進行核對,利用excel條件格式功能,可輕鬆快速解決這類問題。在工具欄開始—條件格式菜單下,下拉列表中有這個功能。1、在同一個工作表中查找重複值我們要查找同一個工作表中的重複值,選中表格,點擊條件格式—突出顯示單元格規則—重複值。確定後重複的值會指定的顏色的填充單元格。
  • 一文看懂Python collections模塊的高效數據類型
    Python的最大優勢之一是其廣泛的模塊和軟體包。這將Python的功能擴展到許多受歡迎的領域,包括機器學習、數據科學和Web開發等, 其中最好的模塊之一是Python的內置collections 模塊。
  • 【Python基礎】Python之collections庫-Counter
    模塊概述1、模塊作用官方說法:collections模塊實現了特定目標的容器,以提供Python標準內建容器dict ,list , set , 和tuple的替代選擇。通俗說法:Python內置的數據類型和方法,collections模塊在這些內置類型的基礎提供了額外的高性能數據類型,比如最常用的統計詞頻most_common()函數,又如基礎的字典是不支持順序的,collections模塊的OrderedDict類構建的字典可以支持順序,collections
  • 如何在python中引入高性能數據類型?
    作者|skura 來源|AI開發者 python 就像一件藝術珍藏品!python 最大的優點之一是它可以廣泛地選擇模塊和包。它們將 python 的功能擴展到許多流行的領域,包括機器學習、數據科學、web 開發、前端等等。其中最好的一個優點是 python 的內置 collections 模塊。
  • python的模塊和序列
    為什麼要使用模塊使用模塊的目的在於實現功能的重複利用。我們不光可以把這些py腳本來執行,還可以將其作為模塊導入到其他模塊中,實現功能復用。序列化的過程我們寫好了一個python文件,這個腳本文件計算出了一個數據,現在要求我們把這個數據給另外一段程序使用,那麼我們該怎麼辦呢?
  • python基礎--自定義模塊、import、from......import......
    這時我們不僅僅可以把這些文件當做腳本去執行,還可以把他們當做模塊來導入到其他的模塊中,實現了功能的重複利用拿來主義,提升開發效率 同樣的原理,我們也可以下載別人寫好的模塊然後導入到自己的項目中使用,這種拿來主義,可以極大地提升我們的開發效率,避免重複造輪子。ps:人們常說的腳本是什麼?
  • 如何快速學會Python處理數據?(5000字走心總結)
    python語法非常簡單,代碼可讀性高,對於零基礎的人來說更容易接受和使用。1.4 掌握Python數據處理方法Pandas/Numpy/Matplotlib模塊利用Python做數據處理,線性代數和統計學這兩門基本理論知識還是要會點,線性代數你至少得需要知道矩陣和矩陣運算規則,統計學你至少要知道描述性統計。
  • Excel中快速篩選查找重複數據的必殺技
    在日常Excel辦公中,篩選重複數據也是經常遇到的問題之一,大量的數據如果能快速篩選出重複數據,那將極大地提高工作效率,那麼有哪些解決這個問題的必殺技呢? 一、條件格式+篩選找出重複值 如下表所示是一列數字,現在需要把重複值篩選並顯示出來。
  • 一天快速入門 Python
    sentence1 = "I love " + \"python"sentence2 = ["I", "love","python"]基本數據類型電腦程式要處理不同的數據,需要定義不同的數據類型。= 1while counter <= 10: sum = sum + counter counter += 1print("1 到 10 之和為: %d" % sum)#while 循環使用 else 語句
  • 四種高性能數據類型,Python collections助你優化代碼、簡潔任務
    選自gitconnected作者:George Seif機器之心編譯參與:王子嘉、杜偉在這篇文章中,機器學習工程師 George Seif 介紹了 Python collections 模塊最受歡迎的四種數據類型以及它們各自的使用方法。這些數據類型可以對代碼進行優化,進而實現更簡潔的任務執行。
  • 一文看懂Python對文件和文件夾的操作: 含os, shutil和glob模塊.Python學習面試必讀.
    在利用Python或Django從事Web開發時除了必須要了解Python面向對象的編程思想,還必須熟練掌握對文件夾和文件的操作。小編我精心準備了個小結,教你如何利用python進行基本的文件和文件夾操作,並重點介紹了如何使用os, shutil和glob模塊進行常見的文件和文件夾操作,如遍歷,刪除文件和查找文件。
  • 萬字長文詳解Python正則表達式及re模塊
    重複0或1次,但儘可能少重複+?重複1次或更多次,但儘可能少重複*?重複0次或更多次,但儘可能少重複{n,m}?重複n到m次,但儘可能少重複{n,}?重複n或更多次,但儘可能少重複{n}?exp)零寬度負預測先行斷言,斷言此位置的後面不能匹配表達式exp,簡單點說就是後面不能出現某個東東,我們來查找包含Windows的字符串,但是Windows後面不能是10這裡僅僅查找出來了
  • Excel怎麼查找重複數據
    在繪製excel表格後梳理數據時,有時候需要查看重複的對象。那麼,大夥知道excel表格怎麼查找重複的數據嗎?若不確定的話,來看看小編給出的介紹吧。1、在電腦上雙擊打開一個需要查找重複數據的excel表格。
  • Excel知識6:快速篩選查找重複數據的必殺技
    在日常Excel辦公中,篩選重複數據也是經常遇到的問題之一,大量的數據如果能快速篩選出重複數據,那將極大地提高工作效率,那麼有哪些解決這個問題的必殺技呢?這種方法的原理是利用「條件格式」菜單中的「突出顯示單元格規則」,規則裡面有「重複值」這一項,能給重複值的所在單元格填充顏色,突出顯示出來;之後利用篩選功能,只保留填充顏色的單元格,也可以再排序便於查看。
  • python數據分析師面試題選
    在python中如何創建包含不同類型數據的dataframe利用pandas包的DataFrame函數的serias創建列然後用dtype定義類型:df = pd.DataFrame({'x': pd.Series(['1.0', '2.0', '3.0'], dtype=float), 'y': pd.Series(['1', '2', '3'], dtype=int
  • 利用Python讀取外部數據文件
    解決辦法有兩種情況:1)當原始文件txt或csv的數據不是uft8格式時,需要另存為utf8格式編碼;2)如果原始的數據文件就是uft8格式,為了正常讀入,需要將read_csv函數的參數encoding設置為utf-8將原始數據另存為utf8格式的數據,重新讀入txt數據
  • 程式設計師大神分享零基礎如何30天入門快速學習python
    零基礎如何30天入門快速學python?一:明確自己的學習目標不管我們學習什麼樣的知識,都要對自己的學習目標有一個明確的認識。Python基本數據類型4. 列表和元組的操作方法5. 字符串操作方法6. 基本的字典操作方法以上這些可以略微掌握之後就進行下一步,遇到不會的可以在網上查找一下,或者看下書和筆記以及一些基礎的學習視頻。
  • Python快速入門教程,滿滿都是乾貨
    在Python中,不需要使用數據類型來聲明變量,因為它是動態類型的,所以可以寫一個如 a=10 來聲明一個變量a中的值是一個整數類型。Python使開發和調試快速,因為在python開發中沒有包含編譯步驟,並且編輯 <-> 測試 <-> 調試循環使用代碼開發效率非常高。
  • Python做數據分析-簡潔、易讀、強大
    由於python是一種解釋性語言,大部分編譯型語言都要比python代碼運行速度快,有些同學就因此鄙視python。但是python是一門高級語言,其生產效率更高,時間通常比CPU的時間值錢,因此為了權衡利弊,考慮用python是值得的。