簡單實用的數據清洗代碼

2021-01-09 雷鋒網

本文為 AI 研習社編譯的技術博客,原標題 :

The Simple Yet Practical Data Cleaning Codes

作者 | Admond Lee

翻譯 | 泰絲·路易斯         

校對 | 醬番梨        審核 | 詹森·李加薪       整理 | 立魚王

原文連結:

https://towardsdatascience.com/the-simple-yet-practical-data-cleaning-codes-ad27c4ce0a38


在我的一篇文章中(我的第一份數據科學實習),我曾討論過數據清理有多麼重要,並且這項工作經常在整個數據科學的工作流中佔到40%-70%。這個世界並不完美,數據也是如此。

Garbage in, Garbage out

現實世界的數據非常髒亂,我們作為數據科學家 - 有時也稱為數據清理者 - 應該能夠在進行任何數據分析或模型構建之前執行數據清理,以確保最高質量的數據。

長話短說,在數據科學領域相當長一段時間後,我確實感受到在處理數據分析,可視化和模型構建之前進行數據清理的痛苦。

承認與否,數據清理不是一項容易的任務,大多數時候它是耗時且乏味的,但這個過程太重要了,不容忽視。

如果你經歷過這個過程,你會理解我的意思。 這正是我寫這篇文章的原因,以幫助您以更平滑的方式執行數據清理。


   為什麼這篇文章對你很重要


(大意:關於數據科學,無論技術性與否,有哪些你一直想問或是弄明白的問題?不要緊。在評論區留言分享你的問題,我會盡我所能回答。如果我認為有必要,我會新開一篇博文圈你並討論這個問題,這樣你可以及時獲得最新消息。那麼……我們開始吧!2019,衝呀!)

一周前,我在領英上提問並解答了一些數據科學家和從業人員關於數據科學炙手可熱的問題。

如果您一直關注我的工作,我在LinkedIn上忙於實現共享學習環境的民主化,以數據科學上為主,通過有抱負的數據科學家和其他不同專業知識和背景的數據專家的LinkedIn上發起討論。 如果您想參與有關數據科學的有趣話題的討論,請隨時LinkedIn關注我。 您會對數據科學社區的參與和支持感到驚訝。?


我在評論中收穫了不少有趣的問題。 然而,Anirban提到了一個重要的問題,我最終決定撰寫一篇文章來回答這個問題,因為我不時會收到類似的問題。

事實上,不久前我意識到一些數據在數據清理方面有類似的模式。 自此,我開始組織和編譯一些我認為適用於其他常見場景的數據清理代碼 - 我用於數據清理的小工具箱。

由於此處的常見方案跨越不同類型的數據集,因此本文著重於展示和解釋代碼的用途,以便您可以輕鬆地進行調用。

在本文的最後,我希望你能找到有用的代碼,這將使你的數據清理過程更加快速有效。

讓我們開始吧!


   我的小工具之數據處理1. 刪除多列數據

有時,並不是所有列都對我們的分析有用。因此,df.drop函數是一個得心應手的工具去移除你指定的列。2. 改變數據類型

當一個數據集變大時,為了,我們需要dtypes 。如果你對學習如何用Pandas處理大型數據感興趣,我強烈建議你看一看這篇文章——為什麼和如何用Pandas處理大型數據。

3. 將類別變量轉為數值變量

有些機器學習模型要求變量為數值形式。這時,在把數據輸入進模型前,我們需要將類別變量轉為數值變量。對於數據可視化,我建議維持類編變量以便有一個更直觀的解釋和理解。

4. 檢查丟失數據

如果你想檢查每列中丟失數據的數量,這是最快速的方法。這給你一個更好的用以理解哪些列有更多數量的丟失數據,可以決定下一步數據清理和分析的方向。

5. 在列中移除字符串

有些時候,在你字符串類型的列中,你可能要面對換行符或是奇怪的符號的出現。這個問題可以被df['col_1'].replace輕鬆解決, 其中,col_1指的是數據幀中的某列。

6. 在列中移除空格

當數據混亂時,任何事都有可能。所以列中字符串前有空格的情況時有發生。因此,如果你想移除它們時,這個辦法很管用。7. 用字符串(在指定條件下)合併列

當你想通過字符串把兩列有條件的合併時,這個辦法便派上用場。譬如,你想把第一列和第二列合併,條件是根據第一列中以特定字母們結束的字符串。在合併後,根據你的需要,末尾字母們也可被移除。

8.轉換時間戳(從string到datetime類型)

當處理時間序列數據時,這意味著我們很可能要將string格式轉換到datetime格式——基於我們要求的特定格式——以便用數據做出有意義的分析和演示。


   尾聲


(來源:https://unsplash.com/photos/oTvU7Zmteic)

謝謝你的閱讀。

這些代碼本質上實現起來相對簡單。 我希望這個數據清理的小工具箱讓你能更自信地執行數據清理,並能通過我的經驗對數據集樣貌擁有更廣泛的思考。

與往常一樣,如果您有任何問題或意見,請隨時留下您的反饋,或者您可以隨時通過LinkedIn與我聯繫。 至此,下一篇文章中見!雷鋒網(公眾號:雷鋒網)雷鋒網雷鋒網

想要繼續查看該篇文章相關連結和參考文獻?

點擊簡單實用的數據清洗代碼】即可訪問:

https://ai.yanxishe.com/page/TextTranslation/1432

Python中文書籍大集合

100本Python中文電子書,6份原始碼,Python從入門到出家,一條龍服務。

包含Python基礎、進階、爬蟲、算法實現、深度學習、TensorFlow、NLP等等

友情提示:文件大小為2.89GB,慎用流量下載,可以先收藏喲~~!

點擊連結即可獲取:https://ai.yanxishe.com/page/resourceDetail/676


雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 雙向數據綁定是什麼?簡單雙向數據綁定的實現(代碼示例)
    雙向數據綁定是什麼?本篇文章給大家帶來的內容是介紹雙向數據綁定的相關內容,讓大家了解為什麼要實現雙向數據綁定,以及怎麼實現簡單的雙向數據綁定。有一定的參考價值,有需要的朋友可以參考一下,希望對你們有所幫助。
  • 你怎樣清洗蔬菜?簡單實用的竅門,輕鬆洗掉蔬菜上的農藥殘留物
    你怎樣清洗蔬菜?簡單實用的竅門,輕鬆洗掉蔬菜上的農藥殘留物隨著科學的進步,一種叫「農藥」的東西誕生了。它可以消滅蔬菜的蟲害,保證蔬菜健康成長,但是這些農藥也對人體的健康構成了很大威脅。所以,洗菜成了日常烹飪之前一個必不可少的環節,不僅要洗掉菜上面的泥土,還要洗掉殘留的農藥,洗菜也是有學問的。
  • 幾種簡單實用的家用洗衣機除菌清洗方法
    洗衣機雖然是清洗衣物的,但用的時間久了,本身也會成為藏汙納垢的地方。汙垢主要藏在洗衣機的內桶和外桶之間,如果不及時清除掉,就會在洗衣服的過程中再次汙染衣物。 我們知道,洗衣機的內桶和外桶都不容易拆掉,那麼這種情況下應該怎樣清洗洗衣機呢?小編下面教你幾個簡單的方法。
  • 小白學數據小抄放送 Python,R,大數據,機器學習
    這又是一個由DataCamp製作的小抄表,你會找到用於創建NumPy數組的小抄代碼,用於執行數學運算,構造子集、分層、索引和數組操作。這份小抄最特別的是它給每個函數做了分類,並用簡單的英語做了解釋說明。
  • 最全最實用的微生物數據與資源在這裡下載
    每一個微生物學家在分析數據的時候都會遇上各種數據的問題:做16S比對用的數據集要自己清洗和處理,做基因組分析用的NT,NR資料庫從NCBI下載太慢了,做基因組注釋的資料庫版本又需要更新了,甚至要擔心有一天國際資料庫切斷了,我們該從哪裡下載數據?
  • 自製簡單實用水垢清洗劑配方?
    水垢清洗劑是一款環保型的除垢劑,水垢清洗劑是由多種活性劑、酸式鹽、有機酸、滲透劑等組份復配,可快速清除溶解鍋爐、管道、空調、換熱器、反應釜、空壓機中的水垢、鏽垢和其它沉積物,對環境無汙染,高效環保;同時在金屬表面形成保護膜,防止金屬腐蝕和水垢的快速形成,對人體也沒有傷害;對各種設備和衛生設施表面的水泥薄層,汙垢菌藻、蝕斑有極佳的清除作用,是現在最簡單實用的一種水垢清洗劑
  • 小白學數據28張小抄放送 Python,R,大數據,機器學習
    這又是一個由DataCamp製作的小抄表,你會找到用於創建NumPy數組的小抄代碼,用於執行數學運算,構造子集、分層、索引和數組操作。這份小抄最特別的是它給每個函數做了分類,並用簡單的英語做了解釋說明。
  • Python數據清洗(三):異常值識別與處理
    作者 | 劉順祥 來源 | 數據分析1480 在《Python數據清洗(一):類型轉換和冗餘數據刪除》和《Python數據清洗(二):缺失值識別與處理》文中已經講解了有關數據中重複觀測和缺失值的識別與處理,在本節中將分享異常值的判斷和處理方法。
  • Python數據清洗(二):缺失值識別與處理
    Python數據清洗(一):類型轉換和冗餘數據刪除》中分享了有關數據類型轉換和冗餘信息刪除的兩個知識點,接下來繼續講解缺失值的識別和處理辦法。如上是關於變量方面的缺失值判斷過程,還可以利用下方的代碼識別數據行的缺失值分布情況:# 判斷數據行中是否存在缺失值如上結果所示,返回True值,說明data3中的數據行存在缺失值。
  • 提高數據處理效率,一行代碼開啟Pandas四倍速!
    快來了解新庫Modin,可以分割pandas的計算量,提高數據處理效率,一行代碼即刻開啟Pandas四倍速。首先了解一些基礎知識:Pandas作為Python中用於處理數據的庫,能簡單且靈活地處理不同種類、大小的數據。除此之外,Pandas還有許多函數有助於輕鬆處理不同數據。
  • 兩組數據快速找不同,3種方法簡單、實用,一秒看出數據差異
    在操作Excel過程中,有時候我們經常需要對數據進行核對差異。今天我們就來學習一下,如何快速地核對表格中兩組數據中的差異。通過最簡單、實用的三種方法,快速的核對數據中的不同。方法二:條件格式不等式快速核對數據差異案例說明:如上圖所示,我們通過設置條件格式的方法,數據差異的單元格會自動標註出特殊的顏色。操作技巧:1、首先選中我們的C3:D10單元格區域,點擊開始—條件格式,實用公式確定單元格規則;2、在公式中輸入=$C3<>$D3,然後點擊格式,將單元格底紋顏色填充為紅色。
  • 怎樣巧去杯子上的茶漬(簡單實用)
    我們在生活中總會因為茶葉在杯子裡長時間沒有處理而留下汙漬而頭疼,於是杯子底下就會留下比較難於清理的茶漬,下面小編就為大家介紹幾種方法供大家參考,方法簡單容易操作,也比較實用。方法一:首先把帶有茶漬的杯子清洗乾淨,然後用手指沾上食用鹽塗在內側,用抹布等清潔工具來回刷,大約2分鐘的時間就可以去除茶漬了。方法二:將廚房專用漂白劑先稀釋在大盆中,接著把杯子放進盆中浸泡一夜,隔天再清洗杯子,茶漬就可以輕輕鬆鬆地去除了。方法三:找一些檸檬的邊角料,蘸一些醋來擦拭杯子也可以輕鬆去除茶漬的。
  • 數據分析師的80%時間都在清洗數據?到底怎麼洗?
    比如這份數據表,就缺少列名的標註,這樣一來我們就不知道每列數據所代表的含義,無法從業務中理解這些數值的作用,以及這些數值是否正確。但在實際工作中,也可能像這個案例一樣,數據是缺少標註的。  我簡單解釋下這些數據代表的含義。這是一家服裝店統計的會員數據。最上面的一行是列坐標,最左側一列是行坐標。
  • 零代碼時代即將到來?沒那麼簡單!
    大數據文摘大數據文摘出品來源:alexhudson編譯:木槿、徐玲、楚陽、錢天培「零代碼」概念如今變得越來越流行。就像會開車的人只需掌握簡單易操作的駕駛技巧而無需知道發動機如何工作一樣,代碼界也需要這樣的運作模式以實現軟體開發的普適化。不幸的是,這個問題已經被仔細研究過很長時間了,卻沒有被很好地解決。抽象語言具體化然而,代碼的抽象性往往決定了它很難被簡化。程式設計師一般都力求代碼具體化以保證其簡單易懂。
  • 如何在Python中編寫簡單代碼,並且速度超越Spark?
    如果你想在Python中編寫簡單代碼,並且用比Spark更快的速度運行,同時無需重新編碼、無需開發者解決部署、擴展和監控問題,可能嗎?你可能會「說我是一個夢想家」。我是一個夢想家,但不是唯一的一個!本篇文章將證明如今可以使用Nuclio和RAPIDSlimg令以上設想成為現實,它們是由NVIDIA孵化的免費開源數據科學加速平臺。
  • 12款實用的數據挖掘工具
    數據在當今世界意味著金錢。隨著向基於app的世界的過渡,數據呈指數增長。然而,大多數數據是非結構化的,因此需要一個過程和方法從數據中提取有用的信息,並將其轉換為可理解的和可用的形式。數據挖掘或「資料庫中的知識發現」是通過人工智慧、機器學習、統計和資料庫系統發現大數據集中的模式的過程。
  • 空洗衣液瓶子別丟,簡單製作一下還有兩個作用,簡單實用
    每天分享生活實用小竅門,總有一個合適您,歡迎大家關注我。空洗衣液瓶子別丟,簡單製作一下還有兩個作用,簡單實用洗衣液家家戶戶應該都會用,用完的洗衣液的瓶子,我們可以清洗乾淨,再準備幾個塑料瓶蓋,我們可以把它簡單的改裝一下,放在家裡還有兩個作用,下面就請各位看官跟著小編一起來看看吧。
  • 數據分析從業者必看,10 個加速 python 數據分析的簡單的小技巧
    數據科學愛好者 Parul Pandey 在近日發表了一篇博文,分享了在數據科學中非常實用的 10 個小技巧。雷鋒網 AI 科技評論將他的文章編譯整理如下。有時候,一點小小的黑客行為可以節省時間,挽救生命。一個小小的快捷方式或附加組件有時會被證明是天賜之物,並且可以真正提高生產力。所以,下面是我最喜歡的一些技巧,我以本文的形式一起使用和編譯它們。
  • 實用Python文本預處理代碼
    刪除文本中出現的標點  以下示例代碼演示如何刪除文本中的標點符號,如 [!」#$%&』*+,-./:;<=>?@[]^_`{|}~] 等符號。  示例7:刪除終止詞  實現代碼:  input_str = 「NLTK isa leading platform forbuilding Python programs to work withhuman language data.」
  • 不同形狀的塑料瓶有不同的利用,簡單製作放家裡,簡單還實用
    大家好,這裡是媛爸日記,每天分享生活實用小竅門,總有一個合適您。塑料瓶是生活中的廢棄品,每天都會有廢棄的塑料瓶產生。不同形狀的塑料瓶有不同的利用,簡單製作放家裡,簡單還實用。第一種 醬油瓶這樣的空醬油瓶我們家裡邊肯定都會有,我們可以把它清洗乾淨,然後用剪刀在中間把它裁剪成兩個部分,裁剪的邊緣需要修剪平整,防止割手。像這樣裁剪開的一個醬油瓶,可以放在廚房裡,用來收納百潔布或者鋼絲球,不僅可以更好的歸類,而且還能起到一個瀝水的作用。