本文為 AI 研習社編譯的技術博客,原標題 :
The Simple Yet Practical Data Cleaning Codes
作者 | Admond Lee
翻譯 | 泰絲·路易斯
校對 | 醬番梨 審核 | 詹森·李加薪 整理 | 立魚王
原文連結:
https://towardsdatascience.com/the-simple-yet-practical-data-cleaning-codes-ad27c4ce0a38
在我的一篇文章中(我的第一份數據科學實習),我曾討論過數據清理有多麼重要,並且這項工作經常在整個數據科學的工作流中佔到40%-70%。這個世界並不完美,數據也是如此。
Garbage in, Garbage out
現實世界的數據非常髒亂,我們作為數據科學家 - 有時也稱為數據清理者 - 應該能夠在進行任何數據分析或模型構建之前執行數據清理,以確保最高質量的數據。
長話短說,在數據科學領域相當長一段時間後,我確實感受到在處理數據分析,可視化和模型構建之前進行數據清理的痛苦。
承認與否,數據清理不是一項容易的任務,大多數時候它是耗時且乏味的,但這個過程太重要了,不容忽視。
如果你經歷過這個過程,你會理解我的意思。 這正是我寫這篇文章的原因,以幫助您以更平滑的方式執行數據清理。
(大意:關於數據科學,無論技術性與否,有哪些你一直想問或是弄明白的問題?不要緊。在評論區留言分享你的問題,我會盡我所能回答。如果我認為有必要,我會新開一篇博文圈你並討論這個問題,這樣你可以及時獲得最新消息。那麼……我們開始吧!2019,衝呀!)
一周前,我在領英上提問並解答了一些數據科學家和從業人員關於數據科學炙手可熱的問題。
如果您一直關注我的工作,我在LinkedIn上忙於實現共享學習環境的民主化,以數據科學上為主,通過有抱負的數據科學家和其他不同專業知識和背景的數據專家的LinkedIn上發起討論。 如果您想參與有關數據科學的有趣話題的討論,請隨時LinkedIn關注我。 您會對數據科學社區的參與和支持感到驚訝。?
我在評論中收穫了不少有趣的問題。 然而,Anirban提到了一個重要的問題,我最終決定撰寫一篇文章來回答這個問題,因為我不時會收到類似的問題。
事實上,不久前我意識到一些數據在數據清理方面有類似的模式。 自此,我開始組織和編譯一些我認為適用於其他常見場景的數據清理代碼 - 我用於數據清理的小工具箱。
由於此處的常見方案跨越不同類型的數據集,因此本文著重於展示和解釋代碼的用途,以便您可以輕鬆地進行調用。
在本文的最後,我希望你能找到有用的代碼,這將使你的數據清理過程更加快速有效。
讓我們開始吧!
有時,並不是所有列都對我們的分析有用。因此,df.drop函數是一個得心應手的工具去移除你指定的列。2. 改變數據類型
當一個數據集變大時,為了,我們需要dtypes 。如果你對學習如何用Pandas處理大型數據感興趣,我強烈建議你看一看這篇文章——為什麼和如何用Pandas處理大型數據。
有些機器學習模型要求變量為數值形式。這時,在把數據輸入進模型前,我們需要將類別變量轉為數值變量。對於數據可視化,我建議維持類編變量以便有一個更直觀的解釋和理解。
4. 檢查丟失數據
如果你想檢查每列中丟失數據的數量,這是最快速的方法。這給你一個更好的用以理解哪些列有更多數量的丟失數據,可以決定下一步數據清理和分析的方向。
5. 在列中移除字符串
有些時候,在你字符串類型的列中,你可能要面對換行符或是奇怪的符號的出現。這個問題可以被df['col_1'].replace輕鬆解決, 其中,col_1指的是數據幀中的某列。
6. 在列中移除空格
當數據混亂時,任何事都有可能。所以列中字符串前有空格的情況時有發生。因此,如果你想移除它們時,這個辦法很管用。7. 用字符串(在指定條件下)合併列
當你想通過字符串把兩列有條件的合併時,這個辦法便派上用場。譬如,你想把第一列和第二列合併,條件是根據第一列中以特定字母們結束的字符串。在合併後,根據你的需要,末尾字母們也可被移除。
當處理時間序列數據時,這意味著我們很可能要將string格式轉換到datetime格式——基於我們要求的特定格式——以便用數據做出有意義的分析和演示。
(來源:https://unsplash.com/photos/oTvU7Zmteic)
謝謝你的閱讀。
這些代碼本質上實現起來相對簡單。 我希望這個數據清理的小工具箱讓你能更自信地執行數據清理,並能通過我的經驗對數據集樣貌擁有更廣泛的思考。
與往常一樣,如果您有任何問題或意見,請隨時留下您的反饋,或者您可以隨時通過LinkedIn與我聯繫。 至此,下一篇文章中見!雷鋒網(公眾號:雷鋒網)雷鋒網雷鋒網
想要繼續查看該篇文章相關連結和參考文獻?
點擊【簡單實用的數據清洗代碼】即可訪問:
https://ai.yanxishe.com/page/TextTranslation/1432
Python中文書籍大集合
100本Python中文電子書,6份原始碼,Python從入門到出家,一條龍服務。
包含Python基礎、進階、爬蟲、算法實現、深度學習、TensorFlow、NLP等等
友情提示:文件大小為2.89GB,慎用流量下載,可以先收藏喲~~!
點擊連結即可獲取:https://ai.yanxishe.com/page/resourceDetail/676
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。