筆者在《數據治理:說起來容易,做起來難!》一文中,曾提到:數據治理不僅是一個苦活、累活,還是個受力不討好,經常背鍋,領導看不見價值的活。
數據治理需要對每個數據域、數據實體、數據條目、數據項進行梳理和標準化,甚至有時候需要人工逐條、逐欄位的定義數據標準、核實數據質量。
數據治理人員不僅要有良好的數據思維,還要有足夠的細心、耐心和體力才能打磨出適合企業的數據標準,實現企業數據質量的不斷提升。
今天來聊一聊數據治理中最磨人的活:數據清洗
01
數據清洗到底是什麼?
數據清洗也叫數據清理,是指從資料庫或數據表中更正和刪除不準確數據記錄的過程。廣義地說,數據清洗包括識別和替換不完整、不準確、不相關或有問題的數據和記錄。
通過有效的數據清洗,能夠確保所有數據集應保持一致並且沒有任何錯誤,為以後數據的使用和分析提供支撐。數據可以說是企業用於支持和指導其業務成功的最重要資產之一,不準確的數據可能會導致的一些問題包括:市場營銷:使用了低質量數據的廣告活動並聯繫不相關的優惠用戶,不僅降低了客戶滿意度,而且錯過了重大的銷售機會。銷售: 銷售人員由於沒有完整、準確的數據而未能聯繫以前的客戶。合規性: 任何不符合客戶數據隱私規則的線上業務會受到監管部門的處罰。生產操作: 依據低質量操作數據配置生產機器,可能導致製造公司出現重大問題。企業如果有乾淨的數據,那麼所有這些問題都可以避免!改進業務實踐: 想像一下,如果您的數據記錄中都沒有重複、錯誤或不一致的數據。那麼您所有關鍵的業務活動效率會提高多少?提高工作效率: 使企業能夠專注於核心業務,而不是專注於找到正確的數據,或者由於不正確的數據而不得不進行更正,這一點至關重要。 乾淨的高質量數據可以使企業成為行業的標杆。更快的銷售周期: 營銷決策取決於數據,為營銷部門提供儘可能高質量的數據意味著銷售團隊可以更好、更多的轉化潛在客戶。更好的決策: 我們之前提到過這個問題,但這個問題很重要,所以有必要重複說一遍。更好的數據=更好的決策。這些不同的好處結合起來,通常會使企業的業務獲得更大程度的改善,這不僅能夠讓外部銷售業務變得更有效,還能夠提供更高效的內部管理和運營。以下幾個標準有助於定義高質量數據的標準,它們分別是:有效性: 數據與定義的業務規則或約束的緊密程度,一些常見的有效性約束包括:強制約束:某些列不能為空
數據類型約束:列中的值必須為特定數據類型
範圍約束:數字或日期的最小值和最大值
外鍵約束:列中的一組值在另一個表中是唯一值
這些不同的特徵結合起來可以幫助企業擁有高質量的數據並可用於各種不同業務目標,同時對不確定數據的假設量達到最少。
清理數據的5個步驟
想要更乾淨的數據?有時,考慮引入外部諮詢顧問來幫助您起步會很有幫助。但是在執行此操作之前,企業可以遵循幾個常規步驟,以便進入更好的數據清理狀態:
首先必須要了解大多數錯誤發生的位置,以便確定根本原因並構建管理數據的計劃。請記住,有效的數據清洗將會對整個企業產生全面的影響,因此儘可能保持開放和溝通是非常重要的。如果數據在成為系統中的髒數據(或重複數據)之前可以修復,則可節省大量的時間並省去很多工作量。例如,如果表單過於擁擠,需要填充過多的欄位,那麼這些表單中便存在數據質量問題。鑑於企業不斷生成更多的數據,因此,在源端修複數據至關重要。
通過數據質量監控工具實現對企業數據的實時測量,提升數據質量,確保數據數據準確性。
如果一些重複項確實是無意中重複輸入的,請確保主動檢測出並刪除它們。刪除所有重複的條目後,還必須考慮以下事項:合併:將多條重複的記錄合併為一條有效、準確的記錄。篩選:縮小數據集範圍,僅包含需要的信息。
補齊是幫助企業定義和完成缺失信息的過程,可靠的第三方數據來源通常是管理此做法的最佳選項之一。完成這5個步驟後,您的數據將可以根據需要進行導出和分析。請記住,對於大型數據集,幾乎不可能實現100%的清潔度。
數據清洗的最佳實踐
在任何數據清洗工作中,應牢記幾種最佳實踐,它們是:1、以儘可能全面的方式考慮您的數據,不僅要考慮誰來進行分析,還要考慮誰將使用,從數據中分析得出的結果。2、增加對資料庫輸入的控制可確保系統最終使用的數據更加清潔。3、選擇能夠在出現問題之前可以提醒甚至解決錯誤數據的技術解決方案。4、如果是大型數據集,請一定要限制樣本規模 ,以便最大限度地減少準備時間並加快數據清理性能。<END>
注部分內容源自:aimultiple.com
原文連結:https://research.aimultiple.com/zh/category/data-zh-hans/data-cleaning-zh-hans/