數據治理:數據清洗的5個步驟和最佳實踐

2021-02-26 談數據

筆者在《數據治理:說起來容易,做起來難!》一文中,曾提到:數據治理不僅是一個苦活、累活,還是個受力不討好,經常背鍋,領導看不見價值的活。

數據治理需要對每個數據域、數據實體、數據條目、數據項進行梳理和標準化,甚至有時候需要人工逐條、逐欄位的定義數據標準、核實數據質量。

數據治理人員不僅要有良好的數據思維,還要有足夠的細心、耐心和體力才能打磨出適合企業的數據標準,實現企業數據質量的不斷提升。

今天來聊一聊數據治理中最磨人的活:數據清洗

01  

數據清洗到底是什麼?

數據清洗也叫數據清理,是指從資料庫或數據表中更正和刪除不準確數據記錄的過程。廣義地說,數據清洗包括識別和替換不完整、不準確、不相關或有問題的數據和記錄。

通過有效的數據清洗,能夠確保所有數據集應保持一致並且沒有任何錯誤,為以後數據的使用和分析提供支撐。數據可以說是企業用於支持和指導其業務成功的最重要資產之一,不準確的數據可能會導致的一些問題包括:市場營銷:使用了低質量數據的廣告活動並聯繫不相關的優惠用戶,不僅降低了客戶滿意度,而且錯過了重大的銷售機會。銷售: 銷售人員由於沒有完整、準確的數據而未能聯繫以前的客戶。合規性: 任何不符合客戶數據隱私規則的線上業務會受到監管部門的處罰。生產操作: 依據低質量操作數據配置生產機器,可能導致製造公司出現重大問題。企業如果有乾淨的數據,那麼所有這些問題都可以避免!改進業務實踐: 想像一下,如果您的數據記錄中都沒有重複、錯誤或不一致的數據。那麼您所有關鍵的業務活動效率會提高多少?提高工作效率: 使企業能夠專注於核心業務,而不是專注於找到正確的數據,或者由於不正確的數據而不得不進行更正,這一點至關重要。 乾淨的高質量數據可以使企業成為行業的標杆。更快的銷售周期: 營銷決策取決於數據,為營銷部門提供儘可能高質量的數據意味著銷售團隊可以更好、更多的轉化潛在客戶。更好的決策: 我們之前提到過這個問題,但這個問題很重要,所以有必要重複說一遍。更好的數據=更好的決策。這些不同的好處結合起來,通常會使企業的業務獲得更大程度的改善,這不僅能夠讓外部銷售業務變得更有效,還能夠提供更高效的內部管理和運營。以下幾個標準有助於定義高質量數據的標準,它們分別是:有效性: 數據與定義的業務規則或約束的緊密程度,一些常見的有效性約束包括:

強制約束:某些列不能為空

數據類型約束:列中的值必須為特定數據類型

範圍約束:數字或日期的最小值和最大值

外鍵約束:列中的一組值在另一個表中是唯一值 

這些不同的特徵結合起來可以幫助企業擁有高質量的數據並可用於各種不同業務目標,同時對不確定數據的假設量達到最少。

清理數據的5個步驟

想要更乾淨的數據?有時,考慮引入外部諮詢顧問來幫助您起步會很有幫助。但是在執行此操作之前,企業可以遵循幾個常規步驟,以便進入更好的數據清理狀態:

 首先必須要了解大多數錯誤發生的位置,以便確定根本原因並構建管理數據的計劃。請記住,有效的數據清洗將會對整個企業產生全面的影響,因此儘可能保持開放和溝通是非常重要的。

 如果數據在成為系統中的髒數據(或重複數據)之前可以修復,則可節省大量的時間並省去很多工作量。例如,如果表單過於擁擠,需要填充過多的欄位,那麼這些表單中便存在數據質量問題。鑑於企業不斷生成更多的數據,因此,在源端修複數據至關重要。

通過數據質量監控工具實現對企業數據的實時測量,提升數據質量,確保數據數據準確性。

 如果一些重複項確實是無意中重複輸入的,請確保主動檢測出並刪除它們。刪除所有重複的條目後,還必須考慮以下事項:合併:將多條重複的記錄合併為一條有效、準確的記錄。

篩選:縮小數據集範圍,僅包含需要的信息。

補齊是幫助企業定義和完成缺失信息的過程,可靠的第三方數據來源通常是管理此做法的最佳選項之一。完成這5個步驟後,您的數據將可以根據需要進行導出和分析。

請記住,對於大型數據集,幾乎不可能實現100%的清潔度。

數據清洗的最佳實踐

在任何數據清洗工作中,應牢記幾種最佳實踐,它們是:1、以儘可能全面的方式考慮您的數據,不僅要考慮誰來進行分析,還要考慮誰將使用,從數據中分析得出的結果。2、增加對資料庫輸入的控制可確保系統最終使用的數據更加清潔。3、選擇能夠在出現問題之前可以提醒甚至解決錯誤數據的技術解決方案。4、如果是大型數據集,請一定要限制樣本規模 ,以便最大限度地減少準備時間並加快數據清理性能。

  <END>  

注部分內容源自:aimultiple.com

原文連結:https://research.aimultiple.com/zh/category/data-zh-hans/data-cleaning-zh-hans/


相關焦點

  • 劉靜芳:建設銀行數據治理實踐和政務數據標準化探索
    我今天給大家分享的主要是兩方面:一是建設銀行數據治理實踐,二是政務數據標準化初步探索。  一、建設銀行數據治理實踐  (一)數據治理發展歷程  不同行業有很多共性的問題,數據治理就是其中之一。  (三)數據治理目標  數據治理是通過規劃並實施一系列的政策、實踐和項目,對數據資產進行全生命周期管理,保障數據資產的質量和供應,為經營管理決策提供多形式的數據服務和應用支持。其最根本的目標是讓使用者在正確的時間、正確的環境、以正確的方式獲得正確的數據和服務,促進商業智能提升。
  • 數據質量與數據治理發展風向、落地策略、研究方法及實踐案例全在...
    、學術大拿、技術大咖等分享最新數據質量的理念、趨勢、管理方法和最佳實踐,並由此成立了數據質量管理智庫專屬圈層。是數據治理體系建設過程中非常重要步驟。本次分享將通過中國軟體評測中心豐富的理論研究成果、案例實踐經驗,深度剖析及解讀如何通過評估明確數據質量提升的目標、原則、路徑方法,同時給出規範數據治理的各項工作流程參考,實現數據質量的提升。
  • 教育領域數據治理的基本思路與實踐路徑
    摘要:實現數據治理,是大數據時代教育領域治理體系和治理能力現代化的應有之義。基於此,文章首先分析了教育領域數據治理的現狀及其實現邏輯。隨後,文章從治理思想、治理邏輯、治理範式、治理環境四個維度,提出了教育領域數據治理的基本思路,即強調以信息流動為導向、以多元耦合為內核、以數據驅動為理念、以系統集成為支撐。
  • 教育領域數據治理的基本思路與實踐路徑
    摘要:實現數據治理,是大數據時代教育領域治理體系和治理能力現代化的應有之義。基於此,文章首先分析了教育領域數據治理的現狀及其實現邏輯。隨後,文章從治理思想、治理邏輯、治理範式、治理環境四個維度,提出了教育領域數據治理的基本思路,即強調以信息流動為導向、以多元耦合為內核、以數據驅動為理念、以系統集成為支撐。
  • 談數據:DGI數據治理框架 全面解讀
    研究數據治理的機構有很多,例如:IBM、Oracle、SAS、DAMA等,大多數都是數據治理的供應商,其目的是對外的產品或服務的輸出,而DGI是一家與供應商無關的數據治理研究機構。DGI早在2004年就推出了DGI數據治理框架,為企業數據管理的戰略決策和採取行動的提供最佳實踐和指南。在本公眾號(談數據,ID:learning-bigdata)的歷史文章中也解讀過很多其他組織的數據治理框架模型。
  • 數據治理導論
    筆者認為企業信息化大致經歷了初期的煙囪式系統建設、中期的集成式系統建設和後期的數據管理式系統建設三個大的階段,可以說是一個先建設後治理的過程。1、數據質量層次不齊當今時代,「數據資產化」的概念已經被大多數人理解和接受。不論是企業、政府還是其他組織機構,對於的數據資產的管理越來越重視。
  • 辣評 2035數據治理論壇
    這些觀點決定了目前很多現實產品和網際網路產品的設計思維,唯簡單、快速的論調短期獲得了增長,後期不斷完善卻是狗尾續貂,當一大堆問題出現時又要清洗挖掘相應或對應的數據。因此如果還任由這種思潮延續並且不建立完善機制來應對這些數據方面問題時,那麼我們談「數據治理」是不是空中樓閣,是不是忽略了最基本也最該重視的數據?數據到底是什麼?我們看透了麼?
  • 數據治理中影響數據質量的5個因素
    一個戰略性和系統性的方法能幫助企業正確研究企業的數據質量項目,業務部門與IT部門的相關人員將各自具有明確角色和責任,配備正確的技術和工具,以應對數據質量控制的挑戰。   數據質量反映的是數據的「適用性(fitness for use)」,即數據滿足使用需要的合適程度。
  • 數據可視化的5個步驟
    數據被稱作是最新的商業原材料「21世紀的石油」。商業領域、研究領域、技術發展領域使用的數據總量非常巨大,並持續增長。就Elsevier而言,每年從ScienceDirect下載的文章有7億篇,Scopus 上的機構檔案有8萬個、研究人員檔案有 1 千 3 百萬,Mendeley上的研究人員檔案有 3 百萬。
  • 前沿譯文 | 歐洲數據治理條例(數據治理法)(上)
    它還載有關於對此類機構的決定提出申訴的權利和司法補救手段的規定。   第六章設立了 「歐洲數據創新委員會」,它將促進成員國當局出現最佳做法,特別是在處理重用數據要求方面的最佳做法,這些要求受他人權利的約束(根據第二章),確保有關數據共享服務提供商(第三章)和數據利他主義(第四章)的通知框架的一致做法。
  • 談數據:微服務環境下,數據如何治理?
    小夥伴兒噼裡啪啦,越說越委屈、越說越氣憤……我趕緊打斷了他:「你先別急,你把需求再跟領導溝通溝通,比如公司上這個數據中臺也解決什麼問題?為什麼要去中心化?另外就是,去中心化和中臺也並不矛盾,業務中臺的最佳實踐就是去中心化的微服務架構,難不成你們老闆讓你搞的是業務中臺?」。
  • 西北工業大學:應用牽引推進數據治理
    西北工業大學在多年的探索實踐中,總結出了以融合應用牽引數據治理的思路,並取得了較為顯著的效果。 圖 數據治理框架  在多年的數據治理實踐中,我們認為國標《信息技術服務治理第5部分:數據治理規範》(GB/T34960.5-2018)的數據治理框架最符合工作現實,具有較強的指導意義
  • 建設數據倉庫的八個步驟
    因此數據倉庫的項目小組應該由業務人員和信息部門的人員共同組成,雙方需要相互溝通,協作開發數據倉庫。    開發數據倉庫的過程包括以下幾個步驟。    2.選擇滿足數據倉庫系統要求的軟體平臺    在數據倉庫所要解決的問題確定後,第二個步驟就是選擇合適的軟體平臺,包括資料庫、建模工具、分析工具等。
  • [R數據科學]tidyverse數據清洗案例詳解
    這是一個非常典型的現實示例數據集。它包含冗餘列,奇數變量代碼和許多缺失值。我們需要採取多個步驟來對其進行整理。男性(m)和女性(f)其餘數字給出了年齡段。數據集將案例分為七個年齡組:替換數據我們需要對列名稱的格式進行較小的修正:將new_rel替換為newrel(很難在這裡找到它,但是如果您不修正它,我們將在後續步驟中出錯)。這裡使用了stringr包中的str_replace(),將newrel替換new_rel。
  • 數據治理,「治」的是什麼?
    提出數據治理的重要意義。人類已經進入大數據時代,而我們對數據這一新型生產要素的本質屬性、存在形態、潛在價值和利用方式等的認識還不充分,尚未建立科學系統的數據治理規則秩序,還不足以支撐數據資源有序高效的開發利用。作者提出從四個方面提升數據治理能力:加快普及大數據思維;建設配套法律制度體系;加強技術應用與突破;加強人才隊伍建設、完善人才知識結構。
  • 疫情視角的智慧城市數據治理建設-智慧水務數據治理實踐與思考
    其本質是一種具有綜合性、整體性的水務企業數位化發展過程,其核心理念是利用雲計算、大數據、物聯網和移動網際網路等新一代信息技術為支撐,通過智能設備立體感知企業生產、環境、狀態等信息的全方位變化,對海量感知數據進行傳輸、存儲和處理,並基於統一融合和互聯互通的信息平臺,實現大數據時代下對數據的智能分析,以更加精細、動態、靈活、高效的方式規劃、設計和管理水務企業生產、經營、服務和管理的各個環節,實現控制自動化
  • 2019年度教育信息化優秀案例丨中國石油大學(華東):基於數據治理的...
    通過研究與應用實踐,高校數據治理應該是從目標、組織、管理、技術、應用的角度,持續提升數據質量的過程,可以幫助學校清洗數據、使用數據,挖掘數據價值,提高學校的科學決策能力、運營效率和管理水平,增強競爭力。
  • Cleanits:製造業時序數據清洗系統
    (2) 《面向浙江省製造業的大數據分析理論與關鍵技術研究》,NSFC-浙江兩化融合聯合基金,項目編號:U1509216. 1.2 系統功能介紹 本文提出的Cleanits——製造業時序數據清洗系統,主要包括五個模塊,如圖1所示,其中包括三個數據清洗模塊: (1) 缺失值填充模塊 實現對序列中的不完整數據和不精確數據的有效識別和清洗。
  • 乾貨放送|《數據安全治理建設指南》
    《數據安全治理建設指南》作為數據安全建設落地的指引,以實際經驗為基礎,將制度規範與技術工具有效融合,從能力維度、執行維度、場景維度三個維度提出數據安全治理建設工作的落腳點。可以為從事數據安全治理體系建設的企業單位和準備建設數據安全治理體系的企業和政府單位,提供參考。
  • ThoughtWorks中國首席金融數據科學家常國珍:金融數據治理應當以...
    犀利觀點如下:1.幹數據的人員需要有個特點,脾氣要好,因為你發現哪個跟你對接的人脾氣都比你差。2.數位化無非就是把那些存在於個人腦子裡的隱性知識顯性化,顯性知識固化在系統中,讓系統吸收業務人員的智慧。3.數據治理目的就是讓我們的數據更好用,我們說數據治理好就是數據治理要體現商業的價值。大家上午好。