導讀
大數據作為當下最火熱的網際網路行業的詞彙,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等等圍繞大數據的商業價值的利用逐漸成為行業人士爭相追捧的利潤焦點。
大數據作為當下最火熱的網際網路行業的詞彙,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等等圍繞大數據的商業價值的利用逐漸成為行業人士爭相追捧的利潤焦點。同時隨著大數據時代的來臨,數據質量分析也應運而生,那麼關於數據質量分析定義的六個階段你是否了解?
(1)定義階段(D階段)。界定數據質量治理的範圍,並將數據質量改進的方向和內容界定在合理的範圍內。通過使用主數據識別法、專家小組法、問卷調查法、漏鬥法等方法,定義出數據治理的對象和範圍。企業數據質量治理對象一般主要包括兩類數據:一類是操作型數據,例如:主數據、參照數據和交易數據。另一類是分析型數據,例如:主題數據、指標數據等。註:根據筆者經驗以及80/20法則,企業的數據質問題80%是由於管理不當或業務操作不規範引起的,參考:《主數據的3大特點、4個超越和三個80/20原則》。
(2)測量階段(M階段)。在定義出數據治理對象和內容後,需要選取以下若干個指標來作為數據質量評價指標,建立數據質量評估模型,對企業的數據進行評估和測量。常用的數據質量評價指標就是我們上述提到的:數據唯一性、數據完整性、數據準確性、數據一致性、數據關聯性、數據及時性等。
(3)分析階段(A階段)。基於數據質量評估模型,執行數據質量分析任務,通過數據分析,找到發生數據質量問題的重災區,確定出影響數據質量的關鍵因素。數據治理和大數據分析是密不可分的,數據治理的目標是提升數據質量從而提高數據分析的準確性,而大數據分析技術也可反向作用於數據治理,通過大數據分析算法和大數據可視化技術,能夠更準確、更直觀的定位到發生數據質量問題的癥結所在。該階段可以用的大數據技術包括:回歸分析、因子分析、魚骨圖分析、帕累託分析、矩陣數據分析等。
(4)改進階段(I階段)。通過制定改進管理和業務流程、優化數據質量的方案,消除數據質量問題或將數據質量問題帶來的影響降低到最小程度。我們一直在強調數據質量的優化和提升,絕不單單是技術問題,應從管理和業務入手,找出數據質量問題發生的根因,再對症下藥。同時,數據質量管理是一個持續優化的過程,需要企業全員參與,並逐步培養起全員的數據質量意識和數據思維。該過程主要用到方法:流程再造、績效激勵等。
(5)控制階段(C階段)。固化數據標準,優化數據管理流程,並通過數據管理和監控手段,確保流程改進成果,提升數據質量。主要方法有:標準化、程序化、制度化等。
數據質量分析定義的六個階段.中琛魔方大數據分析平臺(www.zcmorefun.com)表示數據質量分析能夠迅速和有效地簡化與提煉數據流,幫助用戶交互篩選大量的數據,有助於使用者更快更好地從複雜數據中得到新的發現,成為用戶了解複雜數據、開展深入分析不可或缺的手段。