數據質量分析定義的六個階段

2021-01-10 千家智客

導讀

大數據作為當下最火熱的網際網路行業的詞彙,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等等圍繞大數據的商業價值的利用逐漸成為行業人士爭相追捧的利潤焦點。

  大數據作為當下最火熱的網際網路行業的詞彙,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等等圍繞大數據的商業價值的利用逐漸成為行業人士爭相追捧的利潤焦點。同時隨著大數據時代的來臨,數據質量分析也應運而生,那麼關於數據質量分析定義的六個階段你是否了解?

 

  (1)定義階段(D階段)。界定數據質量治理的範圍,並將數據質量改進的方向和內容界定在合理的範圍內。通過使用主數據識別法、專家小組法、問卷調查法、漏鬥法等方法,定義出數據治理的對象和範圍。企業數據質量治理對象一般主要包括兩類數據:一類是操作型數據,例如:主數據、參照數據和交易數據。另一類是分析型數據,例如:主題數據、指標數據等。註:根據筆者經驗以及80/20法則,企業的數據質問題80%是由於管理不當或業務操作不規範引起的,參考:《主數據的3大特點、4個超越和三個80/20原則》。

 

  (2)測量階段(M階段)。在定義出數據治理對象和內容後,需要選取以下若干個指標來作為數據質量評價指標,建立數據質量評估模型,對企業的數據進行評估和測量。常用的數據質量評價指標就是我們上述提到的:數據唯一性、數據完整性、數據準確性、數據一致性、數據關聯性、數據及時性等。

 

  (3)分析階段(A階段)。基於數據質量評估模型,執行數據質量分析任務,通過數據分析,找到發生數據質量問題的重災區,確定出影響數據質量的關鍵因素。數據治理和大數據分析是密不可分的,數據治理的目標是提升數據質量從而提高數據分析的準確性,而大數據分析技術也可反向作用於數據治理,通過大數據分析算法和大數據可視化技術,能夠更準確、更直觀的定位到發生數據質量問題的癥結所在。該階段可以用的大數據技術包括:回歸分析、因子分析、魚骨圖分析、帕累託分析、矩陣數據分析等。

 

  (4)改進階段(I階段)。通過制定改進管理和業務流程、優化數據質量的方案,消除數據質量問題或將數據質量問題帶來的影響降低到最小程度。我們一直在強調數據質量的優化和提升,絕不單單是技術問題,應從管理和業務入手,找出數據質量問題發生的根因,再對症下藥。同時,數據質量管理是一個持續優化的過程,需要企業全員參與,並逐步培養起全員的數據質量意識和數據思維。該過程主要用到方法:流程再造、績效激勵等。

 

  (5)控制階段(C階段)。固化數據標準,優化數據管理流程,並通過數據管理和監控手段,確保流程改進成果,提升數據質量。主要方法有:標準化、程序化、制度化等。

 

  數據質量分析定義的六個階段.中琛魔方大數據分析平臺(www.zcmorefun.com)表示數據質量分析能夠迅速和有效地簡化與提煉數據流,幫助用戶交互篩選大量的數據,有助於使用者更快更好地從複雜數據中得到新的發現,成為用戶了解複雜數據、開展深入分析不可或缺的手段。


相關焦點

  • 全國蔬菜質量標準中心用數據來定義
    全國蔬菜質量標準中心副主任李美芹對於「好蔬菜」作了解答。 如下為解答內容:隨著生活水平的提高,消費者對蔬菜需求的變化也正是蔬菜標準化、優質化、品牌化的發展方向。目前,大米、紅酒等分等分級已經做得相對成熟,我國的蔬菜分等分級仍在探索和初步階段。這個方面,日本、韓國等發達國家已經走在前面,我們也正在做這個方面的工作。
  • 如何對APP進行數據分析?
    另外,運營指標體系中的眾多指標是基於這些基礎指標衍生出來的,假如這些基礎指標的數據質量不過關,其他衍生指標也會出現偏差,而且偏差結果因多個基礎指標誤差的疊加導致比基礎指標更大。如何保證基礎指標的數據質量?用戶ID邏輯的設計很關鍵。
  • 「何為數據分析」-遊戲數據分析實踐
    一、什麼是數據分析數據分析,對數據有目的地進行分析以獲取信息並使其更易於理解。對於從事數據分析工作的人員,除了藉助數據發現事實存在的「經驗和常識」,還應通過適當的統計、分析方法,發現數據潛在的價值,預知未來可能發生的某種情景,在為公司規避風險的同時抓住機遇,實現數據分析工作的價值。
  • 一篇文看懂怎麼分析APP數據
    二、APP應該關注哪些數據指標 APP的數據指標體系主要分為五個維度,包括用戶規模與質量、參與度分析、渠道分析、功能分析和用戶屬性分析。 1.用戶規模和質量 用戶規模和質量是APP分析最重要的維度,其指標也是相對其他維度最多,數據分析師要重點關注這個維度的指標。
  • 常用的大數據分析模型有哪些
    Veracity(真實性)數據質量因數據來源以及記錄方式等影響因素的不同,會出現較大的差異,而這種差異性會極大程度地影響數據分析的精確性   大數據處理流程是怎麼樣的呢?   通過不同渠道採集來的數據,經過對數據清洗後,那接下來就是應用大數據的時候了。根據我們的需求目標定義不同的數據模型,通過數據模型對數據進行篩選,獲得我們需要的數據。那麼在我們日常工作中有哪些常用的大數據模型呢?今天我們主要分析幾個常用的模型做簡單的介紹。供大家參考。
  • 針對既往數據的回顧性分析,發在了30+分的期刊上
    研究者利用之前的數據做了重新分析,只因為解決了一個非常好的臨床問題,論文就發在了Lancet Neurology雜誌(IF:30.039)。 這篇論文再次驗證了選題和統計分析對於發表高質量論文的關鍵作用。
  • 7000 字深度總結:運營必備的 15 個數據分析方法
    一、數據分析的戰略思維無論是產品、市場、運營還是管理者,你必須反思:數據本質的價值,究竟在哪裡?從這些數據中,你和你的團隊都可以學習到什麼?1. 數據分析的目標對於企業來講,數據分析的可以輔助企業優化流程,降低成本,提高營業額,往往我們把這類數據分析定義為商業數據分析。
  • 數據分析的理念、流程、方法、工具
    定義數據分析目標 明確目標,意味著運營人員(或數據分析師)要站在數據結果輸出對象的角度去思考。數據採集 定義數據源:在分析數據之前,要對數據來源、統計口徑、統計周期加以定義,以便提交「數據提取」需求。數據的獲取途徑:數據來源包括埋點數據、運營平臺、業務平臺、第三方平臺、回訪調研等。運營人員要對不同數據源的真實性、準確性做把關。
  • 大數據時代的人力資源分析
    難點二:技術瓶頸人力資源部門屬於前臺業務部門,數據管理更多的是信息技術人員在後臺操作,所以人力資源的數據分析對於前臺業務人員是有難度的,需要改變這種工作方式才能提高工作質量和效率。圖-人力資本分析體系四、分析雲解決方案數據中臺,構建體系化分析數據數據中臺的建立
  • 接招,數據質量平臺EsDataClean的13種兵器!
    作為一款數據管理管理產品,如何能夠「慧眼」診斷出數據中存在的各類問題,離不開質量管理平臺內置的核心「武器」——質量評價算法。今天,我們一起來了解一下這EsDataClean的這十三種秘密武器。空值檢查 用於檢查業務表的目標欄位是否為空值。
  • 工業數據分析不只有Matlab
    比如,寄雲科技研發的全流程大數據建模分析平臺DAStudio就是這個生態中極具創新性的工業數據分析產品。寄雲DAStudio平臺以發展的眼光「向前看」,將有限的精力專注在工業「大數據」分析領域,事實證明工業大數據分析已經成為中國乃至全球打造未來工業競爭力的關鍵。
  • 怎麼用minitab做六西格瑪分析?這裡有圖有真相!
    六西格瑪管理中DMAIC模型的第三個階段是分析(A),在量測階段識別了發生什麼(Y)之後,接下來的工作就是通過分析尋找發生問題的原因。即最終確定出一組按重要程度排列的影響Y的因素X1、X2、…、XN。分析階段所用的方法在很大程度上取決於所解決的問題和面對的業務流程,通常採取數據分析和流程分析相結合的方法。
  • 日程表也能分析數據?新手想不到的3個辦公技巧,果然很老到
    日程表也能分析數據?兩者的區別是:日程表只能對數據統計表中的日期欄位進行篩選;而切片器篩選範圍比較廣,可對數據透視表中的所有欄位進行篩選。插入日程表與切片器相同,在使用日程表功能篩選之前,先要插入日程表。步驟一、打開「年度電子產品銷售統計表」工作表,單擊「分析」選項卡,在「篩選」選項組中單擊「插入日程表」按鈕。
  • 一文詳解八大數據分析模型,網際網路運營必備
    編輯導語:你可能知道數據分析有八種模型,但是你知道它們具體是什麼嗎?應該怎樣去分析和構建呢?本文作者就對八大數據分析模型做出了分析和總結,能夠解決你的疑惑,希望看完本文能夠有所收穫。一、用戶模型「不僅要知道用戶當下在想什麼,更要知道用戶背後在想什麼,以及用戶正在經歷著什麼。」
  • 神策數據斬獲大數據星河獎,首發用戶行為分析標準
    同時,依託其在用戶行為分析領域多年的行業積累,神策數據與中國信息通信研究院聯合發布用戶行為分析標準1.0。神策數據的成長軌跡不是「直線型」,而是「指數型」的。一群具有網際網路思維、紮根行業十年的技術人做產品,產品質量得到行業頭部客戶的持續認可,這為神策數據的成長帶來無限可能。神策數據從網際網路中小型企業切入市場,一步步走到現在,現有的中大型企業佔據了行業半壁江山,將十餘個行業頭部企業納入囊中。「神策數據不僅開發了優秀的產品,還具有強烈的行業責任感。」
  • 同程藝龍客服總監馬巖:6西格瑪+大數據=網際網路企業效能提升利器
    我認為六西格瑪的產生是工業化的必然。工業化的過程從質量管理條線上來講,可以粗略分為三個階段,第一階段是質量檢驗,那個時候的質量管理以檢驗為主,以手工作坊還有小批量工廠為代表,那個時代生產者和檢驗者沒有分開,生產者同時是檢驗者,生產完成之後生產者把合格與不合格的產品分開,合格出售,不合格丟棄或者再加工。
  • 阿拉丁教你學習民生銀行的數據分析?
    第2階段: 是2006-2007年,這段時間監管機構提出了新的要求,我們對數據的口徑、數據的質量也就有了新的要求。 第3個階段: 民生銀行做了內部改革,最簡單來說就是我們把條線化的數據管理變成了矩陣式的數據管理。
  • 定性研究數據的敏捷量化分析 - 人人都是產品經理
    用戶調研得來的數據該如何處理?筆者在本文給出了敏捷量化分析方法,可供同學們參考並交流。上一篇文章講了B端用戶調研的一些靈活方法,當收集到用戶調研的數據之後,接下來就是做問題的整理、分析和優化了。實際工作中,用戶調研階段可能會已經花費了較長的時間,出於對時間成本、工作進度、問題時效性等多方面的考慮,總是希望能儘快的輸出一個用戶調研數據結果,給產品的迭代優化提出改進方向和計劃。本問將會講一種簡單迅速的處理用戶調研問題優先級的量化方法。
  • 用便利店的故事,解析怎麼學數據分析?(2)
    數據分析,如今網際網路人群口中的高頻詞彙。身為產品經理的你,如果還不懂得如何做好數據分析,那麼建議你,好好讀完本系列文章。在筆者的數據分析系列文章的第一篇《用便利店的故事,解析怎麼學數據分析?(1)》中,為大家大致講解了數據分析的工作流。
  • 數據治理如何打破孤島效應?了解一下可驗證憑證|孤島|數據質量|...
    (二)數據質量問題金融科技背景下,高質量數據成為金融服務與創新的重要基礎,也是大數據提升金融精準施策能力的關鍵前提。金融業整體數據質量不高仍然是一個突出的問題。數據質量問題主要表現在數據的完整性、準確性和一致性上面。