子曰:工欲善其事,必先利其器。作為一款數據管理管理產品,如何能夠「慧眼」診斷出數據中存在的各類問題,離不開質量管理平臺內置的核心「武器」——質量評價算法。
今天,我們一起來了解一下這EsDataClean的這十三種秘密武器。
空值檢查
用於檢查業務表的目標欄位是否為空值。不但能實現對同一業務表的單個指標
值是否為空的檢查,對於多個指標的空值檢查也輕鬆應對,可以根據實際需要實現是否允許每個指標不能為空或者不能同時為空的檢查。
值域檢查
用於檢查業務表中數值型、字符型、日期型目標欄位的值是否在指定的範圍內。如:檢查參加工作者年齡是否在16,65之間,可以在值域範圍內書寫[16,65]。
規範檢查
你可以輕鬆實現諸如:身份證號碼、IP位址、手機號碼、日期、郵編、固定電話、日期、字符等類型指標的規範性檢查;系統還提供正則表達式實現更加複雜的規範檢查。
重複數據檢查
她可以實現業務表中記錄數據是否重複,什麼是重複數據,你說了算!重複數據依據自定義功能,助你完成重複數據的定義。
記錄缺失檢查
在直報系統中,我們去檢查某一填報任務的報表戶id數據是否與機構表中的機構id一致,是否有缺失,記錄缺失檢查可以幫你完成。
引用完整性檢查
檢查業務表中錄入的民族代碼,是否都在民族維表內,病案數據中的血型代碼是否都在血型代碼中?引用完整性檢查可以幫你完成。
業務邏輯檢查
用於檢查指標間是否符合邏輯關係要求,如參加工作的人,年齡應在16在65之間。我們實際應用得邏輯關係校驗往往很複雜設計多個表,多種條件、分支判斷,不用擔心,系統提供了多表關聯關係定義,多種函數、可視化的邏輯關係定義操作界面,助你輕鬆完成複雜邏輯關係的定義。
及時性檢查
對業務數據有時效性要求的小夥伴們,在設定時效性檢查的欄位、允許的誤差天數、檢查的表達式定義等基本信息後,便可進行業務數據的時效性檢查。
波動檢查
業務指標與同比、環比相比在多大的範圍內波動是合理的,你可以用它來檢查。
平衡檢查
檢查某廠商生產的手機長、寬的差值應在[1,8]毫米之間;用於判斷一個業務表中兩個指標(表達式)間的差值是否在指定的範圍內。
離群值檢查
了解某個指標識的離散分布情況,從中發現差異比較大的值;如:對某地區三級醫院的人均住院費用極值的探索,你再也不用拍腦袋,寫sql去後臺查啦!系統支持拉依達法,即三倍標準差和格魯布斯法的監測校驗,幫你輕鬆找到離群值。
結果集比對
用於實現跨數據源的對比,對數據抽取前後,數據的一致性進行對比分析。支持分數據期和業務表全數據集的一致性對比分析。
Sql檢查
如果以上的各種檢查方法都看完了,還沒有你滿足你的一款style;別擔心,系統提了支持sql腳本檢查的操作入口,按照系統提供的sql腳本調用格式,進行配置,你就可以實現將自己寫的sql檢查腳本集成到數據質量平臺來使用。
結束語
好了,看了這麼多兵器的用途,想必你對數值質量平臺的每一款武器都有直觀的了解了吧