HR COFFEE 社群
國內高端專業的
HR主題社群
來源:高績效HR(ID:Excellent-HR)
文:華為數據管理部
2016 年華為變革戰略規劃,明確要面向用戶(企業客戶、消費者、員工、合作夥伴、供應商)實現ROADS 體驗,持續提升效率、效益和客戶滿意度。明確要用五年時間完成業務數位化轉型,數位化轉型成為華為唯一的變革。
2017 年華為提出了企業的新願景:「把數字世界帶入每個人、每個家庭、每個組織,構建萬物互聯的智能世界」。同時,華為公司董事、CIO 陶景文提出了「實現全聯接的智能華為,成為行業標杆」的數位化轉型目標(如圖1所示)。
圖1:華為數位化轉型目標
2017年,華為基於願景確定了數位化轉型的藍圖和框架,統一規劃、分層次開展,最終實現客戶交互方式的轉變,實現內部運營效率和效益的提升。華為數位化轉型藍圖包括5項舉措(如圖2所示)。
圖2:華為數位化轉型藍圖
華為數據治理的發展歷程如圖3所示。
圖3:華為數據治理的兩個階段
圖4:華為數據治理的願景與目標
圖5:華為數據工作建設的整體思路
圖6:華為數據工作建設的整體框架
企業數據來源於多個不同的業務系統,數據流轉、處理環節多,用「Garbage in Garbage out(垃圾進,垃圾出)」原則保證數據質量已成為數位化轉型企業的共識。企業數據質量管理是一個系統性的工程,華為數據質量從數據質量領導力、數據質量持續改進、數據質量能力保障三方面展開,有機結合形成聯動。
01
什麼是數據質量
ISO9000標準對質量的定義為「產品固有特性滿足要求的程度」,其中「要求」指「明示的、隱含的或必須履行的需求或期望」,強調「以顧客為關注焦點」。
在Won Kim的論文「A Taxonomy of Dirty Data」中,數據質量被定義為「適合使用」,即數據適合使用的程度、滿足特定用戶期望的程度。
數據質量不是追求100%,而是從數據使用者的角度定義,滿足業務、用戶需要的數據即為「好」數據。
華為數據質量指「數據滿足應用的可信程度」,從以下六個維度對數據質量進行描述。
1)完整性:指數據在創建、傳遞過程中無缺失和遺漏,包括實體完整、屬性完整、記錄完整和欄位值完整四個方面。完整性是數據質量最基礎的一項,例如員工工號不可為空。
2)及時性:指及時記錄和傳遞相關數據,滿足業務對信息獲取的時間要求。數據交付要及時,抽取要及時,展現要及時。數據交付時間過長可能導致分析結論失去參考意義。
3)準確性:指真實、準確地記錄原始數據,無虛假數據及信息。數據要準確反映其所建模的「真實世界」實體。例如員工的身份信息必須與身份證件上的信息保持一致。
4)一致性:指遵循統一的數據標準記錄和傳遞數據和信息,主要體現在數據記錄是否規範、數據是否符合邏輯。例如同一工號對應的不同系統中的員工姓名需一致。
5)唯一性:指同一數據只能有唯一的標識符。體現在一個數據集中,一個實體只出現一次,並且每個唯一實體有一個鍵值且該鍵值只指向該實體。例如員工有且僅有一個有效工號。
6)有效性:指數據的值、格式和展現形式符合數據定義和業務定義的要求。例如員工的國籍必須是國家基礎數據中定義的允許值。
2
數據質量管理範圍
提到數據質量管理,經常有人會問:數據質量和流程質量有什麼區別?流程質量是基於流程結果評估業務執行的好壞,數據質量更關注業務對象、業務規則、業務過程、業務結果等數據是否得到了及時記錄。以採購驗收為例,採購驗收及時性屬於流程質量,送達到驗收所需時間滿足3天的SLA即屬於流程質量合格;而驗收數據錄入及時性屬於數據質量,驗收到錄入所需時間滿足1天的SLA即屬於數據質量合格。
3
數據質量的總體框架
華為以ISO8000質量標準體系為依據,設計了PDCA(Plan、Do、Check、Action、計劃、執行、檢查、處理)持續改進的數據質量管理框架,如圖7所示。
圖7:數據質量管理框架
數據質量管理以數據清潔為目標,以業務需求為驅動,通過PDCA的循環,提升數據質量,達到數據質量結果滿意。領導力模塊通過制定政策、規範來構建數據質量管理機制,對數據質量的工作起牽引作用。能力保障模塊構建完整的數據組織、流程和工具,起到支撐作用。
1)自上而下打造數據質量領導力
數據質量政策應該有不同的層次,數據質量的管控要兼顧宏觀方面的指導原則以及微觀層面的具體操作要求,引導正確的業務行為,提升企業成員的數據質量意識。
2)全面推進數據質量持續改進機制
提升數據質量是為了滿足業務應用,業務戰略變化會產生新數據,對數據應用提出更高的要求,使得數據質量管理範圍、目標發生變化,因此數據質量管理是動態、持續的循環過程。
3)不斷加強數據質量能力保障
數據質量管理具有專業性,需要專業團隊制定數據質量管理策略、流程、規範等,通過技術工具實現自動融入日常業務。通過不斷提升數據質量管理組織的管理水平、改善數據質量工具平臺,使企業數據質量獲得進一步提高。
4
全面監控企業業務異常數據
不論做了多少數據質量預防措施,實施多嚴格的數據質量過程控制,只要涉及人為幹預,總會存在數據質量的問題。為了避免或降低數據質量對業務的影響,要能及時發現數據質量問題。問題的發現既可以「正向」主動監控,也可以「逆向」通過下遊環節反饋問題來識別。主動發現、制定解決方案、採取行動,比被動採取補救措施效果更好,並且代價更小。數據質量監控環節必不可少,本節重點講述基於異常數據的數據質量
監控。
1. 數據質量規則
異常數據是不滿足數據標準、不符合業務實質的客觀存在的數據,如某位員工的國籍信息錯誤、某位客戶的客戶名稱信息錯誤等。
數據在底層資料庫多數是以二維表格的形式存儲,每個數據格存儲一個數據值。若想從眾多數據中識別出異常數據,就需要通過數據質量規則給數據打上標籤。
數據質量規則是判斷數據是否符合數據質量要求的邏輯約束。在整個數據質量監控的過程中,數據質量規則的好壞直接影響監控的效果,因此如何設計數據質量規則很重要。
依據數據在資料庫落地時的質量特性及數據質量規則類型,設計如下四類數據質量分類框架。
1)單列數據質量規則。關注數據屬性值的有無以及是否符合自身規範的邏輯判斷。
2)跨列數據質量規則。關注數據屬性間關聯關係的邏輯判斷。
3)跨行數據質量規則。關注數據記錄之間關聯關係的邏輯判斷。
4)跨表數據質量規則。關注數據集關聯關係的邏輯判斷。
華為結合ISO8000數據質量標準、數據質量控制與評估原則(國標SY/T 7005—2014),共設計了15類規則,具體如圖8所示。
圖8:數據質量規則
規則類型的詳細說明如表1所示。
表1:規則分類內容及示例
當我們發現某個數據格的數據異常時,往往會思考這一列其他的數據格是否也存在同樣的問題,是否應該對這一列的其他數據格進行檢查。因此數據質量規則一般以業務屬性(即數據列)為對象,數據質量規則類型為顆粒度進行設計和應用。這樣既方便獲取業務屬性的整體數據質量狀況,又可清晰定位異常數據、識別嚴重問題、制定解決方案,同時數據質量規則也不會因互相交織而過於龐大,方便後續的運營維護。
我們以員工「郵箱地址」業務屬性為例設計數據質量規則進行數據質量檢查。根據業務問題反饋、數據源剖析及15類數據質量規則對數據遍歷的綜合結果,我們設計了「不可為空類」「語法約束類」「格式規範類」三個數據質量規則進行數據質量檢查。同時對這三個子規則向上收斂,形成「郵箱地址」業務屬性的完整的主規則,這種層級關係我們稱之為「規則樹」,如圖9所示。
圖9:規則樹示例
通過規則樹,我們既能統計出共有多少員工的「郵箱地址」數據異常,又可分別統計各子規則的異常數量,從而快速識別出當前哪個問題更嚴重(異常數量越多,問題越嚴重)。因此我們在制定相應的解決方案時,可能會優先解決問題嚴重的子規則。
在如圖10所示的規則應用結果中,我們可以看到6位員工的「郵箱地址」有異常,其中「不可為空類」的異常有5個,佔比最大,且解決此問題的技術手段簡單,成本較低。因此我們決定先解決郵箱地址「不可為空」的問題,在數據產生系統中根據數據質量規則增加防呆設計。
圖10::規則應用結果
這裡需要強調的是,並不是每一個屬性都會涉及上述15類規則,例如「記錄唯一類」規則,適用於「員工ID」但不適用於「員工姓名」;「值域約束類」規則,僅適用於有枚舉值列表的業務屬性。同時,隨著解決方案的落地、歷史數據的清理、新需求的開發,需要進行監控的數據質量規則也會隨之新增、變更、取消。例如上面所提到的「郵箱地址」的「不可為空類」規則,當IT系統實現了防呆功能且完成歷史數據清理後,監控持續一段時間裡異常率都為0,則規則可下線。所以,數據質量規則的生命周期是隨著數據治理範圍的擴大和數據治理程度的深入而更新的。
來源:本文節選自《華為數據之道》華為公司數據管理部撰寫,全面總結華為在數據治理和數位化轉型方面的經驗、方法論、模型、規範、解決方案,本文經機械工業出版社授權原創發布。
版權申明:以上文章為作者獨立觀點,不代表HRC社群立場,內容及圖片來源網絡,版權歸原創者所有。除非無法確認,我們都會標明作者及出處,如有侵權煩請告知我們,我們會立即刪除並表示歉意。謝謝!