【深度】華為是如何確保數據質量的?非常強大!

2021-01-11 騰訊網

HR COFFEE 社群

國內高端專業的

HR主題社群

來源:高績效HR(ID:Excellent-HR)

文:華為數據管理部

2016 年華為變革戰略規劃,明確要面向用戶(企業客戶、消費者、員工、合作夥伴、供應商)實現ROADS 體驗,持續提升效率、效益和客戶滿意度。明確要用五年時間完成業務數位化轉型,數位化轉型成為華為唯一的變革。

2017 年華為提出了企業的新願景:「把數字世界帶入每個人、每個家庭、每個組織,構建萬物互聯的智能世界」。同時,華為公司董事、CIO 陶景文提出了「實現全聯接的智能華為,成為行業標杆」的數位化轉型目標(如圖1所示)。

圖1:華為數位化轉型目標

2017年,華為基於願景確定了數位化轉型的藍圖和框架,統一規劃、分層次開展,最終實現客戶交互方式的轉變,實現內部運營效率和效益的提升。華為數位化轉型藍圖包括5項舉措(如圖2所示)。

圖2:華為數位化轉型藍圖

華為數據治理的發展歷程如圖3所示。

圖3:華為數據治理的兩個階段

圖4:華為數據治理的願景與目標

圖5:華為數據工作建設的整體思路

圖6:華為數據工作建設的整體框架

企業數據來源於多個不同的業務系統,數據流轉、處理環節多,用「Garbage in Garbage out(垃圾進,垃圾出)」原則保證數據質量已成為數位化轉型企業的共識。企業數據質量管理是一個系統性的工程,華為數據質量從數據質量領導力、數據質量持續改進、數據質量能力保障三方面展開,有機結合形成聯動。

01

什麼是數據質量

ISO9000標準對質量的定義為「產品固有特性滿足要求的程度」,其中「要求」指「明示的、隱含的或必須履行的需求或期望」,強調「以顧客為關注焦點」。

在Won Kim的論文「A Taxonomy of Dirty Data」中,數據質量被定義為「適合使用」,即數據適合使用的程度、滿足特定用戶期望的程度。

數據質量不是追求100%,而是從數據使用者的角度定義,滿足業務、用戶需要的數據即為「好」數據。

華為數據質量指「數據滿足應用的可信程度」,從以下六個維度對數據質量進行描述。

1)完整性:指數據在創建、傳遞過程中無缺失和遺漏,包括實體完整、屬性完整、記錄完整和欄位值完整四個方面。完整性是數據質量最基礎的一項,例如員工工號不可為空。

2)及時性:指及時記錄和傳遞相關數據,滿足業務對信息獲取的時間要求。數據交付要及時,抽取要及時,展現要及時。數據交付時間過長可能導致分析結論失去參考意義。

3)準確性:指真實、準確地記錄原始數據,無虛假數據及信息。數據要準確反映其所建模的「真實世界」實體。例如員工的身份信息必須與身份證件上的信息保持一致。

4)一致性:指遵循統一的數據標準記錄和傳遞數據和信息,主要體現在數據記錄是否規範、數據是否符合邏輯。例如同一工號對應的不同系統中的員工姓名需一致。

5)唯一性:指同一數據只能有唯一的標識符。體現在一個數據集中,一個實體只出現一次,並且每個唯一實體有一個鍵值且該鍵值只指向該實體。例如員工有且僅有一個有效工號。

6)有效性:指數據的值、格式和展現形式符合數據定義和業務定義的要求。例如員工的國籍必須是國家基礎數據中定義的允許值。

2

數據質量管理範圍

提到數據質量管理,經常有人會問:數據質量和流程質量有什麼區別?流程質量是基於流程結果評估業務執行的好壞,數據質量更關注業務對象、業務規則、業務過程、業務結果等數據是否得到了及時記錄。以採購驗收為例,採購驗收及時性屬於流程質量,送達到驗收所需時間滿足3天的SLA即屬於流程質量合格;而驗收數據錄入及時性屬於數據質量,驗收到錄入所需時間滿足1天的SLA即屬於數據質量合格。

3

數據質量的總體框架

華為以ISO8000質量標準體系為依據,設計了PDCA(Plan、Do、Check、Action、計劃、執行、檢查、處理)持續改進的數據質量管理框架,如圖7所示。

圖7:數據質量管理框架

數據質量管理以數據清潔為目標,以業務需求為驅動,通過PDCA的循環,提升數據質量,達到數據質量結果滿意。領導力模塊通過制定政策、規範來構建數據質量管理機制,對數據質量的工作起牽引作用。能力保障模塊構建完整的數據組織、流程和工具,起到支撐作用。

1)自上而下打造數據質量領導力

數據質量政策應該有不同的層次,數據質量的管控要兼顧宏觀方面的指導原則以及微觀層面的具體操作要求,引導正確的業務行為,提升企業成員的數據質量意識。

2)全面推進數據質量持續改進機制

提升數據質量是為了滿足業務應用,業務戰略變化會產生新數據,對數據應用提出更高的要求,使得數據質量管理範圍、目標發生變化,因此數據質量管理是動態、持續的循環過程。

3)不斷加強數據質量能力保障

數據質量管理具有專業性,需要專業團隊制定數據質量管理策略、流程、規範等,通過技術工具實現自動融入日常業務。通過不斷提升數據質量管理組織的管理水平、改善數據質量工具平臺,使企業數據質量獲得進一步提高。

4

全面監控企業業務異常數據

不論做了多少數據質量預防措施,實施多嚴格的數據質量過程控制,只要涉及人為幹預,總會存在數據質量的問題。為了避免或降低數據質量對業務的影響,要能及時發現數據質量問題。問題的發現既可以「正向」主動監控,也可以「逆向」通過下遊環節反饋問題來識別。主動發現、制定解決方案、採取行動,比被動採取補救措施效果更好,並且代價更小。數據質量監控環節必不可少,本節重點講述基於異常數據的數據質量

監控。

1. 數據質量規則

異常數據是不滿足數據標準、不符合業務實質的客觀存在的數據,如某位員工的國籍信息錯誤、某位客戶的客戶名稱信息錯誤等。

數據在底層資料庫多數是以二維表格的形式存儲,每個數據格存儲一個數據值。若想從眾多數據中識別出異常數據,就需要通過數據質量規則給數據打上標籤。

數據質量規則是判斷數據是否符合數據質量要求的邏輯約束。在整個數據質量監控的過程中,數據質量規則的好壞直接影響監控的效果,因此如何設計數據質量規則很重要。

依據數據在資料庫落地時的質量特性及數據質量規則類型,設計如下四類數據質量分類框架。

1)單列數據質量規則。關注數據屬性值的有無以及是否符合自身規範的邏輯判斷。

2)跨列數據質量規則。關注數據屬性間關聯關係的邏輯判斷。

3)跨行數據質量規則。關注數據記錄之間關聯關係的邏輯判斷。

4)跨表數據質量規則。關注數據集關聯關係的邏輯判斷。

華為結合ISO8000數據質量標準、數據質量控制與評估原則(國標SY/T 7005—2014),共設計了15類規則,具體如圖8所示。

圖8:數據質量規則

規則類型的詳細說明如表1所示。

表1:規則分類內容及示例

當我們發現某個數據格的數據異常時,往往會思考這一列其他的數據格是否也存在同樣的問題,是否應該對這一列的其他數據格進行檢查。因此數據質量規則一般以業務屬性(即數據列)為對象,數據質量規則類型為顆粒度進行設計和應用。這樣既方便獲取業務屬性的整體數據質量狀況,又可清晰定位異常數據、識別嚴重問題、制定解決方案,同時數據質量規則也不會因互相交織而過於龐大,方便後續的運營維護。

我們以員工「郵箱地址」業務屬性為例設計數據質量規則進行數據質量檢查。根據業務問題反饋、數據源剖析及15類數據質量規則對數據遍歷的綜合結果,我們設計了「不可為空類」「語法約束類」「格式規範類」三個數據質量規則進行數據質量檢查。同時對這三個子規則向上收斂,形成「郵箱地址」業務屬性的完整的主規則,這種層級關係我們稱之為「規則樹」,如圖9所示。

圖9:規則樹示例

通過規則樹,我們既能統計出共有多少員工的「郵箱地址」數據異常,又可分別統計各子規則的異常數量,從而快速識別出當前哪個問題更嚴重(異常數量越多,問題越嚴重)。因此我們在制定相應的解決方案時,可能會優先解決問題嚴重的子規則。

在如圖10所示的規則應用結果中,我們可以看到6位員工的「郵箱地址」有異常,其中「不可為空類」的異常有5個,佔比最大,且解決此問題的技術手段簡單,成本較低。因此我們決定先解決郵箱地址「不可為空」的問題,在數據產生系統中根據數據質量規則增加防呆設計。

圖10::規則應用結果

這裡需要強調的是,並不是每一個屬性都會涉及上述15類規則,例如「記錄唯一類」規則,適用於「員工ID」但不適用於「員工姓名」;「值域約束類」規則,僅適用於有枚舉值列表的業務屬性。同時,隨著解決方案的落地、歷史數據的清理、新需求的開發,需要進行監控的數據質量規則也會隨之新增、變更、取消。例如上面所提到的「郵箱地址」的「不可為空類」規則,當IT系統實現了防呆功能且完成歷史數據清理後,監控持續一段時間裡異常率都為0,則規則可下線。所以,數據質量規則的生命周期是隨著數據治理範圍的擴大和數據治理程度的深入而更新的。

來源:本文節選自《華為數據之道》華為公司數據管理部撰寫,全面總結華為在數據治理和數位化轉型方面的經驗、方法論、模型、規範、解決方案,本文經機械工業出版社授權原創發布。

版權申明:以上文章為作者獨立觀點,不代表HRC社群立場,內容及圖片來源網絡,版權歸原創者所有。除非無法確認,我們都會標明作者及出處,如有侵權煩請告知我們,我們會立即刪除並表示歉意。謝謝!

相關焦點

  • 華為雲獲DigSci科學數據挖掘大賽冠軍
    近日,華為雲在論文匹配檢索領域取得進展,基於自然語言處理領域的領先技術積累,華為雲語音語義創新Lab在DigSci科學數據挖掘大賽上奪冠,精準率超過第二名5個百分點。DigSci科學數據挖掘大賽比賽是清華AMiner、智源實驗室、微軟聯合舉辦的學術論文搜索匹配大賽,屬於語義匹配檢索領域,旨在從學術材料中挖掘知識。
  • 不清楚ups是什麼 華為模塊化ups為數據中心帶來高可靠供電保障
    華為從用戶實際需求出發,推出全系列ups產品隨著雲計算、物聯網、5G、大數據時代加速到來,數據中心基礎建設極速增長,面對海量的數據業務,數據中心想要穩定運行,就需要有高品質、高穩定性的ups作為支撐。當下數據中心用戶對ups產品除了要求高可靠性、高穩定性外,還要求智能化、數位化。
  • 華為深度學習框架MindSpore正式開源:自動微分不止計算圖
    今年的華為開發者大會 HDC 2020 上,除了昇騰、鯤鵬等自研晶片硬體平臺之外,最令人期待的就是深度學習框架 MindSpore 的開源了。今天上午,華為 MindSpore 首席科學家陳雷在活動中宣布這款產品正式開源,我們終於可以在開放平臺上一睹它的真面目。
  • 手機是如何煉成的 華為實驗室探秘之旅
    首先,我們不妨先從華為可靠性實驗室了解吧。這裡支持中國和全球主要可靠性標準的測試,華為諸多旗艦產品如P1、P2、D1、D2、Mate1、榮耀2、榮耀3及P6等,均在該實驗室測試保障。每款手機都要經過滾筒跌落測試、按鍵耐久測試、載重測試、連接器插拔耐久測試、扭曲測試、觸控螢幕的鋼珠跌落、彈簧錘及拉拔測試等。下面我們就一一看看華為手機在出廠前將要受到如何的磨難。
  • 華為汽車產業深度剖析
    華為 ICT 技術深厚,奠定堅實基礎 華為在 ICT 領域積累了深厚的技術基礎,包括且不限於晶片-作業系統-機器學習算 法-雲技術-傳感器等,是培育華為汽車業務的沃土。 3.1. 晶片全面布局,支撐華為強大生態體系 華為晶片全面布局,五大類晶片是支撐華為生態的基礎。
  • CPDA數據分析師:揭秘數據完整性和數據質量之間的差異
    來源:CPDA數據分析師網 / 作者:數據君 儘管許多人可以互換使用數據完整性和數據質量這兩個術語 但必須牢記兩者之間的一些重要區別,真正強大的數據系統可確保數據解決這些區別,從而幫助企業最大程度地提高存儲信息的準確性,一致性和上下文
  • 華為Mate40系列全球發布:史上最強大的華為Mate
    華為Mate40 Pro和華為Mate40 Pro+搭載華為首款5納米麒麟9000 SoC晶片,集成153億電晶體,成就麒麟晶片巔峰之作。全新超感知徠卡電影影像系統引入前後雙電影鏡頭和前後雙超大廣角,締造全能影像出色實力。強大性能之外更加易用貼心,AI隔空操控、靈動熄屏顯示讓交互方式更豐富。
  • 深度揭秘華為"AI智造"背後的技術
    華為在智能製造方面的經驗對於中國製造升級非常有價值,在了解華為是如何實現智能製造之前,讓我們先來看看AI在製造領域落地面臨的挑戰。 人工智慧的本質是將人的經驗數位化、可複製化,而在製造業領域確實存在大量人工重複勞動,亟需通過AI來解放人力、提高準確率,但現狀卻比較尷尬。
  • 讓AI無處不在,華為昇騰構建了一幅怎樣的百業全景圖?
    然而當AI逐漸進入到產業深處,深度參與工業領域的智能化轉型時,如何讓AI從無到有,從最開始的簡單應用或者單一場景出發,繼而完成對整個產業的覆蓋,成為實現智能製造的關鍵。近日,凌華科技發布了一系列基於華為昇騰的AI邊緣計算產品,推進AI算力融合在工業智能領域,讓AI應用落地於更多工業製造場景。
  • 不管是不是花粉,不管黑不黑華為,教你如何擁有華為全家福套餐
    不管你是不是花粉,也不管你黑不黑華為,教你如何擁有華為全家福套餐!!!套餐的意思就是用華為的產品幫你從頭到腳武裝一次。另外,還有一個八百萬像素的長焦相機和3D深度感應相機。旗艦系列產品還能讓用戶無需觸摸顯示屏即可與之互動。把手握在顯示屏前,通過手勢Mate 30可執行捕獲屏幕截圖之類的任務。也可以通過在屏幕前面上下滑動手指來滾動或翻轉網站或畫廊照片的頁面。同時,「 AI自動旋轉」功能可跟蹤使用者的視線,以相應地調整顯示方向而無需觸摸顯示器。
  • 華為智能汽車戰略深度解析
    一方面,華為與廣汽、上汽、一汽等大型整車廠商在車聯網、智能汽車、國際化業務拓展等多個領域展開深度合作,擴大生態聯盟;另一方面,華為也與眾多軟體廠商在自動駕駛、遠程控制和城市交通安全等方面展開合作,優化解決方案。2016 年華為與奧迪、寶馬、戴姆勒、愛立信、英特爾、諾基亞及高通聯合宣布成立「 5G 汽車聯盟」,旨在整合各巨頭間資源,加快無人駕駛汽車的研發進度,調配研發過程中所需的互聯設備。
  • 599元即可獲得40dB降噪深度 華為FreeLace Pro
    由於華為FreeLace Pro無線耳機本身續航能力已經足夠強大了(24小時續航/16小時降噪續航),所以快充對於多數人來說更是一個突出的加分項。該模式依託於華為FreeLace Pro無線耳機獨有的藍牙傳輸(華為手機用戶限定),開啟後能夠有效的降低傳輸的聲音延時。不過在這點上,筆者親測即使不進入遊戲模式,這款耳機也依然不會帶來任何延時感,即使沒用華為手機的用戶也沒必要太介意這個錦上添花的功能。    華為FreeLace Pro主動降噪頸掛式耳機目前在京東商城售價僅為599元,想要低價位入手超高降噪水準的朋友,選它準沒錯!
  • 深度解讀達文西架構:華為AI晶片的「秘密武器」
    華為預測,到2025年全球的智能終端數量將會達到400億臺,智能助理的普及率將達到90%,企業數據的使用率將達到86%。可以預見,在不久的將來,AI將作為一項通用技術極大地提高生產力,改變每個組織和每個行業。
  • 掃二位碼數據採集MES系統架構有效管控產品質量
    在這種情況下,保證終端產品的綜合競爭力,加強產品供應鏈質量管控,變得尤為重要。 近年來,充電器電源市場競爭愈發激烈,高功率、小體積、高性價,讓充電器電源設計變得異常複雜,元器件布局非常緊湊,對元器件的性能要求越發極致。各終端廠家對充電器電源的質量要求也逐年加嚴,如何保證終端產品的綜合競爭力,加強產品供應鏈質量管控,成為企業保持競爭力非常關鍵的環節。
  • 華為Mate 20 Pro展現強大黑科技,3D全息投影會議指日可待
    在最近火爆的華為Mate20 Pro中,就已經看到類似場景的雛形,為我們3D會議的召開帶來可能。實際上,3D全息投影會議需要解決的問題主要有三個,一是人物的實時建模,二是有足夠快低延遲的網絡傳輸,三則是全息投影技術。為什麼說在華為Mate 20 Pro中可以看到3D全息投影技術的可能,主要是因為華為Mate 20 Pro實現了3D仿生成像的技術。
  • 華為廣州城市峰會2020創新數據基礎設施高峰論壇:共談數字經濟機遇...
    在數位化轉型的道路上,海量數據如何高效處理,讓數字價值最大化?萬物互聯的時代下,智能協作在各場景下如何落地,人與人之間如何高效協同?社會進步在擁抱新興科技時也在面臨新的挑戰。2020年12月2日,「智數廣州 · 進而有為」華為廣州城市峰會2020成功召開。
  • 華為欽州雲數據地址_華為雲伺服器怎麼連接雲資料庫 - CSDN
    錦州高質量發展的重要引擎今天,數位化的浪潮正席捲各行各業,以雲計算、大數據、物聯網、人工智慧為代表的新一代數位技術,正驅動著物理世界與數字世界的深度融合,並深刻的改變著人們的工作、生活和學習方式,成為驅動經濟快速增長的新引擎
  • DeepTables:為結構化數據注入深度學習的洪荒之力
    近年來深度學習在CV、NLP等非結構化領域展現出超強的統治力,突破最高水平的算法層出不窮。深度學習在結構化和非結構化領域表現出來的巨大反差已成為熱門話題,自從以XGBoost、LightGBM為代表的高性能集成樹模型訓練框架的問世,深度學習在結構化領域就一直沒有超越配角的地位。到目前為止,Kaggle結構化數據競賽中,傳統機器學習算法依然是最主要的贏家。
  • 華為靖江雲計算數據中心上線
    「雲匯靖江·數贏未來」華為靖江雲計算數據中心上線發布儀式昨日舉行,這標誌著靖江市雲計算和大數據產業邁出了堅實一步。靖江市委書記趙葉,華為公司副總裁、華為政企雲總裁楊瑞凱,江蘇省廣電有線信息網絡股份有限公司副總經理錢進共同啟動華為靖江雲計算數據中心。
  • 真正凸顯華為實力:華為Sound音箱深度評測,千元比肩頂級
    華為Sound,儘管是「中杯」帝瓦雷,但是在核心的參數上面依然強大。 的確,華為Sound對比華為Sound X,在揚聲器單元的配置上面略有一些縮水,但如果對比價格,你依然會發現這是保留了核心功能的中號帝瓦雷,非常強大,可以感受到優秀的外觀、帝瓦雷聲學、360°環繞音等強大設計。 其他硬體,諸如藍牙5.0、2.4G/5GHz雙頻WiFi、都得已保留。