文章來源:HIT思想薈
作者:老羅
導讀
我們在醫療大數據的開發利用過程中,經常會聽到有關數據治理的描述。
關於「數據治理」的說法很多,從根本來講,其核心是以數據資產為中心,維護和提升數據資產的價值。
目前,醫院信息化正從以建設信息系統和業務應用為主,轉變為以數據資源利用為焦點。在大數據時代的背景下,基於數據的新型應用不斷湧現,數據治理已然成為提高公立醫院資產管理水平的重要手段。
本文全程從醫療信息化領域的視角,探討「數據治理」這一概念。
01
什麼是數據治理?
引用《DAMA 數據管理知識體系指南》一書給出的定義:數據治理是對數據資產管理行使權力和控制的活動集合(規劃、監控和執行)。數據治理的職能是指導其他數據管理職能如何執行。
數據從應用誕生的那一天開始就存在,但是,它與應用的發展是不同步的。起初,人們並不重視數據,數據也就沒有被存儲/利用。但隨著應用的不斷演進,對數據準確性的要求也就越來越高。
(數據治理核心概念)
而數據治理的存在,就是為了確保數據的準確性、適度分析。有效的數據治理計劃,會通過改進決策/縮減成本/降低風險等方式,將價值回饋到業務層面。
老羅認為:
所有為了提高數據質量而展開的技術/業務/管理活動,都屬於數據治理的範疇。
02
隨處可見的數據問題
為什麼我們需要數據治理?答案跟醫療數據現狀有著密切的關係。
國內大大小小的醫院,每家都有幾十到幾百種系統,每個系統都有成百上千張表。這些表的結構非常亂,比如患者的病歷信息,零亂到難以搜索篩查。還有就是,PACS裡面的影像本身沒有做任何的參數調整,所以我們說影像本身的數據是有偏差的。
醫療數據本身價值巨大,但是由於不夠規範、沒有標準,根本無法發揮它的價值,導致了數據很難應用。很多醫院將希望寄託於各式各樣的信息系統,希望它們能將信息整合在一起,但是結果並不如意。
可以說,忽視數據治理給信息化建設帶來了不少問題(數據不統一/數據質量難以提升/數據模型梳理難以完成等基礎性數據問題)。
當數據被集中呈現出來時,人們有些失望地發現,數據雜質很多,錯誤很多,所謂的「信息標準缺失」,「信息系統孤島」就是由此而來。
目前醫療數據的現狀呈現出了以下幾個問題:
● 數據不可知
醫院雖然意識到了大數據的重要性,但並不清楚有沒有能解決所面臨的業務問題的關鍵數據,以及到哪裡去尋找這些數據。
● 數據不可控
數據不可控是從傳統數據平臺開始就一直存在的問題,在大數據時代表現得更為明顯。沒有統一的數據標準,導致數據難以集成和統一;沒有質量控制,導致數據質量參差不齊,難以被利用。
(醫療數據的現狀)
● 數據不可取
醫院即使知道業務所需要的是哪些數據,也不能便捷、自助地拿到數據。況且獲取數據需要很長的開發過程,如此漫長的需求響應時間是難以滿足業務需求的。
● 數據不可聯
醫院信息化建設初期,由於缺乏整體規劃,系統建設大多都是以業務部門驅動的單體架構系統,數據分散在這些架構不統一/開發語言不一致/資料庫多樣化的系統中,導致內部形成了一個個的「信息孤島」。
這些「孤島」之間缺乏有效的連接通道,數據不能互聯互通,交換和共享困難,不能對數據進行自助的探索和挖掘,數據的深層價值難以體現。
我們希望通過整合醫療數據,規範醫療數據,形成醫療數據的通用語言,讓它更方便的檢索和分析。
但這些對於醫療數據應用的美好設想,都是建立在本身擁有優質數據的前提下,倘若不做數據治理和數據共享,是很難實現的。
03
數據治理如何實施?
醫療機構本身就是依託數據開展業務的單位,如果把醫院的數據資源利用比作一架飛機,那麼數據治理就是飛機的雙翼。
目前,醫療數據已從一種資源上升到資產。在保證資產安全的前提下,如何通過一系列的開發、管理把資產價值發揮出來,是非常重要的一項課題。
醫院數據治理被定義為:醫院對其數據資產的管理和控制,支撐並保障數據被安全、高效地交換與使用,下圖展示了醫院數據治理體系。
(醫療數據的現狀,請橫屏觀看。)
搭建數據治理體系時,需要注意以下四個方面:
一,組織與人員機構管理
醫院需要成立專門的數據管理部門,完成流程和規範的制定、數據質量保證和質量控制、流程審批等工作。目前,諸多醫院已經成立了專門的大數據部門,也有醫院將這項工作放在信息科或病案管理室。
二,規範管理
包括流程管理規範/流程支撐規範/信息規範/數據規範。
● 流程管理規範:
用來規定何人在何種應用場景下,通過何人的審批可以操作何種類型的數據。這樣做的好處有兩點,首先,規範了人員/角色的配置與管理,確定數據標準/更新維護/數據質量跟蹤等由誰完成。其次,規範了各種審批流程。
● 流程支撐規範:
依據審批流程,臨床科室可以作為數據使用方提交數據使用要求,大數據管理部門作為數據管理方進行審批。但是,審批過程缺乏詳細的附加規範,比如不同角色的人員如何協作完成工作/何種職責的科室在何種情形下可以導出數據等等,這些都需要通過制定流程支撐規範來實現。
除此之外,特定的流程需要特定的流程支撐規範,比如,科研流程不是簡單的數據導出,通常需要多次的數據欄位細化、數據清洗和融合,面向特定任務建立流程支撐規範,可以確保信息科/數據管理部門/臨床醫生之間的有效協同。
● 信息規範:
包含隱私、數據權限管控規範/質量評估規範。
● 數據規範:
包括不同業務系統,如電子病歷數據規範、醫院信息系統數據規範。對於數據整合過程和整合後的系統來說,需要主數據/元數據規範等相關的數據質量規範。
以上規範的制定有助於完成以下目標:數據有明確的定義;數據有明確的責任方;數據有清晰的存儲方式與合理的時間期限;數據加工方法明晰;數據訪問方式與控制明確;數據內容符合質量要求。
三,平臺,工具,關鍵技術
數據治理需要有相應的平臺與工具支持,數據清洗過程需要抽取—轉換—加載(ETL技術)、文本結構化工具等。
大數據管理需要支持多種存儲機制,管理平臺需要包含元數據管理/數據權限管理/審批流程管理/數據質量評估/數據質量監控等工具。
(ETL過程)
四,元數據管理
元數據(Meta Data)是什麼玩意呢?
百科上給出的定義:元數據就是是描述數據的數據。這麼說很抽象,缺乏相應技術背景的同學,可能當場就懵了。這種情況發生並不奇怪,其實是一個關於知識的怪圈:我們知曉某件事情,向不了解的人描述時卻很難講清楚。
我們不妨借用一個比喻來理解元數據:對於一個人來說,戶口本就是他的信息登記冊:有姓名,年齡,性別、身份證號碼,住址等等,除了這些基本的描述信息之外,還有血緣關係等等。所有信息加起來,構成對這個人的全面描述。這些信息,我們都可以稱之為這個人的元數據。
同理,如果我們要描述清楚一個實際的數據,以某張表為例,我們需要知道表名、存儲的物理位置、主鍵、索引、這張表與其他表之間的關係等等。這些信息加起來,就是這張表的元數據。
這麼一類比,我們對元數據的概念就清楚很多了:元數據就相當於數據的戶口本。
目前醫院信息系統中存在數據模式描述文檔不全/數據關聯不清晰/系統值域標準不統一等問題,這對數據的集成造成了極大的困擾。
因此,需要通過元數據管理獲取業務系統中數據的含義,輔助數據理解,增加分析敏捷性。有了元數據管理,就可以提高數據的可訪問性/一致性/可用性,並且為多種來源數據的整合搭建橋梁。
元數據管理是數據治理的核心和基礎。
老羅有話講
當數據以真實面目呈現在我們面前,我們要做的不是抱怨和質疑,而是要將這種質疑,轉變為對結果產生的溯源。
面對當前信息化沉澱下的「數據果實」,我們要反思,在現有的信息化建設中有多少頂層設計,當初關注點只是聚焦在了建設上,而忽視了應用和治理。
思考之後,我們需要落實到行動。數據治理不僅僅是治理數據生成的工具,還要治理數據生產的業務流程,這種治理能給我們帶來的驚喜,除了準確好用的數據以外,還有精細化協作場景等等。
正如那句老話,建設固然重要,但應用才是目標。
信息化產品就好比農業收割機,數據則是糧食。收割機只是農民耕種的工具之一,想要獲得豐收,最重要的不是工具,而是精心耕耘莊稼。