怎樣從髒亂差的醫療大數據中提取價值(二)

2021-01-07 騰訊網

編輯導語:上期講到了隨著大數據時代的到來,醫療信息化建設迫切的需求與醫療大數據的溯源過程,還深入的提出了在髒亂差的醫療大數據中怎麼發現價值;接下來我們再進一步探討一下數據的價值與特徵。

一、數據特徵

1)數據異構

多平臺,多種接口,數據類型沒有一個標準,只能是點對點的對接大量數據,內容冗雜,過程繁複,速度緩慢。

2) 主題分散性

就診信息分布在不同的平臺上,不能夠形成以患者為中心的所有電子化就診信息集成,不能提供完整、全面、準確、及時的患者臨床信息。

3)數據量大

在大數據背景下,行業應用的數據量通常都以億級別計算,存儲通常在TB/PB級別甚至更多。

4)數據多態

數據模型在數據出現之後才能確定,數據模型隨著數據量增長不斷演變。

二、數據價值

數據流通:

院內流通、院外流通;

例如:從信息科流通到臨床醫務人員,從醫院流通到衛生管理部分,從省內醫院流通到省外醫院。

數據開放:

面向個人:如查閱報告、健康評估、健康檔案等;

面向企業、政府:調閱病理取證、獲取群體用藥信息、醫療數據監管等;

數據挖掘:

科研:科研統計分析和深度挖掘,如療效分析等;

臨床:如手術風險評估、預測模型建立等;

其他:醫院管理、趨勢分析等

三、數據產品

產品的定義:

建立數倉產品需依據衛生部統計信息中心2011年發布的《基於電子病歷的醫院信息平臺建設技術解決方案》建立標準化醫院數據資產目錄。

數倉需以醫院基礎業務活動為索引,提供HIS、LIS、EMR等多數據源業務表欄位綁定規則;實現零代碼綁架,業務人員即可通過頁面配置綁定規則。

數倉將根據配置自動生成調度任務,並通過Hadoop生態圈sqoop技術實現對業務系統的數據抽取;提供全量數據抽取與增量數據抽取兩種方式,抽取過程實現透明、可追溯。

解決的問題:

實現以患者為中心的醫療信息採集、清洗、存儲、加載和決策輔助。保障原始數據來源追溯、主數據標準唯一、數據應用及時高效。

實現基於數據中心的全量數據,構建應用主題庫,為醫院臨床輔助、精細化運營管理、科研管理提供強有力的數據支撐。

實現「數據湖」數據資產目錄,提高數據價值。

實現億級別數據量查詢、統計、分析秒處理展示。

四、產品功能

數據集成:

院內分散、異構數據依據頤東數倉資產目錄表欄位規則映射,並通過ETL工具實現歷史數據、實時數據抽取轉換。業務系統或集成平臺之間進行數據字典與碼錶的映射轉換,解決系統之間的數據一致性問題。新舊系統切換或系統升級,歷史數據在新編碼體系和分類體系下的轉換和對接。

數據稽查:

用戶可以根據需求上傳需要比對的數據及相應標準,通過軟體對數據進行一致性和準確性稽核。

疾病稽查:

藥品稽查:

醫療知識庫:主數據管理

疾病、手術標準:

五、產品應用

1)數據治理

數據治理是治理多元異構的數據,治理數據資產,突出醫療價值,確保數據質量控制數據治理的過程要確保數據的完整性(事件、表單、記錄、表項),一致性(主數據一致性、邏輯一致性),唯一性(無二義冗餘、指標及計算口徑),及時性,原始性,可溯源性及可測量性。

解決的問題:數據重複、一碼多病、數據雜亂、髒數據多

治理的方案:通過數倉產品建立院內數據資產目錄索引大數據中心

2)大數據中心

3)數據集市

根據臨床科室構建應用主題庫,為醫院臨床輔助、精細化運營管理、科研管理提供強有力的數據支撐。

4)數據上報

解決針對衛計委統計信息中心以《江蘇省健康信息平臺共享數據集》為基準上傳的數據的數據稽核與表結構轉換。

5)精準治理

單病種科研知識庫,輔助治理。

六、產品特性

1)多種數據源

支持多種數據源,一鍵接入,無需繁瑣配置。

2)零代碼

簡單易用的用戶體驗,零代碼建立傳輸任務,降低企業用戶使用門檻。

3)實時融合

實時的數據融合與集成,不讓延遲成為瓶頸,保證數據的時效性。

4)開箱即用

簡單快速的安裝流程,高效部署生產環境,即裝即用。

5)錯誤隊列預警

群集監控、故障排除、擴容擴展、應急處理,完善糾錯與預警機制。

6)安全審計

數據審計、數據盤點、權限認證、隱私處理。

7)全程質量管控

高質量體系保障數據傳輸的安全性與準確性,真正實現數據無憂。

8)數據服務

開放接口,開放數據,開放服務,支持第三方嫁接服務。

9)大數據生態系統

Hadoop生態系統中集成了大量的工具和組件來滿足不同計算和存儲需求,比如HDFS分布式文件系統、HBase列式資料庫、Hive數據倉庫、Kafka服務編排、MapReduce服務調度、impala類SQL數據倉庫等,可以方便地進行數據存儲和分析計算。

產品技術架構:

七、名詞解釋

CDC又稱變更數據捕獲(Change Data Capture),開啟cdc的源表在插入INSERT、更新UPDATE和刪除DELETE活動時會插入數據到日誌表中;CDC通過捕獲進程將變更數據捕獲到變更表中,通過cdc提供的查詢函數,我們可以捕獲這部分數據。

ETL數據倉庫技術(Extract-Transform-Load),它是將數據從源系統加載到數據倉庫的過程。用來描述將數據從來源端經過萃取(extract)、轉置(transform)、加載(load)至目的端的過程。使用到的工具包含(kettle、flume、sqoop)。

Kettle基於JAVA的ETL工具,支持圖形化的GUI設計界面,然後可以以工作流的形式流轉,在做一些簡單或複雜的數據抽取、質量檢測、數據清洗、數據轉換、數據過濾等方面有著比較穩定的表現。

Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日誌採集、聚合和傳輸的系統,Flume支持在日誌系統中定製各類數據發送方,用於收集數據;同時,Flume提供對數據進行簡單處理,並寫到各種數據接受方(可定製)的能力。

Sqoop是Apache開源軟體,主要用於在HADOOP(Hive)與傳統的資料庫(mysql、postgresql…)間進行數據的傳遞;適用於能與大數據集群直接通信的關係資料庫間的大批量數據傳輸。

本文由 @CTO老王 原創發布於人人都是產品經理,未經許可,禁止轉載

題圖來自 Unsplash,基於 CC0 協議

相關焦點

  • 怎樣從髒亂差的醫療大數據中提取價值(一)
    編輯導語:隨著醫療衛生信息化建設進程的不斷加快,醫療數據的類型和規模也在以前所未有的速度迅猛增長。大數據時代,學會分析數據並且將其應用至工作中,不僅可以節省時間,提高效率,還能提取其中的價值,為醫生和患者提供便利。
  • 打開臨床診療與醫學科研「數據通路」——大數據於臨床醫學價值的...
    基於這樣的問題,動脈網與醫療工作者和大數據領域專家進行了對話,希望能從他們那裡,探索新形式下的思考和方向。一、臨床診療與科研脫節:數據處理是瓶頸現階段,國內醫療資源還是集中在大的三甲醫院中,這導致醫生在臨床上的工作強度非常大。
  • 大數據在醫療、供應鏈和智慧城市中的作用
    我們可能會忽略我們的數據,但是它可以提供有價值的見解、訓練機器學習算法,並隨後為社會創造更好的產品和服務。此外,我們最近發布的產品CROSS是全球第一個大數據支持的不可替代令牌(NFT)發行平臺,該平臺將在進行數據交換交易時進行記錄。我們的目標是推動大數據生態系統的發展,並為全球企業和政府創造更多價值。
  • MTT實現醫療大數據在醫療領域的全面應用
    構建醫療數據應用生態體系,MTT實現醫療大數據在醫療領域的全面應用無論是政府、市場還是資本,都紛紛加碼醫療大數據行業,宏觀環境不斷朝著利好方向推進。然而,即便醫療大數據備受關注,不可否認其數據缺乏標準化、交換性數據量大,數據類型複雜,臨床數據管理和整合能力欠缺和大數據高效分析能力欠缺的行業痛點。而區塊鏈的出現有望打破這一僵局,MTT醫療大數據項目的實施,不僅可以解決醫院信息孤島問題,挖掘歷史數據價值、將數據進行分層處理,更可減少資源消耗,實現數據的統一入出管理、實現數據標準統一。
  • Power Query結構數據中的數據提取方法
    表格可以看作是列表與記錄的結合體,在table中列用方括號,那麼列就相當於是記錄行用大括號,行就相當於是列表Power Query中要提取指定位置的數據應該怎麼做?list前面一個大括號是一個list列表,相當於{1,2,3}後面一個大括號就是提取的數據的位置,這個和VBA中數組的約定是相同的,第一個位置是從0開始。整句話的意思就是從1到3的列表中取出第一個值。
  • 大數據的七大核心具體價值
    大數據,可以說是史上第一次將各行各業的用戶、方案提供商、服務商、運營商以及整個生態鏈上遊廠商,融入到一個大的環境中,無論是企業級市場還是消費級市場,亦或政府公共服務,都正或將要與大數據發生千絲萬縷的聯繫。近期有不少文章暢談大數據的價值,以及其價值主要凸顯在哪些方面,這裡我們對大數據的核心具體價值進行了分門別類的梳理匯總,希望能幫助讀者更好的獲悉大數據的大價值。
  • 移動醫療大數據的幾個偽命題:大數據的陷阱與小數據的重要性
    從大數據中得到規律,用小數據去驗證,在小數據中發現問題,再觀察相關大數據的變化,交互印證是非常重要的,但是目前很多的商業行為充斥著我們的移動醫療圈,過分強調大數據的背後,是有利益驅動的故事在的!接下來,我就來跟大家說一說大數據的陷阱!1.數據採集帶有傾向性。
  • 依圖醫療以AI技術賦能醫學數據
    依圖醫療作為AI醫療領域的唯一企業,獲得2017優秀創新案例獎。依圖醫療副總裁方驄博士與會發表了《AI賦能醫學數據》的主題演講,詳述AI技術和醫學數據在依圖碰撞出了怎樣火花,如何為醫生、患者和整個社會帶來顛覆性的創新。
  • 國家藥監局規範真實世界數據在醫療器械臨床評價中應用
    二、常見真實世界數據來源 常見的真實世界數據包括但不限於登記數據、醫院病歷數據、區域健康醫療數據、醫療保險數據、健康檔案、公共監測數據、患者自報數據、行動裝置產生的數據等。
  • 讓大數據真正發揮「大價值」
    讓大數據真正發揮「大價值」  數字經濟時代,大數據帶來的諸多便利得益於被譽為「萬能糧倉」的數據中心。數據中心算力越強,大數據價值越能得到發揮。國家發改委等4部門近日發布的《關於加快構建全國一體化大數據中心協同創新體系的指導意見》(下稱《意見》)提出,加強全國一體化大數據中心頂層設計。
  • 中科院田捷教授:基於 AI 和醫療大數據的影像組學研究及其臨床應用...
    在他看來,醫療大數據裡最常見的是影像數據,而且影像數據格式標準,容易獲取、容易使用。但是醫療大數據不僅限於影像,還包括病理、臨床治療信息等,只有這些信息融合在一起,我們才能建模,才能解決人工智慧真正在醫學上的應用。田捷教授在研究學術的同時,也在積極探索AI技術的應用前景。他認為,AI技術只有跟臨床掛鈎才有價值,經過企業家的轉化才能變成生產力。
  • ...AI 和醫療大數據的影像組學研究及其臨床應用 丨CCF-GAIR 2018
    在他看來,醫療大數據裡最常見的是影像數據,而且影像數據格式標準,容易獲取、容易使用。但是醫療大數據不僅限於影像,還包括病理、臨床治療信息等,只有這些信息融合在一起,我們才能建模,才能解決人工智慧真正在醫學上的應用。田捷教授在研究學術的同時,也在積極探索AI技術的應用前景。他認為,AI技術只有跟臨床掛鈎才有價值,經過企業家的轉化才能變成生產力。
  • 醫療健康大數據:應用實例與系統分析
    大數據一般以PB為單位計量,並包含結構化、半結構化、無結構化的數據,大數據給數據的採集、運輸、加密、存儲、分析和可視化帶來了嚴峻的挑戰。與傳統數據相比,大數據包含5個V特性:Volume(數據規模巨大)、Variety(數據類型繁多)、Velocity(數據產生的數據非常快)、Veracity(分析結果取決於數據準確性)、Value(大數據一般包含非常重要的價值)。
  • 生物醫療大數據的出路與去路探討
    ——值得萬千球迷慶幸的是,大數據邂逅了本次世界盃。依靠科學的算法數據分析,百度、高盛、谷歌、微軟構成了本屆世界盃「瘋狂猜球」比賽的陣容,各種「詭異」比分結果出來後,小夥伴們一次又一次驚 呆拜服於這些運營商軟體基於大數據的神預測。時下,大數據正如潮水般湧入各行各業,並有愈演愈烈之勢。生物醫療領域的大數據應用又面臨怎樣的局面?生物醫療大數據的出路在哪?去路又在哪裡?
  • AI+大數據在生物醫藥領域中的應用及發展
    其中,國外藉助先進的藥品研發技術和人工智慧技術更早起步,以AI藥物研發為主,我國則藉助海量大數據優勢,以AI醫學影像為主。本文將針對這四個主要領域分別進行探討。一、藥物研髮根據 Global MarketInsight的數據報告,全球人工智慧醫療市場中,第一大細分市場為藥物硏發,份額最大(約佔35%)。
  • 「沉睡」的醫療大數據該如何挖掘 專家:數據共享有三大阻礙
    研究表明,目前被利用的臨床數據只佔醫療總數據的10-20%,如何挖掘各醫療機構中沉睡的海量數據並深度利用,有著重要的理論意義和臨床實用價值。 新民晚報記者從一場線上論壇獲悉,位於長三角的之江實驗室建立了多中心智能醫學信息平臺,實現了一站式、跨機構、無障礙的多中心臨床數據深度利用。
  • 2019PLAGH-MIT醫療大數據學術交流及Datathon活動正式開始
    Datathon活動」在北京開幕,來自全球的「醫-理-工」多學科專家即將攜手,進行一場為期4天的醫療大數據實踐盛宴。章仲恆博士作為本次Workshop的開場,向在場選手分享了不少醫療數據領域中科研的常用方法和模型,展示了數據算法與發表雜誌IF的關係,並介紹了不同資料庫的特點和優勢。他強調,以前電子病歷這類雜亂的數據很難對臨床科研產生價值,但是在數據科學時代,通過不斷進步的技術,這些臨床數據作為素材的價值很高,能夠大力推動回溯性科研。
  • 大數據應用於社會科學研究的價值與悖論
    儘管大數據這一概念提出很早,但從為社會科學界熟知,到迅速轉向反思與批判,卻僅僅經歷了短短幾年的時間。為什麼社會科學研究能夠迅速對大數據做出響應?大數據在社會科學研究中有哪些應用?大數據應用於社會科學研究體現出哪一些價值?而它在應用中又有哪些悖論使其不能解決社會科學研究所面臨的問題?本文試對以上問題進行分析。
  • 「網際網路+醫療」健康醫療大數據能帶來什麼?
    「網際網路+醫療」健康醫療大數據能帶來什麼?  ——訪市中心醫院副院長、中國衛生信息與健康醫療大數據學會網際網路醫院專業委員會副主任委員楊國慶    楊國慶,市中心醫院副院長、中國衛生信息與健康醫療大數據學會網際網路醫院專業委員會第一屆副主任委員。在全國數千家同級醫院的同行中脫穎而出擔任這一職務,既是對醫院近年來在「網際網路+醫療」方面做出的努力和取得的成績的一種認可,也是對他個人能力的認可。   那麼,近年來,醫院在「網際網路+醫療」的做了哪些動作?接下來還有哪些驚喜等待著大家?
  • 高慶蕾:用醫療大數據解決百年來的國際性難題
    華中科技大學同濟醫學院附屬同濟醫院婦科腫瘤科副主任,全國婦科腫瘤疾病臨床研究中心負責人高慶蕾說,在過去,無論是早期的診斷還是治療後的跟蹤隨訪都十分困難,現在有了大數據的幫助,毫無疑問將極大促進這些問題的解決