通過建立大數據科研平臺,提高臨床科研的效率及質量,並促進研究成果有效轉化。根據廣州醫科大學附屬第二醫院實際情況,建立以智能醫學數據中臺為核心的大數據科研平臺,通過專病庫建立、描述性統計分析、統計挖掘、單病種分析及疾病預測等,優化科研流程,提升科研質量,實現科研成果的臨床應用。目前,廣州醫科大學附屬第二醫院大數據科研平臺已累積經過規範化處理的住院患者252 047人次,門診患者10 272 948人次,覆蓋病歷文 書、醫囑、檢驗檢查報告、課題隨訪數據等在內的37種文檔類型,輔助醫生建立疾病研究人群200多個、研究課題10餘項。與傳統人工操作相比,大數據科研平臺在數據抽取、統計及分析等方面,均有著明顯優勢,在疾病預測等臨床應用方面也顯示出廣闊前景。
概述
廣州醫科大學附屬第二醫院(以 下簡稱「廣醫二院」),是一所集 醫、教、研於一體的大型綜合三甲醫院,目前開放床位約2 500張,年門診量可達300萬人次左右。自1993年開始信息化建設以來,已逐步完成對HIS、EMR、LIS、PACS等業務系統的覆蓋,並於2017年搭建了醫院集成 平臺和數據中心(HDR),實現了從系統建設到平臺建設的轉變,在滿足數據實時共享、調用的同時,也為海量數據的科研應用打下堅實基礎。但由於我院數據中心是以支撐醫生日常診療業務為主要目的,關注的更多是患者個體信息,而非面向群體分析,因此也就無法滿足臨床科研對於疾病數 據橫線整合及深度挖掘的需求。鑑於此,在HDR基礎上部署了大數據科研平臺,旨在利用該平臺在數據獲取、統計分析及隱私保護等方面的優勢,促進科研效率及質量的提升。
大數據科研平臺架構設計
我院大數據科研平臺的建立是以智能醫學數據中臺為核心,利用自然語言處理、機器學習等大數據及人工智慧技術,對海量數據進行集成、計算、存儲和加工,形成以標準數據 存儲的大數據資產層,在此基礎上,滿足智能建庫、描述性統計分析、統 計挖掘、單病種分析以及疾病智能預測等不同階段和場景下的科研服務需求。平臺架構如圖1所示。
圖1 大數據科研平臺系統架構
從上圖可以看出,平臺首先從 醫院數據中心(HIS、LIS、PACS、 EMR等)和外部課題資料庫中抽取出科研所需數據,繼而利用中臺完善的數據處理及建模功能,對多源異構數據進行整合、治理及關聯分析,構建包括疾病模型、症狀模型、知識圖譜、時間序列等在內的一系列算法模型,輔助實現智能建庫、統計分析、數據挖掘、疾病預測等科研應用。
數據整合
數據整合是大數據科研的重要基礎。除臨床業務系統外,還須融入基因組學、患者隨訪、課題組等其他來源數據,以確保科研結論的可靠性和準確性。通過對不同來源數據的收集、整理和清洗,平臺最終將形成一個新的數據源,實現數據的集成和共享。
數據治理
數據治理是保障數據完整性、精準度、一致性及準確性的必要手段,包括標準化建設、數據處理、數據質控及數據轉化等。
數據標準化。 醫學術語表達的差異性,往往會造成同一實體存在多種表達形式。對研究數據進行標準化的目的,就是為了保證數據集內部的一致性。因此,需要把同一實體的不同 表達形式映射到同一實體名字上,以消除語義鴻溝。目前,遵照CDISC、 ISO11179、HL7、21 CFR PART 11、GCP等相關標準,已建立多種醫學術語標準化體系,包括:疾病術語標準化、藥品術語標準化、症狀體徵術語標準化,以及檢驗、檢查術語標準化等。
自然語言處理。多源異構數據要實現數據集的融合,結構化是必不可少的過程,同時也是後期建立數據模型和算法的基礎。利用自然語言處理技術,可對原始數據進行解析,識別出文本中實體、屬性和關係等信息,再進一步轉換成結構化數據。
以主訴「高處摔傷致右肘部疼痛伴活動受限8小時」為例。首先找到數據的實體及對應實體的標註,包括:症狀、器官、時間、誘因;然後根據不同實體間的關係,進行相應語義關係標註。如活動受限與疼痛的關係是伴隨症狀,疼痛與右肘的關係是症狀發生部位,疼痛誘因是摔傷等(圖2)。
圖2 自然語言處理示例
而對於PACS系統產生的檢查類文本數據,系統則採用了三級量化方式對其進行信息抽取,不僅保證重要臨床變量能夠被提取出來,還通過量化 精簡了抽取結果的結構。目前,針對檢查報告的結果類指標,平臺已生成 170多個相關模型,大大提高了檢查數據的使用效率和價值。
數據清洗及質控。數據經過標準化和結構化處理後,實現了表達形式上的轉換和一致性。而為保證數據符合規範性、完整性、準確性等質量要求,還需進行數據清洗及質控處理,以免在科研 過程中產生不良分析結果。
數據轉化。對存在的數據異常、錯誤或邏輯衝突等問題,通過對數據一致性治理、殘缺數據治理、重複數據 治理及數據可計算化治理等,即可實現對問題數據的糾正和修復。
數據分析
治理後的數據,通過語義分析模型及醫療知識圖譜等,可建立起疾病、症狀、體徵等不同實體間的關係,並暴露出人為不易發現的數據間潛在關聯性,為臨床研究提供更 加廣闊的空間。
數據安全與去隱私化
在完成上述數據採集、處理流程的同時,如何保護患者隱私及數據安全,也是必須考慮的問題。通過HIPAA法規,平臺制定了數據脫敏規則及方法,數據加密和權限管理等,確保科研數據的傳輸安全及患者隱私數據安全。
數據應用
基於智能醫學數據中臺提供的大數據資源,平臺一方面可以輔助醫生高效完成從智能建立疾病庫到自動進行數據統計挖掘的全部科研流程;另一方面,還可以利用單病種分析、智能預測引擎等,快速實現科研成果的有效轉化,提高臨床診療水平。
平臺功能特點
智能建庫
針對科研人員關注的某 種疾病人群,平臺支持其通過專病庫方式,搭建從疾病發生、發展到臨床 結局的全過程診療模型。建立方式包括平臺創建和人工導入兩種,前者可直接從智能醫學數據中臺選擇特定人群並選取所需科研變量進行創建;後者則支持用戶將自己的Excel數據集導入平臺,建立個性化疾病資料庫。
在這個過程中,針對人工導入數據可能存在格式不標準、質量不可控等問題,平臺須對其做二次處理,以實現與原有數據的兼容。包括:首先,根據數據不同分類,將其與專病庫數據模型做匹配;在此基礎上,遵照平臺質控規則及體系,核查數據真實質量情況;最後,對於問題數據,運用平臺數據治理規則,進行缺失值替換、格式轉換等處理,完成對導入數據的清洗和標準化。
自2016年起至今,我院陸續開始建設單病種專病庫,目前已覆蓋包括 「腦梗塞、乳腺癌、冠心病、過敏性鼻炎」等在內的10餘種疾病。其中,過敏性鼻炎已納入7 362個病例數據,為臨床研究提供了豐富的樣本基礎。
描述性統計分析
確定科研變量後,用戶可基於所需的全部變量生成自定義圖表,即為描述性統計,包括柱形圖、環形圖、直方圖、並排直方圖、散點圖、關係圖等11種不同類型的圖表。用戶可根據不同病種的特點及具體科研需求,個性化定製數據的可視化展現形式,以更加清晰地了解變量間的關聯,明確科研方向。
以圖3為例,可以看到,當科研人員選擇不同的變量類型時,系統會自動顯示可用圖表(高亮)與非可用 圖表(置灰);同時,對於數值型 變量,可以自由切換展示計數(重複)、計數(非重複)、平均值等統計量,非數值型變量可以切換計數(重複)、計數(非重複)統計。
圖3 個性化統計分析示例
統計挖掘
為深入挖掘影響疾病發生、發展的相關因素,平臺支持利用線性回歸或二元logistic回歸等統計方法對專病庫人群進行多維度分析,並支持對單因素分析和逐步回歸的全過程數據及圖表進行可視化展示。如分析高脂 血症與性別、年齡的關係等(圖4)。
圖4 高脂血症與性別及年齡的相關性分析
疾病預測
如上所述,通過大數據 科研平臺的分析挖掘工具,科研人員可以從臨床數據中發現更多關聯信息,並將其轉化為知識補充到醫學知識庫中,繼而通過醫學邏輯推理引擎服務於臨床,為解決醫學難題提供新思路,如準確預測疾病風險等級,實現醫療過程智能化、精準化及個性化等。
基於平臺建立的專病庫,研究者可通過影響因素分析、主成分分析、決策樹等數據挖掘算法,從中提取出重點疾病特徵,並利用機器學習技術進行模型訓練,得到疾病預測規則納入知識庫中。在臨床中遇到同類情況時,即可觸發該規則,輔助醫生對患者相關疾病危險因素進行預測分析,達到提高 和改善臨床診療效果的目的。
單病種分析
單病種分析是基於重點疾病庫和自定義疾病庫,對某一特定病種進行病種管理及相關特徵的分析。通過對重點疾病進行影響因素分析、預測分析、幹預分析等,可以幫助醫生更加直觀地了解該疾病的發生、發展規律。
平臺應用效果
截至目前,我院大數據科研平臺已累積經過規範化處理的住院患者 252 047人次,門診患者10 272 948人 次,覆蓋包括病歷文書、醫囑、檢驗 檢查報告、課題隨訪數據等在內的37 種文檔類型,總量達41 396 940份。平臺開放變量4 000餘維,其中經過自然語言處理的變量佔80%。同時,已開通醫生使用帳號340餘個,輔助醫生 建立疾病研究人群200多個,研究課題 10餘項,累計登錄次數達2 500餘次。通過表1的數據可知,與傳統人工操作相比,在數據抽取、應用及科研效率等方面,均有明顯提升(表1)。
表1 傳統人工模式與大數據科研平臺對比
討論
對患者數據的深度學習,可以綜 合提煉、挖掘豐富歷史病例數據中的信 息,為疾病診斷、重要症狀、指標異常 等各種臨床結果的預測提供支撐。
目前,我院已建成包含30餘種 疾病類型、12個分析主題的近百個模 型知識庫,可用來對疾病的再手術、 再入院、併發症以及生存期等進行預 測分析,並針對疾病不同幹預方式做 出療效評價。未來,還將逐步探索以 模型知識進行疾病危險程度評估和手 術預警等,使科研成果更好地服務臨床,擴大臨床效益。