醫學領域大數據科研平臺應用依靠它實現

2020-11-30 健康界

通過建立大數據科研平臺,提高臨床科研的效率及質量,並促進研究成果有效轉化。根據廣州醫科大學附屬第二醫院實際情況,建立以智能醫學數據中臺為核心的大數據科研平臺,通過專病庫建立、描述性統計分析、統計挖掘、單病種分析及疾病預測等,優化科研流程,提升科研質量,實現科研成果的臨床應用。目前,廣州醫科大學附屬第二醫院大數據科研平臺已累積經過規範化處理的住院患者252 047人次,門診患者10 272 948人次,覆蓋病歷文 書、醫囑、檢驗檢查報告、課題隨訪數據等在內的37種文檔類型,輔助醫生建立疾病研究人群200多個、研究課題10餘項。與傳統人工操作相比,大數據科研平臺在數據抽取、統計及分析等方面,均有著明顯優勢,在疾病預測等臨床應用方面也顯示出廣闊前景。 

 概述 

廣州醫科大學附屬第二醫院(以 下簡稱「廣醫二院」),是一所集 醫、教、研於一體的大型綜合三甲醫院,目前開放床位約2 500張,年門診量可達300萬人次左右。自1993年開始信息化建設以來,已逐步完成對HIS、EMR、LIS、PACS等業務系統的覆蓋,並於2017年搭建了醫院集成 平臺和數據中心(HDR),實現了從系統建設到平臺建設的轉變,在滿足數據實時共享、調用的同時,也為海量數據的科研應用打下堅實基礎。但由於我院數據中心是以支撐醫生日常診療業務為主要目的,關注的更多是患者個體信息,而非面向群體分析,因此也就無法滿足臨床科研對於疾病數 據橫線整合及深度挖掘的需求。鑑於此,在HDR基礎上部署了大數據科研平臺,旨在利用該平臺在數據獲取、統計分析及隱私保護等方面的優勢,促進科研效率及質量的提升。

大數據科研平臺架構設計 

我院大數據科研平臺的建立是以智能醫學數據中臺為核心,利用自然語言處理、機器學習等大數據及人工智慧技術,對海量數據進行集成、計算、存儲和加工,形成以標準數據 存儲的大數據資產層,在此基礎上,滿足智能建庫、描述性統計分析、統 計挖掘、單病種分析以及疾病智能預測等不同階段和場景下的科研服務需求。平臺架構如圖1所示。 

圖1  大數據科研平臺系統架構

從上圖可以看出,平臺首先從 醫院數據中心(HIS、LIS、PACS、 EMR等)和外部課題資料庫中抽取出科研所需數據,繼而利用中臺完善的數據處理及建模功能,對多源異構數據進行整合、治理及關聯分析,構建包括疾病模型、症狀模型、知識圖譜、時間序列等在內的一系列算法模型,輔助實現智能建庫、統計分析、數據挖掘、疾病預測等科研應用。 

數據整合

數據整合是大數據科研的重要基礎。除臨床業務系統外,還須融入基因組學、患者隨訪、課題組等其他來源數據,以確保科研結論的可靠性和準確性。通過對不同來源數據的收集、整理和清洗,平臺最終將形成一個新的數據源,實現數據的集成和共享。

數據治理

數據治理是保障數據完整性、精準度、一致性及準確性的必要手段,包括標準化建設、數據處理、數據質控及數據轉化等。 

數據標準化。 醫學術語表達的差異性,往往會造成同一實體存在多種表達形式。對研究數據進行標準化的目的,就是為了保證數據集內部的一致性。因此,需要把同一實體的不同 表達形式映射到同一實體名字上,以消除語義鴻溝。目前,遵照CDISC、 ISO11179、HL7、21 CFR PART 11、GCP等相關標準,已建立多種醫學術語標準化體系,包括:疾病術語標準化、藥品術語標準化、症狀體徵術語標準化,以及檢驗、檢查術語標準化等。 

自然語言處理。多源異構數據要實現數據集的融合,結構化是必不可少的過程,同時也是後期建立數據模型和算法的基礎。利用自然語言處理技術,可對原始數據進行解析,識別出文本中實體、屬性和關係等信息,再進一步轉換成結構化數據。 

以主訴「高處摔傷致右肘部疼痛伴活動受限8小時」為例。首先找到數據的實體及對應實體的標註,包括:症狀、器官、時間、誘因;然後根據不同實體間的關係,進行相應語義關係標註。如活動受限與疼痛的關係是伴隨症狀,疼痛與右肘的關係是症狀發生部位,疼痛誘因是摔傷等(圖2)。

圖2  自然語言處理示例

而對於PACS系統產生的檢查類文本數據,系統則採用了三級量化方式對其進行信息抽取,不僅保證重要臨床變量能夠被提取出來,還通過量化 精簡了抽取結果的結構。目前,針對檢查報告的結果類指標,平臺已生成 170多個相關模型,大大提高了檢查數據的使用效率和價值。 

數據清洗及質控。數據經過標準化和結構化處理後,實現了表達形式上的轉換和一致性。而為保證數據符合規範性、完整性、準確性等質量要求,還需進行數據清洗及質控處理,以免在科研 過程中產生不良分析結果。 

數據轉化。對存在的數據異常、錯誤或邏輯衝突等問題,通過對數據一致性治理、殘缺數據治理、重複數據 治理及數據可計算化治理等,即可實現對問題數據的糾正和修復。 

數據分析 

治理後的數據,通過語義分析模型及醫療知識圖譜等,可建立起疾病、症狀、體徵等不同實體間的關係,並暴露出人為不易發現的數據間潛在關聯性,為臨床研究提供更 加廣闊的空間。 

數據安全與去隱私化

在完成上述數據採集、處理流程的同時,如何保護患者隱私及數據安全,也是必須考慮的問題。通過HIPAA法規,平臺制定了數據脫敏規則及方法,數據加密和權限管理等,確保科研數據的傳輸安全及患者隱私數據安全。 

數據應用 

基於智能醫學數據中臺提供的大數據資源,平臺一方面可以輔助醫生高效完成從智能建立疾病庫到自動進行數據統計挖掘的全部科研流程;另一方面,還可以利用單病種分析、智能預測引擎等,快速實現科研成果的有效轉化,提高臨床診療水平。

平臺功能特點 

智能建庫

針對科研人員關注的某 種疾病人群,平臺支持其通過專病庫方式,搭建從疾病發生、發展到臨床 結局的全過程診療模型。建立方式包括平臺創建和人工導入兩種,前者可直接從智能醫學數據中臺選擇特定人群並選取所需科研變量進行創建;後者則支持用戶將自己的Excel數據集導入平臺,建立個性化疾病資料庫。 

在這個過程中,針對人工導入數據可能存在格式不標準、質量不可控等問題,平臺須對其做二次處理,以實現與原有數據的兼容。包括:首先,根據數據不同分類,將其與專病庫數據模型做匹配;在此基礎上,遵照平臺質控規則及體系,核查數據真實質量情況;最後,對於問題數據,運用平臺數據治理規則,進行缺失值替換、格式轉換等處理,完成對導入數據的清洗和標準化。

自2016年起至今,我院陸續開始建設單病種專病庫,目前已覆蓋包括 「腦梗塞、乳腺癌、冠心病、過敏性鼻炎」等在內的10餘種疾病。其中,過敏性鼻炎已納入7 362個病例數據,為臨床研究提供了豐富的樣本基礎。 

描述性統計分析

確定科研變量後,用戶可基於所需的全部變量生成自定義圖表,即為描述性統計,包括柱形圖、環形圖、直方圖、並排直方圖、散點圖、關係圖等11種不同類型的圖表。用戶可根據不同病種的特點及具體科研需求,個性化定製數據的可視化展現形式,以更加清晰地了解變量間的關聯,明確科研方向。 

以圖3為例,可以看到,當科研人員選擇不同的變量類型時,系統會自動顯示可用圖表(高亮)與非可用 圖表(置灰);同時,對於數值型 變量,可以自由切換展示計數(重複)、計數(非重複)、平均值等統計量,非數值型變量可以切換計數(重複)、計數(非重複)統計。 

圖3  個性化統計分析示例

統計挖掘 

為深入挖掘影響疾病發生、發展的相關因素,平臺支持利用線性回歸或二元logistic回歸等統計方法對專病庫人群進行多維度分析,並支持對單因素分析和逐步回歸的全過程數據及圖表進行可視化展示。如分析高脂 血症與性別、年齡的關係等(圖4)。 

圖4  高脂血症與性別及年齡的相關性分析

疾病預測

如上所述,通過大數據 科研平臺的分析挖掘工具,科研人員可以從臨床數據中發現更多關聯信息,並將其轉化為知識補充到醫學知識庫中,繼而通過醫學邏輯推理引擎服務於臨床,為解決醫學難題提供新思路,如準確預測疾病風險等級,實現醫療過程智能化、精準化及個性化等。 

基於平臺建立的專病庫,研究者可通過影響因素分析、主成分分析、決策樹等數據挖掘算法,從中提取出重點疾病特徵,並利用機器學習技術進行模型訓練,得到疾病預測規則納入知識庫中。在臨床中遇到同類情況時,即可觸發該規則,輔助醫生對患者相關疾病危險因素進行預測分析,達到提高 和改善臨床診療效果的目的。 

單病種分析

單病種分析是基於重點疾病庫和自定義疾病庫,對某一特定病種進行病種管理及相關特徵的分析。通過對重點疾病進行影響因素分析、預測分析、幹預分析等,可以幫助醫生更加直觀地了解該疾病的發生、發展規律。

平臺應用效果 

截至目前,我院大數據科研平臺已累積經過規範化處理的住院患者 252 047人次,門診患者10 272 948人 次,覆蓋包括病歷文書、醫囑、檢驗 檢查報告、課題隨訪數據等在內的37 種文檔類型,總量達41 396 940份。平臺開放變量4 000餘維,其中經過自然語言處理的變量佔80%。同時,已開通醫生使用帳號340餘個,輔助醫生 建立疾病研究人群200多個,研究課題 10餘項,累計登錄次數達2 500餘次。通過表1的數據可知,與傳統人工操作相比,在數據抽取、應用及科研效率等方面,均有明顯提升(表1)。

表1  傳統人工模式與大數據科研平臺對比

討論 

對患者數據的深度學習,可以綜 合提煉、挖掘豐富歷史病例數據中的信 息,為疾病診斷、重要症狀、指標異常 等各種臨床結果的預測提供支撐。 

目前,我院已建成包含30餘種 疾病類型、12個分析主題的近百個模 型知識庫,可用來對疾病的再手術、 再入院、併發症以及生存期等進行預 測分析,並針對疾病不同幹預方式做 出療效評價。未來,還將逐步探索以 模型知識進行疾病危險程度評估和手 術預警等,使科研成果更好地服務臨床,擴大臨床效益。 

相關焦點

  • 打開臨床診療與醫學科研「數據通路」——大數據於臨床醫學價值的...
    隨著醫療大數據領域技術的進步和實際應用的快速發展,這一矛盾能否解決,並充分的互相反哺和促進?基於這樣的問題,動脈網與醫療工作者和大數據領域專家進行了對話,希望能從他們那裡,探索新形式下的思考和方向。「為什麼一些雜誌上的論文被下架,就是因為這些論文在數據處理過程中,存在弄虛作假的情況。這與醫生書寫EMR的規範性、自律性有關。」因此醫院在使用臨床數據採集系統時,病曆書寫應儘可能完整和標準,以電子病歷為平臺,建立臨床科研一體化病曆書寫與採集體系,在實現科研數據收集的同時,不增加日常工作量。
  • AI+大數據在生物醫藥領域中的應用及發展
    目前,AI技術在生物醫藥領域應用主要有藥物研發、醫學影像、輔助診療和基因分析四個細分領域。其中,國外藉助先進的藥品研發技術和人工智慧技術更早起步,以AI藥物研發為主,我國則藉助海量大數據優勢,以AI醫學影像為主。本文將針對這四個主要領域分別進行探討。
  • 重慶市數學領域第一個國家級科研平臺——重慶國家應用數學中心揭牌
    12月11日,重慶國家應用數學中心(以下簡稱「中心」)在渝州賓館舉行揭牌儀式。該中心由重慶師範大學牽頭,聯合北京大學等共16家單位共同建設。該中心是科技部首批支持建設的13個國家應用數學中心之一,也是重慶市數學領域第一個國家級科研平臺。
  • 「中國人腦圖譜研究科創平臺」發布,助力實現科研及臨床大設施自主可控
    近日,中國科學家與企業在此領域的探索也進入了全新階段。9月6日,張江實驗室腦與智能科技研究院與上海聯影醫療科技有限公司聯合發布「中國人腦圖譜研究科創平臺」。這一平檯曆經3年科研攻關,將為科學家繪製腦圖譜,以及建設中國人腦圖譜圖像大資料庫提供關鍵技術支撐並奠定平臺基礎,對推動腦科學研究發展具有長遠影響。
  • 北京醫院「老年病大數據平臺」瞄向京津冀
    北京醫院副院長許鋒在論壇上談到一個備受關注的話題——醫療大數據如何支撐京津冀一體化協同發展。他認為,從目前來看,儘管大數據可以在臨床等方面為醫生提供幫助,但圍繞大數據的安全使用需要儘快立法,從而實現科學管理。 大數據助力各地醫療機構優勢互補 隨著「網際網路+」時代的到來,大數據正深刻改變著人們的思維、生產和生活方式,醫療領域也不能置若罔聞。
  • 顏軍:覆蓋全領域 歐比特致力打造衛星大數據應用平臺
    顏軍表示,歐比特在布局的時候,提供數據服務不是追求,而是要打造一個衛星大數據應用平臺。大家在網上可以看到高光譜中國。綠水青山就是金山銀山,對於各個能想到的應用我們都放到平臺上,覆蓋各個領域的全面應用。大家說為什麼要綠水青山,除了提供數據服務,它取代了過去傳統的技術不能滿足的需求,大區域、大覆蓋。
  • 我國生物醫學成像領域大科學工程項目實現主體結構封頂
    我國生物醫學成像領域大科學工程項目實現主體結構封頂新華社北京12月26日電(記者魏夢佳、田晨旭)記者從北京大學獲悉,由北大作為法人單位建設的「十三五」國家重大科技基礎設施——多模態跨尺度生物醫學成像設施項目26日在北京懷柔科學城實現主體結構封頂。
  • 「首佑醫學科技」以數據為紐帶探索腦疾病領域
    醫院及醫聯體建設大數據中心、遠程診療協作平臺。通過這個數據模型,平臺能從源頭上獲得高質量的精神衛生數據,院方和藥企也可以在科研上實現與國際對接,為未來的國際合作提供便利。 簡單介紹下OMOP通用數據模型:OMOP通用數據模型由全球化組織OHDSI提供,該組織合作者可訪問擁有10億患者的網絡,以生成有關醫療保健各方面的數據。
  • 重慶數學領域首個國家級科研平臺揭牌
    12月11日,重慶國家應用數學中心(以下簡稱「中心」)在渝州賓館舉行揭牌儀式。該中心由重慶師範大學牽頭,聯合北京大學等共16家單位共同建設。該中心是科技部首批支持建設的13個國家應用數學中心之一,也是重慶市數學領域第一個國家級科研平臺。
  • 國家數據科研領域開疆拓土的「將軍」孫九林院士
    」的到來,數據在行業工作及科研領域的作用越來越重要。由於受父輩和兄長們的影響,那時孫九林的夢想是成為指揮千軍萬馬的「將軍」,後來因種種原因沒能實現從軍保家衛國的夢想,就選擇了用科學報國的精神理念作為其人生目標,最終成為「數據科研領域」開疆拓土的「將軍」。
  • 中國生物醫學成像領域大科學工程項目實現主體結構封頂
    (北京大學供圖)新華社北京12月27日電(記者魏夢佳、田晨旭)記者從北京大學獲悉,由北大作為法人單位建設的「十三五」國家重大科技基礎設施——多模態跨尺度生物醫學成像設施項目26日在北京懷柔科學城實現主體結構封頂。據悉,該成像設施是《國家重大科技基礎設施建設「十三五」規劃》確定的10個優先建設項目之一,也是北大歷史上最大的單體建設項目。
  • 翼方健數與中科院上海營養與健康研究所生物醫學大數據中心籤署...
    11月16日,翼方健數(BaseBit.ai)與中科院上海營養與健康研究所生物醫學大數據中心(以下簡稱「中心」)籤署合作協議,雙方將在醫療健康領域展開深度合作。其中,隱私安全計算技術為健康醫療、生物信息、新藥研發等方向提供了數據協作、價值挖掘的重要基礎平臺技術支撐。中心成立於2017年5月,歸屬於中科院計算生物學重點實驗室,是醫療大數據應用技術國家工程實驗室(上海)、國家基因組科學數據中心等機構的參建單位。
  • 中國人腦圖譜研究科創平臺發布 科研及臨床大設施逐步實現自主可控
    近日,中國科學家與企業在此領域的探索也進入了全新階段。  今天,張江實驗室腦與智能科技研究院與上海聯影醫療科技有限公司聯合發布了「中國人腦圖譜研究科創平臺」。這一平臺將為科學家繪製腦圖譜,以及建設中國人腦圖譜圖像大資料庫提供關鍵技術支撐並奠定平臺基礎,對推動腦科學研究發展具有長遠影響。
  • 中國人腦圖譜研究科創平臺發布 科研及臨床大設施逐步實現自主可控
    近日,中國科學家與企業在此領域的探索也進入了全新階段。今天,張江實驗室腦與智能科技研究院與上海聯影醫療科技有限公司聯合發布了「中國人腦圖譜研究科創平臺」。這一平臺將為科學家繪製腦圖譜,以及建設中國人腦圖譜圖像大資料庫提供關鍵技術支撐並奠定平臺基礎,對推動腦科學研究發展具有長遠影響。
  • 醫藥研發領域大數據和人工智慧的應用探討
    人工智慧(AI) 技術應用的重要場景之一是助力藥物研發,相比傳統的藥物研發耗時耗力、成功率低, AI技術的應用 可 大大縮短藥物研發時間、提高研發效率並控制研發成本。近年來,人工智慧技術(AI)與醫療健康領域的融合不斷加深。AI 在醫療領域主要應用場景包括語音錄入病歷、醫療影像輔助診斷、藥物研發、醫療機器人和個人健康大數據的智能分析等。
  • MTT實現醫療大數據在醫療領域的全面應用
    構建醫療數據應用生態體系,MTT實現醫療大數據在醫療領域的全面應用無論是政府、市場還是資本,都紛紛加碼醫療大數據行業,宏觀環境不斷朝著利好方向推進。然而,即便醫療大數據備受關注,不可否認其數據缺乏標準化、交換性數據量大,數據類型複雜,臨床數據管理和整合能力欠缺和大數據高效分析能力欠缺的行業痛點。而區塊鏈的出現有望打破這一僵局,MTT醫療大數據項目的實施,不僅可以解決醫院信息孤島問題,挖掘歷史數據價值、將數據進行分層處理,更可減少資源消耗,實現數據的統一入出管理、實現數據標準統一。
  • 中國首個共建共享胰腺疾病大數據平臺成立
    開幕式現場,中華醫學會外科學分會胰腺外科學組對國內參與「中國胰腺疾病大數據中心」數據共建的38家頂尖三甲醫院,進行了創始成員認證,這也標誌著中國首個多中心、常態化、高質量的共建共享模式的疾病數據平臺正式成立。
  • 梅斯醫訪談:價值為馬,數據為鞭,打造網際網路醫學第一專業平臺
    伴隨流量紅利的退火,優質內容成為網際網路醫學內容運營的核心。如何實現網際網路醫學內容運營的模式升級?傳統 to C 內容如何高效實現 to B 的商業轉化?專業內容運營的速度、溫度和深度如何踐行?今日梅斯醫學旗下網站生物谷訪談梅斯醫學首席醫學創新官黃強 David Huang,希望給大家帶來不一樣的觀點。
  • AI防癌地圖不斷展開 醫學科研發展的速度也越來越快
    目前業務線包括了安防、醫療、AI製藥、AI晶片等,其以自然語言、計算機視覺,語音識別,以及其自主研發的算法,構建了具有自主智慧財產權的醫學語義網絡,腫瘤,肺癌等眾多種多病灶的疾病模型。 近年來,「智慧醫院」火遍業界,如今AI+醫療有望建立重塑臨床流程的智能醫院,並與傳統醫療領域玩家有機結合,實現智能醫療產業化,已進入早篩、診斷、隨訪、科研等領域成為臨床醫師的「第二大腦」。
  • 完善精準醫學核心平臺,開啟分子影像嶄新篇章
    2020年11月28日,由放射影像學、核醫學、超聲醫學、信息化等專業的臨床專家及研究人員多學科醫療團隊組成並融合生物醫藥、人工智慧、大數據、健康產業多個領域的合作交流平臺——廣東省精準醫學應用學會分子影像分會在廣州正式成立,繼學分分子診斷相關的精準檢測分會成立以來,又一精準醫學領域的核心——