健康醫療大數據實踐中的重難點 | 聚焦前沿

2020-12-26 健康界

十多年來,「大數據(Big data)」一詞一直被用來描述可用信息的數量、種類和速度的快速增長,這些信息不僅存在於醫學研究領域,而且幾乎存在於我們生活的各個方面。我們現在有能力快速產生、存儲和分析數據,而僅僅在幾年前,這些數據還需要許多年的時間來整理。然而,「大數據」這個術語的含義已經擴展了,現在不僅指海量數據,還指我們分析和解釋這些數據的能力不斷增強。利用新工具從大量數據中提取有可能推動臨床實踐的信息,從個性化治療和智能藥物設計到人群篩查和電子健康記錄挖掘。儘管新技術預示著巨大的進步,但重大的挑戰依然存在。

技術的進步已經並且將繼續創造出越來越多的能力來對單個樣品進行多重測量。這可能會導致同時進行數百、數千甚至數百萬次測量,通常會結合使用多種技術來同時測量DNA、RNA、蛋白質、代謝功能以及臨床特徵。如果我們的目標是了解疾病的複雜性,那麼我們必須需要理解現在可以快速產生的複雜數據量。大數據方法的發展極大地增強了我們對生物醫學的理解能力。精準醫療可以簡要地定義為一種在正確的時間為正確的患者提供正確治療的方法。隨著大數據方法越來越多地應用,有望幫助我們實現這一理想目標。

01 健康醫療大數據的利用障礙

醫學上的大數據概念並不難掌握:使用大量醫學信息來尋找趨勢或關聯,而在較小的數據集中則無法發現這些趨勢或關聯。那麼,為什麼沒有更廣泛地利用大數據呢?來自患者個人數據的大量醫學信息是否有可能被用來識別新的風險或治療選擇,然後可以在個人層面應用這些新的風險或治療選擇以改善結果?在大多數情況下,醫療系統的數據存儲比較複雜,代表私人深度信息的醫療記錄受到專門保護,不能公開獲取。廣泛地說,主要的障礙存在於獲取數據方面。為了改進將現有數據轉換為新的醫療保健解決方案,需要解決許多方面的問題。這些包括(但不限於)異構數據集的收集和標準化、數據的管理、使用非識別數據的事先知情同意,以及能夠將這些數據提供給醫療保健研究人員以供進一步使用。

02 數據價值與權益

由於任何類型的患者數據都保存在醫療機構中,因此這些數據似乎屬於該機構。但是,這些機構僅充當此數據的保管人。數據是患者的財產,在臨床領域之外訪問和使用該數據需要患者的同意。這就導致了難以對已保存的大量臨床數據的快速利用。儘管回顧性假設驅動的研究可以像處理任何研究一樣對匿名數據進行,但是一旦研究結束,數據就應該被銷毀。對於使用成千上萬個數據點的大數據技術而言,在項目結束時銷毀這些數據的前景與醫學知識的發展背道而馳。因此,患者對存儲和使用其數據的許可同意能產生非常大的能量,允許大數據集的積累,然後允許對這些數據應用假設驅動的研究問題。雖然不使用海量的回顧性數據會讓人感覺浪費,但在醫療領域,新數據積累的速度非常快,因此得到的公認數據要有價值得多。

電子健康記錄(EHR)本質上是一種巨大的資源,因為發達國家的大多數患者都在這種情況下接受治療。每個人縱向收集的信息量驚人,包括實驗室測試結果、診斷、文本和成像。數十年來,已經系統地收集了大量信息,而成本實際上為零。儘管EHR通常用於臨床護理、計費和審計,但它越來越多地被用於大規模取證。基於人群的研究往往是針對疾病的,但是EHR在很大程度上與疾病無關。因此,EHR提供了研究幾乎所有疾病以及風險因素(如遺傳變異)的多效性影響的機會(圖1)。由於EHR最初並不是為生成證據而設計的,因此利用這些數據在數據收集,標準化和管理方面具有一定挑戰。儘管存在研究一系列表型的機會,但EHR中包含的數據通常不像基於隊列研究中所收集的那樣嚴格或完整。然而,這些EHR為涉及大數據的問題提供了潛在的解決方案,包括數據的可靠性和標準化以及EHR表型的準確性。


圖1|利用電子健康記錄進行研究和質量改進

03 數據共享原則

通用數據保護條例(General Data Protection Regulation),簡稱GDPR,是歐盟秉著「顧客優先」的態度出臺的個人數據保護新規。該規定於2016年4月14日出臺,定於2018年5月25日正式投入實施,面向所有收集、處理、儲存、管理歐盟公民個人數據的企業,限制了這些企業收集與處理用戶個人信息的權限,旨在將個人信息的最終控制權交還給用戶本人(圖2)。條例範圍主要包括:(1)重新定義「個人信息」;(2)適用範圍增大;(3)優化數據處理體系;(4)責任共擔;(5)取得用戶批准;(6)保護消費者權益;(7)對於兒童的特殊保護;(8)發現違規後及時通知監管人員;(9)處罰力度增強。詳見:https://gdpr-info.eu/。

圖2|通用數據保護法規(GDPR)

04 數據收集標準

為了進行可靠的驗證,必須確保在訓練隊列中進行的測量與測試集中的測量具有可比性。這聽起來很簡單,但事實並非如此。在過去的二十年中,已經建立了確保從血液和其他新鮮組織中提取的基因組材料(例如DNA)標準化的方法,包括自動化方法。但是,其他樣本(例如來自石蠟包埋的組織的DNA,RNA,蛋白質)對組織的類型和組織處理更為敏感,並且可能不足以進行重複研究。為了使大數據科學發揮作用,關鍵要素之一是強大且可重現的輸入數據。在這方面,最近在嘗試標準化收集這些樣本以生成「組學」數據的方式取得了進展。樣本收集或生成過程中涉及的基本實驗方法對基因組數據集的質量至關重要,但在實踐中,它們往往被忽視。

此外,協調大數據的最大挑戰之一是病例(疾病)和控制(健康)的定義。使用基於共識聲明的嚴格定義可以使不同人群之間的疾病具有可比性。已經有幾個行動標準化表型術語,包括人類表型本體(HPO),Monarch Initiative等。此外,標準診斷代碼(例如SNOMED CT,ICD-10等)提供了可計算機處理的代碼,這些代碼可對醫學術語和診斷進行標準化,並便於不同系統之間的信息交換。因此,基於這些樣本的臨床表型和診斷進行可靠的定義,可以促進病例與對照之間的準確比較。

05 數據可比性

在過去的十年中,包括FASTQ,BAM和VCF文件在內的標準基因組數據格式的開發取得了顯著進展。但是,這樣的標準化是不完整的,並且可能導致不同生物信息學工具的輸入和輸出之間不兼容,或者更糟糕的是導致結果不準確。儘管如此,即使不完善的標準化也允許跨機構將基因組數據共享到匯總資料庫(例如ExAC,GNOMAD)或聯合資料庫(例如Beacon Network)中。這些資料庫可以幫助理解不同種族之間常見的遺傳變異,還可以識別特定種族內獨特的變異。然而,儘管在上遊基因組數據格式方面取得了這些成功,但是在進一步的下遊數據格式方面仍存在關鍵挑戰。這通常會導致分析不一致,並且實際上使用不同的分析流程對同一數據進行重新分析會產生不同的結果。

06 數據管理原則

當這些數據的結構正確,且包含每個欄位的含義(元數據)的詳細說明並且可以與其他數據類型可靠組合時,數據共享才有意義。這些任務通常由數據管理者或數據管理員執行,由於「大數據」的興起,該功能在過去幾年中變得越來越重要。直到2016年前,數據管理者和數據管理員還沒有一套明確的規則來指導他們完成工作。在2016年,《科學數據管理和管理的公平指導原則》(FAIR Guiding Principles for scientific data management and stewardship)發布(圖3)。FAIR代表四個基本原則:可查找性,可訪問性,可操作性和可重利用性,可指導數據產生者和發布者進行數據管理。詳見:https://www.go-fair.org/fair-principles/。


圖3|FAIR原則簡介

07 數據存儲設施

乍一看,醫療機構配備了信息技術。但是,此方法旨在支持臨床環境和計費,但不支持大數據的研究環境。使用大數據分析將需要一個獨特的環境來存儲、處理、組合、整理和分析大量數據。數據倉庫就提供了一個「第三空間」來存儲各種數據。重要的是,數據倉庫允許進行二次處理,以生成更清晰,信息更豐富的數據,如在病理圖像和放射圖像中應用注釋和分段時所見。為了實現這一點,數據倉庫需要提供具有多個軟體應用程式的接口。在倉庫內,研究人員可以收集各種大量的數據,然後可以對其進行各種預處理為應用大數據技術做準備,包括人工智慧和機器學習。

08 數據臨床轉換

將新的大數據技術應用於臨床實踐的一個重大障礙是這些技術在當前臨床工作環境中的定位。當前的臨床實踐將圍繞新的數據驅動技術進行變革。但可能需要足夠的時間來測試新技術,尤其是那些以某種方式替代人為行為並加速臨床過程的技術。值得注意的是,關於臨床轉換方面的基礎研究已經在進行,研究人員已經在整合和分析來自不同人群、不同細胞類型和不同疾病的基因組測序、基因表達譜分析、蛋白質組學和代謝組學分析、電子病歷以及患者報告的健康信息等大量數據,旨在疾病特異的早篩、診斷、治療和預後標誌物。

但是,正如可以產生的數據量呈指數增長一樣,這些數據的複雜性也有所增加。對人類基因組中的所有變異進行測序不再足夠,現在我們可以將它們與轉錄水平、蛋白質水平、代謝產物或功能性和表型性狀聯繫起來。此外,與混合細胞群體的大量分析相比,單細胞數據的重建可能提供對生物學過程更深入的了解。現在已經可以測量單個細胞上同時發生的轉錄組和遺傳學或表觀遺傳修飾。因此,隨著數據量的增加,其複雜性也隨之增加。從一組樣本或部分重複的樣本中整合不同的大數據,已成為方法發展的新前沿。

09 數據結果可重複性

儘管新技術極大地提高了我們生成數據的能力,但舊問題仍然存在。基本的科學宗旨認為,要使結果可靠,就必須具有可重複性。但是,據報導,即使是最高等級的科學論文,實驗結果的重複性也相當低(僅約11%)。隨著數據量和複雜性的增加,這種獨立方法驗證的重要性日益增加。比如,通過分析一個大數據集(通過RNA測序對100名患者/對照組進行100 k基因表達測量)可能會建立一個優秀的模型:使用20個基因的表達就能對疾病患者/非疾病患者進行清晰的分割。這似乎是一項很有用的進展,僅需測量少量基因的表達就可以進行疾病診斷。雖然是令人鼓舞的結果,但在現階段還不可能判斷這種診斷模型是否有用:它的性能只能在那些一開始沒有用於生成模型的樣本上進行評估。因此,為了獲得模型性能的可靠評估,必須需要在一個新的、獨立的數據集中進行重複(圖6)。所以,增強對大數據結果的信心的最好方法(可能是唯一方法)是努力促進結果的透明驗證。


圖6|模型性能評估示意

10 總結

近年來,生物醫學研究領域見證了可用信息的數量、速度和種類激增,這些信息統稱為「大數據」。越來越多的「機器學習」方法允許直接從數據本身直接學習這些模式或趨勢,而不是由依賴於先驗知識的研究人員預先指定的。總之,這些進步令人非常樂觀。根據定義,它們較少依賴先驗知識,因此可以通過簡化派的「系統醫學」方法促進我們對生物學機制的理解。他們還可以識別生物醫學數據中的模式,這些模式可以為臨床生物標誌物的開發提供信息或指示,從而加快實現精準醫學的目標。

相關焦點

  • 聯仁健康董事長:醫療大數據將使健康醫療模式發生改變
    這也彰顯出,未來在公共衛生方面醫療健康大數據、網際網路 醫療、AI智能醫療等將大有作為。為了推動上述事業的發展,2017年開始籌建的聯仁健康醫療大數據科技股份有限公司(以下簡稱:聯仁健康)也加入了這一領域。聯仁健康董事長戴忠表示,國內健康醫療大數據企業經過幾年的發展,已經初步形成了一定的競爭格局。
  • 壹健康與健民集團|聚焦醫療健康領域資源,推動時代醫療健康新發展
    壹健康與健民集團戰略合作正式啟動  整合醫療健康資源,聚焦網際網路醫療發展  隨著中國居民健康意識的逐步提升而隨著網際網路大數據的到來,線上問診、線上諮詢等醫療健康服務模式走向普遍,緩解了中國醫療供需結構和醫療資源失衡等突出問題。  網際網路醫療的發展應用,不僅推動了網際網路服務平臺以及線下藥企的發展,還助力了健康醫療生態的全面升級。近年來,阿里健康、支付寶、壹健康等眾多企業紛紛聚焦網際網路醫療的發展,依靠自身在醫療健康領域的沉澱和優勢,整合協調傳統渠道的優質資源,開啟了全新的健康服務模式。
  • 健康醫療大數據「國家隊」組建!聯仁健康在滬開工
    」的健康醫療大數據產業集團。在上海成立聯仁健康是中國移動深入實施「5G+」計劃,加速技術融合和產業融通,持續深耕重點垂直領域和通用場景,推動5G在醫療行業應用創新的重要探索,也是落實健康中國戰略、推動大數據在醫療衛生領域普及應用、促進保障和改善民生的重要實踐。聯仁健康將聚焦健康醫療大數據、「網際網路+醫療健康」等重點領域,孵化和開發出國際最高標準、行業最高水平、產業最優技術的明星產品,打造共創共贏的新型產業生態圈。
  • 獲山東健康醫療大數據運營授權,北方健康醫療大數據科技有限公司...
    12月5日,第七屆網際網路+健康中國大會上,共建國家健康醫療大數據中心(北方)籤約暨北方健康醫療大數據科技有限公司(以下簡稱「北方公司」)揭牌儀式成功舉行。這標誌著山東健康醫療大數據產業進入全新發展階段,勢將成為山東新舊動能轉換、踐行「健康中國2030」國家戰略新引擎。
  • 深圳市大數據研究院與龍崗區人民醫院健康醫療大數據研究中心正式...
    深圳市大數據研究院與龍崗區人民醫院健康醫療大數據研究中心正式揭牌成立12 月 9 日上午,深圳市大數據研究院與龍崗區人民醫院健康醫療大數據研究中心在香港中文大學(深圳)正式籤約掛牌成立。健康醫療大數據的開放共享、互聯互通,在轉變健康醫療服務模式方面發揮越來越重要的作用。在此背景下,健康醫療大數據建設與醫療實踐相結合應運而生,且有著非常廣闊的發展前景。此次成立的健康醫療大數據研究中心正是這樣一個多方協作的醫療健康大數據孵化平臺。
  • 聚焦醫學前沿 探索醫療服務新模式「華夏院士論壇2020大豐」活動在...
    中國江蘇網10月25日鹽城訊(記者 程光 通訊員 豐軒)10月25日上午,由中國醫療保健國際交流促進會主辦,大豐區人民政府和鹽城市衛生健康委員會承辦的「華夏院士論壇2020大豐」活動在大豐成功舉行。本次論壇以「健康醫學新時代」為主題,中國工程院院士韓德民、顧曉松,中國科學院院士顧東風等業內大咖應邀出席,共話健康醫學新時代,共促健康事業新發展。大豐區委書記薛盛堂在論壇上致歡迎辭。
  • 大健康時代,安美信國際精準再生醫療讓健康變得更簡單
    在這個國民追求大健康的時代下,安美信精準再生醫療已實現量身定製幹預方案。包括精準檢測、精準調理、精準診斷和精準治療,幫助人們認識到未來可能會面臨怎樣的健康風險以及如何進行精準的幹預。北京郵電大學教授康桂霞認為,精準醫療是一個美好的藍圖,通過精準分析和治療可以讓人類健康更有保障,「每個人活100歲都不是夢」。
  • 太湖(馬山)生命與健康論壇即將在無錫召開 聚焦精準醫療
    趙曄介紹,本次論壇由無錫太湖國家旅遊度假區聯合中國醫師協會、中國藥學會、中國醫學裝備協會、中國生物醫學工程學會、北京大學醫學部、江蘇省科學技術協會等全國多家學會、協會共同主辦,以「聚焦精準醫療,服務健康中國」為主題,將圍繞精準預防、精準外科、腫瘤、心血管等多領域進行分享與研討,推進無錫精準醫療創新創業融合快速發展,為專家院士、醫療機構、知名企業搭建一個交流合作平臺
  • 聚焦產學研,健康有益攜「健康大中臺」亮相2020年度智慧醫療學術會議
    12月11-12日,由中國人工智慧學會發起主辦的2020年度智慧醫療學術會議在廣州圓滿落幕。會議圍繞著促進智慧醫療基礎研究、前沿技術和關鍵技術的發展,加速前沿技術在健康醫療領域內的應用而展開。北京康健數位化健康管理研究院、北京健康有益科技有限公司作為AI+健康醫療領域優秀代表受邀出席。同時,健康有益發布了行業內首個「健康大中臺」戰略體系,進一步助力健康大產業的企業變革與破局。 健康有益依託創始人李宇欣女士多年醫學背景及資源的優勢,成立之初便紮根大健康產業,創造性地打造了「AI+健康醫療」的服務模式。
  • 北方健康醫療大數據科技有限公司揭牌儀式成功舉行
    12月5日,共建國家健康醫療大數據中心(北方)籤約暨北方健康醫療大數據科技有限公司(以下簡稱「北方健康」)揭牌儀式成功舉行。這標誌著國家健康醫療大數據中心(北方)以及山東省健康醫療大數據產業進入全新發展階段,勢將成為助力山東新舊動能轉換、踐行「健康中國2030」國家戰略的新引擎。
  • 醫療大數據前途無量,信息企業如何分食這塊「蛋糕」?
    一、健康醫療大數據行業大事 1、健康醫療大數據相關政策頻出 ☆ 《國家健康醫療大數據標準、安全和服務管理辦法(試行)》發布。 二、健康醫療大數據領域的痛難點 由於醫療行業自身的特殊性,健康醫療大數據產業的「話題熱度」始終高於「發展進度」。健康醫療大數據立足於醫療信息化基礎,探索布局相關數據的採集、分析和應用。
  • ...醫療大數據中心(北方)籤約暨北方健康醫療大數據科技有限公司...
    中國山東網-感知山東12月5日訊(記者 馬文文)12月5日,共建國家健康醫療大數據中心(北方)籤約暨北方健康醫療大數據科技有限公司(以下簡稱「北方健康」)揭牌儀式成功舉行。這標誌著國家健康醫療大數據中心(北方)以及山東省健康醫療大數據產業進入全新發展階段,勢將成為助力山東新舊動能轉換、踐行「健康中國2030」國家戰略的新引擎。中國移動楊傑董事長,國家衛健委毛群安司長,山東省孫繼業副省長,濟南市政協雷傑主席等領導共同為北方健康揭牌。
  • 浪潮健康高傳貴:深度拆解健康醫療大數據平臺建設的「三大模板」
    近期,雷鋒網醫健AI掘金志邀請浪潮集團副總裁、浪潮健康董事長兼CEO高傳貴,做客雷鋒網公開課,以「城市健康醫療大數據平臺建設與創新服務」為題,詳細介紹了後疫情時代,浪潮健康在城市級的健康醫療大數據平臺建設的成果與未來規劃。雷鋒網了解到,目前,浪潮健康在濟南、天津、內蒙古等地,均進行了城市健康醫療大數據平臺的建設。
  • 聚焦四大熱點議題暢想智慧醫療未來 OFweek2019中國智慧醫療產業...
    聚焦四大熱點議題暢想智慧醫療未來 OFweek2019中國智慧醫療產業大會成功舉辦 聚焦四大熱點議題暢想智慧醫療未來 OFweek2019中國智慧醫療產業大會成功舉辦 2019-09-17 17:36:00  來源:網際網路
  • 打造健康領域「最強大腦」 ——國家健康醫療大數據中心(北方)實踐...
    走進國家健康醫療大數據中心(北方)綜合展示大廳,實時滾動的藍色大屏信息量豐富,吸引參觀者駐足。電子病歷、健康體檢信息、免疫規劃信息、出生醫學證明、門診數據、住院數據……居民健康全量數據正在這裡快速匯聚。
  • 高起點高質量發展大健康產業 翔安區舉辦醫療大數據健康產業發展...
    1、東風正好 投資翔安正當時昨天上午,在翔安醫療大數據健康產業發展交流會上,中金資本執行總經理韓濤與天億弘方戰略發展中心總裁侯君藝聯手主持健康大數據產業鏈企業合作方式討論環節,全體與會嘉賓圍繞如何推動網際網路+醫療,人工智慧+醫療,大數據+醫療發展的主題,探討如何通過政企攜手共同推動翔安生物醫藥與大健康產業在全國闖出翔安樣板
  • 大數據作用於醫療領域
    近年來,民眾生活水平與追求的不斷提升,使得醫療健康所受到的關注度持續走高。在人工智慧、物聯網等新一代信息技術的加持下,信息化、智能化的智慧醫療加速崛起,醫療大數據價值也日益凸顯。 根據2016年我國印發的《「健康中國2030」規劃綱要》,到2020年,國內醫療大數據規模有望達到8萬億元,2030年再翻一倍,行業前景非常可期。不過在重重阻礙之下,想要將藍海變現並不容易。
  • 健康醫療大數據共享時代 切勿將公眾變成「透明人」
    《「健康中國2030」規劃綱要》中也明確指出,健康醫療大數據是國家重要的基礎性戰略資源,國家將積極促進大數據技術與健康醫療服務的深度融合與應用。然而,在實踐中,因健康醫療大數據的應用造成的個人信息被不當收集、過度利用、甚至洩露的現象屢見不鮮。
  • 【精準醫學】人工智慧+大數據為精準診療賦能,讓前沿醫學普惠大眾
    自2015年起國家多部委機關高頻率出臺多項政策,持續加碼鼓勵醫療大數據、醫療人工智慧等新技術在醫療健康領域的應用以來,大數據與人工智慧在醫學類的應用可謂層出不窮,尤其是在圖像識別、影像診斷等方面都呈現出良好的發展態勢,勢必會對未來醫學模式帶來更大的衝擊和變革。
  • 醫療健康 海歸創業正當時——2020中國醫療健康產業高質量發展論壇...
    有鳳來儀,共話健康中國。11月19日,由歐美同學會(中國留學人員聯誼會)、銀川市人民政府主辦的2020中國醫療健康產業高質量發展論壇在寧夏回族自治區銀川市開幕。「沒有全民健康,就沒有全面小康。」突如其來的新冠肺炎疫情,使得醫療健康產業發展面臨新挑戰,同時也暗藏新機遇。