十多年來,「大數據(Big data)」一詞一直被用來描述可用信息的數量、種類和速度的快速增長,這些信息不僅存在於醫學研究領域,而且幾乎存在於我們生活的各個方面。我們現在有能力快速產生、存儲和分析數據,而僅僅在幾年前,這些數據還需要許多年的時間來整理。然而,「大數據」這個術語的含義已經擴展了,現在不僅指海量數據,還指我們分析和解釋這些數據的能力不斷增強。利用新工具從大量數據中提取有可能推動臨床實踐的信息,從個性化治療和智能藥物設計到人群篩查和電子健康記錄挖掘。儘管新技術預示著巨大的進步,但重大的挑戰依然存在。
技術的進步已經並且將繼續創造出越來越多的能力來對單個樣品進行多重測量。這可能會導致同時進行數百、數千甚至數百萬次測量,通常會結合使用多種技術來同時測量DNA、RNA、蛋白質、代謝功能以及臨床特徵。如果我們的目標是了解疾病的複雜性,那麼我們必須需要理解現在可以快速產生的複雜數據量。大數據方法的發展極大地增強了我們對生物醫學的理解能力。精準醫療可以簡要地定義為一種在正確的時間為正確的患者提供正確治療的方法。隨著大數據方法越來越多地應用,有望幫助我們實現這一理想目標。
01 健康醫療大數據的利用障礙
醫學上的大數據概念並不難掌握:使用大量醫學信息來尋找趨勢或關聯,而在較小的數據集中則無法發現這些趨勢或關聯。那麼,為什麼沒有更廣泛地利用大數據呢?來自患者個人數據的大量醫學信息是否有可能被用來識別新的風險或治療選擇,然後可以在個人層面應用這些新的風險或治療選擇以改善結果?在大多數情況下,醫療系統的數據存儲比較複雜,代表私人深度信息的醫療記錄受到專門保護,不能公開獲取。廣泛地說,主要的障礙存在於獲取數據方面。為了改進將現有數據轉換為新的醫療保健解決方案,需要解決許多方面的問題。這些包括(但不限於)異構數據集的收集和標準化、數據的管理、使用非識別數據的事先知情同意,以及能夠將這些數據提供給醫療保健研究人員以供進一步使用。
02 數據價值與權益
由於任何類型的患者數據都保存在醫療機構中,因此這些數據似乎屬於該機構。但是,這些機構僅充當此數據的保管人。數據是患者的財產,在臨床領域之外訪問和使用該數據需要患者的同意。這就導致了難以對已保存的大量臨床數據的快速利用。儘管回顧性假設驅動的研究可以像處理任何研究一樣對匿名數據進行,但是一旦研究結束,數據就應該被銷毀。對於使用成千上萬個數據點的大數據技術而言,在項目結束時銷毀這些數據的前景與醫學知識的發展背道而馳。因此,患者對存儲和使用其數據的許可同意能產生非常大的能量,允許大數據集的積累,然後允許對這些數據應用假設驅動的研究問題。雖然不使用海量的回顧性數據會讓人感覺浪費,但在醫療領域,新數據積累的速度非常快,因此得到的公認數據要有價值得多。
電子健康記錄(EHR)本質上是一種巨大的資源,因為發達國家的大多數患者都在這種情況下接受治療。每個人縱向收集的信息量驚人,包括實驗室測試結果、診斷、文本和成像。數十年來,已經系統地收集了大量信息,而成本實際上為零。儘管EHR通常用於臨床護理、計費和審計,但它越來越多地被用於大規模取證。基於人群的研究往往是針對疾病的,但是EHR在很大程度上與疾病無關。因此,EHR提供了研究幾乎所有疾病以及風險因素(如遺傳變異)的多效性影響的機會(圖1)。由於EHR最初並不是為生成證據而設計的,因此利用這些數據在數據收集,標準化和管理方面具有一定挑戰。儘管存在研究一系列表型的機會,但EHR中包含的數據通常不像基於隊列研究中所收集的那樣嚴格或完整。然而,這些EHR為涉及大數據的問題提供了潛在的解決方案,包括數據的可靠性和標準化以及EHR表型的準確性。
圖1|利用電子健康記錄進行研究和質量改進
03 數據共享原則
通用數據保護條例(General Data Protection Regulation),簡稱GDPR,是歐盟秉著「顧客優先」的態度出臺的個人數據保護新規。該規定於2016年4月14日出臺,定於2018年5月25日正式投入實施,面向所有收集、處理、儲存、管理歐盟公民個人數據的企業,限制了這些企業收集與處理用戶個人信息的權限,旨在將個人信息的最終控制權交還給用戶本人(圖2)。條例範圍主要包括:(1)重新定義「個人信息」;(2)適用範圍增大;(3)優化數據處理體系;(4)責任共擔;(5)取得用戶批准;(6)保護消費者權益;(7)對於兒童的特殊保護;(8)發現違規後及時通知監管人員;(9)處罰力度增強。詳見:https://gdpr-info.eu/。
圖2|通用數據保護法規(GDPR)
04 數據收集標準
為了進行可靠的驗證,必須確保在訓練隊列中進行的測量與測試集中的測量具有可比性。這聽起來很簡單,但事實並非如此。在過去的二十年中,已經建立了確保從血液和其他新鮮組織中提取的基因組材料(例如DNA)標準化的方法,包括自動化方法。但是,其他樣本(例如來自石蠟包埋的組織的DNA,RNA,蛋白質)對組織的類型和組織處理更為敏感,並且可能不足以進行重複研究。為了使大數據科學發揮作用,關鍵要素之一是強大且可重現的輸入數據。在這方面,最近在嘗試標準化收集這些樣本以生成「組學」數據的方式取得了進展。樣本收集或生成過程中涉及的基本實驗方法對基因組數據集的質量至關重要,但在實踐中,它們往往被忽視。
此外,協調大數據的最大挑戰之一是病例(疾病)和控制(健康)的定義。使用基於共識聲明的嚴格定義可以使不同人群之間的疾病具有可比性。已經有幾個行動標準化表型術語,包括人類表型本體(HPO),Monarch Initiative等。此外,標準診斷代碼(例如SNOMED CT,ICD-10等)提供了可計算機處理的代碼,這些代碼可對醫學術語和診斷進行標準化,並便於不同系統之間的信息交換。因此,基於這些樣本的臨床表型和診斷進行可靠的定義,可以促進病例與對照之間的準確比較。
05 數據可比性
在過去的十年中,包括FASTQ,BAM和VCF文件在內的標準基因組數據格式的開發取得了顯著進展。但是,這樣的標準化是不完整的,並且可能導致不同生物信息學工具的輸入和輸出之間不兼容,或者更糟糕的是導致結果不準確。儘管如此,即使不完善的標準化也允許跨機構將基因組數據共享到匯總資料庫(例如ExAC,GNOMAD)或聯合資料庫(例如Beacon Network)中。這些資料庫可以幫助理解不同種族之間常見的遺傳變異,還可以識別特定種族內獨特的變異。然而,儘管在上遊基因組數據格式方面取得了這些成功,但是在進一步的下遊數據格式方面仍存在關鍵挑戰。這通常會導致分析不一致,並且實際上使用不同的分析流程對同一數據進行重新分析會產生不同的結果。
06 數據管理原則
當這些數據的結構正確,且包含每個欄位的含義(元數據)的詳細說明並且可以與其他數據類型可靠組合時,數據共享才有意義。這些任務通常由數據管理者或數據管理員執行,由於「大數據」的興起,該功能在過去幾年中變得越來越重要。直到2016年前,數據管理者和數據管理員還沒有一套明確的規則來指導他們完成工作。在2016年,《科學數據管理和管理的公平指導原則》(FAIR Guiding Principles for scientific data management and stewardship)發布(圖3)。FAIR代表四個基本原則:可查找性,可訪問性,可操作性和可重利用性,可指導數據產生者和發布者進行數據管理。詳見:https://www.go-fair.org/fair-principles/。
圖3|FAIR原則簡介
07 數據存儲設施
乍一看,醫療機構配備了信息技術。但是,此方法旨在支持臨床環境和計費,但不支持大數據的研究環境。使用大數據分析將需要一個獨特的環境來存儲、處理、組合、整理和分析大量數據。數據倉庫就提供了一個「第三空間」來存儲各種數據。重要的是,數據倉庫允許進行二次處理,以生成更清晰,信息更豐富的數據,如在病理圖像和放射圖像中應用注釋和分段時所見。為了實現這一點,數據倉庫需要提供具有多個軟體應用程式的接口。在倉庫內,研究人員可以收集各種大量的數據,然後可以對其進行各種預處理為應用大數據技術做準備,包括人工智慧和機器學習。
08 數據臨床轉換
將新的大數據技術應用於臨床實踐的一個重大障礙是這些技術在當前臨床工作環境中的定位。當前的臨床實踐將圍繞新的數據驅動技術進行變革。但可能需要足夠的時間來測試新技術,尤其是那些以某種方式替代人為行為並加速臨床過程的技術。值得注意的是,關於臨床轉換方面的基礎研究已經在進行,研究人員已經在整合和分析來自不同人群、不同細胞類型和不同疾病的基因組測序、基因表達譜分析、蛋白質組學和代謝組學分析、電子病歷以及患者報告的健康信息等大量數據,旨在疾病特異的早篩、診斷、治療和預後標誌物。
但是,正如可以產生的數據量呈指數增長一樣,這些數據的複雜性也有所增加。對人類基因組中的所有變異進行測序不再足夠,現在我們可以將它們與轉錄水平、蛋白質水平、代謝產物或功能性和表型性狀聯繫起來。此外,與混合細胞群體的大量分析相比,單細胞數據的重建可能提供對生物學過程更深入的了解。現在已經可以測量單個細胞上同時發生的轉錄組和遺傳學或表觀遺傳修飾。因此,隨著數據量的增加,其複雜性也隨之增加。從一組樣本或部分重複的樣本中整合不同的大數據,已成為方法發展的新前沿。
09 數據結果可重複性
儘管新技術極大地提高了我們生成數據的能力,但舊問題仍然存在。基本的科學宗旨認為,要使結果可靠,就必須具有可重複性。但是,據報導,即使是最高等級的科學論文,實驗結果的重複性也相當低(僅約11%)。隨著數據量和複雜性的增加,這種獨立方法驗證的重要性日益增加。比如,通過分析一個大數據集(通過RNA測序對100名患者/對照組進行100 k基因表達測量)可能會建立一個優秀的模型:使用20個基因的表達就能對疾病患者/非疾病患者進行清晰的分割。這似乎是一項很有用的進展,僅需測量少量基因的表達就可以進行疾病診斷。雖然是令人鼓舞的結果,但在現階段還不可能判斷這種診斷模型是否有用:它的性能只能在那些一開始沒有用於生成模型的樣本上進行評估。因此,為了獲得模型性能的可靠評估,必須需要在一個新的、獨立的數據集中進行重複(圖6)。所以,增強對大數據結果的信心的最好方法(可能是唯一方法)是努力促進結果的透明驗證。
圖6|模型性能評估示意
10 總結
近年來,生物醫學研究領域見證了可用信息的數量、速度和種類激增,這些信息統稱為「大數據」。越來越多的「機器學習」方法允許直接從數據本身直接學習這些模式或趨勢,而不是由依賴於先驗知識的研究人員預先指定的。總之,這些進步令人非常樂觀。根據定義,它們較少依賴先驗知識,因此可以通過簡化派的「系統醫學」方法促進我們對生物學機制的理解。他們還可以識別生物醫學數據中的模式,這些模式可以為臨床生物標誌物的開發提供信息或指示,從而加快實現精準醫學的目標。