2020年2月6日訊/生物谷BIOON/---一項大規模的國際努力對來自38個人體組織的2600多個腫瘤基因組進行了多方面研究,從而對癌症的遺傳基礎產生了豐富的見解。
早在2001年對首個人類基因組進行測序後,腫瘤的全面基因組表徵就成為癌症研究人員的一個主要目標。從那時起,測序技術和分析工具取得的進展使得這個研究領域蓬勃發展。在發表在最新一期Nature期刊的6篇論文中,全基因組泛癌分析(Pan-Cancer Analysis of Whole Genomes, PCAWG)聯盟進行了迄今為止最全面、最雄心勃勃的癌症基因組薈萃分析。與以前的研究工作主要集中於癌症基因組的蛋白編碼區域不同,PCAWG聯盟分析了整個基因組。在這6篇Nature論文中,每篇論文都仔細研究了癌症遺傳學的一個重要方面---總之,他們的發現對於理解癌症的完整遺傳複雜性至關重要。
在討論這些分析的影響之前,至關重要的是要強調支持PCAWG聯盟努力的大量數據和複雜的組織框架。該項目涉及一個來自4大洲的744個附屬機構的跨學科科學家小組,該小組必須克服主要的技術、法律和倫理挑戰,才能在保護患者數據的同時進行分布式分析。研究人員分為16個工作組,每個工作組專注於癌症基因組學的不同方面---比如,評估突變的復發或推斷腫瘤的發生。
總體來說,PCAWG聯盟總共對38種腫瘤類型進行了綜合分析。這些研究人員對2658個全癌基因組進行了測序,同時對來自同一癌症患者的相匹配的非癌細胞基因組進行測序。這些數據得到1188個轉錄組---腫瘤中RNA轉錄本的序列和豐度---的補充。
圖片來自Nature, 2020, doi:10.1038/d41586-020-00213-2。
這些研究工作涉及廣泛的質量控制和協調的數據處理,以及對用於檢測突變的計算流程的大規模系統性實驗驗證。使用了許多計算算法和流程,並進行了比較。這需要數百TB的數據,這些數據分布在多個數據中心中,並且很可能需要數百萬個處理小時---所有這些處理都由雲計算實現。值得注意的是,PCAWG聯盟的努力為雲計算如何使得國際合作成為可能並有助於推進數據密集型領域發展提供了一個很好的例子。
第一篇Nature論文概述了PCAWG數據集的廣度和深度。PCAWG聯盟報導平均而言,每個癌症基因組均攜帶4或5個驅動突變,這就為癌細胞提供了選擇性優勢。在研究的腫瘤中,僅5%沒有發現驅動突變。相比之下,許多癌症表現出基因組災難---複雜染色體重排(chromoplexy, 存在於17.8%的腫瘤)和染色體碎裂(chromothripsis , 存在於22.3%的腫瘤)---的特徵,從而導致基因組發生重大的結構變化。
其他5篇Nature論文更詳細地探討了這個數據集的不同方面。比如,在第二篇Nature論文中,Rheinbay等人著手鑑定出非編碼DNA中的遺傳驅動因子。這是一項雄心勃勃的研究工作,這是因為要準確地檢測非編碼區中的突變比編碼區中的突變要困難得多,更不用說評估非編碼區中的突變。這些作者使用仔細的建模來排除偽影(artefacts),並系統地識別非編碼驅動突變。
他們的結果使得以前報導的非編碼驅動因子(比如長鏈非編碼RNA NEAT1和MALAT1)受到質疑,但也揭示了新的非編碼驅動因子。比如,這些作者報導了至關重要的腫瘤抑制基因TP53非編碼區中發生的復發突變。他們還發現端粒酶基因TERT的非編碼區中相對頻繁發生的突變導致端粒酶的過度表達(這有助於腫瘤細胞不受控制地分裂),這與以前的一項針對晚期(轉移性)腫瘤的泛癌研究中發現的較高端粒酶突變發生率(12%)相一致。儘管該研究不能排除存在其他非編碼驅動因子,但它明確地表明這種類型的突變並不常見。
在第三篇和第四篇Nature論文中,Alexandrov等人和Li等人著重研究了稱為標籤(signature,也譯為籤名,指的是獨特性的DNA序列或單核苷酸位點)的基因組畸變(genomic aberrations)。不同的過程,比如缺陷性的DNA修復機制,或者暴露於環境誘變劑,會產生特徵性的DNA畸變模式。如果我們要完善已知的突變標籤並發現新的突變標籤,那麼更大規模的基因組數據集至關重要。令人印象深刻的是,Alexandrov等人和Li等人鑑定出97個標籤序列。他們對先前研究工作的擴展不僅包括常規的單核苷酸標籤,而且還包括涉及多核苷酸變異(multi-nucleotide variant)、小片段DNA插入或缺失的標籤。
值得注意的是,Li及其同事們是最早發現涉及結構變異(structural variant)---基因組的大部分發生重排---的可重現標籤的人之一。由於結構變異的多樣性和複雜性,識別結構變異的過程比識別突變標籤的過程更為複雜。
通過一系列的突變分組(mutation-subgrouping)步驟,這些研究人員確定了16個結構變異標籤,比如揭示了兩個結構變異標籤---缺失和相互倒位(reciprocal inversion)---之間存在推定的機理聯繫。他們還了解所有16個標籤在癌症中的作用。某些DNA修復基因中的突變顯示與特徵性的癌症標籤相關。比如,PCAWG聯盟發現基因CDK12中的突變與重複DNA的串聯片段相關,並且DNA修復酶MBD4的截短變異與涉及稱為CpG位點的DNA序列的獨特突變標籤同時出現。總而言之,這些新的標籤為理解癌症產生機制以及誘變暴露在這個過程中的作用奠定了基礎。
1976年,科學家們首次提出了癌症通過進化過程產生的想法。此後,人們就根據隨機突變和自然選擇來描述癌症進化。具有賦予高適應性的突變的癌細胞迅速增殖,成為細胞群體中最突出的細胞克隆。這種現象稱為克隆清除(clonal sweep),在癌症生長過程中反覆出現。通過隨時間推移對多個區域進行測序,可以最有效地研究癌症進化,但是也可以通過一次活檢來重建癌症進化---這是Gerstung等人在第五篇Nature論文中採用的方法。
這些作者引入了「分子時間(molecular time)」的概念,以對克隆和亞克隆突變進行分類。他們認為,僅存在於一部分腫瘤細胞中的亞克隆突變一定是在癌症進化的晚期才出現的。他們將存在於所有腫瘤細胞中的克隆突變歸類為早期克隆突變或晚期克隆突變,這取決於克隆突變是在克隆經歷拷貝數增加(copy-number gain, 一個基因或染色體區域的拷貝數增加)之前或之後發生的。這些研究人員匯總了來自多種腫瘤的進化數據,這使得他們能夠確定常見的突變軌跡,比如描述了結直腸癌中突變出現的典型順序的APC-KRAS-TP53進展。
Gerstung等人發現,在給定癌症中最常見的驅動突變也往往最早出現。同樣,如果在某種特定的癌症類型中拷貝數增加非常頻繁地出現,那麼它們往往會較早發生。比如,在透明細胞腎癌中,一部分染色體中的拷貝數增加很常見,傾向於在這種疾病產生的早期出現。相反,全基因組重複(whole-genome duplication)是這種癌症中相對較晚的事件。最後,這些研究人員發現至少40%的腫瘤中的突變標籤會隨時間變化。這些變化反映了環境暴露在疾病進展中的作用逐漸減弱,以及DNA修復缺陷的發生頻率和嚴重性增加。總體而言,他們的研究結果表明,驅動突變可以在癌症確診之前數年發生,這對癌症的早期發現和生物標誌物開發具有重要意義。
在最後一篇Nature論文中,PCAWG轉錄組核心小組(PCAWG Transcriptome Core Group)及其同事們利用了具有匹配轉錄組數據的1188個PCAWG樣本,將DNA和RNA的改變功能性地聯繫在一起。該小組發現數百個單核苷酸DNA突變與附近基因的表達之間存在關聯。然而,更大的拷貝數變化是癌細胞中基因表達變化的主要驅動力。突變也與RNA轉錄本結構的變化有關,比如在非編碼區(內含子)中形成新的蛋白編碼區(外顯子)。
這些作者還描述了橋接融合(bridged fusion)---由於第三個DNA片段的插入將兩個基因融合在一起---的發生頻率。最終,儘管在分析的1188個樣本中有87個在DNA水平上沒有發生驅動改變,但是該小組發現每個樣本都具有RNA水平的改變。總之,這些見解說明了將RNA和DNA測序分析整合在一起在癌症研究中的強大作用。
這六篇Nature論文以及在Nature Genetics期刊上發表的5篇論文、在Nature Biotechnology期刊上發表的1篇論文、在Communications Biology期刊上發表的1篇論文、在Nature Communications期刊上發表的8篇論文(go.nature.com/3boajsm)代表了癌症和雲基因組學(cloud genomics)的一個裡程碑。
通過專注於推論,PCAWG聯盟成功地擴展了十年來主要基於觀察的癌症測序研究。值得注意的是,儘管與描述性研究相比,推理性分析對癌症的了解更深,但是它們的結果也具有更高的不確定性。
PCAWG數據集的廣泛可用性和質量幾乎可以肯定會激發一系列生物學見解和方法學發展。與其他功能性基因組數據集整合(比如,探查三維基因組結構)在一起無疑也將提供對遺傳畸變的原因和後果的進一步理解。
當前研究的最大局限性是缺乏有關患者預後和治療的臨床數據。這樣的數據將使得研究人員能夠確定可預測臨床結果的遺傳變化。幸運的是,一個名為國際癌症基因組聯盟-加速基因組腫瘤學研究(ICGC-ARGO)的項目正在進行中,該項目將為100000多名癌症患者構建這樣的資源。
最終,PCAWG聯盟召集了成千上萬的科學家,共同努力實現它的目標。這些努力的長期影響將不僅限於今天發表的研究結果,而且還包括將來自這個全球研究人員聯盟成員之間已經形成的合作以及已經進行的知識交流。(生物谷 Bioon.com)
參考資料:1.Peter J. Campbell et al. Pan-cancer analysis of whole genomes. Nature, 2020, doi:10.1038/s41586-020-1969-6.