小夥伴們大家好,今天帶給大家一篇高大上的純生信文章,2020年2月發表在Nature子刊上,影響因子12.121,題目為「Pathway and network analysis of more than 2500 whole cancer genomes」。是一篇基於原發腫瘤的WGS數據整合分析——PCAWG計劃的文章,大家也不必上來就對這種高端的整合分析望而生畏,即便是10分+的生信文章同樣有套路,而且類似的文章在這個團隊的成果種也是一發一大把。掌握其中一點精髓就夠我們這些科研界的小朋(菜)友(雞)填飽肚子了。
早在2013年,大家超級熟悉的TCGA的Pan-Cancer資料庫就系統性的規劃好了。因為TCGA計劃涉及到數據類型比較多,僅僅是DNA層面就有WGS,WES,SNP6.0晶片的數據,在收錄的一萬多樣本種有WGS數據的有兩千多個,PCAWG計劃就。是整合這其中所有的WGS數據結果。下面我們就來分析一下這篇10分+純生信文章的研究套路吧,帶大家發現即便是10分+生信文章也逃不過酸菜校長總結的「挑、圈、聯、靠」四字訣!
研究背景
有一些觀點認為癌症發生的根本原因是基因突變。從表現形式上來講是腫瘤細胞不可控制的增長,主要是腫瘤驅動基因突變導致,這些基因發生突變後,特別是某些基因發生重大突變,腫瘤的發生可能就成為了一種必然。絕大多數已知的驅動突變影響蛋白質編碼區域。
但在許多癌症中,相當比例的患者在蛋白質編碼區沒有已知的驅動突變,這表明另有一部分驅動突變仍未被發現。因此,探索更多蛋白質編碼基因的癌症驅動突變成了當代腫瘤診療的硬性需求。目前蛋白質編碼基因的癌症驅動突變已經研究的很充分了。然而,對非編碼癌症驅動突變的研究尚待開發,只有少數復發性非編碼突變,最顯著的是TERT啟動子突變。
PCAWG,是全基因組泛癌分析(Pan-Cancer Analysis of Whole Genomes)的簡稱。
與以前主要集中於癌症基因組的蛋白編碼區域的研究不同,PCAWG聯盟總共針對38個癌種,綜合分析了整個基因組,是迄今為止最全面的癌症基因組薈萃分析。這項研究有6篇Nature及十餘篇Nature子刊支撐,分別對PCAWG數據集的廣度和深度進行了詳細的探討。2019年10月,發表於《Nature》上的文章《Pan-cancer whole-genome analyses of metastatic solid tumours》,描述了目前已知的最大的轉移性實體瘤基因組的泛癌種研究。分析了2520對腫瘤和正常組織的全基因組測序數據,平均測序深度分別為106X和38X,共鑑定出7000萬個體細胞突變。
據報導所論述,每個癌症基因組均攜帶4或5個驅動突變,這為腫瘤細胞提供了選擇性優勢。在所研究的38類腫瘤中,僅5%沒有發現驅動突變。相比之下,許多癌種表現出複雜的染色體重排、碎裂等特徵,從而導致基因組發生重大的結構變化。
研究成果包括揭示了新的非編碼驅動因子,如抑癌基因TP53非編碼區中發生的復發突變;端粒酶基因TERT的非編碼區中相對頻繁發生的突變導致端粒酶的過度表達;完善已知的突變標籤並發現新的突變標籤等等。有興趣的小夥伴可以自行學習,文末會提供給大家這項研究相關的所有文章,是所有哦~(●&39;●)
研究思路與結果概述
話不多說,我們來看看今天的範文講述了一個怎樣的Story,又得到了什麼樣的創新結果呢?
先來帶大家了解一下整體的思路框架,這樣更有助於我們理解數據圖表。
本篇範文中,作者通過PCAWG對ICGC / TCGA Pan-Cancer的全基因組測序數據進行多方面的通路及網絡分析非蛋白編碼基因的突變。作者團隊對27種腫瘤類型的2583個腫瘤的編碼和非編碼體細胞突變進行了通路和網絡分析,並在38個癌種中進行多方面的途徑和網絡分析。從中確定了93個包含非編碼突變的基因,這些基因聚集成幾個相互作用蛋白模塊。其中啟動子突變與TP53、TLE4和TCF4 mRNA表達降低有關。
並且作者團隊還發現,生物過程中編碼和非編碼突變的比例是可變的,染色質重塑和增殖途徑主要是編碼突變引起的。而發育途徑,包括Wnt和Notch,則是編碼和非編碼突變引起的。RNA剪接主要是由非編碼突變引起的,含有已知RNA剪接因子非編碼突變的樣本與含有編碼突變的樣本具有相似的基因表達特徵。這些分析結果提供了一些可能存在的新癌症基因及機制,為腫瘤非編碼突變的臨床意義提供了新思路,提示了能夠進一步研究探索的潛在機制和療法。
數據解讀
接下來,我帶大家逐步分析範文中的數據圖表,深入領悟癌症編碼與非編碼基因組驅動突變的內涵。
「挑」——篩選有統計學意義的蛋白編碼驅動基因
作者通過PCAWG驅動因素和功能注釋工作組分析了單一蛋白編碼和非編碼元件的泛癌症驅動因素p值,包括外顯子、啟動子、未翻譯區(5 &39; UTR)和增強子。該分析使用16種驅動研究方法進行預測,根據正向選擇、突變的功能影響、區域突變率、突變過程和籤名的不同方法,整合得到編碼和非編碼元素的一致驅動p值。根據這個p值在泛癌隊列的蛋白編碼驅動因子中篩選了75個基因以及另外7個基因在近顯著水平(0.1≤FDR < 0.25)被觀察到。驅動基因很少發生高度突變,而很多基因在癌症類型中發生罕見突變。並且觀察到顯著突變的編碼和/或非編碼元素之間存在大量的相互作用,這表明通路和網絡方法可能有助於優先處理單元素分析中不顯著的罕見驅動事件。
Fig.1展示了通路和網絡分析的流程圖。利用多個通路/基因片段的資料庫定義了一種非編碼增值(NCVA)程序來確定那些非編碼得分對編碼和非編碼分析結果有顯著影響的基因,其中NCVA的結果增強了非編碼數據的結果。並最終定義了一個共識程序,以結合重要的路徑和網絡識別這七個算法。編碼變異的87個通路牽連驅動基因(PID-C)是大多數(≥4/7)編碼數據方法報導的基因集合。93個具有非編碼變異的通路牽連驅動基因(PID-N)是大多數方法在非編碼數據或NCVA結果中報導的一組基因。只有5個基因(CTNNB1, DDX3X, SF3B1, TGFBR2, and TP53)同時是PID-C和PID-N基因。
▲ Fig.1
「圈」、「聯」——交互作用及相關性分析
1.潛在驅動突變的通路和網絡分析
接下來,作者就對潛在的驅動突變進行通路和網絡分析。他們同時使用了兩種通路算法:ActivePathways和一種超幾何分析算法——Vazquez;以及五種網絡方法:CanIsoNet、Hierarchical HotNet、誘導子網絡分析、NBDI22和SSA-ME23。利用以上途徑和網絡資料庫,作者對GS-C、GS-N和GS-CN基因評分運行每種方法,確定了三個相應的基因列表。每種方法對其結果在每個數據集上的統計顯著性進行評估。
作者通過網絡互作分析觀察到顯著突變的編碼和/或非編碼元素之間存在大量交互,這表明通路和網絡方法可能有助於優先處理單一元素分析中不顯著的罕見驅動事件。這也是這篇研究文獻的意義所在。
在具體的通路和驅動分析,以確定驅動基因在長尾的驅動p值編碼和非編碼突變中,僅使用編碼突變可以識別出87個帶有編碼變異的通路牽連驅動基因(PID-C基因),其中包括68個以前被COSMIC 癌症基因普查(CGC)資料庫編目的癌症基因。並且其中的31個基因在PCAWG分析中無統計學意義。說明以上網絡分析可以篩選到具有罕見突變的基因,即那些在「長尾」分布的,可能是驅動基因。作者還發現根據CGC資料庫對比,這31個FDR > 0.1的基因中有13個是已知的驅動因素。與非PID-C基因相比,PID-C基因的編碼基因得分明顯較高。
▲ Fig.2a
▲ Fig.2c
僅使用非編碼突變,作者確定了62個基因,發現編碼突變中較強的信號在編碼和非編碼突變中佔主導地位。因為非編碼突變檢測的敏感性較差,作者團隊設計了一種「非編碼增值」(NCVA)程序。該程序詢問了編碼突變是否增強潛在非編碼驅動基因的發現率,而非只有非編碼突變時才被檢測到。於是又識別了另外31個基因,與62個單基因非編碼突變合併後得到93個帶有非編碼突變的通路牽連驅動基因(PID-N)。包括了19個先前根據COSMIC癌症基因普查(CGC)資料庫確定的癌症基因,顯著高於預期的基因。在排除PCAWG分析中具有個體顯著非編碼元件的8個基因,19個基因同時為PID-N基因和CGC基因,顯著富集於預期的基因。
這表明,非編碼突變可能會改變某些樣本的基因,使其具有周期性編碼或結構變異。PID-N基因的非編碼基因得分顯著高於非PID-N基因。絕大多數PID-N基因與PCAWG驅動因素和功能解釋工作組分析不同(圖2b),只有三個基因相同:TERT, HES1和TOB1。在這三個基因中,只有TERT在CGC資料庫中被記錄為已知的癌症基因。因此,作者對通路和網絡分析的共識程序顯著增強了PCAWG驅動因素和功能解釋工作組結果中的顯著突變因素。
▲ Fig.2b
▲ Fig.2d
總的來說,PID-C和PID-N基因在PCAWG驅動因素和功能解釋工作組分析中發現了另外121個基因,包括90個新的可能的非編碼驅動因素。此外,絕大多數PID-N基因與PID-C基因不同,僅有5個基因相同:CTNNB1、DDX3X、SF3B1、TGFBR2、TP53。雖然這表明編碼和非編碼驅動突變發生在很大程度上不同的癌症基因集合中,但這兩種類型的突變影響著許多相同的標誌性癌症進程背後的基因。
2.非編碼突變對基因表達的影響
非編碼突變可能通過改變轉錄因子結合位點或其他類型的調控位點發揮作用。
因此,作者評估了PID-N基因的非編碼突變是否與同一基因的cis表達變化有關。我們發現,在可以利用RNA-Seq數據檢測的90個PID-N基因中,有5個(FDR < 0.3)的cis表達相關性顯著(圖3)。發現其他四個PID-N基因:TP53、TLE4、TCF4和DUSP22的cis表達相關性顯著(圖3、補充圖10)。
▲ Fig.3
接下來,作者對6種不同腫瘤類型的TP53啟動子突變的6個腫瘤進行分析,TP53表達明顯降低(圖3a)。TP53啟動子甲基化和表達之間的聯繫之前已經被研究過,突變樣本的減少表達與TP53作為腫瘤抑制基因的眾所周知的作用是一致的。PCAWG驅動因素和功能解釋的研究也描述了一致的表達變化。TLE4是一種轉錄輔助抑制因子,在三個具有TLE4啟動子突變的肝-肝癌腫瘤中分析,TLE4表達明顯減少(圖3b)。在三個TCF4啟動子突變的肺鱗癌中,TCF4顯著低表達(圖3c)。DUSP22編碼一種磷酸酶信號蛋白,最近被認為是淋巴細胞中的腫瘤抑制因子,DUSP22表達同樣顯著降低。在5例肺腺瘤患者中,存在DUSP22 3′UTR突變且明顯過表達;在三個肺腺瘤患者中存在DUSP22 5 ' UTR突變,然而這些UTR突變是相互排斥的。
雖然這些基因表達相關性為一類PID-N基因提供支持,但突變的變異等位基因頻率和基因的拷貝數是基因表達的附加協變量。這些協變量在作者發現的相關性中沒有發揮作用,拷貝數的變化不影響上述五個PID- N基因的表達相關性。
此外,出現相關基因表達變化的PID-N基因數量少,可以解釋為PID-N基因突變的樣本數量少,表達數據在不同腫瘤類型間的可用性不均勻,以及啟動子區域的序列覆蓋率降低等。這些問題進一步減少了非編碼突變和RNA表達的樣本數量,限制了cis基因表達相關性分析的能力。
3.編碼和非編碼突變的模塊化
在確定了編碼突變、非編碼突變或兩種突變組合改變的特定蛋白質-蛋白質互作亞網絡和生物通路後。作者又發現PID-C基因間的交互作用顯著增加,以及PID-C和PID-N基因間的互作顯著增加。
證明了物理層面的蛋白-蛋白互作網絡中編碼和非編碼突變之間的相互作用。涉及PI-C和PI-N基因的互作子網絡組織為五個生物學過程:核心驅動、染色質組織、細胞增殖、發育和RNA剪接(圖4a)。
▲ Fig.4a
由於PID-C和PID-N基因之間的分子相互作用被用作通路和網絡方法的信號,因此作者預計PID-C和PID-N基因之間的分子相互作用頻率較高,這些相互作用的組織說明了單個子網絡中編碼和非編碼突變的相對貢獻。接下來作者使用g:Profiler web server進一步表徵了PID-C和PID-N中富集的分子通路。並將模塊和PID基因分成四個生物過程:染色質組織、細胞增殖、發育和RNA剪接(圖4b).、
▲ Fig.4b
同樣,模式規範過程也受到編碼和非編碼突變的影響,包括PI-N基因ASCL1、SUFU和RELN以及PI-C基因ATM和SMAD4。在這些情況下,非編碼突變補充了破壞這些通路的編碼突變,覆蓋了更多的患者。並且作者驚喜的發現RNA剪接途徑主要受到非編碼突變的影響。根據PCAWG驅動程序的單一元素測試和功能解釋工作組分析,這些PI-N基因均未發生顯著突變。由於進一步的分析中沒有發現剪接相關的PI-N基因非編碼突變和表達改變之間存在顯著的順式關聯,因此作者繼續探索這些基因非編碼突變和其他基因表達之間的潛在反式效應。最終確定了三個集群的RNA剪接基因突變(C1, C2, C3;圖5a, b)使用跨這些途徑的差異表達模式的分級聚類。
(公眾號解螺旋服務號免費醫學科研直播,後臺回復「直播」免費領資源觀看)
除了上述模塊,我們還發現轉錄因子在PI-C和PI-N基因中都有很好的表達。共有9個PI-C基因是轉錄因子(ARHGAP35、ARID2、FOXA1、GATA3、NFE2L2、SMAD4、SOX9、TCF7L2、TP53);19個PI-N基因為轉錄因子(ASCL1、BHLHE40、ESRRG、HES1、HNF1A、HNF1B、HOXA10、HOXB5、KLF4、MEF2C、MYC、NFE2、NR2F1、SOX2、SOX4、TCF4、TP53、ZNF521、ZNF595;FDR= 4.1×10−20)。
這一觀察結果表明,非編碼突變可能影響轉錄調控網絡。
▲ Fig.5a
▲ Fig.5b
全文思路總結
範文提出了一種綜合途徑和網絡分析,將可能發生非編碼驅動突變的基因列表擴展為很少突變的元素的「長尾」,而單一元素分析並不顯著。通過對非編碼突變數據的單一元素測試,90個PI-N基因在統計學上不顯著(FDR > 0.1),而這些基因是未來實驗表徵的關鍵候選基因。並發現其中TP53、TLE4、TCF4啟動子突變與這些基因表達降低有關。隨後的通路分析中,作者又發現了多個基因的非編碼突變,這些突變的樣本表現出的基因表達特徵與編碼突變剪接因子樣本的基因表達變化一致。表明罕見的非編碼突變可能導致共同的和互補的生物學過程相似的幹擾。
同時作者指出,進一步的實驗驗證這些預測是必要的,以確定PID基因列表的真實性。由於單個癌症類型的作用有限,通路和互作網絡分析更加側重於癌症和組織類型之間的關聯。
每種細胞類型都有不同的表觀遺傳連接和調控機制,非編碼突變可能針對細胞類型相關的漏洞。將組織特異性、癌症特異性或患者特異性基因-基因調控信息結合起來的方法,可能會揭示出目前的方法還沒有探索過的一類新的驅動因素。這篇文章提出了一種綜合途徑和網絡分析,可以很好的解釋腫瘤基因組的編碼和非編碼景觀,從而發現相互關聯的基因系統中的驅動機制。通過擴展突變分析,從單個基因組元素到多個基因的通路和網絡,從中確定了已知癌症通路中的新成分,這些成分因被編碼和非編碼突變反覆改變,從而可能在癌症中起到重要作用。
並且作者團隊還確定了新的路徑和子網絡。對幹擾這些通路和網絡的編碼和非編碼突變的研究能夠將患者分層策略更精確,以通路為重點的生物標誌物和治療方法成為可能。
套路總結
總之,生信文章如何能發高分?必須具有臨床意義!
能夠為基礎及臨床試驗提供可靠的數據支持,預測可能存在的具有臨床意義的結果是生信分析的意義所在和終極目標。本篇範文就是在先前研究的龐大且精準的資料庫的基礎上進行數據挖掘,從通路和蛋白互作網絡的角度分析可能存在的腫瘤驅動突變發病的臨床意義和機制。鑑定出的基因變異可用於將患者分類,便於接受已批准的或正在臨床試驗的治療,體現了腫瘤全基因組圖譜對癌症精準醫學的重要性。
10天領悟3分SCI套路
點擊下方
免費參加
—END—