大約20年前,耗資30億美元的人類基因組計劃繪製出了首個人類基因組草圖。隨著這項規模宏大、影響深遠的基因測序項目的落幕,許多研究者相信他們能夠迅速找到導致糖尿病或精神分裂症等複雜疾病的基因。但是他們很快就陷入了僵局,部分原因在於當時的研究忽視了對控制基因在體內表達位置和方式的「開關系統」。例如,正是這種基因調控系統使心臟細胞有別於腦細胞,使腫瘤有別於健康組織。如今,通過將人類2萬個編碼蛋白質基因的活性水平與數百萬條調控DNA序列的變異相關聯,一項長達10年的大規模研究已經開始填補這一空白。
本周,「基因型-組織表達研究聯盟」(Genotype-Tissue Expression Consortium)結束了為期10年的多機構研究工作,於Science、Cell等期刊發布了斥資1.5億美元的「基因型-組織表達項目」(The Genotype-Tissue Expression (GTEx) Project)最後一期共計15項研究成果,介紹了跨細胞類型和組織的遺傳調控變異綜合圖譜,並分析了這些調控變化如何增加疾病風險和促進疾病特徵的發展。 據悉,本周發表的15篇最新論文基於GTEx V8版本數據集。
研究人員對來自838名死亡捐贈者49個組織的15,201份樣本進行了RNA測序,並分析了每個捐贈者的全基因組測序數據。整個研究使用的一種關鍵方法為基因表達數量性狀位點(eQTL)分析,以鑑定影響基因表達的遺傳變異以及分析剪接變異數量性狀位點(sQTL);其中一篇論文還使用CRISPR分析了罕見病的調控變異。最終,共有五篇論文發表於Science,兩篇發表於Science Advances,一篇發表於Cell,五篇發表於Genome Biology,一篇發表於Genetic Epidemiology,最後一篇發表於Genome Medicine。
圖:GTEx v8研究樣本及數據類型
正如前文所言,科學家們多年以來就意識到,基因組並不僅僅只是編碼蛋白質的一系列遺傳密碼。它同時也是一塊巨大的「開關板」,充滿了可控制基因活性的DNA序列。事實上,基因組在調控方面的複雜性已極大地阻礙了研究者們對疾病遺傳學基礎的探索和靶向特定致病性DNA藥物的開發。但近年來,一些大型研究也已聚焦於基因調控開關的位置、調控開關所控制的特定基因以及調控開關在體內激活或抑制基因活性的具體部位。
為了深入了解基因在人體中的表達方式以及調控方式,美國國立衛生研究院共同基金(NIH Common Fund)於2010年啟動了「基因型-組織表達項目」(The Genotype-Tissue Expression (GTEx) Project),並在2013年提供了對GTEx數據資源訪問的GTEx門戶網站(http://www.gtexportal.org/home/)。當時,上百位科學家聯名在Nature Genetics期刊發表文章介紹了GTEx項目,並成立了「基因型-組織表達研究聯盟」(Genotype-Tissue Expression Consortium)。
目前,GTEx項目已經建立了一個數據資源和組織庫,用於研究在多種人類組織和個體中遺傳變異與基因表達之間的關係,以及男性和女性之間基因表達的差異。對於此類研究,研究人員往往需要獲取大量人類器官的組織樣本,但由於GTEx項目所需組織樣本種類太多,因此研究人員將視線轉移到短期逝世的個體中——這些死者的親屬將遺體捐贈出來用於研究。截至目前,GTEx項目已經從約960名捐獻者中收集了多種人體組織(包括腦、心臟、肺、乳房、皮膚和全血等)和30,000多份樣本。這些組織和樣本由美國國家癌症研究所的人類癌症生物樣本信息資源庫代表GTEx項目進行存儲。
GTEx項目獲得了具體的基因調控情況,確定了當某基因附近200萬個鹼基範圍內的DNA序列發生細微改變後會開啟或者關閉哪些基因的表達。此外,GTEx項目也從每位捐贈者體內獲取了多個組織的遺傳物質,評估這些遺傳物質之間的差異,從而詳細記錄基因調控序列在不同細胞類型中的影響範圍——有的調控序列能夠影響所有組織中某個基因的表達,而其他調控序列只會影響幾種或一種組織內的基因表達情況。
2015年,GTEx項目發布了第一個階段性成果,在Science期刊上發表3項基因表達相關研究成果。隨著研究的深入,GTEx項目進一步於2017年10月在Nature期刊發表了二期共計4項研究成果。 目前,GTEx項目資源正在幫助研究人員了解癌症、心臟病、帕金森症和糖尿病等常見疾病的遺傳易感性。
對於本次發布的最新研究成果,在Science的核心論文中, 研究人員描述了其目標和方法,並強調了數據集中捐贈者祖先和性別的多樣性。 在838名捐贈者中,有715名(85.3%)為歐洲裔美國人,103名(12.3%)為非裔美國人,12名(1.4%)為亞裔美國人,16名(1.9%)為西班牙裔或拉丁裔;其中男性557名(66.4%),女性281名(33.5%)。
研究人員指出,這些跨組織不同類型數據之間共享的高度相似模式表明,從細胞類型組成到轉錄組變異和遺傳調控效應具有共享的生物學基礎。這些結果表明,組織間共享的細胞類型可能是組織共享遺傳調控作用的關鍵因素。在Science雜誌發表的其他四篇論文中,研究人員還分別探討了性別對人體組織基因表達的影響、跨組織基因表達的細胞類型特異性遺傳調控、人類組織中端粒長度的決定因素,以及在人類組織中轉錄組特徵中發現的功能性稀有遺傳變異。
另外,在發表於Science Advances的兩篇文章中,研究人員分別分享了組織特異性遺傳特徵如何在臨床試驗中為藥物副作用的預測提供信息,以及其開發的一種名為「PhenomeXcan」的資源,可通過轉錄組將基因組映射到表型組。而在發表於Cell的文章中,由史丹福大學研究人員領導的小組則報告了人體的定量蛋白質組圖譜。
圖:GTEx最新研究總覽
回顧GTEx項目的十年曆程以及該聯盟完成的工作,GTEx的共同負責人、紐約基因組中心人類遺傳學家Tuuli Lappalainen表示,研究人員已經獲得了大量了生物學知識,並且能夠回答有關基因組功能的許多問題。「我認為GTEx在許多方面都履行了諾言。它提供了非常全面的數據。而且,這些年來的技術發展引入了回答這些問題的新途徑和方法。」她還表示,在過去的10年中,GTEx數據可以通過門戶網站廣泛獲取。
與此同時,該聯盟還向更大的研究團體授權以推動功能基因組學研究,為GWAS研究提供支持,並為疾病相關變異的潛在調控作用研究提供理解。癌症基因組學界也廣泛使用GTEx來推動其研究,研究人員也在使用GTEx來尋找尋找特定基因剪接模式或變異的答案。她還補充說,儘管該GTEx目前已經發布了海量數據和大量論文,但仍有更多工作要做。例如,她計劃研究將基因組和RNA測序數據以及表型數據結合起來的方法,以更好地了解疾病機制,並且還正在考慮研究環境因素和遺傳因素的結合如何影響疾病風險。
隨著GTEx項目的結束,據悉美國國立衛生研究院正在計劃一項發育性GTEx研究,將招募20歲以下的志願者來創建一個從出生到成年的基因表達圖譜。研究人員表示,對於這樣的後續項目,一個更加多樣化的組織捐贈者群體將是非常有價值的。雖然GTEx項目一開始也是為了這個目標而努力的,但由於組織和器官捐贈者大多為白人,導致該願景最終並未完全實現。到目前為止,雖然GTEx項目還不能完全說明基因組是如何驅動人類各種組織的產生或引發各類疾病。但研究人員預測,GTEx資源一定會被反覆使用,並將產生一些他們無法預測的用途。
附15項研究成果速覽
Science
題目:GTEx項目構建人體組織遺傳調控效應圖譜
The GTEx Consortium atlas of genetic regulatory effects across human tissues
研究團隊介紹了GTEx(v8)版本數據的分析,檢測了來自838個死後捐贈者49個組織的15201個RNA測序樣本。該研究全面表徵了順式和反式基因表達和剪接的遺傳關聯,表明幾乎所有基因都存在調節關聯,並描述了潛在的分子機制及其對等位基因異質性和複雜性狀的多效性的貢獻。
題目:性別對跨人體組織基因表達的影響
The impact of sex on gene expression across human tissues
研究團隊通過GTEx(v8)版本數據,分析了44個人體組織來源的基因表達和基因表達的遺傳調控中的性別差異。結果證明,性別可影響整個人體組織樣本的基因表達水平和細胞組成,人類37%的基因在至少一個組織中表現出性別偏向的表達。同時,研究人員確定了具有性別差異作用的順式表達定量性狀基因座(eQTLs),並表徵其細胞起源。通過將性別偏見的eQTL與全基因組關聯研究數據進行整合,最終確定了58個由單一性別基因表達的遺傳調控驅動的基因-性狀關聯。
題目:細胞類型特異性基因調控基因在人體組織中的表達
Cell type–specific genetic regulation of gene expression across human tissues
GTEx項目已經確定了人體組織中大部分基因的順式數量性狀基因座(QTL)表達和剪接定量性狀基因座。該研究繪製了細胞類型豐度和基因型的計算估計之間的相互作用,以確定七種細胞類型的細胞類型-相互作用QTL,並表明細胞類型相互作用表達QTL比組織特異性順式eQTL能提供更好的組織特異性解析度。對87個複雜性狀遺傳關聯的分析表明,細胞類型-相互作用QTL發揮了作用,並能夠發現數百個此前未知的共定位基因座。
題目:端粒長度在人體組織中的決定性作用
Determinants of telomere length across human tissues
研究團隊表徵了來自6391個組織樣本端粒長度的變異性,這些樣本代表了GTEx項目的20多個組織類型和952個個體。研究描述了不同組織類型之間的差異,以及組織類型之間的正相關以及與年齡和血統的關聯,發現遺傳變異可影響多種組織類型中的端粒長度,並且端粒長度可能介導年齡對基因表達的影響。
題目:跨人體組織的轉錄特徵可識別功能性罕見遺傳變異
Transcriptomic signatures across human tissues identify functional rare genetic variation
確定稀有遺傳變異的功能和表型影響是一項重大挑戰。研究團隊通過分析基因表達、等位基因特異性表達和多組織RNA測序數據的可變剪接,擴展了基因驅動的轉錄組異常檢測,並證明了每種信號都可以指導稀有變異的獨特分類。該研究結果將成千上萬的稀有變異連結到各種分子效應,為將稀有變異影響轉錄組與人類特徵相關聯提供了證據。
Science Advances
題目:組織特異性遺傳特徵為臨床試驗中藥物副作用的預測提供依據
Tissue-specific genetic features inform prediction of drug side effects in clinical trials
通過結合48個組織中的基因表達和eQTL,該研究評估了> 360000個英國生物庫個體中1167個表型的全表型關聯研究(PheWAS),以分析是否可在臨床試驗中預測藥物副作用。研究確定了具有五個遺傳特徵的藥物靶基因,包括基因表達的組織特異性。與沒有這種特徵的基因相比,其帶來的副作用風險增加了2.6倍。該研究展示了來自多個組織的PheWAS和eQTL數據用於藥物副作用預測的效用,並強調了組織特異性藥物遞送的需求。
題目:PhenomeXcan:通過轉錄組將基因組映射到表型
PhenomeXcan: Mapping the genome to the phenome through the transcriptome
PhenomeXcan是將來自GTEx(v8)49個組織的4091個性狀轉錄組數據與GWAS研究統計數據中887萬個變體整合的一個可查詢基因平臺,其中包括22515個基因。研究團隊開發了一種新穎的貝葉斯共定位方法,即快速富集估計輔助共定位分析(fastENLOC),可先考慮可能的因果基因-性狀關聯。利用PhenomeXcan,研究團隊提供了新的和未報告的基因與表型關聯以及複雜的基因特徵簇。PhenomeXcan(phenomexcan.org)為轉錄研究提供了對複雜數據的廣泛及用戶友好的訪問。
Cell
題目:人體定量蛋白質組圖譜
A Quantitative Proteome Map of the Human Body
研究團隊從32個正常人體組織中超過12000個基因中定量了相對蛋白質水平。通過鑑定組織特異性或組織富集的蛋白質,並將其與轉錄組數據進行比較,許多普遍存在的轉錄本被發現可編碼組織特異性蛋白質。RNA和蛋白質富集的差異揭示了分泌蛋白合成和作用的潛在位點。此外,該研究表明蛋白質組織富集信息可以解釋遺傳疾病的表型,而僅靠轉錄本信息是無法獲得的。
Genome Biology
題目:Primo:整合多個GWAS和omics QTL匯總統計數據,闡明與性狀相關SNP的分子機制並檢測複雜性狀的多效性
Primo: integration of multiple GWAS and omics QTL summary statistics for elucidation of molecular mechanisms of trait-associated SNPs and detection of pleiotropy in complex traits
為全面解釋已知的性狀相關SNP如何影響複雜性狀,研究團隊提出了一種Primo方法,用於對來自不同細胞條件或研究的系列omics QTL匯總統計數據進行GWAS統計數據的綜合分析。Primo方法可研究SNP與複雜和組學特徵的關聯模式。在含有已知易感位點的基因區域,Primo可進行條件關聯分析,以解釋連鎖不平衡問題。Primo允許進行未知的異質性和樣本相關性研究。
題目:sn-spMF:基質分解告知組織特異性基因表達的遺傳調控
sn-spMF: matrix factorization informs tissue-specific genetic regulation of gene expression
研究團隊開發了一個受約束的矩陣分解模型sn-spMF,以學習組織共享的模式將其應用於GTEx項目的49個人體組織。學習因子(learned factors)可反映具有已知生物學相似性的組織,並識別可能介導組織特異性作用的轉錄因子。sn-spMF可在https://github.com/heyuan7676/ts_eQTLs獲取。
題目:大量跨人體組織等位基因的表達數據
A vast resource of allelic expression data spanning human tissues
研究團隊介紹並演示了從GTEx(v8)版本中生成的大量等位基因表達資源的實用性,其中包含15253個樣本,覆蓋54個人體組織,SNP級別的等位基因總計為4.31億,單倍型水平的總量為1.53億。此外,研究團隊擴展了phASER工具,允許使用單倍型水平的等位基因數據估算順式調節變體的效應大小。這是迄今為止最大的等位基因資源,且能夠公開提供單倍型水平的等位基因數據。
題目:GTEx中外源和祖源對eQTL分析和GWAS共定位的影響
Impact of admixture and ancestry on eQTL analysis and GWAS colocalization in GTEx
研究團隊在GTEx(v8)中識別了117個具有高度群體混合個體的子集,並估計了全基因組的局部祖源信息。在七個組織中使用混合樣本進行全基因組順-eQTL定位,並通過祖源信息進行調整。最後,該研究確定了與本地祖先高度相關的一部分eQTL變體。為GTEx(V8)版本中的混合個體提供了本地祖先圖,並描述了祖先和混合物對基因表達,eQTL和GWAS共定位的影響。
題目:PTWAS:利用TWAS概率分析研究組織相關複雜性狀的因果分子機制
PTWAS: investigating tissue-relevant causal molecular mechanisms of complex traits using probabilistic TWAS analysis
研究團隊提出了一種新的計算框架,即概率全轉錄組關聯研究(PTWAS),以研究基因表達與複雜性狀之間的因果關係。PTWAS應用工具變量分析的既定原則,利用概率eQTL注釋來描述和解決TWAS中出現的獨特挑戰。PTWAS不僅具有比現有方法更高的功能,而且還提供了新穎的功能來評估因果關係假設,以及評估組織或細胞類型特異性基因對性狀的影響。研究團隊通過分析來自GTEx(v8)49個組織的eQTL數據和114個複雜性狀的GWAS統計數據證明了PTWAS的強大功能。
Genetic Epidemiology
題目:精細映射和QTL組織共享信息提高了因果基因識別的可靠性
Fine‐mapping and QTL tissue‐sharing information improves the reliability of causal gene identification
近年來,通過轉錄表達整合轉錄組學研究和GWAS研究已得到廣泛應用,使得GWAS基因座的功能表徵和因果基因的預測成為可能。但最佳的預測性能模型不一定會導致更可靠的因果基因發現。為在不增加假陽性的情況下改善目標基因的發現,研究團隊使用GTEx項目中948個供體54個組織的17382個RNA測序樣本的表達和剪接數據,開發並比較了多種轉錄組預測方法。研究發現,通過精細映射(dap-g)和跨組織借用信息(masher)來反映具有因果概率的預測模型可以在重要關聯的數量和比例方面提供更好的性能。所有的預測模型都可以在predictdb.org上公開獲得。
Genome Medicine
題目:用於檢測轉錄物變體調控作用的多克隆等位基因表達測定方法
A polyclonal allelic expression assay for detecting regulatory effects of transcript variants
研究團隊提出了一種利用CRISPR / Cas9檢測基因變異在轉錄組中調節作用的實驗方法,然後進行靶向測序。利用該檢測方法,研究團隊對整個基因組和兩個孟德爾遺傳病基因中的32個提前終止變異體,HEK293T細胞中的33個eQTL預測因果變異體和62個對照變異體進行了分析,並複製HeLa細胞中的一部分變異體。結果顯示,該方法能夠捕獲eQTL變體以及提前終止變異體觸發的無意義介導衰變的調節作用,表明該方法可用於驗證遺傳變異的轉錄組水平效應。