撰文 | 十一月
責編 | 兮
模式生物體的研究幾乎對生物學的包括基因組的組織和功能的方方面面都產生了重要的影響,因此,除了對於人類基因組研究的ENCODE—人類基因組DNA元件百科全書計劃—還增加了對於模式生物尤其是小鼠方面的信息以及在果蠅和線蟲等進行的模式生物調控網絡百科全書(model organism Encyclopedia of Regulatory Networks, modERN)的相關內容。
在ENCODE計劃的第二階段,通過小鼠ENCODE計劃對成年小鼠組織和細胞系的表觀遺傳特徵以及轉錄特徵進行了繪製【1】。該工作是小鼠ENCODE聯盟大規模努力的結果,提出了一幅宏大的小鼠基因調控和轉錄圖譜。小鼠ENCODE計劃共鑑定出了21,978蛋白編碼區域、32,168蛋白質非編碼區域、1,192,301染色質開放區域以及722,334個被H3K4me1、H3K4me2、H3K4me3以及H3K27ac組蛋白修飾的區域以及686,294被轉錄因子結合的區域。
在ENCODE計劃的第二階段,還開展了模式生物ENCODE計劃【2,3】,分別在果蠅和線蟲的不同發育階段以及細胞系中對轉錄組、表觀遺傳組以及轉錄因子結合位點等信息進行了檢測和整合。這些生物提供了發育過程中詳細的基因組特徵和轉錄組圖譜的研究機會,這是很難在人類中完成的內容。對這些物種的空間和時間轉錄組圖譜的深入探究,極大地增強了對這兩個模式生物基因組的注釋。而且對果蠅和線蟲基因調控網絡的詳細繪製為基因組組織和功能的一般原理提供了見解。模式生物ENCODE計劃目前為止已經確定了果蠅中超過262個轉錄因子以及秀麗隱杆線蟲中的217個轉錄因子的相關組學數據【4】。
圖1 ENCODE計劃第三階段的在小鼠以及其他模型生物中的工作模式圖
在ENCODE計劃的第三階段,科學家們在小鼠胚胎發育的8個階段以每個階段多達12個組織的樣本中進行了實驗,以確定動態組蛋白標記和可及性圖譜、DNA甲基化圖譜和轉錄組圖譜(圖1)。這些潛在調控元件的人類同源基因顯著富集於與常見疾病相關的基因變異,為研究人類疾病的分子基礎提供了信息。ENCODE計劃第三階段中小鼠相關的數據還包括對於轉基因小鼠中兩個不同發育時期的三種胚胎組織中調控元件相關的400多個實驗。這些系統性的研究結果對於預測體內順式調控元件的功能與活性大有裨益。除此之外,轉錄組與表觀遺傳組學的跨物種比較可以對轉錄區域以及調控區域的進化信息給出可能的參考數據。順式調控元件區域的組蛋白修飾模式以及其他的基因組特徵在多細胞動物中進化上高度保守。以下將對ENCODE計劃第三階段中小鼠以及其他模式生物與方法學方面的進展進行介紹。
一、小鼠發育過程動態染色質景觀動態圖譜
美國路德維希癌症研究所任兵研究組與美國勞倫斯伯克利國家實驗室Len A. Pennacchio、Axel Visel研究組合作發文題為An atlas of dynamic chromatin landscapes in mouse fetal development,揭開了小鼠胎兒時期不同發育階段的動態染色質景觀。目前ENCODE計劃已經建立了哺乳動物發育的相關基因組資源,描繪了從孕期10.5天到出生的8個發育階段的小鼠組織的包括轉錄組、甲基化組和染色質狀態在內的組學信息。在該工作中,作者們系統性地檢測了發育過程中小鼠胎兒期染色質可及性與狀態。作者們對組蛋白修飾共進行了1,128次ChIP-seq檢測,另外還用ATAC-seq對72個不同組織以及不同發育階段進行了染色質可及性分析。作者們建立了統一的標準對這些數據進行整合以及注釋,描述了在發育基因調控過程中染色質狀態和可及性之間的關係。作者們還利用這些數據將增強子與假定的靶基因聯繫起來,證明了與人類疾病相關的序列變異的組織特異性豐度存在相關性。小鼠ENCODE計劃為生物醫學研究人員提供了重要參考資源以及在哺乳動物胎兒發育期間染色質動力學方面最全面的觀點。
二、小鼠胚胎全組織、單細胞解析度轉錄組圖譜
美國加州理工學院Barbara J. Wold研究組與Brian A. Williams研究組合作發文題為The changing mouse embryo transcriptome at whole tissue and single-cell resolution,對小鼠胚胎中全組織、單細胞解析度水平對轉錄組的動態變化過程進行檢測。在哺乳動物胚胎發生過程中,不同的基因表達逐漸建立了各組織和器官系統的同一性和複雜性。在該工作中作者們系統地量化了17個不同的組織和器官從胚胎發育第10.5天到出生的小鼠polyA-RNA,由此產生的發育轉錄組圖譜是由動態細胞分化、體軸和細胞增殖基因構成的全局結構。作者們利用單細胞RNA-seq對組織水平轉錄組進行解析,發現神經發生和造血過程相關的基因在基因和細胞水平上均佔主導地位。進一步地,作者們聚焦於發育中的肢體,使用單細胞RNA數據識別了包括祖細胞和分化細胞在內的25種細胞類型並通過計算推斷譜系關係。這些參考數據、計算網絡組件和順式調控元件染色質片段是匹配表觀基因組發育矩陣的重要資源,可供研究人員進一步挖掘和整合。
三、小鼠胎兒發育過程的DNA甲基化組圖譜
美國薩爾科生物研究所Joseph R. Ecker研究組發文題為Spatiotemporal DNA methylome dynamics of the developing mouse fetus,揭開了不同時空解析度下小鼠胎兒發育過程中的動態DNA甲基化圖譜。胞嘧啶DNA甲基化對哺乳動物的發育至關重要,但對其在發育胚胎中的時空分布的了解仍然有限。作為小鼠ENCODE計劃的一部分,作者們從12個小鼠組織或器官中分析了168個DNA甲基化組圖譜,這些圖譜分別解析了處於從胚胎發生到成年的9個不同發育階段。通過比較不同發育階段不同組織或器官的DNA甲基化組,作者們鑑定出1,808,810個基因組區域顯示出DNA甲基化的差異。這些時空表觀基因組圖譜為研究組織或器官進展中的基因調控提供了資源並為與人類發育障礙有關的調控元件的研究提供了起點。
四、小鼠偽基因資料庫
美國耶魯大學Mark Gerstein研究組發文題為Transcriptional activity and strain-specific history of mouse pseudogenes,揭開了小鼠偽基因(Pseudogenes)的轉錄活性和細胞系特異性歷史。偽基因是基因組重塑的標記。隨著最近的細胞系測序和轉錄組數據的可用性大大擴展,小鼠逐漸成為研究偽基因的理想平臺。在該工作中,作者們提供了小鼠中偽基因的全基因組注釋(可通過網站mouse.pseudogene.org獲取相關資源)。另外作者們還對165個小鼠和303個人類的單一偽基因進行了注釋。在大小、生物型分布和家族組成方面,小鼠的總體偽基因庫與人類相似。該資料庫為進一步揭開基因組功能和基因調控信息提供了偽基因方面的資源。
五、ENCODE「定製版」癌症基因組資源
美國耶魯大學Mark Gerstein 研究組、芝加哥大學Kevin P. White研究組、丹娜-法伯癌症研究所與哈佛大學公共衛生學院X. Shirley Liu 以及美國西北大學Feng Yue研究組合作發文題為An integrative ENCODE resource for cancer genomics,介紹了癌症基因組的ENCODE整合資料庫。ENCODE包含數千個功能基因組數據圖譜,涵蓋數百種細胞類型,為基因組解釋提供通用注釋。但是,對於特定的研究領域使用特定的注釋可能會更有益處。先前,作者們通過利用一些數據豐富對於不同細胞類型的注釋,如eCLIP、Hi-C和全基因組STARR-seq來開發這樣一個「定製版」注釋。癌症作為一種全系統失調的疾病正是這種基於網絡的注釋的理想應用場景。使用siRNA敲除、基於CRISPR的基因編輯以及螢光素酶分析對相關重要調節因子、調節元件以及基因變體進行有針對性的驗證,證明了ENCODE「定製版」資源的重要價值。
六、ENCODE計劃注釋糾錯工具
美國Broad研究所Noam Shoresh研究組發文題為Detecting sample swaps in diverse NGS data types using linkage disequilibrium,使用連鎖不平衡對不同高通量測序數據類型中的樣本進行檢測。隨著基因組數據圖譜數量的極速增長,樣本標籤誤貼已經成為一個高風險的問題。為此作者們提出了一種量化樣本相關性和檢測不同來源資料庫的的工具稱為交叉指紋檢驗技術(CrosscheckFingerprint, Crosscheck)。通過對8851個ENCODE計劃中ChIP-seq、RNA-seq和DNase-seq資料庫進行的交叉檢驗,可以識別並糾正幾十個誤標記樣本和模糊元數據注釋。該檢驗技術為進一步優化、糾正基因功能和基因調控元件的注釋提供了重要工具。
七、增強子預測模型
美國耶魯大學Mark Gerstein研究組發文題為Supervised enhancer prediction with epigenetic pattern recognition and targeted validation,開發出了一種新的增強子預測實驗模型。增強子是重要的非編碼元件,但是一直以來增強子很難進行定性實驗。大規模平行檢測實驗技術首次允許對大量增強子進行表徵。在該工作中作者們開發了一個使用黑腹果蠅的STARR-seq技術來創建基於表觀遺傳特徵的框架。作者們將這些表觀遺傳特徵與學習算法相結合可以用於預測增強子。進一步地,作者們確認該模型可以轉移到對哺乳動物中的增強子進行預測。該技術對於進一步豐富了ENCODE計劃中對基因調控元件的檢測的工具。
如今,ENCODE計劃的第三階段獲得的數據以及實驗方法已經全面向大家開放,該整合資料庫對於人類以及多種模式生物的基因組、轉錄組、表觀遺傳組、染色質狀態組以及順式調控元件等方面的數據進行了大規模擴充。該資料庫並非至善至美,雖然已經發現了許多新的調控元件,但對特定細胞類型或狀態具有高度選擇性的調控元件的注釋仍然落後。此外,雖然許多開放染色質區域已經被繪製出來,但是結合這些序列的轉錄因子大部分是未知的並且目前少有關於重複序列的分析。最後,儘管轉錄本異質性和不同亞型已經在許多細胞類型中被描述過,但也僅是在少數細胞類型略見報導。因此,作為ENCODE計劃第四階段的一部分,將會有更多工作投入到對不同細胞類型和組織的分析之中以及對更多轉錄因子和RNA結合蛋白的結合區域進行描述和注釋,看來對人類基因組的全面注釋以及功能的全面解析指日可待。
原文連結:
https://doi.org/10.1038/s41586-020-2093-3
https://doi.org/10.1038/s41586-020-2536-x
https://doi.org/10.1038/s41586-020-2119-x
https://doi.org/10.1038/s41467-020-17157-w
https://doi.org/10.1038/s41467-020-14743-w
https://doi.org/10.1038/s41467-020-17453-5
https://doi.org/10.1038/s41592-020-0907-8
製版人:MENG
參考文獻
1. Yue, F. et al. A comparative encyclopedia of DNA elements in the mouse genome.Nature 515, 355-364, doi:10.1038/nature13992 (2014).
2. Gerstein, M. B. et al. Integrative analysis of the Caenorhabditis elegans genome by the modENCODE project. Science (New York, N.Y.) 330, 1775-1787, doi:10.1126/science.1196914 (2010).
3. Roy, S. et al. Identification of functional elements and regulatory circuits by Drosophila modENCODE. Science (New York, N.Y.) 330, 1787-1797, doi:10.1126/science.1198374 (2010).
4. Kudron, M. M. et al. The ModERN Resource: Genome-Wide Binding Profiles for Hundreds of Drosophila and Caenorhabditis elegans Transcription Factors. Genetics208, 937-949, doi:10.1534/genetics.117.300657 (2018).