撰文 | 十一月
責編 | 兮
編者按
DNA元件百科全書(ENCyclopedia of DNA Elements,ENCODE)始於2003年,致力於繪製人類與小鼠基因組功能性元件的綜合圖譜。2020年7月29日,Nature(10篇)、Nature Methods(1篇)、Nature Communications(3篇)和bioRxiv(1篇)共計發表15篇文章對ENCODE的第三個階段成果進行了系統性總結。ENCODE第三階段以人和小鼠為研究對象,涉及RNA轉錄、染色質結構和修飾、DNA甲基化、染色質環以及轉錄因子和RNA結合蛋白等,共鑑定出了20,225個蛋白質編碼基因和37,595個蛋白質非編碼基因,注釋了包括人類基因組中的90萬個和小鼠中的30萬個調控元件的信息。限於篇幅,BioArt特將15篇文章分成兩個部分,以饗讀者!第一部分包含7篇Nature和1篇bioRxiv,剩餘部分在第二篇(詳見今天推送的第二條文章)。
ENCODE項目聯盟牽頭(The ENCODE Project Consortium)、美國史丹福大學Michael P. Snyder研究組在Nature發文題為Perspectives on ENCODE,對ENCODE計劃的最新進展進行了總結。ENCODE計劃全稱是The Encylopedia of DNA Elements,意在揭開人類基因組功能元件的全面圖譜。該圖譜中包括基因、與基因調控相關的生化區域以及轉錄本亞型等內容。其中作為候選的順式調控元件的位點可能會基因表達調控方面發揮作用【1】。目前ENCODE計劃已經擴展到生物模型特別是小鼠之中。在ENCODE的第三階段,該計劃已經分別在人類基因組和小鼠基因組中生成了近100萬個和超過30萬個順式調控元件的注釋,這些注釋為科研界將提供寶貴的參考資源。
ENCODE計劃啟動開始於2003年,彼時人類基因組計劃的草圖初初落成(圖1)【2】,但是對於人類基因組的了解還非常局限。ENCODE計劃對於人類基因組的分析是循序漸進、螺旋上升的,目前已經進展到了第三階段。第一階段從2003年到2007年是ENCODE的試點階段,當時對選定的1%的人類基因組進行廣泛的功能測定,主要使用基於微陣列的技術【3】在各種細胞系上進行了實驗。ENCODE計劃的第二階段從2007到2012年,引入了基於高通量測序的技術,比如染色質免疫沉澱測序技術(ChIP-seq)和RNA測序技術(RNA-seq),對整個人類基因組和轉錄組的功能進行了研究【4】。
圖1 人類基因組DNA元件百科全書計劃
圖2 ENCODE計劃中不斷增加新技術的應用
最近ENCODE計劃的第三階段初步完成。ENCODE的第三階段從2012年到2017年,內容進行了進一步擴增並且增加新的檢測方法(圖2),其中包括通過末端標記配對的染色質相互作用分析(Chromatin interaction analysis by paired-end tagging, ChIA-PET)以及Hi-C染色質構象捕獲的等方法揭示RNA結合和染色質三維組織的景觀。這些數據在ENCODE的門戶網站(http://www.encodeproject.org)上是開放獲取的。所有相關組織與多個實驗室的通力合作產生了人們對於人類基因組的新認識,共鑑定出了20,225個蛋白質編碼基因和37,595個蛋白質非編碼基因。ENCODE計劃第三階段的另外一個重要部分是對調控序列元件進行了解析。目前在ENCODE百科全書計劃中已經整合的包括人類基因組中的90萬個和小鼠中的30萬個調控元件的注釋信息。詳細信息發表在同期Nature雜誌以及其他的期刊之上,以下對人類基因組增加的相關部分的文章進行介紹。
一、ENCODE計劃第三階段的綱領與總結
人和小鼠的基因組包含指導RNA和蛋白質表達的指令並控制它們產生的時間、幅度以及和細胞內環境。為了更好地描述這些元素,ENCODE計劃的第三階段擴展了RNA轉錄、染色質結構和修飾、DNA甲基化、染色質環以及轉錄因子和RNA結合蛋白的結合特點的細胞和組織庫的分析。在該文章中,對ENCODE第三階段產生了5992個新的實驗數據圖譜進行了總結,其中包括對小鼠胎兒發育的系統測定。所有數據都可以通過ENCODE的門戶網站獲得。同時,通過整合與基因調控相關的DNA元件的注釋,ENCODE計劃的第三階段還開發了一個順式調控元件相關注釋信息表並構建了一個網站(SCREEN; http://screen.encodeproject.org),提供對該資源靈活的、用戶定義的訪問。總的來說,蛋白質編碼與非編碼基因數據與順式調控元件注釋信息表為科學界建立對人類和小鼠基因組組織和功能的更好理解提供了廣闊的資源。
二、染色質相關蛋白佔位圖譜(Occupancy maps)
美國哈森阿爾法生物技術研究院Eric M. Mendenhall研究組與Richard M. Myers研究組合作發文題為Occupancy maps of 208 chromatin-associated proteins in one human cell type,揭開了人類細胞中染色質相關蛋白在染色質上的佔據圖譜信息。轉錄因子是DNA結合蛋白,在基因調控過程中發揮著關鍵作用。轉錄因子在全基因組上的佔據圖譜對於理解不同轉錄因子的基因調控以及其對不同生物過程的影響至關重要。在本文中,作為ENCODE計劃的一部分,作者們使用人HepG2細胞系對208個的染色質相關蛋白進行了染色質免疫共沉澱高通量測序。這些轉錄因子包括171個轉錄因子和37個轉錄輔助因子和染色質調節蛋白並代表了HepG2細胞中近四分之一的染色質相關蛋白的表達。該分析為ENCODE計劃的進一步完善提供了重要信息,同時也為基因調控網絡提供了一個更完整的概述。
三、DNase I超敏位點圖譜
美國西雅圖阿爾提烏斯生物醫學科學研究所John Stamatoyannopoulos與Wouter Meuleman研究組發文題為Index and biological spectrum of human DNase I hypersensitive sites,作為ENCODE計劃第三階段的一部分揭開了人類基因組中DNase I超敏位點圖譜。DNase I超敏位點是調控DNA序列的遺傳學標記,包括與疾病以及表型相關的遺傳變異信息。該文章通過對733個人類生物樣品建立了高解析度DNase I超敏位點圖譜,通過整合這些數據作者們對人類基因組序列中大約360萬個DNase I超敏位點進行描述和數字索引,為調控DNA提供了一個共同的坐標系統。另外該工作還展示了這些圖譜中人類基因組的順式調控單元,這些調控單元以非常高的密度出人意料地編碼不同的細胞和組織選擇性調控程序。總的來說,該研究成果為以DNase I超敏位點圖譜為人類調控DNA創建了一個通用的、可擴展的坐標系統和查詢表並為人類基因調控的結構提供了一個新的全局視角。
四、人類轉錄因子足跡圖譜
美國西雅圖阿爾提烏斯生物醫學科學研究所John Stamatoyannopoulos與Jeff Vierstra研究組發文題為Global reference mapping of human transcription factor footprints,作為ENCODE計劃第三階段的一部分揭開了人類基因組中轉錄因子足跡(Transcription factor footprints)圖譜。基因組DNase I酶足跡技術能夠定量的、以核苷酸解析度水平的對染色質內的轉錄因子佔用位點進行解析。在該工作中,作者們為了全面繪製轉錄因子足跡圖從243種人類不同細胞和組織類型和狀態中繪製了高密度的DNase I酶解圖譜,並對大約450萬個在核苷酸解析度下編碼轉錄因子佔用的緊密基因組元件信息進行總結。該工作為基因調控機制和功能性遺傳變異的全局和核苷酸水平上的精確分析提供了一個框架。
五、人類主要細胞種類的轉錄程序圖譜
西班牙巴塞隆納科技學院Roderic Guigó研究組與冷泉港實驗室Thomas R. Gingeras研究組合作發表預印本文章題為A limited set of transcriptional programs define major cell types,為人體內主要細胞類型的轉錄程序進行了解析。目前ENCODE計劃已經為人體不同位置的多種原代細胞製作了RNA測序數據。這些原代細胞的RNA測序結果聚類表明,人體內的大多數細胞都具有一些廣泛的轉錄程序,這些程序定義了五種主要的細胞類型:上皮細胞、內皮細胞、間充質細胞、神經細胞和血細胞。該工作為人類細胞的不同分類和定義提供了新的參考。
六、黏連蛋白介導的染色質相互作用圖譜
美國史丹福大學醫學院Michael Snyder研究組發文題為Landscape of cohesin-mediated chromatin loops in the human genome,揭開了黏連蛋白介導的染色質環在人類基因組中的景觀。較遠距離基因調控元件之間的物理相互作用在調控基因表達中起著關鍵作用,但這些相互作用在細胞類型之間的程度不同,因此對於細胞類型特異性基因表達的機制尚不清楚。
為了解決這些問題,作者們利用配對末端標記測序技術(Chromatin interaction analysis by paired-end tag sequencing, ChIA-PET)對染色質相互作用進行分析,繪製了黏連蛋白介導的染色質環形成在人類全基因組中的景觀分布,並分析了24種不同人類細胞類型的基因表達。黏連蛋白介導的染色質環圖譜補充了構成編碼百科全書的各種調控結構圖譜,並將有助於支持基因組結構和功能的新興分析。
七、RNA結合蛋白的結合與功能圖譜
美國加州大學聖地牙哥分校Gene W. Yeo研究組、UConn Health的Brenton R. Graveley研究組、麻省理工學院Christopher B. Burge研究組、加拿大IRCM研究所Eric Lécuyer 研究組與加州大學聖地牙哥分校Xiang-Dong Fu(付向東)研究合作發文題為A large-scale binding and functional map of human RNA-binding proteins,揭開了人類基因組中RNA結合蛋白的大規模結合和功能圖譜。許多蛋白質通過與基因組特定區域結合來調控基因的表達。在該工作用,作者們對識別人類基因組中RNA元件的RNA結合蛋白的建立了新的數據圖譜,作為ENCODE計劃的第三階段的一部分內容。RNA元件作為RNA結合蛋白的結合位點控制轉錄後比如對RNA剪接、mRNA的編輯、定位、穩定性以及翻譯等過程。作者們對K562和HepG2細胞中大量識別RNA元件的RNA結合蛋白進行了解析,綜合使用5種方法整合分析並確定了RNA結合蛋白在體內RNA和染色質上的結合位點、在體外的結合偏好、結合位點的功能和亞細胞定位。這些數據擴展了人類基因組中編碼的功能元件的目錄,增加了對於RNA結合蛋白在人類基因組表達調控中的全局性認識。
ENCODE計劃的順利進展取決於技術的進步、質量控制以及統一標準。在ENCODE計劃的第二階段高通量測序技術已經全面進駐,而不再是試點實驗階段中使用的微陣列為基礎的實驗方法。以上七篇工作通過高通量測序技術為ENCODE計劃增加了全基因3D相互作用圖譜、RNA結合區域等內容,大大擴增對於人類基因組中3D基因組結構以及調控元件功能的認識。而較高要求的質量控制與統一標準使得ENCODE計劃在其他的不同計劃、不同組織、不同聯盟中通用性較強,與其他科學群體形成了強強聯合的知識網絡。ENCODE計劃開放的SCREEN網站也為識別和研究這些基因調控序列以及相關的編碼數據和其他注釋提供了便捷的獲取接口。
ENCODE這一宏大的DNA元件百科全書計劃將為人類基因組的研究開啟新紀元。
原文連結:
https://doi.org/10.1038/s41586-020-2449-8
https://doi.org/10.1038/s41586-020-2493-4
https://doi.org/10.1038/s41586-020-2023-4
https://doi.org/10.1038/s41586-020-2559-3
https://doi.org/10.1038/s41586-020-2528-x
https://www.biorxiv.org/content/10.1101/857169v2
https://doi.org/10.1038/s41586-020-2151-x
https://doi.org/10.1038/s41586-020-2077-3
製版人:MENG
參考文獻
1. Kellis, M. et al. Defining functional DNA elements in the human genome. Proceedings of the National Academy of Sciences of the United States of America 111, 6131-6138, doi:10.1073/pnas.1318948111 (2014).
2. The ENCODE (ENCyclopedia Of DNA Elements) Project. Science (NewYork, N.Y.)306, 636-640, doi:10.1126/science.1105136 (2004).
3. Birney, E. et al. Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project. Nature 447, 799-816, doi:10.1038/nature05874 (2007).
4. An integrated encyclopedia of DNA elements in the human genome. Nature 489, 57-74, doi:10.1038/nature11247 (2012).