重磅!十五篇文章齊發揭開DNA元件百科全書計劃ENCODE新階段—上

2020-07-31 BioArt

撰文 | 十一月

責編 | 兮


重磅!十五篇文章齊發揭開DNA元件百科全書計劃ENCODE新階段—上

編者按


重磅!十五篇文章齊發揭開DNA元件百科全書計劃ENCODE新階段—上

DNA元件百科全書(ENCyclopedia of DNA Elements,ENCODE)始於2003年,致力於繪製人類與小鼠基因組功能性元件的綜合圖譜。2020年7月29日,Nature(10篇)、Nature Methods(1篇)、Nature Communications(3篇)和bioRxiv(1篇)共計發表15篇文章對ENCODE的第三個階段成果進行了系統性總結。ENCODE第三階段以人和小鼠為研究對象,涉及RNA轉錄、染色質結構和修飾、DNA甲基化、染色質環以及轉錄因子和RNA結合蛋白等,共鑑定出了20,225個蛋白質編碼基因和37,595個蛋白質非編碼基因,注釋了包括人類基因組中的90萬個和小鼠中的30萬個調控元件的信息。限於篇幅,BioArt特將15篇文章分成兩個部分,以饗讀者!第一部分包含7篇Nature和1篇bioRxiv,剩餘部分在第二篇(詳見今天推送的第二條文章)。


ENCODE項目聯盟牽頭(The ENCODE Project Consortium)、美國史丹福大學Michael P. Snyder研究組在Nature發文題為Perspectives on ENCODE,對ENCODE計劃的最新進展進行了總結。ENCODE計劃全稱是The Encylopedia of DNA Elements,意在揭開人類基因組功能元件的全面圖譜。該圖譜中包括基因、與基因調控相關的生化區域以及轉錄本亞型等內容。其中作為候選的順式調控元件的位點可能會基因表達調控方面發揮作用【1】。目前ENCODE計劃已經擴展到生物模型特別是小鼠之中。在ENCODE的第三階段,該計劃已經分別在人類基因組和小鼠基因組中生成了近100萬個和超過30萬個順式調控元件的注釋,這些注釋為科研界將提供寶貴的參考資源。


重磅!十五篇文章齊發揭開DNA元件百科全書計劃ENCODE新階段—上


ENCODE計劃啟動開始於2003年,彼時人類基因組計劃的草圖初初落成(圖1)【2】,但是對於人類基因組的了解還非常局限。ENCODE計劃對於人類基因組的分析是循序漸進、螺旋上升的,目前已經進展到了第三階段。第一階段從2003年到2007年是ENCODE的試點階段,當時對選定的1%的人類基因組進行廣泛的功能測定,主要使用基於微陣列的技術【3】在各種細胞系上進行了實驗。ENCODE計劃的第二階段從2007到2012年,引入了基於高通量測序的技術,比如染色質免疫沉澱測序技術(ChIP-seq)和RNA測序技術(RNA-seq),對整個人類基因組和轉錄組的功能進行了研究【4】


重磅!十五篇文章齊發揭開DNA元件百科全書計劃ENCODE新階段—上

圖1 人類基因組DNA元件百科全書計劃


重磅!十五篇文章齊發揭開DNA元件百科全書計劃ENCODE新階段—上

圖2 ENCODE計劃中不斷增加新技術的應用


最近ENCODE計劃的第三階段初步完成。ENCODE的第三階段從2012年到2017年,內容進行了進一步擴增並且增加新的檢測方法(圖2),其中包括通過末端標記配對的染色質相互作用分析(Chromatin interaction analysis by paired-end tagging, ChIA-PET)以及Hi-C染色質構象捕獲的等方法揭示RNA結合和染色質三維組織的景觀。這些數據在ENCODE的門戶網站(http://www.encodeproject.org)上是開放獲取的。所有相關組織與多個實驗室的通力合作產生了人們對於人類基因組的新認識,共鑑定出了20,225個蛋白質編碼基因和37,595個蛋白質非編碼基因。ENCODE計劃第三階段的另外一個重要部分是對調控序列元件進行了解析。目前在ENCODE百科全書計劃中已經整合的包括人類基因組中的90萬個和小鼠中的30萬個調控元件的注釋信息。詳細信息發表在同期Nature雜誌以及其他的期刊之上,以下對人類基因組增加的相關部分的文章進行介紹。




一、ENCODE計劃第三階段的綱領與總結


重磅!十五篇文章齊發揭開DNA元件百科全書計劃ENCODE新階段—上


人和小鼠的基因組包含指導RNA和蛋白質表達的指令並控制它們產生的時間、幅度以及和細胞內環境。為了更好地描述這些元素,ENCODE計劃的第三階段擴展了RNA轉錄、染色質結構和修飾、DNA甲基化、染色質環以及轉錄因子和RNA結合蛋白的結合特點的細胞和組織庫的分析。在該文章中,對ENCODE第三階段產生了5992個新的實驗數據圖譜進行了總結,其中包括對小鼠胎兒發育的系統測定。所有數據都可以通過ENCODE的門戶網站獲得。同時,通過整合與基因調控相關的DNA元件的注釋,ENCODE計劃的第三階段還開發了一個順式調控元件相關注釋信息表並構建了一個網站(SCREEN; http://screen.encodeproject.org),提供對該資源靈活的、用戶定義的訪問。總的來說,蛋白質編碼與非編碼基因數據與順式調控元件注釋信息表為科學界建立對人類和小鼠基因組組織和功能的更好理解提供了廣闊的資源。


二、染色質相關蛋白佔位圖譜(Occupancy maps)


重磅!十五篇文章齊發揭開DNA元件百科全書計劃ENCODE新階段—上


美國哈森阿爾法生物技術研究院Eric M. Mendenhall研究組與Richard M. Myers研究組合作發文題為Occupancy maps of 208 chromatin-associated proteins in one human cell type,揭開了人類細胞中染色質相關蛋白在染色質上的佔據圖譜信息。轉錄因子是DNA結合蛋白,在基因調控過程中發揮著關鍵作用。轉錄因子在全基因組上的佔據圖譜對於理解不同轉錄因子的基因調控以及其對不同生物過程的影響至關重要。在本文中,作為ENCODE計劃的一部分,作者們使用人HepG2細胞系對208個的染色質相關蛋白進行了染色質免疫共沉澱高通量測序。這些轉錄因子包括171個轉錄因子和37個轉錄輔助因子和染色質調節蛋白並代表了HepG2細胞中近四分之一的染色質相關蛋白的表達。該分析為ENCODE計劃的進一步完善提供了重要信息,同時也為基因調控網絡提供了一個更完整的概述。


三、DNase I超敏位點圖譜


重磅!十五篇文章齊發揭開DNA元件百科全書計劃ENCODE新階段—上


美國西雅圖阿爾提烏斯生物醫學科學研究所John StamatoyannopoulosWouter Meuleman研究組發文題為Index and biological spectrum of human DNase I hypersensitive sites,作為ENCODE計劃第三階段的一部分揭開了人類基因組中DNase I超敏位點圖譜。DNase I超敏位點是調控DNA序列的遺傳學標記,包括與疾病以及表型相關的遺傳變異信息。該文章通過對733個人類生物樣品建立了高解析度DNase I超敏位點圖譜,通過整合這些數據作者們對人類基因組序列中大約360萬個DNase I超敏位點進行描述和數字索引,為調控DNA提供了一個共同的坐標系統。另外該工作還展示了這些圖譜中人類基因組的順式調控單元,這些調控單元以非常高的密度出人意料地編碼不同的細胞和組織選擇性調控程序。總的來說,該研究成果為以DNase I超敏位點圖譜為人類調控DNA創建了一個通用的、可擴展的坐標系統和查詢表並為人類基因調控的結構提供了一個新的全局視角。


四、人類轉錄因子足跡圖譜


重磅!十五篇文章齊發揭開DNA元件百科全書計劃ENCODE新階段—上


美國西雅圖阿爾提烏斯生物醫學科學研究所John StamatoyannopoulosJeff Vierstra研究組發文題為Global reference mapping of human transcription factor footprints,作為ENCODE計劃第三階段的一部分揭開了人類基因組中轉錄因子足跡(Transcription factor footprints)圖譜。基因組DNase I酶足跡技術能夠定量的、以核苷酸解析度水平的對染色質內的轉錄因子佔用位點進行解析。在該工作中,作者們為了全面繪製轉錄因子足跡圖從243種人類不同細胞和組織類型和狀態中繪製了高密度的DNase I酶解圖譜,並對大約450萬個在核苷酸解析度下編碼轉錄因子佔用的緊密基因組元件信息進行總結。該工作為基因調控機制和功能性遺傳變異的全局和核苷酸水平上的精確分析提供了一個框架。


五、人類主要細胞種類的轉錄程序圖譜


重磅!十五篇文章齊發揭開DNA元件百科全書計劃ENCODE新階段—上


西班牙巴塞隆納科技學院Roderic Guigó研究組與冷泉港實驗室Thomas R. Gingeras研究組合作發表預印本文章題為A limited set of transcriptional programs define major cell types,為人體內主要細胞類型的轉錄程序進行了解析。目前ENCODE計劃已經為人體不同位置的多種原代細胞製作了RNA測序數據。這些原代細胞的RNA測序結果聚類表明,人體內的大多數細胞都具有一些廣泛的轉錄程序,這些程序定義了五種主要的細胞類型:上皮細胞、內皮細胞、間充質細胞、神經細胞和血細胞。該工作為人類細胞的不同分類和定義提供了新的參考。


六、黏連蛋白介導的染色質相互作用圖譜


重磅!十五篇文章齊發揭開DNA元件百科全書計劃ENCODE新階段—上


美國史丹福大學醫學院Michael Snyder研究組發文題為Landscape of cohesin-mediated chromatin loops in the human genome,揭開了黏連蛋白介導的染色質環在人類基因組中的景觀。較遠距離基因調控元件之間的物理相互作用在調控基因表達中起著關鍵作用,但這些相互作用在細胞類型之間的程度不同,因此對於細胞類型特異性基因表達的機制尚不清楚。


為了解決這些問題,作者們利用配對末端標記測序技術(Chromatin interaction analysis by paired-end tag sequencing, ChIA-PET)對染色質相互作用進行分析,繪製了黏連蛋白介導的染色質環形成在人類全基因組中的景觀分布,並分析了24種不同人類細胞類型的基因表達。黏連蛋白介導的染色質環圖譜補充了構成編碼百科全書的各種調控結構圖譜,並將有助於支持基因組結構和功能的新興分析。


七、RNA結合蛋白的結合與功能圖譜


重磅!十五篇文章齊發揭開DNA元件百科全書計劃ENCODE新階段—上


美國加州大學聖地牙哥分校Gene W. Yeo研究組、UConn Health的Brenton R. Graveley研究組、麻省理工學院Christopher B. Burge研究組、加拿大IRCM研究所Eric Lécuyer 研究組與加州大學聖地牙哥分校Xiang-Dong Fu(付向東)研究合作發文題為A large-scale binding and functional map of human RNA-binding proteins揭開了人類基因組中RNA結合蛋白的大規模結合和功能圖譜。許多蛋白質通過與基因組特定區域結合來調控基因的表達。在該工作用,作者們對識別人類基因組中RNA元件的RNA結合蛋白的建立了新的數據圖譜,作為ENCODE計劃的第三階段的一部分內容。RNA元件作為RNA結合蛋白的結合位點控制轉錄後比如對RNA剪接、mRNA的編輯、定位、穩定性以及翻譯等過程。作者們對K562和HepG2細胞中大量識別RNA元件的RNA結合蛋白進行了解析,綜合使用5種方法整合分析並確定了RNA結合蛋白在體內RNA和染色質上的結合位點、在體外的結合偏好、結合位點的功能和亞細胞定位。這些數據擴展了人類基因組中編碼的功能元件的目錄,增加了對於RNA結合蛋白在人類基因組表達調控中的全局性認識。


ENCODE計劃的順利進展取決於技術的進步、質量控制以及統一標準。在ENCODE計劃的第二階段高通量測序技術已經全面進駐,而不再是試點實驗階段中使用的微陣列為基礎的實驗方法。以上七篇工作通過高通量測序技術為ENCODE計劃增加了全基因3D相互作用圖譜、RNA結合區域等內容,大大擴增對於人類基因組中3D基因組結構以及調控元件功能的認識。而較高要求的質量控制與統一標準使得ENCODE計劃在其他的不同計劃、不同組織、不同聯盟中通用性較強,與其他科學群體形成了強強聯合的知識網絡。ENCODE計劃開放的SCREEN網站也為識別和研究這些基因調控序列以及相關的編碼數據和其他注釋提供了便捷的獲取接口。


ENCODE這一宏大的DNA元件百科全書計劃將為人類基因組的研究開啟新紀元。


原文連結:

https://doi.org/10.1038/s41586-020-2449-8

https://doi.org/10.1038/s41586-020-2493-4

https://doi.org/10.1038/s41586-020-2023-4

https://doi.org/10.1038/s41586-020-2559-3

https://doi.org/10.1038/s41586-020-2528-x

https://www.biorxiv.org/content/10.1101/857169v2

https://doi.org/10.1038/s41586-020-2151-x

https://doi.org/10.1038/s41586-020-2077-3


製版人:MENG


參考文獻

1. Kellis, M. et al. Defining functional DNA elements in the human genome. Proceedings of the National Academy of Sciences of the United States of America 111, 6131-6138, doi:10.1073/pnas.1318948111 (2014).

2. The ENCODE (ENCyclopedia Of DNA Elements) Project. Science (NewYork, N.Y.)306, 636-640, doi:10.1126/science.1105136 (2004).

3. Birney, E. et al. Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project. Nature 447, 799-816, doi:10.1038/nature05874 (2007).

4. An integrated encyclopedia of DNA elements in the human genome. Nature 489, 57-74, doi:10.1038/nature11247 (2012).

相關焦點

  • 重磅!十五篇文章齊發揭開DNA元件百科全書計劃ENCODE新階段—下
    撰文 | 十一月責編 | 兮模式生物體的研究幾乎對生物學的包括基因組的組織和功能的方方面面都產生了重要的影響,因此,除了對於人類基因組研究的ENCODE—人類基因組DNA元件百科全書計劃—還增加了對於模式生物尤其是小鼠方面的信息以及在果蠅和線蟲等進行的模式生物調控網絡百科全書
  • 「DNA元件百科全書」計劃公布第三階段逾120萬個候選元件
    中新網北京7月30日電 (記者 孫自法)致力於繪製人類與小鼠基因組功能性元件綜合圖譜的「DNA元件百科全書」(ENCyclopedia of DNA Elements,ENCODE)計劃,最新公布了其第三階段超過120萬個人類與小鼠體內調控基因的候選功能性元件。
  • 14篇Nature系列合集:DNA元件百科全書最新成果出爐
    文丨學術頭條2003 年,人類基因組計劃完成,揭開了人體 30 億個鹼基以及約 20000 多個蛋白編碼基因的秘密。現在,一項名為 DNA 元件百科全書計劃(ENCODE)的系列研究朝著這一目標取得了重大進展,該研究第三階段發現了 120 多萬個基因調節元件,以及它們何時、何地調節基因的 「開關」。
  • 14篇Nature系列合集:DNA元件百科全書最新成果出爐
    2003 年,人類基因組計劃完成,揭開了人體 30 億個鹼基以及約 20000 多個蛋白編碼基因的秘密。然而這些基因只佔人類基因組的 2%。因此,在隨後的 20 年時間裡,科學家一直在嘗試尋找人類剩餘 98% 的 DNA 具有什麼功能。
  • 14篇Nature論文合集!「DNA元件百科全書」公布第三階段成果
    「DNA元件百科全書」(ENCyclopedia of DNA Elements,ENCODE)國際合作計劃於2003年啟動,合作團隊由美國國立人類基因組研究所北京時間2020年7月29日晚23時,ENCODE計劃發布第三階段成果,公布了超過120萬個人類與小鼠體內調控基因的候選功能性元件。《自然》、《自然—方法》和《自然—通訊》聯合發表14篇論文描述了這一結果,為基因組組織和功能帶來了新的認知。
  • 【超百萬人類與小鼠調控基因元件公布】「DNA元件百科全書...
    【超百萬人類與小鼠調控基因元件公布】「DNA元件百科全書」(ENCODE)計劃的第三階段公布了超過120萬個人類與小鼠體內調控基因的候選功能性元件。英國《自然》《自然·方法》和《自然·通訊》雜誌29日公開的14篇論文合集中,多家研究機構和團隊描述了最新成果,使人類對基因組結構和功能將有全新重要認知。
  • 歷時17年ENCODE計劃三期完工,近百萬人類基因組調控元件被發現
    因此,為了破解這些所謂「垃圾DNA」的結構和功能,在2003年,由美國人類基因組研究所(NHGRI)牽頭,開啟了ENCODE計劃,目的在於對基因組中的功能調控元件進行更為全面而詳細的結構、功能和調節的注釋,編寫DNA百科全書。歷時近10年,耗資近3億美金,ENCODE計劃在2012年發布了第二階段的研究成果。
  • 腦科學日報:「DNA元件百科全書」第三階段成果;瘦素和能量平衡
    1,14篇Nature論文合集!「DNA元件百科全書」公布第三階段成果來源:小柯生命「DNA元件百科全書」(ENCyclopedia of DNA Elements,ENCODE)國際合作計劃於2003年啟動,合作團隊由美國國立人類基因組研究所(NHGRI)組織成立,致力於繪製人類與小鼠基因組功能性元件的綜合圖譜。
  • 超百萬人類與小鼠調控基因元件公布
    「DNA元件百科全書」(ENCODE)計劃的第三階段公布了超過120萬個人類與小鼠體內調控基因的候選功能性元件。英國《自然》《自然·方法》和《自然·通訊》雜誌29日公開的14篇論文合集中,多家研究機構和團隊描述了最新成果,使人類對基因組結構和功能將有全新重要認知。
  • 超百萬人類與小鼠調控基因元件公布
    科技日報北京7月29日電 (記者張夢然)「DNA元件百科全書」(ENCODE)計劃的第三階段公布了超過120萬個人類與小鼠體內調控基因的候選功能性元件。英國《自然》《自然·方法》和《自然·通訊》雜誌29日公開的14篇論文合集中,多家研究機構和團隊描述了最新成果,使人類對基因組結構和功能將有全新重要認知。
  • 4篇Nature齊發!揭開人類基因組變異研究新時代
    雖然人類大多擁有相同的基因和調控元件,但潛在的基因序列和地球上的人一樣多樣化,每個個體的基因組都是獨一無二的。為了反映這種多樣性並以前所未有的規模捕捉大群體個體間的基因變異程度,基因組聚合資料庫 (The Genome Aggregation Database,gnomAD) 應運而生。
  • Nature解讀:人類ENCODE計劃最新研究成果:揭示了人類和小鼠基因組...
    2020年8月17日 訊 /生物谷BIOON/ --DNA元件百科全書計劃(ENCODE,the Encyclopedia of DNA Elements)是全球科學家們不斷努力進行的一項研究計劃,旨在理解人類基因組的功能,隨著這一計劃最新研究階段的完成,該計劃已經從人類和小鼠基因組中加入了數百萬個候選的DNA開關,這些DNA開關似乎能調節基因表達的時間和位點,
  • 「生命百科全書」發表模式生物研究新成果
    論文的共同資深作者、芝加哥大學人類遺傳學教授Jason Lieb博士說:「我們發現三種生物所利用的染色質修飾高度保守。」他指出,人們對染色質抱有極大的興趣,是因為它與一些疾病如癌症具有潛在的聯繫。大量的研究表明,一些癌症有可能一定程度上是由染色質相關的一些基因發生突變所驅動。 在第三項研究中,科學家們探究了基因組調控的相似之處。
  • 如何從ENCODE資料庫中快速獲取組蛋白chip-Seq的可視化數據
    原標題:如何從ENCODE資料庫中快速獲取組蛋白chip-Seq的可視化數據 在我們平時的科研中,常常需要知道自己研究的基因組區段是否位於一些調控元件上,如enhancer,promoter或者特定蛋白結合位點(如TFBS)等。
  • 從《不列顛百科全書》到《中國大百科全書》
    又過些天,爆出《不列顛百科全書》公司的財務內幕。《不列顛百科全書》由1990年一年賣出12萬套,到1996年這一數字下降到了4萬套,收入不到全公司收入的1%了。《紐約時報》的文章說:「上世紀50年代,書架上放一套《不列顛百科全書》,與車庫裡停輛旅行車或房間裡擺臺名牌黑白電視機一樣,既實用又能彰顯中產階級身份。
  • 重磅級文章解讀近年來胚胎幹細胞研究領域新成果!
    本文中,小編整理了多篇重要研究成果,共同解讀科學家們近年來在胚胎幹細胞研究領域取得的新進展,分享給大家!這項新的臨床前研究首次展示了胚胎幹細胞如何將CMA保持在低水平,以促進這種自我更新,而且我們揭示了兩種可能操縱胚胎幹細胞自我更新和分化的新方法來關閉這種抑制,以增強CMA活性和讓它們分化成特化細胞。【2】Nature:重磅!科學家利用人類胚胎幹細胞成功開發出人類胚胎樣模型!
  • 年度總結|2016最好的4篇Cell綜述(從400多篇文章遴選出來)
    在這裡,iNature編輯組先解讀4篇Reviews,然後近期也會繼續解讀10篇Articles,敬請期待。這樣的努力將為確定對目前治療的抵抗的聯合療法的新目標鋪平道路,並促進長期的癌症控制。Karran等人審查證據支持一個長期的,複雜的細胞階段組成的反饋和前饋反應的星形膠質細胞,小膠質細胞和脈管系統。 該領域必須結合這種整體觀點,並利用單細胞方法的進步來解決最初可以補償性反饋的擾動,轉化為不可逆的漸進性神經退行性病變的關鍵時刻。
  • 楊牧之 |從《不列顛百科全書》到《中國大百科全書》
    又過些天,爆出《不列顛百科全書》公司的財務內幕。《不列顛百科全書》由1990年一年賣出12萬套,到1996年這一數字下降到了4萬套,收入不到全公司收入的1%了。《紐約時報》的文章說:「上世紀50年代,書架上放一套《不列顛百科全書》,與車庫裡停輛旅行車或房間裡擺臺名牌黑白電視機一樣,既實用又能彰顯中產階級身份。
  • 【中國科學報】萬種鳥類基因組計劃第二階段研究結果發布
    語音播報   近日,中國科學院昆明動物研究所研究員張國捷及其團隊,聯合深圳華大生命科學研究院、丹麥哥本哈根大學等多家單位,在《自然》以封面形式同期發表了兩篇文章
  • 使用機器學習和Python揭開DNA測序神秘面紗
    例如,人類基因組被排列成23條染色體,這有點像百科全書被編輯成23卷。如果算上所有字符(單個DNA「鹼基對」),每個人類基因組中將有超過60億個字符。所以這是一個巨大的工程。人類基因組大約有60億個字符。如果您認為基因組(完整的DNA序列)就像一本書,那就是一本由大約60億個「 A」,「 C」,「 G」和「 T」字母組成的書。每個人都有獨特的基因組。