DNA元件百科全書(Encyclopedia of DNA Elements, ENCODE)項目旨在描述人類基因組中所編碼的全部功能性序列元件。它於2003年9月正式啟動。來自英國、美國、西班牙、新加坡和日本的32個實驗室中442名科學家參與這個項目。9年後的今天,他們在Nature(6篇)、Genome Research(18篇)和Genome Biology(6篇)期刊上發表了30篇論文。(特別專題:ENCODE-人類基因組詳圖問世)
1. 轉錄因子的足跡分析
對41種不同的細胞和組織類型進行基因組DNase I足跡分析(genomic DNase I footprinting),研究人員在DNA調節區內鑑定出4500萬個轉錄因子結合事件,從而代表著這些轉錄因子與840萬個不同的短DNA序列元件存在差異性地結合。他們還發現影響等位基因染色質狀態的基因變異體集中分布在這些足跡之中,並且這些序列元件優先得到DNA甲基化的保護。他們鑑定出一個固定不變的50個鹼基對長的足跡,並且這種足跡精確地確定著上千個人啟動子內的轉錄起始位點。最後,他們描述了一個新的調節因子識別基序集合,其中這些基序在序列和功能上是高度保守的。<<<參見原文(10.1038/nature11212)
2. 人基因組DNA元件集成百科全書
ENCODE項目系統性地描繪出人基因組上的轉錄區域、轉錄因子結合、染色質結構和組蛋白修飾。根據這些數據,研究人員將生化功能分配到80%的人基因組,特別是在已得到很好研究的蛋白編碼序列之外的區域。<<<參見原文(10.1038/nature11247)
3. 人細胞轉錄全景圖
RNA是基因組編碼的遺傳信息的直接輸出。細胞的大部分調節功能都集中在RNA的合成、加工和運輸、修飾和翻譯之中。研究人員證實,75%的人基因組能夠發生轉錄,並且觀察到幾乎所有當前已標註的RNA和上千個之前未標註的RNA的表達範圍與水平、定位、加工命運、調節區和修飾。總之,這些觀察結果表明人們需要重新定義基因的概念。<<<參見原文(10.1038/nature11233)
4. 人基因組中可訪問的染色質全景圖
DNase I超敏感位點(DNase I hypersensitive sites, DHSs)是調節性DNA序列的標記物。研究人員通過對125個不同的細胞和組織類型進行全基因組譜分析而鑑定出大約290萬個人DHSs,並且首次大範圍地繪製出人DHSs圖譜。<<<參見原文(10.1038/nature11232)
5. 人基因組調控網絡結構
為了確定人轉錄調節網絡的作用原理,研究人員在450多項基因組實驗中研究了119個轉錄相關因子的結合信息。他們發現轉錄因子的組合性結合是高度環境特異性的:轉錄因子的不同組合結合在特異性的基因組位置上。他們對所有的轉錄因子進行組裝而產生一個層次結構,並且將它與其他基因組信息整合在一起而形成一個嚴密而又龐大的調節性網絡。<<<參見原文(10.1038/nature11245)
6. 基因啟動子的遠距離相互作用全景圖
在ENCODE項目中,研究人員選擇1%的基因組作為項目試點區域,並且利用染色體構象捕獲碳拷貝(chromosome conformation capture carbon copy, 簡稱為5C)技術來綜合性地分析了這個區域中轉錄起始位點和遠端序列元件之間的相互作用。他們獲得GM12878、K562和HeLa-S3細胞的5C圖譜。在每個細胞系,他們發現啟動子和遠端序列元件之間存在1000多個遠距離相互作用。<<<參見原文(10.1038/nature11279)
7. 果蠅和人的轉錄因子結合位點變異分析
研究人員將ENCODE項目產生的轉錄因子結合圖譜、他們之前發布的數據以及其他的人和果蠅等基因系中基因組變異數據來源結合在一起,來研究轉錄因子結合位點(transcription factor binding sites, TFBSs)的變異性。他們引入一種TFBS變異性的衡量標準和依據不斷出現的每個人的轉錄因子結合數據來證實TFBS突變,尤其是在進化保守性位點上發生的那些突變,能夠被有效地緩解從而確保轉錄因子結合水平保持一致性。<<<參見原文(10.1186/gb-2012-13-9-r49)
8. 轉錄因子TCF7L2通過GATA3結合到基因組上
TCF7L2轉錄因子與很多人類疾病相關聯,如II型糖尿病和癌症。研究人員利用高通量測序技術ChIP-seq在6個人細胞系中對TCF7L2進行分析。他們鑑定出11.6萬個非冗餘性TCF7L2結合位點,但是只有1864 個位點在這6個細胞系中是相同的。他們還證實被H3K4me1和H3K27Ac標記的很多基因組區域也被TCF7L2結合。對細胞類型特異性的TCF7L2結合位點進行生物信息學分析揭示富集多種轉錄因子,包括在HepG2細胞中富集HNF4alpha和FOXA2基序,而在MCF7細胞中富集GATA3基序。轉錄組測序(RNA-seq)分析提示著TCF7L2通過GATA3結合到基因組上從而抑制轉錄。<<<參見原文(10.1186/gb-2012-13-9-r52)
9. 構建定量模型研究染色質特徵和基因表達水平之間關係
通過構建出一個新的研究染色質特徵和基因表達水平之間關係的定量模型,研究人員不僅證實之前在多個細胞系的研究中發現的一般性關係,而且還對它們之間的關係提出一些新的建議。<<<參見原文(10.1186/gb-2012-13-9-r53)
10. GENCODE假基因資源
作為GENCODE標註人基因組的一部分,研究人員基於大規模的人工標註和計算機運算來第一次針對蛋白編碼的基因進行全基因組假基因分配。他們將假基因標註和廣泛性的ENCODE功能性基因組學信息整合在一起。特別的是,他們確定了每個假基因的表達水平、轉錄因子與RNA聚合酶II結合以及與之相關聯的染色質標記。<<<參見原文(10.1186/gb-2012-13-9-r51)
11. 對人啟動子的轉錄因子結合位點進行功能性分析
為了大規模地描述轉錄因子結合位點功能,研究人員預測了人啟動子中的455個結合位點,並對它們進行突變。在四個不同的永生化人細胞系中,他們利用瞬時轉染和螢光素酶報告檢測在這些位點上對主要的轉錄因子CTCF, GABP, GATA2, E2F, STAT和YY1進行功能性的測試。在每個細胞系中,36%到49%的結合位點提高啟動子活性,並且在這些細胞系中的任何一個當中,觀察到這種提高啟動子活性的功能的整體發生率為70%。<<<參見原文(10.1186/gb-2012-13-9-r50)
12. 基於轉錄相關因子的結合位點對人基因組區域進行分類
研究人員通過機器學習方法構建出統計學模型來捕獲三種匹配類型的區域的基因組特徵:活性結合或不活性結合的區域;極端高程度共同結合區域(high degree of co-binding, HOT)和極端低程度共同結合區域(low degree of co-binding, LOT);位於基因近端或遠端的調節性組件。總之,這種區域在染色體位置、染色質特徵、結合到它們之上的轉錄因子和細胞類型特異性上存在複雜的差異。<<<參見原文(10.1186/gb-2012-13-9-r48)
13. 利用RegulomeDB標註個人基因組中的功能性變異
研究人員開發出一種新的方法和資料庫,即調節物組資料庫(RegulomeDB),從而能夠指導人們理解人基因組中調節性序列上發生的變異。調節物組資料庫包括來自ENCODE和其他來源的高通量的實驗數據,以及利用計算預測和人工標註來鑑定出潛在的調節性序列變異體。<<<參見原文(10.1101/gr.137323.112)
14. 制定ChIP-seq工作標準和指導準則
根據研究人員進行ChIP-seq實驗的經歷,ENCODE和modENCODE(model organism ENCODE, 模式生物ENCODE)為經常更新的ChIP-seq實驗制定出一套工作標準和指導準則。<<<參見原文(10.1101/gr.136184.111)
15. 利用RT-PCR-seq和RNA-seq統計所有人基因組編碼的基因元件
在ENCODE項目中,GENCODE旨在通過人工管理和計算方法來準確地標註人基因組中所有編碼蛋白的基因、假基因和非編碼性的轉錄座位。利用一種被稱作RT-PCR-seq(即先進行RT-PCR擴增,然後進行高通量多重測序)的方法可以來預測外顯子連接(exon–exon junction)。研究人員驗證了73%的預測結果,從而證實了1168個新的基因,其中大多數是非編碼性的。<<<參見原文(10.1101/gr.134478.111) (生物谷Bioon.com)
>>>更多閱讀
BIOON視點:人類基因組詳圖問世
ENCODE相關30篇論文摘要 聚焦人基因組功能研究(二)