ENCODE是「DNA組成元素百科全書」的縮寫,是繼人類基因組計劃(HGP)之後的又一大型國際合作項目。來自英國、美國、西班牙、新加坡和日本32個研究機構的442名科學家歷時5年,耗資1.5億美元,獲得了迄今最詳細的人類基因組分析數據,這也是「人類基因組計劃」之後國際科學界在基因研究領域取得的又一重大進展。該項目旨在識別出人類基因組序列中的所有功能區,包括轉錄、轉錄因子聯合、染色質結構和組蛋白修飾區,現在科學家們可以確認,人類基因組中80%的成分至少有一種生化功能。
人類基因組計劃與ENCODE計劃之間有著承上啟下的關係。人類基因組計劃發現基因組中僅有1.5%的序列是給蛋白質編碼的,其餘98.5%的序列以前被認為是「垃圾」。這些「垃圾」也被稱作基因之間的「荒漠」,ENCODE計劃正是要探索這些「荒漠」中的秘密。
研究人員對147個細胞類型進行了計算機分析、生物化學試驗以及測序研究。他們在人類DNA中發現了400萬個位點,作用相當於控制基因活性的開關。這些開關距離被它們調控的基因或近或遠,並作用於不同細胞類型的不同結合體上,從而賦予了每個細胞類型以獨特的基因組身份。在一個資料庫中,ENCODE已經創建了一張圖譜以展示所有不同鹼基的作用。
資助ENCODE的美國國家人類基因組研究所項目主管埃利斯·范戈爾德說:「它就像人類基因組的谷歌地圖。」利用谷歌地圖,一個人可以選擇不同的視角來查看景觀的不同方面。同樣,在ENCODE圖譜中,人們也能從染色體水平放大單個鹼基,並且在查看這些鹼基是否會產生RNA,或是否為DNA調控蛋白質的結合位點之間切換。
深入基因組內部
「人類基因組計劃」繪製出了人體生物學的藍圖,但人們很快發現,閱讀這份藍圖的指導手冊充其量只算是草稿。已標記的30億個編碼蛋白質字母,只佔人類基因組的1%多一點,包含約20000個基因——這只是在一大片未知的陌生環境中識別出一點稍微熟悉的事物而已。許多生物學家懷疑,真正體現人類複雜性的,可能是那些藏在「荒漠」中的信息。
ENCODE計劃旨在完成人類基因組計劃遺留的任務,為潛藏在「荒漠」中的功能性DNA序列編制目錄,以了解它們會在什麼時候、在哪些細胞裡被激活,並追蹤它們對染色體包裝、調節和讀取產生的影響。
在人類基因組測序終止前,美國國家人類基因組研究所還在爭論是否要在項目中對DNA功能片段做出系統地識別。2003年,它邀請生物學家提出一個先期實驗項目,對基因組中1%的部分進行深入研究,以確定哪些實驗技術可能對整個研究最有效。
先期實驗改變了生物學家對基因組的看法。他們發現只有少數DNA參與了製造編碼蛋白的信使RNA,許多基因組被「轉錄」成非編碼的RNA分子,而其中一些目前已知是非常重要的基因表達調節器,而且許多重要的調節序列也會迅速進化。他們於2007年公布了這些發現,不久之後,美國國家人類基因組研究所再次邀請科研人員將研究工作擴展到整個基因組。這一「升級」正像新一代測序機的開始,數據採集變得更快、更便宜。「我們現在生產數據的速度是以往的5倍,而成本不變。」西雅圖華盛頓大學的ENCODE研究員約翰·斯塔馬圖亞諾伯洛斯說。
在全面研究中,研究人員對至少147種細胞類型進行了1648項實驗。他們將從基因組中轉錄的RNA進行分離、測序,識別出約120種轉錄因子的DNA結合位點。他們還繪製了基因組中被甲基團覆蓋的區域圖,被甲基團覆蓋通常表明這裡的基因是沉默的。他們還檢驗了組蛋白的化學修飾方式,這種修飾有助於將DNA包裝成染色體,增強或抑制信號區(基因表達區)。
斯塔馬圖亞諾伯洛斯和同事用了一種叫做DNaseI的酶繪製了125個細胞型中的調節區。這種酶對與組蛋白結合的DNA影響很小,卻會切斷與其他調節蛋白連接的DNA,如轉錄因子。對被切掉的DNA測序表明,在不同細胞類型中,這裡都是蛋白質的結合位點。他們共發現了約290萬個這種位點。其中約1/3發現於一種細胞類型中,而所有細胞類型都有的位點僅3700個,這表明基因組在不同細胞之間調節的差異,是造成細胞與細胞之間差異的主要原因。而把不同的資料庫放在一起對比,讓研究人員能知道是哪種轉錄因子於何時、何地發生了結合。
現在,人們發現原來巨大的「荒漠區」居住著數十萬有著基因調節功能的「住民」,而且每種細胞類型通過這些功能的不同排列組合實現其特殊的生化功能。這也解釋了為何相對較少的編碼蛋白基因能產生大量的生物複雜性,來支持人體生長及功能。領導部分數據分析工作的麻省理工大學計算遺傳學家馬諾裡斯·克裡斯說:「ENCODE計劃遠遠超過了部分相加之和。」
目前這一階段已近尾聲。研究人員已經確認約80%的基因組都具備某種功能,包括7萬多個「啟動子」區,位於基因上遊,負責與蛋白質結合控制基因表達;近40萬個「增強子」區,負責調節遠距離基因的表達。
ENCODE計劃所發布的數據已經在幫助研究人員進一步了解遺傳病。自2005年以來,已經發現上千個致病基因,其中一個字母的差異或變異就會導致疾病風險。該計劃所繪製的基因圖譜揭示了許多與疾病相關的區域,包括「增強子」或其他功能序列,而細胞類型也很重要。「要感謝ENCODE項目,我們現在才能對更複雜的疾病主動出擊。」克裡斯說。
許多人已經從人類基因庫的巨大數據流中獲益。ENCODE已經照亮了人類基因組的一些黑暗角落,為人們理解基因變異是怎樣影響人類特徵和疾病創造了機會。進一步探索該項目所揭示的調節成分,將其序列與其他哺乳動物做比較,有助於科學家重新理解人類的進化。
何處是終點?
在「人類基因組計劃」中,人們只是對基因組進行測序,現在開始深入腹地探索其內部的秘密。但沒人知道基因組中還藏著多少信息,這項研究何時才是盡頭。
「這不可能很快停下來。」英國牛津大學計算生物學家克裡斯·龐廷表示。他也支持該計劃目標,但他懷疑該計劃某些方面的研究能否帶來投資回報,這些研究據估計已經超支1.85億美元。而另一位小組領導人、麻薩諸塞大學醫學院的喬伯·德克說,實現ENCODE的潛在利益需要耐心。「有時要花很長時間才知道,你能從某個資料庫中獲取多少利益。」
問題是哪裡才是終點?克裡斯說,一些實驗方法可能會到達飽和點:如果發現的速度低於某個界限,每個實驗的回報可能會變得太低而不值得追求。科學家最終將積累足夠的數據,能預測那些尚未探索的序列的功能。這一過程稱為歸因,但在很長時間裡其目標都是註解基因。「我認為會有一個階段性的轉變,到那個時候歸因法會比實際實驗更有效,也更準確。」
然而,伴隨著數千種細胞類型需要測試,並且需要驗證的工具不斷增長,該計劃看起來在無休止地延長。這一點讓許多人擔心。ENCODE的先期實驗已經花了大約5500萬美元;擴展項目大約1.3億美元;下一階段還可能投資1.23億美元。
一些研究人員認為,他們尚未看到可靠的投資回報。僅從一件事來說,要想了解ENCODE項目數據使用情況就很難。美國國家人類基因組研究所項目程序主管麥克·帕金說,他檢索所有ENCODE數據在其中起著重要作用的論文,發現其中有30多萬篇並非來自ENCODE資助的實驗室,因為單詞「encode」在遺傳學和基因組學的論文中普遍存在。還有反對者認為,ENCODE並不像人類基因組計劃那樣有著清晰的終點,它可能會無限制地擴展下去。
研究工作仍任重道遠
來自歐洲分子生物實驗室的英國歐洲生物信息研究所的計算生物學家、負責協調ENCODE計劃數據分析的伊萬·伯尼說,研究工作還遠未完成,某些基因組繪製工作已到半途,而其中各成分的功能是什麼,只完成了10%。目前正在進行的第三階段研究,最終將完成閱讀人類基因的指導手冊,並提供更多的細節。
伯尼想把他們過去5年來為ENCODE計劃收集的全部基因組數據列印出來,但卻發現一個難題:沒有地方能存放它們——即使每平方釐米能容納1000個鹼基對,列印材料也將達到16米高,至少30千米長。
僅研究ENCODE項目現有的數據,就要花幾年時間,但是還有大量工作要做。美國加州大學聖克魯茲分校的網站上有一個生動的圖畫展示了ENCODE項目的進展:一個立體網格顯示了24個實驗類型中哪些已經開展,180個細胞類型中哪些已經被檢驗。現在的工作分布仍很稀疏。只有少數細胞系,包括實驗室的兩匹「快馬」HeLa和GM12878(細胞系名)的進度還不錯。更多的只不過做了一次實驗而已。
科學家們將在第三階段中填補許多空白,而伯尼把這叫做「擴建」。但是他們打算增加更多實驗和更多細胞類型。如此做的一種方法是,擴大一種叫做「染色質免疫沉澱反應」(ChIP)技術的範圍,這一技術能找出與特定蛋白結合的所有序列,包括轉錄因子和修飾組蛋白。經過一個辛苦的過程後,研究人員一個接一個地開發出了這些DNA結合蛋白的對應抗體,然後用這些抗體將蛋白質和任何相關DNA從細胞中分離出來,最後再為這些DNA測序。
但至少,這是一個有限的問題,因為這類蛋白大約只有2000個(ENCODE已經獲得了其中約1/10的樣本),更大的困難是算出來有多少細胞系需要分析。迄今為止,進行的多數實驗都是針對適於在培養環境中生長的細胞系,具有一些非自然的特點。比如細胞系GM12878,就是從血液細胞中培養出來,並用一種病毒來驅動細胞複製,組蛋白或其他因子可能會不正常地結合到擴增基因組中。HeLa細胞系是從50多年前的一個宮頸癌切片中培養出來,並用基因重組技術改造。伯尼開玩笑說,它稱得上是個新物種。
ENCODE科學家現在想觀察直接取自人體的正常細胞。但許多這類細胞在培養環境中無法分裂,樣本難以取得,實驗只能在少量DNA和諸如腦細胞組織中進行。ENCODE協調人員也開始討論,更深入地研究個體差異對基因組中的調節成分有哪些影響。「某些地方存在一些序列差異,這意味著轉錄因子在這裡的結合方式有所不同。」耶魯大學新港分校計算生物學家馬克·格斯坦說,他協助設計了ENCODE的數據結構。最終,研究樣本將來自幾十到幾百個人不等。
大型研究計劃的經驗
為了成功,科研聯盟需要清晰的管理和行動守則,並要求參與人員為了共同利益而努力。伯尼說,由於該計劃的複雜性,它不可能像那些只有一兩個實驗室參與的研究那樣開展。通常,在小規模的合作中,科學家都能充分發揮自己的能力,爭取資金、發表論文,這對科學研究、科學家的實驗室以及他們本人的發展都起到促進作用。但這種模式在科研聯盟中並不奏效。
伯尼認為,一個大型科研聯盟要想成功,必須形成一個對每位參與者都透明的組織機構。這種機構應當足夠靈活,能隨時改變以容納多方資源,並將每位參與者作為個體對待,而不是把聯盟當成一個團體,允許預料之外的有創新性的參與者加入。在聯盟中,人們必須集中精力、儘可能地做出最好的資料庫,也許他們會用到這些數據,也許不會,重要的是公共資源,而非個人成功。這要求把編制數據的目標從發表論文轉變為公共利益。反過來,聯盟各方的成功也要得到認證,至少他們帶來了多少發現,就能在多大程度上促進科學的發展。
大型生物科研聯盟如ENCODE、國際人類基因組單體型圖計劃(HapMap)、千人基因組計劃(1000 Genomes Project)都是大規模的系統研究。這些研究會列出一份基礎資源的「清單」,而不是聚焦於某些興趣領域,並採用標準化方法、反應試劑和分析計劃。研究成本由其支持的科學範圍來決定——大到基因組分析,小到小規模的、假設驗證類研究。
「我從1999年開始參與各種水平參的研究。2004年,我成為ENCODE數據分析的協調人。我了解到,科研聯盟要想成功非常困難,因為它將那些可能會互相競爭的人組織在一起。讓競爭者公開地、共同朝向一個目標合作很難,這有賴於所有人的良好意願。ENCODE也讓我明白一點,有效的科研聯盟要求所有參與者形成一個組織構架、一套行動守則和一個目標:生成高質量數據,讓全世界的科學家都能獲得有用的數據。」伯尼說。
成果:30篇論文聚焦人類基因組功能
過去5年來,ENCODE科研聯盟一直在構建這部DNA功能成分的百科全書,希望它為整個科學界提供參考。最近,研究人員在《自然》《基因組研究》和《基因組生物學》3種雜誌上發表了30篇公開論文,關聯到大量過程分析和原始數據。這一形式或許還開創了一種新的出版模式:在不同雜誌之間進行主題線索的交織。
1. 轉錄因子的足跡分析
對41種不同的細胞和組織類型進行基因組DNase I足跡分析,研究人員在DNA調節區內鑑定出4500萬個轉錄因子結合事件,從而代表著這些轉錄因子與840萬個不同的短DNA序列元件存在差異性的結合。
2. 人類基因組DNA元件集成百科全書
ENCODE項目系統性地描繪出人基因組上的轉錄區域、轉錄因子結合、染色質結構和組蛋白修飾。根據這些數據,研究人員將生化功能分配到80%的人基因組,特別是在已得到很好研究的蛋白編碼序列之外的區域。
3. 人類細胞轉錄全景圖
RNA是基因組編碼的遺傳信息的直接輸出。細胞的大部分調節功能都集中在RNA的合成、加工和運輸、修飾和翻譯之中。研究人員證實,75%的人類基因組能夠發生轉錄,並且觀察到幾乎所有當前已標註的RNA和上千個之前未標註的RNA的表達範圍與水平、定位、加工命運、調節區和修飾。總之,這些觀察結果表明人們需要重新定義基因的概念。
4. 人類基因組中可訪問的染色質全景圖
DNase I超敏感位點(DHSs)是調節性DNA序列的標記物。研究人員通過對125個不同的細胞和組織類型進行全基因組譜分析,鑑定出大約290萬個人類DHSs,並且首次大範圍地繪製出人類DHSs圖譜。
5. 人類基因組調控網絡結構
為了確定人類轉錄調節網絡的作用原理,研究人員在450多項基因組實驗中研究了119個轉錄相關因子的結合信息。他們發現轉錄因子的組合性結合是高度環境特異性的:轉錄因子的不同組合結合在特異性的基因組位置上。他們對所有的轉錄因子進行組裝而產生一個層次結構,並且將它與其他基因組信息整合在一起而形成一個嚴密又龐大的調節性網絡。
6. 基因啟動子的遠距離相互作用全景圖
在ENCODE項目中,研究人員選擇1%的基因組作為項目試點區域,並且利用染色體構象捕獲碳拷貝(簡稱為5C)技術綜合分析了這個區域中轉錄起始位點和遠端序列元件之間的相互作用。
7. 果蠅和人類的轉錄因子結合位點變異分析
研究人員將ENCODE項目產生的轉錄因子結合圖譜、之前發布的數據及其他人和果蠅等基因系中基因組變異數據來源結合在一起,來研究轉錄因子結合位點的變異性。
8. 轉錄因子TCF7L2通過GATA3結合到基因組上
TCF7L2轉錄因子與很多人類疾病相關聯,如Ⅱ型糖尿病和癌症。研究人員利用高通量測序技術ChIP-seq在6個人類細胞系中對TCF7L2進行分析。他們鑑定出11.6萬個非冗餘性TCF7L2結合位點,但是只有1864個位點在這6個細胞系中是相同的。
9. 構建定量模型研究染色質特徵和基因表達水平之間關係
通過構建出一個新的研究染色質特徵和基因表達水平之間關係的定量模型,研究人員不僅證實之前在多個細胞系的研究中發現的一般性關係,而且還對它們之間的關係提出了一些新的建議。
10. GENCODE假基因資源
作為GENCODE標註人基因組的一部分,研究人員基於大規模的人工標註和計算機運算,首次針對蛋白編碼的基因進行全基因組假基因分配。他們將假基因標註和廣泛性的ENCODE功能性基因組學信息整合在一起,尤其是確定了每個假基因的表達水平、轉錄因子與RNA聚合酶Ⅱ結合以及與之相關聯的染色質標記。
11. 對人類啟動子的轉錄因子結合位點進行功能性分析
為了大規模地描述轉錄因子結合位點功能,研究人員預測了人類啟動子中的455個結合位點,並對它們進行突變。在4個不同的永生化人細胞系中,他們利用瞬時轉染和螢光素酶報告檢測在這些位點上對主要的轉錄因子進行了功能測試。
12. 基於轉錄相關因子的結合位點對人類基因組區域進行分類
研究人員通過機器學習方法構建出統計學模型,來捕獲3種匹配類型的區域的基因組特徵:活性結合或不活性結合的區域;極端高程度共同結合區域(HOT)和極端低程度共同結合區域(LOT);位於基因近端或遠端的調節性組件。
13. 利用RegulomeDB標註個人基因組中的功能性變異
研究人員開發出一種新的方法和資料庫,即調節物組資料庫,指導人們理解人類基因組中調節性序列上發生的變異。
14. 制定ChIP-seq工作標準和指導準則
根據研究人員進行ChIP-seq實驗的經歷,ENCODE和modENCODE(模式生物ENCODE)為經常更新的ChIP-seq實驗制定出一套工作標準和指導準則。
15. 利用RT-PCR-seq和RNA-seq統計所有人類基因組編碼的基因元件
在ENCODE項目中,GENCODE旨在通過人工管理和計算方法準確地標註人類基因組中所有編碼蛋白的基因、假基因和非編碼性的轉錄座位。利用一種叫做RT-PCR-seq(先進行RT-PCR擴增,然後進行高通量多重測序)的方法來預測外顯子連接。驗證了73%的預測結果,從而證實了1168個新的基因,其中大多數是非編碼性的。
16. 細胞內RNA深度測序證實大多數RNA進行共轉錄剪接
研究人員分析了K562細胞系中通過RNA-seq測序而獲得的細胞內RNA組分。他們發現,在人類基因組中,RNA剪接主要是在轉錄期間完成的,並證實在細胞質polyA+ RNA中,剪接幾乎完全完成。因此,大多數RNA在被轉錄的同時進行剪接,即共轉錄剪接。
17. 發現上百個小鼠和人剪接來源的miRNA
非典型的miRNA模板並不適合經常用來標註典型miRNA的策略。通過對737個小鼠和人類小RNA數據集進行大規模分析,研究人員採取嚴格且保守性的策略對237個小鼠剪接來源miRNA和240個人mirtrons進行標註。
18. GENCODE:ENCODE項目的人類基因組參照標註
GENCODE第七版公開發布了基因組標註數據集,包含20687個蛋白編碼的RNA基因座位、9640個長鏈非編碼RNA基因座位,並且擁有33977個在UCSC基因資料庫和RefSeq資料庫中不存在的編碼性轉錄本。它還對公開獲得的長鏈非編碼RNA進行最全面的標註。
19. 發現人類基因組中疾病相關的功能性SNP
研究人員系統性地研究了多種類型的ENCODE數據與疾病相關基因SNP(即單核苷酸多態性)之間的關聯性,並且發現在當前鑑定出的疾病關聯當中,存在功能性SNP的顯著性富集。
20. 在兩種人類細胞系中,lncRNA很少表達
ENCODE項目發現被鑑定為lncRNA的9640多個人類基因組位點中,迄今為止只有大約100個得到深入的研究以便確定它們在細胞中的作用。通過共同分析ENCODE項目最近產生的兩個數據集,發現大約92%的GENCODE第七版發布的lncRNA在細胞系K562和GM12878中並不表達。
21. 關於個人和群體的基因組調節性序列變異的基因組學
為了更好地界定人類基因組調節性序列變異的模式,研究人員選擇了來自不同位置的53個人的全基因組序列,將他們的138個細胞和組織類型的DNase I超敏感位點標記的全基因組調節性DNA序列圖譜結合起來。研究人員估計,相比於蛋白編碼的DNA序列,每個人可能擁有很多更加具有功能重要性的調節性DNA序列變異體,儘管平均而言,它們可能產生更加小的影響。
22. 利用開放構象染色質區域來預測細胞類型特異性的基因表達
研究人員利用來自19項不同的人類細胞類型的DNase-seq數據來鑑定全基因組範圍的近端和遠端調節性序列元件。通過匹配表達數據,他們將基因分為三類:細胞特異性的上調表達的基因、細胞特異性的下調表達的基因和組成性表達的基因。總之,他們成功地利用開放構象染色質的信息來解決利用調節性序列直接預測哺乳動物細胞特異性表達時存在的問題。
23. 探究ENCODE項目人類RNA-seq數據中的RNA編輯
研究人員分析了來自ENCODE項目對14個人類細胞系開展研究所獲得的長串RNA-seq數據(這些數據經過PolyA選擇,沒有形成雙鏈,且經過深度測序),以便鑑定出潛在的RNA編輯事件。他們發現,RNA編輯和特異性的基因之間存在較強的關聯。
24. 細胞類型特異性的轉錄因子結合的序列和染色質決定簇
為了研究DNA序列信號、組蛋白修飾和DNase對細胞類型特異性的結合位點的可訪問性所發揮的作用,研究人員分析了ENCODE項目所開展的286項ChIP-seq實驗。與之前的研究相一致的是,他們發現DNase可訪問性能夠解釋很多轉錄因子的細胞類型特異性結合。
25. 119個人類轉錄因子結合的基因組區域附近的序列特徵和染色質結構
通過對ENCODE項目在研究119個人類轉錄因子時所獲得的大約457個ChIP-seq數據集進行整合分析,研究人員在大多數數據集中鑑定出高度富集的序列基序,揭示出新的基序和驗證已知的基序。
26. 分析人類lncRNA的基因結構、進化和表達
研究人員分析了迄今為止最為完整的由GENCODE項目產生的人類lncRNA標註:人工標註了產生14990個RNA轉錄本的9277個基因。他們的分析結果表明,lncRNA是通過類似於蛋白編碼基因的轉錄途徑產生的;相對於蛋白編碼的基因,lncRNA通常較低地表達。
27. 染色質信號存在廣泛的異質性
在許多種細胞系中,研究人員將14個染色質信號(12個染色質標記、DNase和核小體定位)與119個DNA結合蛋白的結合位點相關聯在一起。他們開發出一種被稱作CAGT的方法,來解釋染色質標記在信號強度、形狀和隱性鏈定位上的異質性。
28. 對轉錄因子結合數據進行整合分析來理解轉錄調節
利用對ENCODE項目產生的大量數據進行統計學模型分析,來研究轉錄因子的轉錄調節。研究結果揭示,不同技術和RNA抽提實驗程序所捕獲的轉錄起始位點在表達水平的預測準確度上存在顯著性的差異。
29. CTCF結合的廣泛可變性與DNA甲基化相關聯
CTCF是一個廣泛表達的調節因子。研究人員通過研究19項不同人類細胞類型的ChIP-seq數據來分析CTCF的全基因組結合模式。他們觀察到高度重複性的但同時可變性非常大的基因組結合全景圖,表明CTCF結合受到高度細胞選擇性的調節。
30. 細胞HepG2中高度整合的轉錄因子PPARGC1A結合網絡
PPARGC1A是一個轉錄共激活因子。它結合併共同激活多種轉錄因子來調節大多數基因的表達。在這項研究中,研究人員在經過毛喉素處理的HepG2細胞中描述了一種核心的PPARGC1A轉錄調節網絡。他們利用ChIP-seq首次描繪了PPARGC1A的全基因組結合位點,並且揭示出過多表達的對應於已知的和新的PPARGC1A網絡成員的DNA序列基序。重要的是,他們發現不同的轉錄因子組合結合到一套不同的功能性基因上,從而有助於揭示代謝性過程和其他細胞過程的組合性調節代碼。