近日,一篇發表在國際雜誌Nature上題為「Regulatory genomic circuitry of human disease loci by integrative epigenomics」的研究報告中,來自麻省理工學院等機構的科學家們通過繪製表觀基因組圖譜即使了3萬個人類疾病區域的迴路。20年前,人類基因組的第一份草案公開發布,該項目的主要驚喜之一就是科學家們發現人類基因組中僅有1.5%是由蛋白質編碼基因組組成的。
在過去20年裡,科學家們最初認為是垃圾DNA的非編碼DNA片段在機體發育和基因調節中都扮演著關鍵角色,這項研究中,研究人員發布了迄今為止最全面的非編碼DNA圖譜。該圖譜對跨越833種組織和細胞類型進行了表觀基因組標記,即能表明不同類型細胞中哪些基因被開啟或關閉的修飾,相比之前所涵蓋的內容有了顯著增加,此外,研究人員還識別出了能控制特定生物程序的調節元件,並揭開了與540種特定性狀相關的大約3萬個遺傳變異的候選作用機制。
研究者Manolis Kellis教授說道,我們所提供的其實是人類基因組的迴路,20年後我們不僅有了基因,而且還擁有了非編碼的注釋、模塊、上遊調節子、下遊靶點、病毒變異以及對這些病毒變異的解釋。
圖片來源:CC0 Public Domain
表觀基因組的控制
疊加在人類基因組(組成遺傳代碼的核苷酸序列)之上的是表觀基因組,表觀基因組由化學標記所組成,其能幫助確定不同時間點和不同細胞中會有哪些基因被開啟表達,這些標記包括組蛋白修飾、DNA甲基化以及某段DNA的可及性。表觀基因組學能直接讀取機體細胞所使用的標記,從而記住每一種細胞類型和機體每一種組織中到底什麼開啟和關閉;其就好像便利貼、螢光筆和下劃線一樣,表觀基因組學能讓我們了解每種細胞類型中被標記為重要的細胞,從而了解基因組的實際功能。
而繪製這些表觀基因組注釋或能幫助揭示遺傳控制元件以及不同元件活躍的細胞類型,這些控制元件能被分類為集群或模塊,共同作用來控制特定的生物學功能,其中一些元件是增強因子,其能與激活基因表達的蛋白質相結合,而另一些則是抑制因子,能夠關閉基因的表達。研究人員新繪製的圖譜名為EpiMap (Epigenome Integration across Multiple Annotation Projects),其建立在多個大規模繪圖聯盟的數據基礎之上,並能夠結合這些數據,包括了ENCODE(DNA元素百科全書), Roadmap Epigenomics(表觀基因組學計劃)和Genomics of Gene Regulation(基因調控基因組學計劃)。
文章中,研究人員共收集了833個生物樣本,其達標了不同類型的組織和細胞類型,每個生物樣本的表觀基因組標記的子集都略有不同,因此很難完全整合多個聯盟的數據;隨後研究人員通過合併類似標記和生物樣本的現有數據,填補了缺失的數據集,並利用由此產生的跨越833個生物樣本中的1萬個標記彙編來研究基因調節和人類疾病的發病機制。
研究人員注釋了200多萬個增強子位點,其僅覆蓋了每個生物樣本中0.8%的比例,合計佔基因組的13%;研究人員根據其活性模式將其歸納為300個模塊,並將其控制的生物學過程、調節子和短序列基序聯繫了起來,同時研究者還預測了基於其協調活性模式下,控制元件和目標基因之間的330萬種聯繫,這代表了迄今為止人類基因組中最全面的迴路。
疾病連結
自從2003年人類基因組最終草案完成以來,研究人員已經進行了數千項全基因組關聯性研究(GWAS),揭示了能使攜帶者易患某種形狀或疾病的常見遺傳突變。這些研究大約產生了12萬個突變,但僅有7%的突變位於蛋白編碼的基因中,其餘的93%的突變位於非編碼的DNA區域中。然而,非編碼突變體如何發揮作用,研究人員並不清楚,原因有很多;首先,基因突變是成組遺傳的,這就使得在每個疾病相關區域的幾十個突變中尋找致病突變體變得非常困難,此外,非編碼突變體能夠遠距離作用,有時在數百萬個核苷酸以外,這就很難找到其所作用的靶基因,同時其還具有極強的動態性,這樣研究人員就很難知道其到底會在哪個組織中發揮作用,而且了解其上遊調節機制也是一個未解決的問題。
這項研究中,研究人員就能解決這些問題,並能為超過3萬個非編碼GWAS編譯提供候選的機制見解;研究者發現,與同一特性相關的變異更傾向於在該特性生物學相關的特定組織中富集,比如,與智力相關的基因突變往往會出現在大腦中活躍的非編碼區域,而與膽固醇相關的基因突變則會出現在肝臟中的活躍區域中。研究人員還表明,一些性狀或疾病會受到多種不同組織類型中增強子活性的影響,比如他們發現,與冠心病相關的遺傳突變或在脂肪組織、冠狀動脈、肝臟等其它組織中處於活躍的狀態。
目前研究者Kellis的實驗室正在與其他研究人員合作,在這些全基因組預測的指導下來尋找特定疾病發生的線索;研究人員正在對冠心病患者的心臟組織、阿爾茲海默病患者的小膠質細胞以及肥胖患者的肌肉、脂肪和血液等組織樣本進行分析,基於目前的研究結果,這些或許都是能預測疾病的因素。許多其它實驗室也都在利用EpiMap數據來進行不同疾病的多項研究;最後研究者Kellis說道,我們希望我們的預測結果能在工業界和學術界得到廣泛的引用,從而幫助闡明遺傳突變及其發揮作用的機制,並能幫助靶向性療法瞄準作用靶點,從而加速治療多種該疾病的藥物等療法的開發。