圖片來源@視覺中國
文丨學術頭條
2003 年,人類基因組計劃完成,揭開了人體 30 億個鹼基以及約 20000 多個蛋白編碼基因的秘密。然而這些基因只佔人類基因組的 2%。因此,在隨後的 20 年時間裡,科學家一直在嘗試尋找人類剩餘 98% 的 DNA 具有什麼功能。
現在,一項名為 DNA 元件百科全書計劃(ENCODE)的系列研究朝著這一目標取得了重大進展,該研究第三階段發現了 120 多萬個基因調節元件,以及它們何時、何地調節基因的 「開關」。
《自然》《自然-方法》和《自然-通訊》發表的 14 篇論文合集描述了這一結果,為基因組組構和功能帶來了新的認知。
Nature 雜誌官網 ENCODE 合集
目前,這一系列研究的數據已對外開放。正如來自美國國家人類基因組研究所(NHGRI)的 Eric Green 博士所說,「ENCODE3 的主要目標之一就是開發可以與更廣泛的研究團體共享 ENCODE 實驗數據的方法,這有助於擴大我們對基因組功能的理解,ENCODE3 開放了搜索和可視化工具,從而使科學工作者可以更快捷的訪問這些數據。」
探索基因的奧秘
人體由數千種、數萬億個細胞組成。儘管所有的細胞都來自同一個受精卵,共用一套基因組,但是不同類型的細胞(例如,心臟細胞、肺部細胞以及神經細胞)可以通過激活基因組中不同的基因來執行不同的功能。深入了解基因調控機制,有助於更好的了解人體細胞發育以及疾病發生的機制。
功能性元件是指編碼具有調控基因作用的分子產物或生化活動的 DNA 區域。ENCODE 計劃於 2003 年啟動,致力於繪製人類與小鼠基因組功能性元件的綜合圖譜。作為一項廣泛協作的基礎研究工作,ENCODE 計劃涉及來自美國和國際各地的小組,由 500 多名具有不同專業知識的科學家組成。
得益於世界各地獨立研究人員進行的數十年基因調控研究,並以此為基礎,ENCODE 研究人員創建了一個社區資源,以確保任何研究人員均可訪問該項目的數據。
DNA 元件百科全書計劃(ENCODE)概述
為了進一步闡明基因以及各種調控因子之間相互作用的細節,ENCODE 3 研究人員進行了近 6000 次實驗,包括人類實驗 4834 次,小鼠實驗 1158 次。
ENCODE 3 研究人員研究了胚胎小鼠組織的發育過程,以了解在小鼠發育過程中發生的各種基因組和生化變化的時間表。小鼠由於其與人類的基因組和生物學相似性,可以幫助我們了解人類的發育和疾病發生。
根據 ENCODE 已經繪製出的數百萬個元件,研究人員還建立了一個在線註冊庫,裡面包含了 926535 個人類的和 339815 個小鼠的候選順式調節元件(調節基因轉錄的非編碼 DNA 區域),覆蓋到各自基因組的 7.9% 和 3.4%。
此外,研究人員利用 ENCODE 的數據集揭示了決定部分功能性元件作用方式的原理,分析了 DNA、與 DNA 結合蛋白、RNA 的化學修飾如何相互作用以調控基因的表達。ENCODE 3 的結果也有助於解釋蛋白質編碼區以外的 DNA 序列變異如何影響基因的表達,甚至是距離特定變異本身很遠的基因。
基因組中的 DNA 「開關」,調節了基因何時何地被打開(來源:Ernesto Del Aguila III, NHGRI.)
連接 RNA 和疾病
此前,人們主要依靠染色質免疫共沉澱測序(ChIP-seq)技術來檢測 DNA 調控元件的序列。這一技術可以幫助研究人員識別 DNA 結合蛋白與 DNA 的結合位點,從而確定這些 DNA 序列的功能。
然而,這一技術不會檢測參與基因調控的 RNA 元件。因此,研究人員採用了增強紫外交聯免疫沉澱結合高通量測序(eCLIP)技術,該技術可以使用紫外線將 RNA 分子與細胞內的 RNA 結合蛋白交聯,然後用特定的抗體分離 RNA 結合蛋白,並對與之結合的 RNA 進行測序。
RNA 結合蛋白在細胞中具有多種生物學功能,例如剪切蛋白質編碼信使 RNA、終止轉錄、增強蛋白質翻譯、翻譯後分解 RNA 以及將 RNA 引導至細胞中特定的位置。確定與 RNA 結合蛋白想結合的 RNA 可以更詳細的闡明相關 RNA 分子的功能。
不過,RNA 結合蛋白結合位點是轉錄組中的候選功能元件,並不是所有的 RNA 結合蛋白結合位點,因此需要用其他類型的方法進行補充實驗以評估其功能。
為此,研究人員首先對大約 150 個 RNA 結合蛋白進行了增強紫外交聯免疫沉澱結合高通量測序(eCLIP),然後在人體細胞中敲低部分 RNA 結合蛋白表達,通過結合兩個實驗的數據,檢測這種敲低對與 RNA 結合蛋白相結合 RNA 分子的影響。
同時,研究人員還採用了一種稱為 RNA Bind-N-Seq的技術能夠更精確地縮小 RNA 結合蛋白和 RNA 結合位置。
通過這些技術,每對一種蛋白質進行實驗,研究人員可以發現大約 350 種與之相關的 RNA 結合蛋白以及相關 RNA。這些 RNA 結合蛋白的功能取決於其與相應 RNA 的結合位點。結合這些實驗的數據,研究人員可以製作一個圖集,描述 RNA 結合蛋白的功能以及相應的 RNA 結合位點。
這套圖譜可以幫助研究人員弄清楚 RNA 結合蛋白每種結合模式的特點,也就是為什麼 RNA 結合蛋白在某一位置會激活,但在另一個位置則會抑制。
此外,來自蒙特婁大學 Lecuyer 教授的研究小組,還使用螢光蛋白標記了 300 多個 RNA 結合蛋白以確定它們在細胞中的位置,以幫助科學家更多地了解每一個 RNA 結合蛋白的功能以及與之結合的 RNA。
對此,UCONN Health 遺傳與基因組科學系教授兼主席 Brenton Graveley 博士表示:「 ENCODE 3 中生成的數據極大地增進了我們對人類基因組的了解。該項目有助於我們更清晰的認識以前的數據類型(例如 DNA 結合蛋白和染色質標記)以及新的數據類型(例如長距離 DNA 相互作用和蛋白質 - RNA 相互作用)。
尚未完成的百科全書
《自然》同時發表的一篇的 「觀點」 文章也指出,這個尚未完成的百科全書已經成為了解基因調控和遺傳易感性疾病的經典工具。
在 ENCODE 項目即將到來的第四個階段中,通過使用高通量功能基因組技術,我們將興奮地看到這些調控元件是否實際上執行了根據組蛋白修飾和結合蛋白推斷出的功能的系統評估。而在單細胞解析度下,將 ENCODE 擴展到更廣泛的生物領域(如疾病樣本和罕見細胞類型),將有助於研究人員利用基因組信息診斷和預防疾病。
資料來源:
https://www.encodeproject.org/
https://www.genome.gov/news/news-release/NHGRI-funded-project-creates-encyclopedia-detailing-inner-workings-of-human-and-mouse-genomes
http://news.mit.edu/2020/bringing-rna-genomics-0729
論文連結:
https://www.nature.com/articles/s41586-020-2493-4
https://www.nature.com/articles/s41586-020-2449-8
https://www.nature.com/articles/s41586-020-2077-3
https://www.nature.com/articles/s41586-020-2151-x
https://www.nature.com/articles/s41586-020-2023-4
https://www.nature.com/articles/s41586-020-2093-3
https://www.nature.com/articles/s41586-020-2119-x
https://www.nature.com/articles/s41586-020-2536-x
https://www.nature.com/articles/s41586-020-2528-x
https://www.nature.com/articles/s41586-020-2559-3
https://www.nature.com/articles/s41467-020-14743-w
https://www.nature.com/articles/s41467-020-17157-w
https://www.nature.com/articles/s41467-020-17453-5
https://www.nature.com/articles/s41592-020-0907-8