入門必看 | 深度解析長末端重複反轉錄轉座子(LTR-RTs)

2021-02-17 諾禾科服

LTR-RTs 是 Long terminal repeat-retrotransposons 的縮寫,中文名是長末端重複反轉座子。LTR-RTs 名字中既有重複、又有轉座子,那麼它和重複序列、轉座子是什麼關係呢?圖1 為您解答。

圖1  重複序列主要分類

重複序列:根據重複區域是否連續可分為串聯重複序列和散在重複序列(又名轉座子、轉座元件)兩大類,前者相連,後者不相連。

轉座元件(transposable elements, TEs) 又稱轉座子:指在基因組中能夠移動或複製,並可以整合到基因組新位點的一段 DNA 序列。根據轉座過程是否形成 RNA 中間體,轉座子可分為 DNA 轉座子和反轉錄轉座子。反轉錄轉座子是以 RNA 為媒介,伴有反轉錄過程,以複製-粘貼的方式在基因組的新位置產生一個新的拷貝。DNA 轉座子的轉座機制則是剪切-粘貼的形式。

LTR-RTs :是反轉座子中的一種,因其兩側存在長的末端重複而得名。不含長末端重複的反轉座子統稱 non-LTR-RTs,主要包含短散在重複(SINE)和長散在重複(LINE)。

 

動植物基因組中存在大量轉座子,尤其是植物基因組中。LTR  因其數量多且 LTR 長度巨大,在植物轉座子中具有較高的基因組含量。在玉米基因組中 LTR 佔基因組含量高達 75% ,山蒼子基因組中 LTR 佔比高達 47%,所以基因組 LTR 的鑑定尤為重要。反轉錄轉座子根據轉座元件結構的完整性和轉座特點可分為自主元件(編碼轉座酶)和非自主元件(自身不編碼轉座酶)。非自主轉座元件需在自主元件的協助下才能發生轉座。完整的 LTR-RTs 由兩端序列完全一致的末端重複、GAG(衣殼蛋白)和 POL 構成,後生動物中含 ENV (包膜蛋白)。其中 POL 包含 AP(天冬氨酸酶)、INT(整合酶)、 RT(逆轉錄酶)和 RH(核糖核酸酶 H),是 LTR 能否自主轉座的關鍵蛋白。 LTR 分類見圖 2,在高等植物中主要主要包括 Ty1/Copia和 Ty3/Gypsy 兩個超家族,二者差別在於 INT 的位置不同。

圖2  LTR 的分類[1]

註解:P: 植物  M: 後生動物  F :真菌  O:其他

不少研究表明活性 LTR 插入到關鍵基因內或周邊會導致性狀改變。2019 年,發表在 Nature Communications 的《A high-quality apple genome assembly reveals the association of a retrotransposon and red fruit colour》文章中揭示蘋果紅皮表型形成與一個 LTR-RT 插入相關。MdMYB1 有 MdMYB11-1、MdMYB1-2 和 MdMYB1-3 三個等位基因,其中 MdMYB1-1 是控制蘋果果皮花青素合成的單一顯性基因。相較於黃蘋果基因組,在紅蘋果基因組的 MdMYB1-1 基因啟動子上遊有一個 LTR-RT(命名為 redTE)插入,並經過 PCR 驗證是紅蘋果中存在一段特異的序列(圖 3)。redTE 作為一種增強子,增強 MdMYB1-1 對光的敏感性,從而累計花青素,形成紅色表皮。

圖3  蘋果紅皮 LTR-RT 插入[2]

典型的 LTR-RTs 的結構有 5 個特徵,其模式圖見 4-1,各特徵意義如下:

圖 4-1  典型 LTR 的結構特徵[3]

(1) TSR(TSD): 目標重複位點,是 4~6bp 的短的重複序列,在 5』LTR and 3』LTR 兩側,是轉座子插入的信號。

(2) 5』LTR and 3』LTR :  LTR 兩端序列完全一致的末端重複, TG..CA box,完整的 LTR 均含有此結構。LTR 長度一般在 85~5000bp。

(3) PBS(primer binding site) 引物結合位點: 在 5』LTR 的末端,可與一些 tRNA 3』 末端互補結合的一段 18bp 左右的序列,是反轉錄的第一步。

(4) 蛋白區域: 長度通常在 1000~15000bp。

GAG:衣殼蛋白。

POL:包含4中酶,由AP(天冬氨酸酶)、IN(INT,整合酶)、RT(逆轉錄酶)、RH(核糖核酸酶),LTR 能否自主轉座的關鍵原因。

ENV:包膜蛋白,後生動物中存在。

(5) PPT:3』LTR 的起始位置短的富含嘌呤的序列,11~15bp。

LTR 在生物體內歷經成千上萬年的進化,發展出許多存在形式(圖 4-2)。我們通常將包含兩個相對完整的 LTRs 和已識別的 PPT 和 PBS 位點的元素,且兩側有 TSD 的 LTR 定義為 Intact LTR(A)。由於 LTR-RTs 兩端序列非常相似,LTR-RTs 內可發生重組,導致內部元件消失,形成 solo LTR(C),而 solo LTR 的數量表明了一個基因組中 LTR 去除的頻率和效率。此外 LTR 發生缺失、易位可形成截斷的 LTR(B)。LTR 也會經常插入到其他 LTR 內部區域,形成嵌套 LTR(D)。因存在這些突變機制,實際上完整的 LTR-RTs (A)只佔基因組中所有 LTR-RT 相關序列的一小部分。

圖 4-2  LTR 存在形式[4]

LTR-RT 的鑑定方法基本歸於三類:從頭預測、基於結構預測、基於同源比對。LTR_STRUC[5] 是一款最早的從頭預測 LTR 的軟體,LTR_finder[3] 和 LTRharvest[6] 是目前為止鑑定 LTR 最敏感的程序,但假陽性依然很高。RepeatMasker[7] 基於資料庫,使用同源方法來預測 LTR,但不同物種 LTR 差異較大,構建物種特有的 LTR 庫非常必要。在 2017 年密西根州立大學園藝系的 Shujun Ou 團隊開發 LTR_retriever[4] 平臺用於 LTR 的鑑定,文章發表在 Plant Physiology 上。這是一款整合軟體,以一個或多個 LTR 預測軟體鑑定 LTR 的結果作為輸入文件,通過不同模塊(圖 5-1)對 LTR 進行過濾和修正來對預測軟體的預測結果進行整合和調整,以得到非冗餘精準且完整的物種特異 LTR 庫,再使用 RepeatMasker[7] 進行預測。

圖 5-1  LTR_retriever 整合模塊[4]

LTR_retriever 軟體從 sensitivity(敏感性)、specificity(特異性)、accuracy(準確性)、precision(精確度)四個維度對 LTR 鑑定結果進行評估,其具體意義見圖 5-2。以真實 LTR 和非 LTR 序列作為參考庫,使用軟體進行預測。對預測結果分為以下四類:

從下圖公式可知敏感性代表對真正 LTR 的檢出能力,特異性代表排除非 LTR 序列的能力,精確性代表正確檢出的能力,精確度代表檢出結果的真陽性率,精確度越高則表明結果越可靠。

圖 5-2  鑑定結果評估指標[8]

使用 LTR_retriever 對現有軟體預測 LTR 結果進行,評估結果(圖 5-3)顯示 LTR_retriever 明顯優於其他現有軟體,而 Shujun Ou 團隊在 2019 發表在 Genome Biology 上的有關轉座子注釋方法中推薦 LTR 的鑑定方法是使用以 LTR_finder 和 LTRharvest 軟體鑑定結果作為 LTR_retriever 的輸入文件[8]。

圖 5-3  不同 LTR 鑑定方法比較[4]

隨著三代測序技術的發展,藉助於超長度長序列,重複序列的組裝將會越來越精確。人們對重複序列的研究會更加深入,而 LTR 因其特殊的生物學意義被格外關注。LTR 的鑑定是 LTR 相關分析的基礎,目前 LTR 分析方法尚無標準。表 6-1 是諾禾致源公司聯合發表的 LTR 分析相關文章列表。諾禾致源 LTR 分析流程中,先使用 LTR_finder 和 LTRharvest 對 LTR 進行鑑定,再利用 LTR_retriever 進行整合,構建非冗餘精準的物種特異 LTR 資料庫後使用同源預測方法進行注釋,再過濾掉假陽性,為您注釋出全面且精確的物種 LTR 序列,包括 intact LTR、solo LTR、LTR 相關序列,非典型 LTR 等。明確 LTR 含量在基因組中的佔比,在染色體上的分布情況(圖 6-1)。

根據物種 LTR 蛋白結構域資料庫,對 LTR-RT 進行結構注釋和家族鑑定。LTR 分析很多,可根據物種 LTR 鑑定結果、生物學意義進行特殊分析,例如通過聚類分析,確定基因組中主要的 LTR 屬於何種家族(圖 6-2);對 LTR 進行插入時間評估分析,探索 LTR 的進化動態(圖 6-3);構建特殊家族進化樹,研究某類 LTR 的進化等。此外,轉座子誘導的表觀遺傳變化經常影響相鄰基因的差異表達並產生新的調控模式,例如前面所提的蘋果表皮顏色性狀文獻中檢測到紅蘋果 redTE 序列中有幾個區域明顯高度甲基化,這為 LTR 分析提供新的思路。

圖 6-2  LTR 家族鑑定[10]

 圖 6-3  LTR 插入時間分析[11]

< 表 6-1  諾禾合作發表有關 LTR 分析高分合作文章 >

參考文獻:

[1] Wicker T, Sabot F, Hua-Van A, et al. A unified classification system for eukaryotic transposable elements[J]. Nature Rev. Genet., 2007, 8(12):973-982.

[2] Liyi Zhang,Jiang Hu,Jingjing Li,et al. A high-quality apple genome assembly reveals the association of a retrotransposon and red fruit colour.[J]. Nature Communications, 2019.

[3] Zhao Xu and Hao Wang. LTR_FINDER: an efficient tool for the prediction of full-length LTR retrotransposons[J]. Nucleic Acids Research, 2007, 35: W265–W268.

[4] Ou S , Jiang N . LTR_retriever: a highly accurate and sensitive program for identification of long terminal-repeat retrotransposons[J]. Plant Physiology, 2017:pp.01310.2017.

[5] Mccarthy E M , Mcdonald J F . LTR_STRUC: a novel search and identification program for LTR retrotransposons[J]. Bioinformatics, 2003, 19(3):362-367.

[6] David Ellinghaus, Stefan Kurtz and Ute Willhoeft. LTRharvest, an efficient and flexible software for de novo detection of LTR retrotransposons[J]. BMC Bioinformatics, 2008, 9:18.

[7] A.F.A. Smit, R. Hubley& P. Green RepeatMasker at http://www.repeatmasker.org .

[8] Ou S , Jiang N . Benchmarking transposable element annotation methods for creation of a streamlined, comprehensive pipeline.[J]. Genome Biology, 2019,20:275.

[9] Zhao G , Zou C , Li K , et al. The Aegilops tauschii genome reveals multiple impacts of transposons[J]. Nature Plants, 2017.

[10] Zhang Qun-Jie,Li Wei,Li Kui et al. The Chromosome-Level Reference Genome of Tea Tree Unveils Recent Bursts of Non-autonomous LTR Retrotransposons to Drive Genome Size Evolution.[J] .Mol Plant, 2020.

[11] Ticao Zhang, et al.. Genome of Crucihimalaya himalaica, a close relative of Arabidopsis, shows ecological adaptation to high altitude.[J].PNAS, 2019.

動植物產品部    曹小芳 | 文案

單晴晴丨編輯

圖片來源於網絡,侵刪

為你讀文獻

為你分享資源

為你分析研究思路

為你提供最前沿的科研動態

學霸,逗逼,科學家,文藝青年同在!

諾禾致源丨提供領先的基因科技解決方案

長按識別二維碼,關注諾禾科服

諾禾致源客戶服務中心

諮詢熱線:4006581585

郵箱:service@novogene.com

相關焦點

  • HERV-H逆轉錄轉座子功能獲揭示
    HERV-H逆轉錄轉座子功能獲揭示 作者:小柯機器人 發布時間:2019/8/20 14:43:42 美國加州大學聖地牙哥分校任兵和Neil C.Chi研究組合作發現,轉錄活躍的HERV-H逆轉錄轉座子,能夠在人類多潛能幹細胞中劃分拓撲相關結構域
  • 轉錄組測序入門知識(上篇)
    本期我們將重點介紹轉錄組測序入門知識,跟隨小編一起詳細了解吧。1. 鹼基質量值:二代測序中,每測一個鹼基會給出一個相應的質量值(Quality Score或Q-score),這個質量值用於評估鹼基識別(Base Calling)出錯的概率。
  • 如何從基因組重複序列分析中挖到有趣的生物學故事?
    Figure 1 U. gibba 中半胱氨酸蛋白酶同源基因在trap組織中顯著表達血橙基因組中的轉座子為LTR反轉錄轉座子,為植物中典型的轉座子類型,其可以插入到具有基因組的轉錄活性區域,或附近區域,造成基因中斷而引起突變
  • Nature:LINE-1逆轉錄轉座事件的作用
    LINE-1 (long interspersed element-1) 逆轉錄轉座子在試管中和在小鼠腦中已知能夠穿過成年大鼠神經前體細胞(NPCs)的基因組。現在,研究表明,從人胎兒腦中分離出的以及從人胚胎幹細胞演變來的NPCs,在試管中還支持人工培養的人LINE-1s發生逆轉錄轉座。
  • 走進組蛋白乙醯化,解析轉錄因子與DNA轉錄的關係
    區的高度乙醯化,組蛋白H3k9的高度乙醯化顯著增加了Egr1與GDNF啟動子區的結合,以及RNA聚合酶II募集到GDNF啟動子區,從而促進GDNF在膠質瘤細胞中的高轉錄。轉錄因子(Tf)與RNA聚合酶(Rp):真核生物轉錄起始時,需要RNA聚合酶對起始上遊的DNA啟動子序列進行識別和結合,生成轉錄前起始複合體,但是轉錄起始時RNA聚合酶並不直接識別與結合啟動子區,而是依賴轉錄因子識別並結合起始序列。
  • 梁晗團隊揭示超級增強子的轉錄本質和定位圖譜
    轉錄調控(transcription regulation)是分子生物學核心大課題——基因調控的首要層級,也是最早受到關注和研究得最為透徹的分支。超過半個世紀的知識積累建構了一個由順式調控元件(cis-regulatory element)和反式作用因子(trans-acting factor)兩大要素相互作用形成的轉錄調控框架[1,2]。
  • The Plant Journal|清華大學孫前文組揭示內含子中異染色質抑制轉錄起始的重要機制
    該研究發現植物基因組內含子中轉座子介導形成的異染色質可以抑制非正常的轉錄起始從而調控宿主基因的表達,並闡明相應的分子機制。 真核生物基因組中的轉座子在調控染色質結構、基因表達等方面發揮著重要的作用,但對於基因內含子中的轉座子如何調控宿主基因的表達尚不完全清楚。
  • 轉錄組專題-可變剪接
    真核細胞的基因序列中,包含了內含子與外顯子,兩者交互穿插。其中內含子在基因轉錄成mRNA前體後會被RNA剪接體移除,剩下的外顯子才是能夠存在於成熟mRNA(之後再進一步轉譯成蛋白質)的片段。一條未經剪接的RNA,含有的多種外顯子被剪成的不同組合,可轉譯出不同的蛋白質。
  • 搞定轉錄組入門分析?必備技能看這裡
    隨著高通量測序技術的迅猛發展,轉錄組分析逐漸發展成為一項基礎的研究方法在生物學個領域得到廣泛的應用。在轉錄組分析入門的過程中,您是否遇到這樣的問題:看了一篇篇的入門乾貨,依然無從下手;因缺少數據分析的環境,空有一肚子的理論無法實踐;按照教程一步步實踐,可就是無法產生相同的結果;面對種類繁多的數據挖掘工具,應該怎麼選擇?
  • Genome Research | DNA甲基化和組蛋白乙醯化對轉錄因子的基因組佔有的不同貢獻
    當HDAC被抑制時,觀察到逆轉錄轉座子上的染色質可及性普遍增加,而當細胞也缺乏DNA甲基化時,這一現象將被放大。這些元素的一個子集具有更高的YY1和GABPA轉錄因子的結合併增加表達。 HDAC抑制作用在DNA甲基化不足的細胞中具有明顯的累加作用,表明DNA甲基化和組蛋白去乙醯化在很大程度上獨立地抑制了轉錄因子的結合和基因表達。
  • 施工員必看:360頁施工員全能圖解系統解析,從入門到精通限時領
    施工員必看:360頁施工員全能圖解系統解析,從入門到精通限時領本冊針對性地闡述了施工現場管理人員的工程管理技能和現場管理方法,共分為十一章360頁。圖解全能,清晰簡明,使用方便,具有很強的實用性與可操作性。
  • 轉錄調控:人源轉錄因子特徵 總結 (截至2018)
    例如,轉錄因子Zif268(Egr1)。鋅指蛋白這類蛋白質,鋅指域通常具備兩個、三個或更多的串聯重複序列,高級結構形成類是「手指」的模式組對DNA進行結合。這些串聯陣列可以綁定的DNA和通常的-3bp間隔的「大溝」區(Major Groove)。每個域的α-helix(通常被稱為「識別螺旋」)可以讓、識別特定的DNA鹼基。
  • Cell子刊新成果:建立人類精子發生過程高精度轉錄組圖譜
    8月30日,這一由中國團隊完成的新研究在國際知名學術期刊《Cell Stem Cell》上在線發表,他們首次從單細胞水平系統闡明了人類精子發生過程中的基因表達調控網絡和細胞命運轉變路徑,繪製了人類精子發生的高精度單細胞轉錄組圖譜,解析了成年男性全部生殖細胞類型及其關鍵的分子標記,並初步探索了將單細胞轉錄組技術用於人類非梗阻性無精症的研究和診斷。
  • 有些反轉錄酶還有DNA內切酶活性
    這一過程與一般遺傳信息流轉錄的方向相反,故稱為反轉錄,催化此過程的DNA聚合酶叫做反轉錄酶(reverse transcriptase)。後來發現反轉錄酶不僅普遍存在於RNA病毒中,哺乳動物的胚胎細胞和正在分裂的淋巴細胞中也有反轉錄酶。
  • 轉錄組和代謝組解析風信子變色分子機制
    英文題目:Transcriptome sequencing and metabolite analysis reveals the role of delphinidin metabolism in flower colour in grape hyacinth中文題目:轉錄組和代謝組解析風信子變色分子機制
  • DNA的複製、轉錄和翻譯(下)
    轉錄僅以DNA的一條鏈作為模板,被選為模板的單鏈稱為模板鏈,亦稱無義鏈;另一條單鏈稱為非模板鏈,即編碼鏈,因編碼鏈與轉錄生成的RNA序列一致,所以又稱有義鏈。DNA上的轉錄區域稱為轉錄單位。轉錄DNA轉錄三部曲啟動RNA聚合酶正確識別DNA編碼鏈上的啟動子並形成由酶、DNA和核苷三磷酸(NTP)構成的三元起始複合物,轉錄即自此開始。DNA模板上的啟動區域常含有TATAATG順序,稱普裡布諾(Pribnow)盒或P盒。
  • 原核生物的啟動子與轉錄起始過程
    而當聚合酶到達轉錄終點時,在終止因子的幫助下停止合成反應,酶和RNA鏈脫落,轉錄結束。代謝途徑的第一步經常是限速步驟。同理,轉錄是基因表達的第一步,所以是基因表達調控的關鍵步驟。而在轉錄的3個階段中,起始階段的調控最為重要。對於轉錄起始的調控,啟動子是最重要的調控元件。
  • 全新轉錄調控複合物可抑制轉錄
    儘管過去研究人員圍繞基因的轉錄調控機制已有相對清晰的認識,但是對RNA聚合酶II(Pol II) 的C端結構域(CTD)的動態調控,特別是轉錄抑制機制仍然知之甚少。 11月27日,《科學》雜誌以長文形式發表了復旦大學附屬腫瘤醫院/生物醫學研究院徐彥輝團隊與陳飛團隊的研究成果。