LTR-RTs 是 Long terminal repeat-retrotransposons 的縮寫,中文名是長末端重複反轉座子。LTR-RTs 名字中既有重複、又有轉座子,那麼它和重複序列、轉座子是什麼關係呢?圖1 為您解答。
圖1 重複序列主要分類
重複序列:根據重複區域是否連續可分為串聯重複序列和散在重複序列(又名轉座子、轉座元件)兩大類,前者相連,後者不相連。
轉座元件(transposable elements, TEs) 又稱轉座子:指在基因組中能夠移動或複製,並可以整合到基因組新位點的一段 DNA 序列。根據轉座過程是否形成 RNA 中間體,轉座子可分為 DNA 轉座子和反轉錄轉座子。反轉錄轉座子是以 RNA 為媒介,伴有反轉錄過程,以複製-粘貼的方式在基因組的新位置產生一個新的拷貝。DNA 轉座子的轉座機制則是剪切-粘貼的形式。
LTR-RTs :是反轉座子中的一種,因其兩側存在長的末端重複而得名。不含長末端重複的反轉座子統稱 non-LTR-RTs,主要包含短散在重複(SINE)和長散在重複(LINE)。
動植物基因組中存在大量轉座子,尤其是植物基因組中。LTR 因其數量多且 LTR 長度巨大,在植物轉座子中具有較高的基因組含量。在玉米基因組中 LTR 佔基因組含量高達 75% ,山蒼子基因組中 LTR 佔比高達 47%,所以基因組 LTR 的鑑定尤為重要。反轉錄轉座子根據轉座元件結構的完整性和轉座特點可分為自主元件(編碼轉座酶)和非自主元件(自身不編碼轉座酶)。非自主轉座元件需在自主元件的協助下才能發生轉座。完整的 LTR-RTs 由兩端序列完全一致的末端重複、GAG(衣殼蛋白)和 POL 構成,後生動物中含 ENV (包膜蛋白)。其中 POL 包含 AP(天冬氨酸酶)、INT(整合酶)、 RT(逆轉錄酶)和 RH(核糖核酸酶 H),是 LTR 能否自主轉座的關鍵蛋白。 LTR 分類見圖 2,在高等植物中主要主要包括 Ty1/Copia和 Ty3/Gypsy 兩個超家族,二者差別在於 INT 的位置不同。
圖2 LTR 的分類[1]
註解:P: 植物 M: 後生動物 F :真菌 O:其他
不少研究表明活性 LTR 插入到關鍵基因內或周邊會導致性狀改變。2019 年,發表在 Nature Communications 的《A high-quality apple genome assembly reveals the association of a retrotransposon and red fruit colour》文章中揭示蘋果紅皮表型形成與一個 LTR-RT 插入相關。MdMYB1 有 MdMYB11-1、MdMYB1-2 和 MdMYB1-3 三個等位基因,其中 MdMYB1-1 是控制蘋果果皮花青素合成的單一顯性基因。相較於黃蘋果基因組,在紅蘋果基因組的 MdMYB1-1 基因啟動子上遊有一個 LTR-RT(命名為 redTE)插入,並經過 PCR 驗證是紅蘋果中存在一段特異的序列(圖 3)。redTE 作為一種增強子,增強 MdMYB1-1 對光的敏感性,從而累計花青素,形成紅色表皮。圖3 蘋果紅皮 LTR-RT 插入[2]
典型的 LTR-RTs 的結構有 5 個特徵,其模式圖見 4-1,各特徵意義如下:
圖 4-1 典型 LTR 的結構特徵[3]
(1) TSR(TSD): 目標重複位點,是 4~6bp 的短的重複序列,在 5』LTR and 3』LTR 兩側,是轉座子插入的信號。
(2) 5』LTR and 3』LTR : LTR 兩端序列完全一致的末端重複, TG..CA box,完整的 LTR 均含有此結構。LTR 長度一般在 85~5000bp。
(3) PBS(primer binding site) 引物結合位點: 在 5』LTR 的末端,可與一些 tRNA 3』 末端互補結合的一段 18bp 左右的序列,是反轉錄的第一步。
(4) 蛋白區域: 長度通常在 1000~15000bp。
GAG:衣殼蛋白。
POL:包含4中酶,由AP(天冬氨酸酶)、IN(INT,整合酶)、RT(逆轉錄酶)、RH(核糖核酸酶),LTR 能否自主轉座的關鍵原因。
ENV:包膜蛋白,後生動物中存在。
(5) PPT:3』LTR 的起始位置短的富含嘌呤的序列,11~15bp。
LTR 在生物體內歷經成千上萬年的進化,發展出許多存在形式(圖 4-2)。我們通常將包含兩個相對完整的 LTRs 和已識別的 PPT 和 PBS 位點的元素,且兩側有 TSD 的 LTR 定義為 Intact LTR(A)。由於 LTR-RTs 兩端序列非常相似,LTR-RTs 內可發生重組,導致內部元件消失,形成 solo LTR(C),而 solo LTR 的數量表明了一個基因組中 LTR 去除的頻率和效率。此外 LTR 發生缺失、易位可形成截斷的 LTR(B)。LTR 也會經常插入到其他 LTR 內部區域,形成嵌套 LTR(D)。因存在這些突變機制,實際上完整的 LTR-RTs (A)只佔基因組中所有 LTR-RT 相關序列的一小部分。
圖 4-2 LTR 存在形式[4]
LTR-RT 的鑑定方法基本歸於三類:從頭預測、基於結構預測、基於同源比對。LTR_STRUC[5] 是一款最早的從頭預測 LTR 的軟體,LTR_finder[3] 和 LTRharvest[6] 是目前為止鑑定 LTR 最敏感的程序,但假陽性依然很高。RepeatMasker[7] 基於資料庫,使用同源方法來預測 LTR,但不同物種 LTR 差異較大,構建物種特有的 LTR 庫非常必要。在 2017 年密西根州立大學園藝系的 Shujun Ou 團隊開發 LTR_retriever[4] 平臺用於 LTR 的鑑定,文章發表在 Plant Physiology 上。這是一款整合軟體,以一個或多個 LTR 預測軟體鑑定 LTR 的結果作為輸入文件,通過不同模塊(圖 5-1)對 LTR 進行過濾和修正來對預測軟體的預測結果進行整合和調整,以得到非冗餘精準且完整的物種特異 LTR 庫,再使用 RepeatMasker[7] 進行預測。
圖 5-1 LTR_retriever 整合模塊[4]
LTR_retriever 軟體從 sensitivity(敏感性)、specificity(特異性)、accuracy(準確性)、precision(精確度)四個維度對 LTR 鑑定結果進行評估,其具體意義見圖 5-2。以真實 LTR 和非 LTR 序列作為參考庫,使用軟體進行預測。對預測結果分為以下四類:
從下圖公式可知敏感性代表對真正 LTR 的檢出能力,特異性代表排除非 LTR 序列的能力,精確性代表正確檢出的能力,精確度代表檢出結果的真陽性率,精確度越高則表明結果越可靠。
圖 5-2 鑑定結果評估指標[8]
使用 LTR_retriever 對現有軟體預測 LTR 結果進行,評估結果(圖 5-3)顯示 LTR_retriever 明顯優於其他現有軟體,而 Shujun Ou 團隊在 2019 發表在 Genome Biology 上的有關轉座子注釋方法中推薦 LTR 的鑑定方法是使用以 LTR_finder 和 LTRharvest 軟體鑑定結果作為 LTR_retriever 的輸入文件[8]。
圖 5-3 不同 LTR 鑑定方法比較[4]
隨著三代測序技術的發展,藉助於超長度長序列,重複序列的組裝將會越來越精確。人們對重複序列的研究會更加深入,而 LTR 因其特殊的生物學意義被格外關注。LTR 的鑑定是 LTR 相關分析的基礎,目前 LTR 分析方法尚無標準。表 6-1 是諾禾致源公司聯合發表的 LTR 分析相關文章列表。諾禾致源 LTR 分析流程中,先使用 LTR_finder 和 LTRharvest 對 LTR 進行鑑定,再利用 LTR_retriever 進行整合,構建非冗餘精準的物種特異 LTR 資料庫後使用同源預測方法進行注釋,再過濾掉假陽性,為您注釋出全面且精確的物種 LTR 序列,包括 intact LTR、solo LTR、LTR 相關序列,非典型 LTR 等。明確 LTR 含量在基因組中的佔比,在染色體上的分布情況(圖 6-1)。
根據物種 LTR 蛋白結構域資料庫,對 LTR-RT 進行結構注釋和家族鑑定。LTR 分析很多,可根據物種 LTR 鑑定結果、生物學意義進行特殊分析,例如通過聚類分析,確定基因組中主要的 LTR 屬於何種家族(圖 6-2);對 LTR 進行插入時間評估分析,探索 LTR 的進化動態(圖 6-3);構建特殊家族進化樹,研究某類 LTR 的進化等。此外,轉座子誘導的表觀遺傳變化經常影響相鄰基因的差異表達並產生新的調控模式,例如前面所提的蘋果表皮顏色性狀文獻中檢測到紅蘋果 redTE 序列中有幾個區域明顯高度甲基化,這為 LTR 分析提供新的思路。
圖 6-2 LTR 家族鑑定[10]
圖 6-3 LTR 插入時間分析[11]
< 表 6-1 諾禾合作發表有關 LTR 分析高分合作文章 >
參考文獻:
[1] Wicker T, Sabot F, Hua-Van A, et al. A unified classification system for eukaryotic transposable elements[J]. Nature Rev. Genet., 2007, 8(12):973-982.
[2] Liyi Zhang,Jiang Hu,Jingjing Li,et al. A high-quality apple genome assembly reveals the association of a retrotransposon and red fruit colour.[J]. Nature Communications, 2019.
[3] Zhao Xu and Hao Wang. LTR_FINDER: an efficient tool for the prediction of full-length LTR retrotransposons[J]. Nucleic Acids Research, 2007, 35: W265–W268.
[4] Ou S , Jiang N . LTR_retriever: a highly accurate and sensitive program for identification of long terminal-repeat retrotransposons[J]. Plant Physiology, 2017:pp.01310.2017.
[5] Mccarthy E M , Mcdonald J F . LTR_STRUC: a novel search and identification program for LTR retrotransposons[J]. Bioinformatics, 2003, 19(3):362-367.
[6] David Ellinghaus, Stefan Kurtz and Ute Willhoeft. LTRharvest, an efficient and flexible software for de novo detection of LTR retrotransposons[J]. BMC Bioinformatics, 2008, 9:18.
[7] A.F.A. Smit, R. Hubley& P. Green RepeatMasker at http://www.repeatmasker.org .
[8] Ou S , Jiang N . Benchmarking transposable element annotation methods for creation of a streamlined, comprehensive pipeline.[J]. Genome Biology, 2019,20:275.
[9] Zhao G , Zou C , Li K , et al. The Aegilops tauschii genome reveals multiple impacts of transposons[J]. Nature Plants, 2017.
[10] Zhang Qun-Jie,Li Wei,Li Kui et al. The Chromosome-Level Reference Genome of Tea Tree Unveils Recent Bursts of Non-autonomous LTR Retrotransposons to Drive Genome Size Evolution.[J] .Mol Plant, 2020.
[11] Ticao Zhang, et al.. Genome of Crucihimalaya himalaica, a close relative of Arabidopsis, shows ecological adaptation to high altitude.[J].PNAS, 2019.
動植物產品部 曹小芳 | 文案
單晴晴丨編輯
圖片來源於網絡,侵刪
為你讀文獻
為你分享資源
為你分析研究思路
為你提供最前沿的科研動態
學霸,逗逼,科學家,文藝青年同在!
諾禾致源丨提供領先的基因科技解決方案
長按識別二維碼,關注諾禾科服
諾禾致源客戶服務中心
諮詢熱線:4006581585
郵箱:service@novogene.com