多倍體化事件增加了基因組的複雜性,幫助克服極端環境,是推動植物進化的主要動力,在物種的演化過程中起了舉足輕重的作用。然而多倍體物種的轉錄組分析,長久以來受限於二代測序讀長偏短,不僅無法準確重構轉錄本,更無力探究各亞基因組間的isoform結構差異及基因如何選擇性保留。
自PacBio全長轉錄組測序不斷普及,以及高粱和玉米兩篇全長轉錄組文獻高調亮相Nature Communications引起廣泛關注,研究人員開始嘗試將這種新技術應用到多倍體物種的轉錄組研究中,以下是幾篇多倍體物種PacBio SMRT 全長轉錄組文獻統計,供大家參考,下載地址請點擊文末「閱讀原文」。
【 四倍體棉花[2]的文章為未來組項目經驗,文獻解讀請戳戳~】
本次為大家解讀四倍體阿拉比卡種小粒咖啡(2n=4x=44)全長轉錄組文獻[3],感受「全長轉錄組測序讓多倍體物種isoform重構和亞基因組phasing不再是難題」。
阿拉比卡種小粒咖啡(Coffea arabica)為世界上最為廣泛種植的咖啡品種,是由C.canephora和C.eugenioides雜交並基因組加倍形成的異源四倍體,其兩個祖先種在味道、咖啡因含量、生存環境等方面有著顯著的差別。C. arabica雖風味口感優質但對種植環境要求高、抗病蟲害能力較弱,因此研究亞基因組基因表達調控,利於培育不僅美味而且更易種植的品種。
隨機選取Coffea arabica var. K7品系的不同植株,不同部位,不同發育階段共計450 個果實。經樣本前處理、RNA提取,反轉成cDNA後,根據PacBio Iso-Seq protocol,分片段構建Pacbio RSⅡ文庫並測序。(目前新一代PacBio Sequel測序儀可構建不篩分片段的轉錄組文庫,更接近真實地還原物種轉錄本片段分布情況)
通過轉錄組注釋、同源基因比對、候選基因篩選等一系列生物信息分析,篩選出與咖啡因、蔗糖合成相關的基因的isoforms,並與相關資料庫比對。
咖啡因合成途徑中isoform多樣性
咖啡因的合成途徑前期已有廣泛的研究,已有比較完善的資料庫提供候選基因和編碼序列信息(轉錄組和基因組數據都有),在這篇四倍體小粒咖啡的論文中,研究人員找到了10個可能與咖啡因合成相關基因的高質量isoforms,並且發現這些isoforms都發生了5'非翻譯區延伸。
Table1 咖啡因合成途徑相關候選基因注釋,isoforms及5'非翻譯區延伸情況
這10個isoforms中,有9個比基因組DNA序列長,而有一個isoform可能因為發生了可變聚腺苷酸化(APA)而短於基因組DNA序列(Fig.2 c),在3『UTR檢測到2個潛在的APA信號(Fig.2 d)。
Fig.2 一個isoform(c25904/f2p0/977)可能因APA事件而短於基因組DNA序列
這些咖啡因合成相關的基因也存在可變剪切現象(AS),以下為DXMT2基因內含子保留AS示例(Fig.3)。
Fig.3 DXMT2基因內含子保留AS示例
異源四倍體小粒咖啡轉錄組的isoforms表現出較明顯不同的亞基因組來源,通過與已發表的祖先種之一C. canephora的轉錄組數據進行比對,XMT1、MXMT1、DXMT2基因的isoforms與C. canephora的isoforms有較好的一致關係,表示這些isoforms可能來源於C. canephora亞基因組;相反,XMT2、MXMT2、DXMT1與C. canephora的isoforms比對率不高,表明他們可能來源於另一個C.eugenioides亞基因組。
通過重構isoform初探複雜多倍體亞基因組的基因表達
通過PacBio 全長轉錄組測序,可準確地重構小粒咖啡的轉錄本信息,以蔗糖合成途徑中非常重要的基因SS1為例,研究人員發現了9個轉錄本異構體,包括替換、缺失、內含子保留等多種可變剪接形式。
Fig.4 蔗糖合成相關基因SS1多種可變剪接形式
隨後,同樣通過與祖先種之一C. canephora的轉錄組數據進行比對,分析比對率和相同的核苷酸變異(Fig.5),以此推斷單個isoform來源於哪個亞基因組。例如Fig.5中第1行(標黃)為祖先種之一C. canephora SS1基因序列,將小粒咖啡的多個isoforms的一致性序列與其進行比對,第2-5行的isoforms與C. canephora表現出高度的一致性,並共同在3,726 bp處有一個A-G的鹼基替換,與第6-10行相比,在3,707bp、3,733bp處有著同樣的inset、在3,713bp、3,715bp處有著同樣的鹼基替換,以此將isoforms的來源區分開。
Fig.5 SS1基因多個isoforms一致性序列中的鹼基變異比較
第二個有力的證據是,第6-10行的isoforms與C. canephora相比較,在內含子10區域,有著更高的變異。
另外還可以通過等位基因加以佐證。
可變剪接、可變聚腺苷酸化、5』UTR延伸、亞基因組拷貝數這些因素的綜合作用,形成了轉錄本的多樣性,本文以咖啡和蔗糖合成途徑相關基因為例,以PacBio SMRT長讀長測序為技術手段,完成四倍體小粒咖啡 isoforms重構和亞基因組複雜、多樣的基因表達研究,為其它多倍體物種基因表達調控研究提供參考。
未來組憑藉率先引進PacBio Sequel平臺的優勢,已完成十餘個多倍體動植物轉錄組測序分析,在多倍體物種isoforms重構和亞基因組phasing方面經驗豐富,如需要詳細了解,請垂詢當地科技顧問或在後臺留言。
引用文獻
[1]Clavijo B J, Venturini L, Schudoma C, et al. An improved assembly and annotation of the allohexaploid wheat genome identifies complete families of agronomic genes and provides genomic evidence for chromosomal translocations[J]. Genome research, 2017, 27(5): 885-896.
[2]Wang M, Wang P, Liang F, et al. A global survey of alternative splicing in allopolyploid cotton: landscape, complexity and regulation[J]. New Phytologist, 2017.
[3]Cheng B, Furtado A, Henry R J. Long-read sequencing of the coffee bean transcriptome reveals the diversity of full-length transcripts[J]. GigaScience, 2017.
[4]Hoang N V, Furtado A, Mason P J, et al. A survey of the complex transcriptome from the highly polyploid sugarcane genome using full-length isoform sequencing and de novo assembly from short read sequencing[J]. BMC genomics, 2017, 18(1): 395.
[5]Luo Y, Ding N, Shi X, et al. Generation And Comparative Analysis Of Full-Length Transcriptomes In Sweetpotato And Its Putative Ancestor[J]. bioRxiv, 2017: 112425.
文案:李贇
編輯:張芳芳
圖片來源於網絡|侵刪
想了解三代測序技術?
想解決困惑許久的難題?
想跟各個大牛們談情說「事」?
來這裡,一個最純的技術交流區!
武漢未來組生物科技有限公司(Nextomics Biosciences)成立於2011年8月8日,總部位於武漢光谷生物城,目前在北京生命科學園和美國紐約設立有分支機構,是世界領先三代測序基因組中心。
未來組通過三代測序生物信息學工具和流程的開發,解決了複雜基因組組裝、微生物完成圖組裝、全長轉錄組分析、人類基因組變異檢測等領域的技術瓶頸,推動了基因組學研究的升級換代,目前已經完成數百個三代測序科研項目,發表了多篇三代測序的科學文獻。因為專注於三代測序技術開發和應用推廣,未來組已成為三代測序技術應用的第一品牌。