銀線草Chloranthus japonicus Sieb. 為金粟蘭科金粟蘭屬多年生草本,別名天王七、四塊瓦、白毛七等,生於山坡或山谷雜木林下蔭溼處或溝邊草叢中,主要分布於我國西北、華北和東部等省,朝鮮、日本也有分布;根及根莖藥用,始載於《神農本草經》,味辛、苦,性溫,有毒,具有祛溼散寒、活血消腫、散瘀解毒的功效,主治風寒咳嗽、瘀血腫痛、毒蛇咬傷、瘧疾和瘡癰等[1]。銀線草藥用植物資源極為豐富,藥用歷史悠久,在太白七藥中具有重要的地位。中藥化學研究表明銀線草主要含有萜類、黃酮類、香豆素類、木脂素及揮髮油等化合物[2]。銀線草特徵性成分主要包括銀線草醇、金粟蘭內酯、銀線草內酯、銀線草呋喃醇等烏藥烷型倍半萜類化合物[2-3],藥理學研究揭示其具有良好的抗菌[4]、抗炎[5]、抗腫瘤[6]和抗HIV[7-8]等多種生物活性。此外,銀線草還在生藥學、組織化學定位方面有初步研究報導[9-10]。最新研究利用二代高通量測序技術解析銀線草葉綠體基因組,為該植物的系統進化及藥材分子鑑定提供基礎數據[11]。
轉錄組測序技術即RNA-seq,是功能基因組研究的一個重要組成部分,能夠在基因組序列未知的前提下,研究特定條件下細胞中所有基因的轉錄本豐度、可變剪接等全局信息,結果準確、分析可靠且重複性較高,有助於從整體水平上揭示生物體生長發育、次生代謝及生理適應的轉錄調控規律[12]。當前,RNA-seq在藥用植物功能基因組領域內應用廣泛,已獲得人參[13]、甘草[14]和膜莢黃芪[15]等眾多藥用植物轉錄組數據,為闡明中藥種質資源遺傳基礎打下基礎。銀線草臨床功效明確、活性成分多樣,具有極高的研究價值。然而,基因組相關數據匱乏,限制了對銀線草資源的深入研究與開發。本研究利用RNA-seq進行銀線草轉錄組測序分析,以期揭示其轉錄組信息特徵,為該藥用植物功能基因挖掘、次生代謝途徑解析及調控研究提供基礎數據。
1 材料與方法
1.1 材料
植物材料於2015年7月採自陝西省寶雞市太白縣黃峰山鎮,經度107°20′34.8",緯度34°1′27.5′′,海拔1873.3 m,經陝西中醫藥大學張崗教授鑑定為金粟蘭科金粟蘭屬銀線草Chloranthusjaponicus Sieb.,取單株植株根莖液氮速凍後置於−80 ℃冰箱備用。
1.2 RNA提取與文庫構建
採用EASYspin植物RNA快速提取試劑盒(Aidlab,中國)製備銀線草根莖總RNA,瓊脂糖凝膠電泳和NanoDropTM 2000分光光度計(Thermo Fisher,美國)檢測完整性。用帶有Oligo (dT) 的磁珠富集mRNA,加入碎片化緩衝液(fragmentation buffer)將mRNA打斷成短片段,用六鹼基隨機引物(random hexamers)合成cDNA第1鏈;然後加入緩衝液、dNTPs、RNaseH和DNA polymerase I合成cDNA第2鏈;再經過QiaQuickPCR試劑盒(QIAGEN,德國)純化並加EB緩衝液洗脫之後做末端修復、加poly(A)並連接測序接頭,然後用瓊脂糖凝膠電泳進行片段大小選擇,最後進行PCR擴增構建測序文庫。
1.3 轉錄組測序與組裝
利用Illumina HiSeqTM 2000 150PE對銀線草根莖轉錄組文庫進行高通量測序。測序原始圖像數據經鹼基識別(base calling)轉化為序列數據原始序列(raw reads),經數據評估、過濾除雜和冗餘處理等質控得到高質量序列(clean reads),再利用Trinity做轉錄組de novo組裝。Trinity首先將具有一定長度重疊(overlap)的reads連成更長的片段,即得到的不含N的組裝片段作為unigene。
1.4 轉錄組功能注釋
利用BLAST將unigenes與蛋白資料庫NR、Swiss-port、蛋白相鄰類的聚簇(KOG)和KEGG(京都基因與基因組百科全書)進行比對(E值<1×10−5),得到與相應unigenes具有最高序列相似性的蛋白,進而得到unigenes注釋信息。根據NR注釋信息,使用Blast2GO軟體得到unigene的GO(gene ontology)注釋,用WEGO軟體對所有unigenes做GO功能分類統計,從宏觀上認識該物種的基因功能分布特徵。
1.5 蛋白編碼框(CDS)和轉錄因子預測
按NR、Swiss-Prot、KOG和KEGG的優先級順序將unigenes序列與以上蛋白庫做BLASTx比對(E值<1×10−5)並確定該unigene編碼區的核酸序列(序列方向5』→3』)和胺基酸序列。利用ESTScan[13]預測與以上資料庫比對不上的unigenes的編碼區及序列方向。將所預測的unigenes編碼蛋白序列與植物轉錄因子資料庫(plant TFDB)進行hmmscan比對,搜索轉錄因子家族及其成員。
1.6 簡單重複序列(simple sequence repeats, SSRs)特徵檢測
使用MISA工具(MIcroSAtelliteidentification tool)檢測銀線草轉錄組unigenes,搜索SSRs並進行統計分析。
2 結果與分析
2.1 銀線草轉錄組組裝與質量分析
採用IlluminaHiSeqTM 2000 150PE高通量測序平臺對銀線草根莖進行轉錄組測序,共得到68 458 750條raw reads,過濾產生了66 138 234條clean reads,包含6 320 552 293個核苷酸信息,Q20(鹼基量≥20%)、Q30(鹼基量≥30%)分別為98.69%、93.59%,GC量為45.01%,說明測序質控良好,clean reads質量合格。Trinity組裝獲得56096個unigenes,平均長度801nt,最長達到14 262 nt,最短序列為201bp,N50為1460 nt。
Unigenes長度分布(圖1-A)顯示,12506條unigenes長度超過1000 nt,4 786條序列大於2000 nt。Reads在unigenes上的覆蓋情況統計(圖1-B)顯示,所含reads數量在11~100的unigenes數量最多,為33677條;其次為reads數量在101~200的unigenes,為4 041條;reads數量在1~10、1 001~2000、2 001~4000的unigenes分別為2639、3 253、2763條;其餘reads分布區域對應的unigenes數量均相對較少。
2.2 銀線草轉錄組unigenes的功能注釋
使用BLAST將所有unigenes與NR、Swiss-port、KOG、KEGG等資料庫進行一致性比對分析,對各資料庫注釋的unigenes數目進行統計,進而獲得銀線草根莖轉錄組unigenes的功能注釋信息。結果表明,25 773條unigenes(45.94%)在NR資料庫比對成功得到注釋,在Swiss-port、KOG、KEGG等資料庫獲得注釋的unigenes數目依次為17801(31.73%)、16 082(28.67%)、9 649(17.20%)。7 408條unigenes同時在所有資料庫中注釋,至少有1種資料庫注釋成功共25 861條(46.10%),30 235條未獲得注釋,見圖2。
以NR資料庫為例進行分析,unigenes注釋同源基因的物種分布如圖2所示,在相似序列匹配度較高的物種中,蓮Nelumbo nucifera Gaertn. 所佔比例最高,為7 072條(27.44%);其次為葡萄Vitis viniferaL. 2 326條(9.02%),油棕Elaeis guineensisJacq. 1 270條(4.93%),海棗Phoenix dactyliferaL. 1 218條(4.73%),土瓶草Cephalotus follicularisLabill. 714條(2.77%),可可Theobroma cacaoL. 821條(3.19%),其餘匹配物種比例在2.04%~4.71%,比例小於1.57%的匹配物種的unigenes為9 363條,佔36.32%。
根據NR注釋信息得到GO功能分類(圖3),14 660條unigenes被注釋到生物過程、細胞組分和分子功能3個GO類別的40個小組。細胞組分中細胞(cell)和細胞部分(cell part)相關基因豐度最高,達936和936條;其次是細胞器(organelle),有675條;病毒粒子(virion)、病毒粒子組成(virionpart)等基因較少,為10條。生物過程主要聚集在代謝過程(metabolic process)和細胞過程(cellular process),涉及的基因分別有2 036條和1 710條;應激適應(response to stimulus)、生物調控(biological regulation)基因數量分別為350、257條。分子功能中具有催化活性(catalytic activity)和結合功能的基因(binding)數量較高,分別為2 152和1 336條,其他類別基因數目普遍較少。
為了進一步分析銀線草轉錄組unigenes的功能,進行KOG功能分類分析(圖4),共得到25個不同的KOG功能類群,種類比較全面,包括大多數的生命活動;一般功能預測的基因數量最多,有6 887條;翻譯後修飾、蛋白反轉、伴侶和信號轉導機制類次之,分別為2 899和2 580條;加工和修飾unigenes數目1 541條;其他種類基因豐度不盡相同。
銀線草根莖轉錄組unigenes參與KEGG代謝通路分為5大分支:細胞過程(cellular processes)460條、環境信息處理(environmental information processing)308條、遺傳信息處理(geneticinformation processing)2 283條、代謝(metabolism)8 510條和有機系統(organismalsystems)334條。5 117條unigenes獲得131個KEGG標準代謝通路,按照基因注釋量大小依次排序,選取前11個代謝通路信息見表1,這些通路包含的unigenes數量大於200條以上。
KEGG代謝通路分析還發現402條unigenes參與苯丙素類、萜類、生物鹼及黃酮類等生物合成相關的16個次生代謝通路。結果表明(表2),苯丙素的生物合成代謝通路(ko00940)基因數量最多,為126個;18條unigenes與莨菪烷類、哌啶、吡啶生物鹼(ko00960)生合成相關;花青素、咖啡因、黃酮及甜菜紅色素的生物合成通路基因數較少。
銀線草主要成分為萜類,特徵性成分為倍半萜類化合物,在轉錄組數據中找到了大量倍半萜、單萜、二萜以及三萜類生物合成KEGG標準通路(表2)。64條unignes編碼萜類化合物骨架生物合成(ko00900);單萜類基因4條;檸檬烯和蒎烯是雙環單萜的重要代表,涉及該化合物降解途徑相關基因20條序列;32條unigenes參與二萜類生物合成(ko00904);類胡蘿蔔素生物合成(ko00906)有關的基因有39條;倍半萜和三萜類生物合成(ko00909)基因有11條。其中,倍半萜類包括無環型(acyclic)、吉瑪烯型(germacrene),編碼基因分別為1和7條。這些基因信息為進一步發掘銀線草萜類活性成分合成通路解析及其調控研究提供基礎數據。
2.3 CDS和轉錄因子分析
對銀線草轉錄組所有unigenes的CDS進行分析,通過BLAST比對共獲得CDS序列25 512個,利用ESTscan資料庫分析獲得CDS序列1 887個。轉錄因子預測發現有54個家族成員,其中bHLH、ERF、WRKY、C2H2、MYB_related、NAC、MYB、bZIP類佔主體,說明銀線草根莖生理代謝涉及眾多轉錄調控過程(圖5)。
2.4 SSRs特徵分析
用MISA軟體對轉錄組unigenes進行SSRs分析(表3),7 074條unigenes中共計8 987個SSRs。其中,二鹼基重複SSRs數量最豐富,有5 948個(66.2%),AG/CT類型的比例最高。三鹼基重複SSRs數量次之,有2 310個,佔SSRs總量的25.7%,其中AAG/CTT重複類型數量最多。四鹼基和六鹼基重複分別為394、217個,各佔4.4%、2.4%;五鹼基重複相對較少,僅佔1.3%。此外,還發現SSRs重複單元數量也存在一定變化,其中重複6、7次的比例最高,重複5、8次的次之。
3 討論
基於高通量測序技術的轉錄組測序(RNA-seq)通過對生物樣本的總RNA進行測序,在本草基因組學研究方面應用非常廣泛也並取得重大進展[12]。本研究首次採用Illumina HiSeqTM 2000 150PE測序平臺,進行秦嶺特色中草藥資源銀線草的轉錄組測序分析,測序質量良好、質控嚴格,de novo組裝獲得66 138 234條高質量reads參與組裝,共得到56 096個unigenes,序列長度與reads覆蓋區域對應合理。unigenes序列信息量龐大,數據基本涵蓋全轉錄組信息,初步揭示銀線草根莖的基因表達特徵。
轉錄組測序數據通常必需藉助系統的生物信息學分析策略進行reads的濾過、組裝,unigenes注釋及功能分類等[12]。本研究利用Trinity、BLAST、WEGO、ESTscan等工具對銀線草轉錄組序列進行注釋和功能分類。基於序列一致性分析,unigenes與NR、Swiss-port、KOG、KEGG比對注釋成功佔46.10%,共25 861條序列,其餘30 235條未注釋,這與人參[13]和羅勒花[16]等藥用植物的轉錄組研究結果類似,說明基於RNA-seq的藥用植物轉錄組有大量序列結構特徵需進一步深入挖掘分析。
GO分類揭示銀線草根莖的轉錄組特性與生物過程、細胞組分和分子功能相關;KOG功能分析從基因組水平尋找直系同源體,提高基因功能注釋的準確性[16],本研究共得到25個不同的KOG類群,說明銀線草轉錄組KOG種類比較全面。進一步對銀線草功能基因序列進行KEGG代謝路徑注釋,發現131個標準KEGG代謝通路,這些基因可能參與銀線草水分吸收、礦質營養、光合作用和呼吸作用等生命代謝活動。還發現16個次生代謝KEGG標準通路的unigenes參與苯丙素類、萜類、生物鹼、黃酮類等生物合成。其中,170個基因參與單萜、二萜、倍半萜、三萜等萜類化合物的生物合成。銀線草次生代謝成分以萜類為主,其中倍半萜類化合物又是最為重要的一類活性成分[7]。本研究獲得的轉錄組數據分析表明倍半萜類合成基因主要涉及無環型和吉瑪烯型倍半萜類,而主要烏藥烷型倍半萜化合物合成相關基因未能得到注釋,可能由於金粟蘭屬該類倍半萜生物合成通路基因數據相對匱乏。儘管如此,這些基因信息為銀線草醇、金粟蘭內酯、銀線草內酯等活性成分生物合成通路解析及其調控研究提供重要依據。
轉錄本的豐度和表達調控在植物細胞代謝過程中起決定作用。轉錄因子AP2/ERF、bHLH、MYB和WRKY等家族在植物細胞甲羥戊酸、苯丙烷類代謝途徑調控中起關鍵作用[17]。本研究獲得的銀線草unigenes轉錄因子覆蓋高等植物轉錄因子資料庫PlantTFDB 4.0中54個家族,與次生代謝調控密切相關的轉錄因子家族unigenes數量較多,說明銀線草初級代謝與次生代謝涉及複雜的轉錄調控機制。
轉錄組測序數據除了能夠用於生物樣本的基因挖掘及其表達調控研究,還可開發大量EST-SSR,因此在遺傳多樣性、分子標記等方面應用廣泛[13]。本研究發掘銀線草7 074條unigenes的8 987個SSRs位點,重複類型以三核苷酸為主,雙核苷酸次之,與以三核苷酸重複類型為主的主要作物水稻、大麥或棉花等的研究結果一致[18]。雙核苷酸重複SSRs中AG/CT類型最多,三核苷酸重複中AAG/CTT類型最多,與番紅花[19]和人參[20]等植物中雙核苷酸重複的情況相同。可見大多數植物SSRs重複主要以雙核苷酸和三核苷酸為主,但不同物種的重複序列有差別。表明銀線草基因組內具有較高豐度的SSRs,為銀線草遺傳多樣性研究提供基礎。
基於RNA-seq的銀線草轉錄組測序初步獲得大量重要數據信息,後續通過系統分析,以期全面解析以銀線草醇、金粟蘭內酯等為主要活性成分的生物合成通路及其調控機制,揭示該藥用植物的群體遺傳結構與分子進化特徵,為銀線草藥用資源的可持續利用與控制提供理論基礎。
參考文獻(略)
來 源:李依民,胡本祥,彭 亮,沈 霞,高 靜,王昌利,顏永剛,張 崗. 基於RNA-seq的銀線草轉錄組分析 [J]. 中草藥, 2018, 49(21):4967-4974.