【論文題目】Does intraspecifific variation in rDNA copy number affect analysis of microbial communities?
【期刊名稱】Trends in Microbiology, 2020, in press
【全文連結】
https://doi.org/10.1016/j.tim.2020.05.019
【第一作者】Anton Lavrinienko
【通訊作者】Phillip C. Watts
【作者單位】芬蘭于韋斯屈萊大學,生物與環境科學系
亮點
1、對部分核糖體RNA基因(以下簡稱rDNA)的擴增子測序是一種廣泛應用的方法,被用於揭示微生物群落中巨大的物種多樣性和宏觀生態模式。
2、雖然rDNA拷貝數的種間變異可能會使擴增子序列數據進行微生物群落分析複雜化,但種內rDNA拷貝數的變異增加了複雜性的額外維度。
3、由於種內rDNA拷貝數的變異與環境變化有關,微生物群落中明顯的種群統計學變化可能是由基因組對環境的響應所驅動的。
4、在微型真核生物的研究中,rDNA拷貝數的種內變異可能是一個比原核生物更大的問題,因此在解釋擴增子序列數據方面是一個挑戰。
摘要
核糖體RNA基因(rDNA)部分區域的擴增子測序已經被廣泛用於表徵微生物群落。然而,rDNA是動態的,在原核生物中,rDNA的拷貝數在種間和種內都有顯著的變化,而在微型真核生物中的變化特別顯著。由於rDNA拷貝數的變化是對環境變化的一種常見響應,所以rDNA拷貝數不是物種的特定屬性。rDNA拷貝數的變化,特別是由外部因素所驅動的較大的種內變化的能力,使rDNA擴增子序列數據的分析 複雜。因此,我們強調需要:(i) 根據可能的種間和種內變異來解釋擴增子序列數據,(ii) 研究rDNA拷貝數的潛在可塑性,將其作為一個重要的生態因子,以更好地理解微生物群落在異質環境中的構建。
術語
擴增子測序:破譯擴增的DNA片段序列
協同進化:多個相關基因均質化的過程,使一個物種內的DNA序列比在物種間比較時具有更高的同一性
微滴式數字PCR:在20000個乳化液滴的單個液滴中提供量化核酸數量能力的方法(數字PCR)
精確序列變異(ESV):表示來自reads的精準DNA序列使用,而不是將reads按相似性聚類成OTUs
內轉錄間隔區(ITS):核糖體RNA基因之間未翻譯的DNA序列
標記基因分析:對表現出顯著序列變異和差異的一個基因或者一些基因的DNA短片段進行測序,可用於物種鑑定
宏基因組-組裝基因組:一種基於具有相似性質的連續序列計算分箱(或分類)的單個分類單元的組合
新一代測序技術:快速高效的測序方法,在大量平行反應中對數百萬DNA片段進行測序
操作分類單元(OTU):根據序列相似性將一個特定分類標記基因的序列分組(通常相似閾值為97%)
PCR擴增:聚合酶鏈式反應,是一種對特定DNA片段指數擴增放大的方法
rDNA:由核糖體RNA基因和間隔序列組成的一段基因組(通常以串聯重複序列排列)
參考文庫:一個帶注釋的DNA序列集合,可用於解析注釋NGS生成數據中的序列身份
核糖體RNA:包括作為核糖體結構成分的RNA分子,由核糖體DNA基因編碼
單細胞基因組擴增:單細胞測序產生分類單元組合;它需要單細胞的物理分離、全基因組擴增和後續的測序
串聯排列:在串聯重複產生的基因組中以串聯重複形式排列的基因拷貝
通用的PCR引物:短片段的DNA(引物),用於PCR中同時擴增不同分類單元
用分子方法定量微生物群落
新一代測序(NGS)技術已經提供了在時空尺度上識別和計數樣品中微生物分類組成的方法,可應用於對真核和原核微生物群落的全球評估,而使用基於培養的方法和/或Sanger測序是費時費力、不切實際的。然而,使用NGS來量化微生物群落也伴隨著一些技術缺陷:比如與文庫準備相關的偏差、選擇NGS測序平臺的偏差、以及/或PCR擴增過程中出現的偏差。許多這樣的技術問題已經被標準規範協議和生物信息學技術的發展所解決。在這裡,我們強調核糖體RNA(rRNA)基因拷貝數的種間和種內變異(圖1)是如何幹擾微生物群落組成分析的,特別是當重點關注真核微生物時,這些微生物的基因組在rRNA基因拷貝數上可以顯示出廣泛的種間和種內變異。
圖1 核糖體RNA(rRNA)基因簇示意圖(或者是rDNA)
(A)真核生物和(B)原核生物的rRNA基因位點的可變區域通常用來描述微生物類群以及解析它們的系統發育關係。
在大多數真菌中,rRNA基因簇包括小的核糖體亞基(SSU, 18S),其內部轉錄間隔區(ITS1和ITS2)位於5.8S兩側,以及大核糖體亞基(LSU, 25-28S)區域。
在細菌中,rRNA操縱子包括SSU(16S)、LSU(23S)和5S基因位點。按順序排列的黑色豎線顯示了SSU(V1-V9)和LSU(D1-D12)的可變區域,這些區段最適合通過微生物群落分析進行生物多樣性評估。
部分核糖體RNA基因簇(rDNA)是量化微生物群落組成擴增子的選擇
典型的微生物群落組成的NGS分析使用擴增子測序(或者是標記基因分析),解析序列的最終產物(OTUs或者ESVs),並與DNA參考庫進行比較和分類注釋。從基因組中提取擴增子的適當區域,取決於種間和種內序列差異程度以及「通用」PCR引物的可用性。擴增子通常來自於rRNA基因簇(rDNA)的一部分(圖1),例如原核生物16S rDNA的可變區域之一,定量真核微生物群落多樣性時可以使用18S或28S rDNA的可變區域或者rDNA的內部轉錄間隔區(ITSs)。對ESVs注釋之後,對擴增序列數據進行分析的下一個基本步驟是計算屬於每個ESV的序列數:這裡的一個關鍵假設是,分配給每個ESV的reads比例反映了樣本中假定分類單元的相對豐度(例如細胞或生物量)。然而,rDNA在許多物種中以串聯陣列的形式排列(圖1),而且該基因組區域的拷貝數可能在種間和種內出現大量變異,這使得序列豐度和細胞對應的這一假設變得複雜。
不同分類生物域間rDNA拷貝數的種間變異水平存在顯著差異。原核生物通常有少於7個rDNA拷貝(細菌的中位數=5個rDNA拷貝,n=15486個基因組;古菌的中位數=1個rDNA拷貝,n=343個基因組),儘管只有一種細菌(美人魚發光細菌)有多達21個16S rDNA拷貝。相反,真核生物的rDNA拷貝數表現出廣泛的種間變異。例如,據估計,真菌中rDNA拷貝數為14–1442,在原生生物物種中為1–50萬個拷貝,纖毛蟲每個細胞的rDNA拷貝數非常高。事實上,rDNA拷貝數與真核基因組大小呈正相關,雖然這種聯繫可能不適用於纖毛蟲和真菌。其他研究發現在一些海洋原生生物物種中rDNA含量和細胞大小呈正相關。為什麼rRNA基因表現出種間多樣性,並且常常是真核生物基因組中最豐富的區域之一,這是一個複雜的問題,與rRNA轉錄調控、核仁功能和其他細胞過程有關。然而,從群落生態學的角度來看,rDNA拷貝數種間差異的廣泛存在限制了基於NGS方法準確分析樣本中微生物類群相對比例的有效性。
理論上,根據每個基因組rDNA拷貝數的分類特異性可調整ESVs的數量,可以更好地估測rDNA擴增子數據的分類單元比例,一些軟體可以對原核生物樣本實施這一程序。在實踐中,大多數物種的rDNA拷貝數是未知的,這種類型的生物信息校正依賴於明顯的rDNA拷貝數的系統發育保護;在原核生物中,這可能只存在於較短的系統發育距離上。類似地,在同屬真菌中rDNA含量往往是相似的,但經常有例外。對於微型真核生物類群,由於rDNA拷貝數在足夠多的物種基因組中存在,並且不清楚rDNA拷貝數的任何系統發育保守程度,試圖糾正ESVs數量是不可行的。在從擴增子數據分析微生物物種比例時,rDNA拷貝數的種間變異的影響仍是一個未解決的問題,尤其對於真核生物群落的分析。即使每個基因組rDNA拷貝數存在分類特異性數據,微生物群落組成的分子分析也可能受到種內rDNA拷貝數變異的影響。
原核生物和真核生物中rDNA拷貝數的種內變異
鑑於其基本功能,rDNA拷貝數通常受到嚴格調控。然而,rRNA基因代表了基因組中一個明顯的動態區域,在拷貝數上顯示出廣泛的種內變異。在原核生物研究中,rDNA拷貝數的種內變異並沒有廣泛報導,雖然有些細菌能容忍rDNA拷貝數的變化,例如,在Paeniclostridium sordelliiCBA7122基因組中rDNA拷貝可達到17個,它的基因組通常平均包含4個16S rDNA拷貝。相比而言,真核生物中rDNA拷貝數的種內變異是常見的。在對4876株麵包酵母(Saccharomyces cerevisiae)的調查中,發現在突變體中rDNA拷貝數從少於80個拷貝到超過450個拷貝,其他真菌物種中發現了rDNA拷貝數兩到四倍變異。實驗室培養的纖毛蟲的rDNA拷貝數也有顯著變化,例如,估測Strombidium stylifer有1082到16995個拷貝(相差15倍)。因此,與原核生物相比,微型真核生物在rDNA拷貝數方面表現出實質性的、更大的種內變異。
rDNA拷貝數變異的進一步考慮是基因組內多態性的存在,儘管協同進化有減少rDNA序列差異的可能性,例如,在近50%的檢測細菌和約3-5%的真菌中已經報導了基因組內rDNA多態性。在許多物種基因組內的多個rDNA拷貝之間rDNA多態性的分布基本上是未知的。使用基於OTU的聚類(而不是ESVs)來定義分類單元,可以最小化基因組內rDNA變異對使用擴增子序列數據分析微生物群落的潛在影響。
rDNA對環境變化很敏感
理解rDNA拷貝數變化的功能,是解釋rDNA擴增子序列數據所獲得的群落結構特徵的重要組成部分。細菌中rDNA拷貝數變化的適應性意義得到了很好的研究,例如,與種間代謝差異和生長率有關,以及作為一種與棲息地生境專門化或者群落演替有關的特性。很少有研究關注自然界真核微生物群落中rDNA拷貝數的種間變異的潛在意義,儘管rDNA拷貝數可預測對DNA損傷的敏感性,可以解釋實驗室環境下物種對壓力的響應。
在微生物群落組成分析中,尤其相關的是,rDNA拷貝數不一定是種水平性狀,因為有廣泛的證據表明,某些刺激可以引起微生物種內rDNA拷貝數的快速變化(表1)。相反,當暴露於殺菌劑或溫度變化時,一種煙麴黴菌分離株的rDNA拷貝數是穩定的。這意味著並不是每個物種都經歷了快速和/或可檢測的rDNA拷貝數的可塑性變化。事實上,表1中分類多樣性的缺乏突出了,需要更好地量化rDNA拷貝數在多大程度上是一種物種性狀還是因響應環境因素變化。此外,還需要更好地記錄引起rDNA拷貝數一般變化或特定分類群特有變化的環境因素類型。雖然rDNA拷貝數的種間變異是糾正擴增子序列數據的挑戰,但環境本身會影響rDNA拷貝數,這又增加了另一層複雜性(圖2),這在自然界微型真核生物群落調查中通常不被考慮。基因組內的rDNA基因型是否會因環境變異而改變其拷貝數尚不清楚,但其對任何擴增子序列數據分析的影響,取決於rDNA多態性之間的序列差異水平,以及物種定義為OTUs還是ESVs。在rDNA擴增子數據的分析,特別是在真核微生物中,應該考慮種內基因組對環境響應的可能性,以及它與物種rDNA拷貝數的潛在相互作用。這是一個重要的考慮,因為許多研究的目標是量化群落組成變化響應環境變化而發生的變化,而事實上環境變化本身可能會刺激rDNA結構的變化。
表1 原核生物和微型真核生物種內rDNA拷貝數變異和適合度相關性的研究
圖2 基於環境DNA分析解釋微生物群落組成的不同情景
(A)在微生物生態學中,典型的下一代測序(NGS)分析從DNA的提取和測序開始,得到屬於不同物種的精確序列變異(ESVs)或操作分類單元(OTUs)的名錄,並可根據rDNA序列進行物種的鑑定解析。
(B) 微生物群落的總體rDNA含量是(i)分類學組成(由taxon1、taxon2和taxon3表示)和(ii)每個基因組的rDNA拷貝數(每個分類單元內的彩盒)的函數。
(C)環境變化可能會改變物種的相對比例(一種種群統計學效應)。
(D)環境變化可能會引起每個物種的每個基因組rDNA拷貝數的變化(一種基因組效應)。
(E)環境變化可能會影響物種比例和它們的rDNA拷貝數的變化。
在每種情況下,物種(n)數量和rDNA拷貝數量(NrDNA)的比較說明了在rDNA拷貝數量存在種間和種內變異時,僅使用ESV/OTU計數數據推斷物種的相對比例可能存在困難。
rDNA擴增子測序在微生物群落組成評估方面有前景嗎?
rDNA是擴增子測序的一個極好靶點,因為所有生物體的基因組都有同源位點,而設計通用的PCR引物使得使用單一方法來識別不同的物種成為可能。歷史上使用rDNA測序數據來解決系統發育關係和鑑定物種的一個重要必然結果是產生許多、大型和整理的rDNA序列參考資料庫,為微生物ESVs/OTUs注釋提供了標準化方法。環境驅動的種內rDNA拷貝數變化的潛力並不會使該位點對群落組成的評估變得冗餘,但它強調了有必要更深入地考慮群落對環境的響應:種群統計學、基因組學或兩者的結合(圖2)。
目前,利用rDNA擴增子測序數據獲得更好的分類組成比例的解決方案,強調需要更多物種的rDNA拷貝數數據。原核生物中rDNA拷貝數的種間差異可以通過rrnDB資料庫進行檢測。rDNA拷貝數的種內變異水平在rrnDB中沒有得到解決,但可以通過將NGS讀取數據映射到已組裝的基因組和/或使用長讀長測序技術來更好地組裝rDNA操縱子來評估關鍵物種(如具有醫學重要性的物種)。然而,考慮到原核生物種間和種內rDNA拷貝數變異水平相對較低(rrnDB中15829個記錄中約有50%的rDNA拷貝數變異數據),通常每個基因組有等於或小於4個拷貝,這種努力或許不能作為改進原核生物群落組成分析的一般策略。
考慮到rDNA拷貝數的廣泛差異,使用rDNA擴增子序列數據定量真核微生物群落的分類組成具有挑戰性。開發一種生物信息學解決方案來解釋真核生物中rDNA拷貝數變化的前景似乎很不明朗。動物有rDNA拷貝數的資料庫,而微型真核生物缺乏rDNA拷貝數數據。開發一個微型真核生物rDNA拷貝數的資源是很困難的,主要原因有:(i)原生生物物種的多樣性極高,(ii)分離、培養許多物種的困難,(iii)我們對驅動rDNA拷貝數變化的環境因素未知,(iv) rDNA拷貝數變異沒有系統發育保守性的可能性。利用明顯的細胞大小-rDNA基因拷貝數關係來調整序列數,以更好地反映某些原生生物物種的豐度,可能會在分析中引入更多的噪聲。主要原因有:(i)這種關係的內在變化和(ii)種內rDNA含量變異的可能性。解決環境DNA樣本中群落組成的另一種方法是使用單拷貝基因位點作為擴增子測序的靶點,儘管要確定一組可靠的基因位點需要付出大量的努力,這些基因片段應(i)具有適當程度的序列差異來進行分類注釋,(ii)具有足夠保守的區域,可以設計出具有適當擴增子長度的通用引物。關鍵菌株的豐度可以用定量PCR或者微滴數字PCR定量,但是這些方法對於整個群落的分析是不實際的。宏基因組測序提供了rDNA擴增子分析的替代方法,因為reads可以被映射到宏基因組,而宏基因組的分類鑑定是通過一組保守基因位點確定的。宏基因組數據可能是一個生物的rDNA拷貝數信息有用的來源,因為直接來源環境樣本,繞過了培養步驟。也就是說,在定量rDNA拷貝數變化中,重複基因組區域(如rDNA)的組裝困難限制了宏基因組-組裝基因組(MAGs)或單擴增基因組(SAGs)的應用。長讀長測序技術可以通過提高裝配的連續性,甚至完成基因組來克服這個問題。在未來的研究中,一種結合了短讀長測序和長讀長測序的聯用方法可能會從宏基因組中產生更完整的基因組,從而使自然系統中微生物的rDNA拷貝數增添到資料庫中。然而,儘管NGS技術和生物信息學技術迅速發展,但是作為測定許多樣品中群落組成或量化rDNA含量的方法時,宏基因組測序目前過於耗費資源(例如,耗時和昂貴)。因此,使用基於rRNA的擴增子測序來量化群落結構變化的研究,需要根據可能的種間和種內響應來解釋它們的數據。
結束語
長期投資開發標準實驗室規程和大型管理的rDNA資料庫的一個必然結果是,rDNA擴增子測序仍然是量化微生物群落組成的一種簡單而經濟的方法。與原核生物相比,自然系統中微型真核生物的基因組中rDNA的結構和動態變化研究較少,真核生物基因組中rDNA拷貝數可能存在更大的種間和種內變異。這種rDNA拷貝數的變異,特別是在種內發生較大變化的能力,使rDNA擴增子測序數據的分析變得複雜,但它不是一個令人討厭的參數,而是一個積極的挑戰(可能具有生物學意義和環境意義),或許可充分利用微生物生態學中基於性狀的研究方法。例如,在原核生物中,對rDNA拷貝數的分析往往超出了其作為條形碼位點的用途,而是將rDNA的結構作為與生態策略相關的一個重要性狀來考察。對自然微型真核生物群落的分析也將受益於識別物種的響應,無論它們是否改變其相對豐度和/或改變其rDNA拷貝數以應對環境的變化。這種物種的分離和培養將允許使用實驗室實驗和qPCR分析來驗證rDNA變化在真核生物群落變化中的作用。將這些方法與NGS調查整合運用,將為理解微生物群落如何應對環境變化提供關鍵的見解。
未解決問題
1、原核生物核糖體RNA基因位點(rDNA)拷貝數種內變異的能力是什麼,特別是能從自然系統中分離出來的非實驗室模式物種?
2、是否有可靠的證據表明,在微型真核生物中,rDNA拷貝數的種內變異普遍存在?
3、rDNA拷貝數的種內變異水平是否有可靠的預測因子,如物種的生活史、生態性狀、系統發育關係或基因組大小?
4、是否存在一個閾值,當種內rDNA拷貝數的變化開始嚴重影響基於rDNA的微生物群落分析結果?
5、rDNA拷貝數的種內變異最重要的環境驅動因素是什麼?
6、什麼類型的外部刺激影響許多物種的rDNA拷貝數,什麼刺激是物種特異性的?
7、哪些物種對rDNA拷貝數的變化更敏感或更不敏感?
8、rDNA拷貝數和/或rDNA拷貝數變化的能力如何通過影響競爭結果或入侵成功來調節群落結構?
9、當拷貝數發生變化時,rRNA操縱子的所有成分是否都以同樣的方式被放大?例如,非轉錄區域(如ITS)是否比轉錄區域(如18S或28S rRNA基因位點)具有更大的拷貝數變化能力?
10、rDNA拷貝數對環境變化是否有可預測的響應(如增加或減少百分比)?
翻譯:薛媛媛
校對:金磊、莫媛媛
10000+:菌群分析 寶寶與貓狗 梅毒狂想曲 提DNA發Nature Cell專刊 腸道指揮大腦
系列教程:微生物組入門 Biostar 微生物組 宏基因組
專業技能:學術圖表 高分文章 生信寶典 不可或缺的人