物種起源一直是地球上芸芸眾生多樣化(Diversity)和變演(Evolution)的核心問題之一。基因的變異和基因組的重組是物種起源和變演的內因和原動力。一般說來,變異作為基因型的物質基礎,發生於所有生命體的遺傳物質——DNA或者RNA之中,作為「信息流」(Information Track)而在變化中代代傳承,孕育著生命體的遺傳多樣性,或分流(趨異,Divergent Evolution),或匯聚(趨同,Convergent Evolution);自然選擇,作為外因和環境的合力,以優勝劣汰為原則,展示出由基因型和環境共同塑造的各種表型,這些表型又會有不同的形式,有的持續遺傳,有的跨代遺傳,有的表現為某種可塑性,作為可塑流(Plasticity Track)的可觀察部分。
基因組的重組是在基因變異的基礎上更高層次的雜合性(Heterozygosity)組合,即將個別等位基因的變化「集體」遷移、集合、乃至剔除。這樣的重組一般發生在有性繁殖的過程中,通過減數分裂和染色體的部分交換,利用創造雜合個體、擴大群體中的個體數量等途徑創造更複雜的遺傳多樣性(Genetic Heterogeneity)。因此,染色體數量和多基因結構是遺傳範疇中可塑性的突出案例。對於無性繁殖的單細胞原核生物,比如細菌(也包括基因組更小的病毒)而言,重組在物種起源和變演中的作用則一直模糊不清、爭議不斷。
傳統觀點認為,細菌在傳代過程中(比如複製後尚未分離的染色體)的基因重組率極低,基因組的變化主要是通過橫向基因轉移來實現,比如利用與穿梭中的噬菌體和質粒的整合性重組來實現。這些偶然發生的基因組重組常常會打亂基因組趨異變演所形成的樹形結構,導致系統分類的混亂。由於NGS技術的突飛猛進,近年來研究發現,細菌的基因重組率遠高於預期,並達到一種類似於有性繁殖的高重組率狀態。那麼高重組率的作用是模糊還是清晰物種間的界限?在物種內的種群之間是促進還是阻遏新種的形成?新種形成的原動力是什麼?地域隔離對無性繁殖的生物和有性繁殖的生物在新種形成中的貢獻是一樣的嗎?
針對以上疑問,近日,北京基因組研究所於軍團隊利用二代、三代測序儀產生的綜合性(利用二代測序的高覆蓋度提高精準度,利用三代測序的長讀長實現連續性)數據,完成了逾百株來自世界各地、不同脊椎動物宿主(包括人類在內)的大腸桿菌(E.coli)高精準度基因組完成圖(Complete Genome)。通過基因組序列的詳細比對,構建了真實可信的大腸桿菌種內種群的系統發生樹,並結合生化檢測驗證了系統發生所形成的種群與種群間表型的差異,並定義了這些差異的生理學和分子生物學屬性。該研究成果發表在生物信息學領域雜誌Briefings in Bioinformatics上,題目為「A fine-scale map of genome-wide recombination in divergent Escherichia coli population」[1]。
文章發表在Briefings in Bioinformatics
研究者們將大腸桿菌分為活潑型(Vigorous, Vig)和懶惰型(Sluggish, Slu)兩個種群,代表獨立的種群分化,並指出種群對於營養來源的分工應該是初始分離的基礎—包括由營養與代謝的分工導致基因組組織結構的分化和固化等—也可能是新物種形成的出發點和基礎。這一假說挑戰了傳統的地域隔離理論,即地域隔離造成的基因交流的阻滯和新物種形成。研究者們通過基因組之間在單核苷酸解析度的兩兩比較,確定基因組間重組片段的長度、數量,以及每個基因的可移動性,以高清晰度解析了種群內部和之間的重組頻率,闡明了重組在大腸桿菌種群分化過程中的規律。
該研究的起點是獲得了具有物種特徵和代表性的104株前所未有的高質量大腸桿菌基因組序列完成圖和系統變演樹。同時,研究人員們還測量了這些菌株的特徵性生理生化指標,包括生長速率、趨化特性、運動速度等,還結合其生存環境和基因組中基因和關鍵變異信息,發現大腸桿菌兩大種群—活潑型(Vig)和懶惰型(Slu)的各自特徵。比如Vig包括了傳統大腸桿菌分群的phylotype A和B1,其特徵為生長速度快、運動速度快、嗜胺基酸、不能分解雙糖,宿主主要來自熱、溫帶地區、多發現於肉食及雜食動物體內,可引起流行性及侵襲性腸道內感染,極少耐藥。而Slu包括了傳統大腸桿菌分群的phylotype B2,其特徵為生長速度慢、運動速度慢、不嗜胺基酸、能分解雙糖,宿主多為生活在寒、溫帶地區的草食及雜食動物,常引起耐藥性及腸外感染,極少流行。從基因組組成上來看,Vig和Slu兩個種群存在明顯差異,包括大量穩定的核心基因以及特異變異,攜帶不同的代謝胺基酸及糖類代謝相關的基因、耐藥基因、毒性基因等,這些基因組特徵可以清楚區分兩個分化了的種群,很有可能成為兩個新物種發生的初始階段。
圖1. E.coli的Vig和Slu種群的系統發生關係和生存環境差異。
來源:Briefings in Bioinformatics
於軍團隊的研究手段主要是基因組序列的詳細兩兩比較,確定重組片段的位置和大小,並獲得每個基因組間、種群內基因組間和種群間基因組間重組片段的發生和規律(圖2A)。首先是種群內的重組片段無論在長度上,還是在數量上都明顯高於種群間的重組片段。兩個種群內基因組之間的重組片段總長度在0.3~2 Mbp之間,最大可以達到基因組長度(4Mbp)的一半。即使在種群內正常寄生和致病性大腸桿菌之間的重組也非常活躍,重組片段長度與其它種群內重組情況相當,說明正常寄生和致病性之間沒有明顯的遺傳界限。與之相反,種群間基因組重組片段平均長度只有種群內重組片段長度的1/10,且不超過250kbp(圖2B)。進一步的分析發現,重組片段的長度與基因組之間的遺傳距離顯著成反比:遺傳距越近的基因組之間,重組越活躍;遺傳相距越遠的基因組之間,重組越稀少,並在遺傳距離跨種群時,重組率出現陡峭下滑趨勢(圖2C)。以往的模型研究發現,僅依靠該機制(遺傳距離與重組率成反比)就可以使種群分開,因此,重組不但不會減緩物種形成的進程,反而會促進物種的分化。
圖2. E.coli種群內部和之間的重組情況。來源:Briefings in Bioinformatics
基於重組片段中每個基因的相應結構與功能性分析發現,大部分重組片段的長度約3000bp左右,恰好是典型原核生物操縱子(operon,可自我調控的基因表達單元)長度(圖3A)。可見,這些片段其實可以在重組後完好地保存其功能,而它們的功能大多與營養吸收和代謝有關。當研究人員進一步計算每個參與重組基因在所有可能重組事件中真實概率(存在於重組片段中的次數除以在整個大腸桿菌群體中出現的次數)時,這個定義為基因的「可移動性」(0~1之間)在很多基因上數值為零,即這些基因從不參與重組事件。另一個極端是有些基因卻永遠存在於重組片段中。因此,基因的可移動性與其在大腸桿菌群體中的普及性成反比,對於普及性為100%的核心基因來說,幾乎從不參與重組,而普及性相對較低的基因,如耐藥基因等,移動性就很高(圖3B)。這些現象說明近緣個體基因組之間雖然重組非常活躍,但很少涉及具有核心營養物代謝、運動調控功能等基因,從而保持供體和受體基因組之間整體功能的穩定性。這個現象驗證了研究團隊2014年提出的原核生物(尤其是真細菌)基因組組織框架(genome organization framework, GOF)的概念[2]。在GOF概念中,基因組是由兩部分基因組成:基因組組織框架基因(cGOF-associated genes,也稱為clade-associated genes, CAG)和可移動基因(clade-associated-variation-containing genes, CAV genes)。前者的結構相對穩定,是由泛基因組研究產生的核心基因來界定,所以稱為「核心基因界定的基因組組織框架(core-gene-defined genome organizational framework, cGOF)」;後者是指在cGOF框架中可以插入重組片段的特定位置和在這些位置上發現的基因,由於對它們種群特徵性變異(相同的基因當時屬於不同的種群)加以識別,所以也叫做CAV基因。研究者們發現,在Vig種群中顯著富集的CAG基因在Vig群內部的移動性顯著低於其在Slu群中的移動性;同樣,在Slu種群中顯著富集的CAG基因在Slu群內部的移動性顯著低於其在Vig群中的移動性。這兩個趨勢說明在某個種群明顯富集的CAG基因參與了該種群的核心生物學功能,因為受到功能選擇而很少被重組,而當其處於其它種群基因組中時,因為生物學功能並非必需,受到的選擇壓力較小,而更易被宿主菌再次重組(圖3C)。對於Vig和Slu種群都重要的框架基因(CAG基因)則在兩個種群中的移動性都極低,且兩群之間沒有差異(圖3D)。
圖3. 基因移動性收到基因功能重要性的影響。來源:Briefings in Bioinformatics
綜上所述,研究者們通過系統性、精確序列定位研究描述了種群內部在物種分化初始階段的基因組重組情況,闡述了基因組重組在物種形成中的核心作用。從基因型和變異出發,遺傳距離是重組率的決定因素。遺傳距離越近的基因組間重組越活躍,而不同種群間的重組率差是促進物種形成的關鍵動力。從表型和功能出發,基因是否被重組受到功能性的選擇,功能越重要的基因重組概率越低,從而保障基因組整體營養代謝和運動等優勢功能的穩定。這些發現系統地回答了重組在細菌進化中的作用,拓展了遺傳學界對於物種形成機制的認知水平。
據悉,於軍團隊20多年前就開始對細菌抗性基因[3]、基因組(中國科學家發表的第一個細菌基因組完成圖[4])、宏基因組[5]和泛基因組[6]研究,並長期從事原核生物基因組結構與變演原理和規律的研究[7],從理論創新到研究工具與方法[8]開發,建樹頗豐。該研究的第一作者康禹副研究員耗時多年的研究成果推翻了人類宏基因組的永久性寄生特徵,提出了環境微生物群落的固化性地域分布。其理論的進一步完善和驗證,以及真正的實用價值有待於新的思考和發揮。比如,這一理論可以解釋中國各種白酒、米酒香型的地域性、固化性,以及中藥植物的道地性,也對於微生物群落的生態研究開闢了新的思路。
參考文獻:
[1] Kang et al. (2020). A fine-scale map of genome-wide recombination in divergent Escherichia coli population. Briefings in Bioinformatics. Bbaa335. 2020. DOI 10.1093/bib/bbaa335.
[2] Kang et al. (2014). Flexibility and symmetry of prokaryotic genome rearrangement reveal lineage-associated core-gene-defined genome organizational frameworks. mBio.;5(6):e01867.
[3] Wang et al. (2014). Heteroresistance at the single-cell level: adapting to antibiotic stress through a population-based strategy and growth-controlled interphenotypic coordination. mBio 5(1):e00942-13. doi:10.1128/mBio.00942-13.
[4] Bao et al. (2002). A complete sequence of Thermoanaerobacter tengcongensis genome. Genome Res 12:689–700.
[5] Jia et al. (2013). The intestinal metagenome of red palm weevil (Rhynchophorus ferrugineus). Envir Microbiol 15(11):3020–3029.
[6] Zhao et al. (2012). PGAP: Pan-Genomes Analysis Pipeline. Bioinformatics. 28: 416–418.
[7] Wu et al. (2014) The quest for a unified view of bacterial land colonization. IMSEJ 8:1358–1369.
[8] Shi et al. (2019). Microfluidic-based enrichment and whole-genome amplification enable strain-level resolution for airway metagenomics. (2019) mSystems. 4 (4) e00198-19; DOI: 10.1128/mSystems.00198-19.