大型基因組(Large Genome Size)研究策略與思路

2021-01-20 百邁客生物


隨著基因組測序技術的飛速發展,越來越多的動植物已經完成了全基因組密碼的破譯,小型基因組(Genome Size<5 Gb)的研究可謂「雨後春筍,勢如破竹」,其研究成果發表於眾多知名期刊;於此同時,由於三代測序技術(PacBio)成本的大幅度下降,通量>10000倍增加,讀長>100倍提升(圖1),針對大型基因組(5 Gb≤

Genome Size<10 Gb)或超大型基因組(Genome Size≥10 Gb)的組裝策略日臻完善,越來越多的科研工作者開展了超大基因組的動植物的研究工作,如裸子植物,兩棲爬行動物等。本期小編將為大家介紹下超大基因組的組裝策略及研究思路。

一、大基因組如何定義?

廣義上的大型基因組(Genome Size)通常指基因組大小超過5 Gb,多集中在裸子植物、兩棲動物、爬行動物類等。它們往往具有超高的重複序列,還兼具大量的雜合區域。如被子植物(開花植物)基因組大小相差達2400倍(1C = 0.063–148.8 Gb),平均基因組大小為1C=5.7 Gb(圖2)。 


圖2 7542個被子植物中基因組大小(GS)分布的直方圖



以植物為例,植物DNA C-values資料庫(www.data.kew.org/cvalues)中提供的植物基因組大小(Genome Sizes,GS)的大規模數據比較分析表明,被子植物(開花植物)的GS多樣性顯著。植物基因組大小具有多樣性主要有兩個因素:(1) 多倍體或全基因組複製,引起了植物基因組大小的逐步增加:(2) 拷貝數的變化,可能導致植物基因組大小的變化;DNA重複序列在大多數植物中佔據基因組DNA序列的大部分,以幾百萬個拷貝的形式出現;隨著GS的增加,重複DNA序列比例在一定程度增加。

PacBio Sequel II平臺提供CLR library和HiFi library兩種測序模式。其中CLR library可提供超過75 Gb的長片段數據;HiFi library採用CCS方式獲取數據,可大幅提升長片段序列的單鹼基準確性。Circular Consensus Sequencing (CCS) read: 環形一致性序列,這種一致性序列通過對來自單個ZMW中的subreads進行比對產生。產生的CCS reads不包括或不需要與參考序列比對。產生的CCS reads使用CCS算法需要至少兩輪讀取來自插入片段的subreads,單條CCS read準確性可達99%。Sequel II System 2.0版本試劑使得HiFi文庫的插入片段長度提升至15-20 kb,從而更好的支持基因組從頭組裝;當使用15 kb HiFi文庫時,能夠獲得更好的變異檢測靈敏度和特異性;對於全長轉錄本以及長片段轉錄本的檢測能力得到提升(圖3)。

無論是PacBio CLR測序還是Nanopore測序,均有較高的錯誤率,常規小基因組物種,在高深度的三代測序數據的基礎上(通常為100x),可通過三代原始數據糾錯及二代數據polish等方式聯合,解決三代數據錯誤率高,以精準地獲得某小基因組物種的基因組密碼信息;但針對超大基因組物種,如裸子植物等,一般基因組≥10 Gb,利用常規策略(100x PacBio CLR或Nanopore),由於reads間相互糾錯及其耗時,周期長,投入成本巨大且組裝質量一般,已經成為了大基因組相關研究中的瓶頸,然而HiFi數據由於高準確性,無需繁瑣的糾錯過程,30X CCS數據即可完成基因組組裝,因此人工組裝費用較低、周期較快,組裝質量較好,能更好的組裝雜合性複雜的物種,使組裝的連續性更高,同時結合較長的讀長,可以跨越「惱人」的重複區,已成為了越來越多的基因組研究者的最佳選擇,如利用HiFi測序技術進行加州紅杉基因組組裝(圖4-5)。

比較基因組作為基因組研究中的固有思路,在基因組學研究常常加以引用。一般包含系統進化分析,分析時間研究,基因家族收縮與擴張研究,全基因組複製事件WGD研究及共線性分析等。在大型基因組的研究中,同樣不例外,可選取10-12個近源種和模式物種,對於其分化地位,物種分化時間,特異收縮擴張基因家族對其生物學功能的影響進行深入研究(圖6)。

重複序列是構成真核生物基因組的主要成分。其中轉座元件(transposable elements)是DNA重複序列的主要類型,幾乎再所有真核基因組中都普遍存在。因此基因組重複序列元件的研究尤其是大型基因組的研究中具有重要的意義與價值,如松柏類的大基因組(20-30 Gb)主要是由於轉座子的大爆發導致。2020年BioRxiv上報導了重樓屬植物七葉一枝花的基因組研究。其預估基因組大小約82.55 Gb,組裝獲得基因組大小70.18 Gb,該研究中對七葉一枝花的基因組重複序列進行了深入研究,發現在組裝獲得基因組中,69.53%為重複序列(57.86 Gb),其中62.50%(50.02 Gb)為LTR長末端重複序列。其重複序列含量低於銀杏(76.58%),且高於玉米(64.00%)(圖7)。

 圖 7七葉一枝花基因組組裝結果及與其它代表性植物基因組特徵比較(Genome Size/LTR等)

在寬瓣重樓的研究中,選擇銀杏、玉米、水稻和擬南芥,使用逆轉錄酶基因的結構域構建Ty3/ Gypsy和Ty1/ Copia系統進化樹。Ty3 /Gypsy可以分為三個進化枝,每個進化枝包含銀杏,表明重樓基因組的Ty3/ Gypsy可能是從古老的裸子植物進化而來。發現重樓3個Ty3/ Gypsy進化枝顯著擴張,其插入時間顯示兩次爆發時間(2.2MYA和10.5-11.3MYA),表明所有Ty3/ Gypsy亞型都經歷兩次擴張Ty1/Copia分成5枝,4枝是重樓特有的,1枝是5個物種共有的(圖8)。

大基因組擁有大量轉座子,但是這些轉座子是否影響該物種的生理生化及生物學功能呢?明確轉座子與功能間關係將能對超大基因組存在具有理論意義。如蚯蚓基因組中重複序列LINE2轉座元件,顯著高比例地插入到蚯蚓早期再生相關的差異基因,同時某些差異表達的LINE2元件和它們的鄰近基因擁有極為相似的表達模式,因此LINE2轉座元件可能在蚯蚓再生中扮演著重要的調控角色(圖9)。 

群體進化研究是指通過獲得某物種自然群體各亞群的SNP、InDel等變異信息。然後基於群體變異信息,解析群體的遺傳多樣性、遺傳結構、基因交流情況、物種形成機制以及群體進化動態等生物學問題,從分子層面深入研究該物種的進化歷程。同時種群歷史動態是分子進化研究的另一核心內容,可用於闡明過去的地質氣候變化以及人類活動等歷史事件對當前物種分布的影響,同時也有助於制定合理有效的瀕危物種保護策略。通過對分子標記在種群歷史動態研究中的一些應用案例進行分析,探討了當前此項研究中存在的問題,揭示了今後的發展趨勢。在植物大型基因組的研究中,如裸子植物等,可結合相應的群體材料,對該物種不同群體材料進行深入研究(圖10-11)。

在大型動植物基因組的研究中,可根據某動植物物種本身的生物學特性,採用相應的生物學技術手段,對該物種生物學特性進行深入研究,如植物(大蒜大蒜素,寬瓣重樓多葉素等,圖12-13)、動物(蚯蚓,蠑螈再生機制等,圖14)的研究中,可結合代謝組學,單細胞組學,轉錄組等研究手段,對物種的生物學特性進行深度剖析。 

圖12 大蒜大蒜素代生物合成通路分析      圖13 七葉一枝花多葉素生物合成分析

 圖14 蚯蚓再生機制單細胞轉錄組研究

五、百邁客大基因組研究經驗

百邁客自2015年國內首家引進PacBio三代測序平臺,在基因組研究領域已經有近百餘篇合作文章發表於世界知名期刊,累計影響因子600+;隨著PacBio測序平臺的不斷升級,百邁客在基因組組裝研究中,不斷進行技術的迭代更新,在複雜基因組的組裝研究中獨具優勢,目前已有大量的多倍體複雜物種基因組見刊,如芥菜,棉花,花生,甘蔗,金魚等(圖15),同樣在大基因組物種研究中也積累了豐厚的經驗(見下表),並一直秉承著「致力於成為最具專業的基因組組裝專家」這一口號,在擁有國際上最具全面三代測序平臺的(PacBio和Nanopore)的基礎上,根據廣大科研工作者的不同需求,推薦最佳的基因組組裝策略,歡迎諮詢!

表 百邁客大基因組組裝經驗(部分)


六、參考文獻

1. Dodsworth S et al. Genome size diversity in angiosperms and its influence on gene space. ScienceDirect (2015).

2. Sun X et al. A chromosome-level genome assembly of garlic (Allium sativum L.) provides insights into genome evolution and allicin biosynthesis. Molecular Plant (2020).

3. Li J et al. An enormous Paris polyphylla genome sheds light on genome size evolution and polyphyllin biogenesis. BioRxiv (2020).

4. Shao Y et al. Genome and single-cell RNA-sequencing of the earthworm Eisenia andrei identifies cellular mechanisms underlying regeneration. Nature Communications (2020).

5. Salojärvi J et al. Genome sequencing and population genomic analyses provide insights into the adaptive landscape of silver birch. Nature Genetics( 2017).

文:雨文

排版:市場部

百邁客現提供「測序分析+分子試劑+實驗儀器」一站式解決方案,與分子實驗相關試劑盒如提取試劑盒、反轉試劑盒、qPCR試劑盒、PCR Mix、無縫克隆、建庫試劑盒等試劑盒均有現貨,試劑促銷活動詳情可諮詢駐地銷售專員!






相關焦點

  • Estimate genome size
    參考資料1. http://www.genome.umd.edu/docs/JellyfishUserGuide.pdf2. https://github.com/josephryan/estimate_genome_size.pl 3. https://github.com/yihui/r-ninja
  • 全基因組及轉錄組研究揭示開心果的環境適應以及馴化機制 | Genome...
  • Nature:挪威雲杉的基因組
    「雲杉基因組項目」聯合課題組在本期Nature上發表了第一種裸子植物的基因組草稿,即一種挪威雲杉(Picea abies)的基因組草稿。該基因組來自最初於1959年在瑞典中部的東J?mtland獲得的一棵樹,大小為20千兆鹼基對,比模型植物「擬南芥」的基因組大100倍,但二者所含基因數量差不多。這個基因組之所以大,是由於可轉位元素的積累。
  • 巨型病毒的廣泛內生作用塑造了綠藻的基因組
    2020年11月18日,《自然》雜誌在線發表了這一最新研究成果。 據研究人員介紹,內源性病毒元件(EVE)(將其基因組整合到其宿主的病毒)在真核生物中盛行,並在基因組進化中發揮重要作用。迄今為止,已鑑定出的絕大多數EVE是由少數基因組成的小基因組區域,但最近的證據表明,一些大型的雙鏈DNA病毒也可能內生到宿主的基因組中。
  • 科學家研究單純皰疹病毒基因組的冷凍電鏡結構
    科學家研究單純皰疹病毒基因組的冷凍電鏡結構 作者:小柯機器人 發布時間:2019/7/18 16:29:21 加州大學Z. Hong Zhou研究團隊取得一項新突破。
  • 植物基因組研究思路(一)林木篇
    隨著三代測序(PacBio和Nanopore)技術的不斷發展,已有越來越多的植物完成的基因密碼的破譯,然而在高質量基因組破譯的基礎上,針對不同領域物種(如林木,中藥,農作物,園藝作物,水生植物等)的基因組研究思路又是怎樣的呢?從本章節起,小編分期為各位讀者帶來植物領域物種研究思路,本期我們重點介紹下林木基因組研究思路。
  • 基因組與新興生物技術整合研究思路拓展
    從目前的發展狀況來看,在基因組研究中,利用常規研究技術及單一組學研究方法在衝擊頂級文章的過程中,對於技術的新穎性及物種生物學問題挖掘的深入性還是有所欠缺的,因此在組學整合的前提下,可嘗試引用最新分子生物學研究技術,以為衝擊高分文章「添磚加瓦」。
  • 如何理解深度學習分布式訓練中的large batch size與learning rate...
    雷鋒網 AI科技評論按,本文源自譚旭在知乎問題【如何理解深度學習分布式訓練中的large batch size與learning rate的關係?】下的回答,雷鋒網 AI科技評論獲其授權轉載。問題詳情:在深度學習進行分布式訓練時,常常採用同步數據並行的方式,也就是採用大的batch size進行訓練,但large batch一般較於小的baseline的batch size性能更差,請問如何理解調試learning rate能使large batch達到small batch同樣的收斂精度和速度?
  • 美研究COVID-19基因組序列 有助於控制疫情
    在美國疫情的嚴峻情況下,大家對COVID-19病毒也越發關注,那麼COVID-19基因組序列的研究能否幫助我們徹底解決新型冠狀病毒呢?一起看看霍普金斯大學教授的論文。梅霍克:是的,你可以用基因組序列來估計實際感染人群的數量。因此,我們不僅可以從我們所看到的基因組中確定檢測出陽性的人數,還可以估計該州的陽性病例總數,這可以讓我們更好地了解問題的範圍。鑑於某些地區的測試規模有限,這一點尤其重要。看來速度是這項工作的一個非常重要的部分。你的實驗室怎麼能這麼快開始這項研究?
  • JMCB:中國科學家應用CRISPR破解基因組「未解之謎」
    ,他們發現應用CRISPR/Cas9技術可以輕鬆實現對DNA片段的倒位和重複,對於基因組中存在的大量DNA調控元件和大量基因簇的功能研究具有一定意義。 研究人員指出,人類基因組中包含了幾百萬個DNA調控元件和大量的基因簇,但其中大部分都沒有進行過實驗檢測,還有大量基因組"未解之謎"等待人類去破解。 DNA編輯技術CRISPR/CAS9近年來風生水起,該系統是目前發現存在於大多數細菌與所有的古菌中的一種後天免疫系統。
  • 癌症基因組中的體細胞突變分布隨三維染色質結構而變化
    Andrew Futreal等研究人員合作發現,癌症基因組中的體細胞突變分布隨三維染色質結構而變化。該研究於2020年10月5日在線發表於國際一流學術期刊《自然—遺傳學》。 為了解空間基因組組織與特定突變過程之間的相互作用,研究人員分析了來自42種不同人類癌症類型的3,000個腫瘤-正常對全基因組數據集。分析表明,癌症基因組中體細胞突變負荷的變化與拓撲相關域邊界共同定位。
  • Genome Biology 口腔中令人難以置信的細菌-研究人員仔細研究了...
    國際大型合作項目HMP從測試人群採集口腔各個部位細菌作為樣品進行分析,了解不同微生物結構。  在口腔中,大多部位以鏈球菌 (Streptococcus)為主,其中頰黏膜中為嗜血桿菌 (Haemophilus),齦上牙菌斑為放線菌 (Actinomyces),齦下牙菌斑為普雷沃氏菌 (Prevotella)。
  • Genome Biology | 口腔中令人難以置信的細菌-研究人員仔細研究了...
    國際大型合作項目HMP從測試人群採集口腔各個部位細菌作為樣品進行分析,了解不同微生物結構。在口腔中,大多部位以鏈球菌 (Streptococcus)為主,其中頰黏膜中為嗜血桿菌 (Haemophilus),齦上牙菌斑為放線菌 (Actinomyces),齦下牙菌斑為普雷沃氏菌 (Prevotella)。
  • 科學家開發出評估病毒基因組質量和完整性的新工具
    Kyrpides、Stephen Nayfach等研究人員合作開發出評估病毒基因組質量和完整性的新工具。相關論文於2020年12月21日在線發表在《自然—生物技術》雜誌上。 研究人員報導了CheckV,這是一種用於識別封閉的病毒基因組、估計基因組片段的完整性並從整合的原病毒中去除側翼宿主區域的自動化方法。
  • 一種基於精準型NHEJ修復的配對Cas9-sgRNA基因編輯策略 | Genome...
    > 微信連結:https://mp.weixin.qq.com/s/r5wl6JdZ9xaPVKWt99Nn1w CRISPR基因編輯技術主要是通過細胞內DNA雙鏈斷裂(Double strand breaks,DSB)的定點誘導及隨後的修復來實現,其中可利用的一條主要修復途徑是非同源末端連接(non-homologous end joining
  • 基因組學研究的未來之星——泛基因組
    高通量測序技術的迅猛發展,極大地推動了全基因組測序進程及物種的群體進化、遺傳多樣性、性狀定位等研究。但單一或者少數參考基因組中可能會缺少部分基因,不能完全覆蓋物種的全部遺傳信息,限制了基因組學研究的深入開展。泛基因組的提出,有效解決了該問題,成為了基因組學研究的新方向。01 什麼是泛基因組?
  • 深圳先進院等開發出一種人工基因組的高效簡化策略
    近日,中國科學院深圳先進技術研究院研究員戴俊彪團隊開發出一種被稱為SGC(SCRaMbLE-based genome compaction)的人工基因組的高效簡化策略,並以此方法刪除了第十二號染色體左臂中超過一半的非必需基因,為第一個最小真核基因組的構建、理解真核生命的核心組成奠定了理論和技術基礎
  • 科學家繪製出大麥的泛基因組圖譜
    科學家繪製出大麥的泛基因組圖譜 作者:小柯機器人 發布時間:2020/11/27 13:39:49 德國哥廷根大學Nils Stein等研究人員合作繪製出大麥的泛基因組圖譜。
  • 人類基因組計劃(genome project)的「非官方」延續
    在裡程碑式的人類基因組計劃(genome project)結束10多年後,研究人員6月2日宣布將於今年籌資1億美元啟動人類基因組編寫計劃
  • 人類基因組的基因進化
    13個POTE基因分散在8個不同的染色體中,並且由一個原始的基因ANKRD26經由人類基因組的擴增和重組進化形成。         依據序列相似性,POTE基因家族成員分為三類。通過對基因組資料庫進行分析,這個研究組在祖先POTE橫向同源物(Paralog)的一個羧基末端確定出一種肌動蛋白反轉錄轉座子插入。