前 言
隨著三代測序技術的發展和測序成本的下降,越來越多的物種實現了高質量、染色體級別的基因組組裝。就目前發表文章的趨勢來看,僅僅完成一個物種高質量染色體級別de novo組裝的基因組就可以發表一篇高分文章的時代已經成為過去,如何讓de novo組裝的高質量基因組服務於生物學現象的解釋和生物學問題的解決,才是研究者需要更多思考和關注的方面。基於此,本文整理了兩篇de novo 基因組組裝與群體相結合的代表性文章,希望對科研小夥伴們在課題設計與文章寫作思路方面有所幫助。
例 1
Nature Communications
PacBio三代測序組裝海棗樹雄性個體基因組,並利用該基因組進行了性別決定區和21個果實性狀的GWAS分析。
發表期刊:Nature Communications
發表時間:2019.10
背景介紹
海棗樹是中東和北非地區的標誌性物種和主要作物,以其甜美的可食用果實而聞名。海棗樹是雌雄異株、專性異交且高度雜合的單子葉物種,正常生長環境下為無性繁殖。海棗是最古老的多年生馴化作物之一,馴化後的品種呈多樣化,如今已有3000多個已知品種在顏色、大小、溼度和含糖量等與水果相關的性狀上表現出顯著差異。GWAS不僅規避了世代周期長的問題,而且高水平的核苷酸多樣性(SNP)和相對快速的連鎖不平衡(LD)衰減[~20-30kb]可以實現高解析度作圖。為了對海棗樹進行GWAS,研究者利用三代測序技術完成了一株雄性海棗樹的基因組組裝,並對位於兩個農場的海棗樹群體進行了全基因組重測序。利用組裝數據和重測序得到的SNPs,對海棗樹的關鍵性狀進行GWAS分析。
主要結果
1. 對BC4的雄性海棗樹進行PacBio三代測序和基因組組裝(圖1)。
流式細胞儀測定的海棗樹基因組大小為870-899Mb,組裝產生的主要組件跨度為772.3Mb,佔預估基因組的86-89%,N50為70.9kb,基因組拼接完整性評估BUSCO20≥92.4%。與已發表信息相比,在基因組組裝的完整性和組裝質量上都有顯著提升。
圖1 | BC4雄性海棗樹基因組組裝
2. 對海棗樹已知的性別決定位點進行GWAS作圖,對組裝的基因組進行驗證。
共選用來自2個農場種植的無顯著群體差異特徵的157個個體(其中145個雌株,12個雄株),進行基因組重測序,然後利用SNP進行GWAS分析, 將海棗樹的性別確定區域映射到LG12的遠端,與前人的報導一致。
3. 對21個水果性狀進行GWAS分析。
分析結果顯示,包括果實大小和部分果酸含量(反丁烯二酸、檸檬酸、蘋果酸、琥珀酸、草酸和酒石酸)在內的大多數性狀之間沒有顯著的關聯,但水果顏色和糖分組成的定位顯示出顯著的表型與位點的相關性。
4. 對果皮顏色性狀變異的遺傳位點進行具體分析(圖2)。
通過對果皮顏色、花青素水平、果皮顏色的GWAS位點分析、VIR等位基因位點變異分析、基因型與表型關聯、紅果和黃果兩個品種果實發育過程中VIR表達的RNA-Seq分析等多角度、多維度解析,將果皮顏色變異與VIR位點關聯起來,最終揭示海棗樹果實顏色多態性是由編碼R2R3-MYB轉錄因子的基因突變引起的。
圖2 | 海棗樹果皮顏色變異的遺傳分析
5. 對果實中糖分組成進行GWAS定位及候選基因的功能特徵分析(圖3)。
將果糖含量映射到一個基因組區域,該區域包括分離海棗樹種群缺失多態性的轉化酶。RNA-seq分析顯示,細胞壁轉化酶基因在不同果糖成分的品種間表現出較大的表達差異,可能是導致這一性狀的原因。
圖3 | 海棗樹果實中糖分組成的GWAS定位及候選基因的功能特徵
主要結論
研究結果支持了關鍵的馴化和多樣化特徵是由同源基因在不相關類群中的進化趨同驅動的觀點,即表型趨同/平行是作物馴化的一個標誌,是在不同的人類文化背景下作用於不同作物物種的相似選擇壓力的結果。
例 2
Mol Plant
PacBio三代測序構建紫花苜蓿高質量染色體級別基因組,並對162份苜蓿品種進行群體遺傳學分析。
背景介紹
苜蓿是世界上最重要的飼料作物之一,但由於缺乏高質量的參考基因組,其分子遺傳學和育種研究受到阻礙。紫花苜蓿由多年生、異交、63個形態分化但經常幹擾的類群組成。苜蓿二倍體和同源四倍體亞種。M sativa subsp. caerulea (ssp. caerulea)是一個二倍體亞種,已被鑑定為四倍體栽培苜蓿的祖先,而栽培苜蓿(Medicago sativa ssp sativa, 2n = 4x = 32)則是一個同源四倍體。這些亞種雜種在許多數量性狀上表現出雜種優勢。
主要結果
1. 通過PacBio三代測序、BioNano測序和Hi-C測序,組裝了816 Mb高質量染色體水平的單倍體基因序列「zhongmu 1號」( 一個雜合的同源四倍體)。
Contig N50為3.92Mb。基因組中注釋到的基因有49,165個,推測紫花苜蓿的基因組在大約800萬年前(Mya)與M. truncatula發生了變異分歧。
2. 對162份材料進行了30多個重要農藝性狀的GWAS分析。
為了識別與關鍵農藝性狀相關的候選基因,利用全基因組SNP數據和美國國家植物種質系統表型數據對162個全球核心種質進行了GWAS,確定了與30多個農藝性狀相關的100多個候選區域,包括抗病性、抗蟲性、生長、形態、產量和脅迫反應。研究者發現,在這些基因中,每個FT基因的序列和拷貝數是相同的,這表明FT的差異表達不是由序列或拷貝數變化引起的。GWAS定位和表達模式分析結果表明,FTa2表達差異可能影響株苜蓿的秋季休眠和耐鹽性。
圖4 | 紫花苜蓿重要性狀的GWAS分析
主要結論
研究者報導了一個高度連續染色體水平的同源四倍體紫花苜蓿基因組,並對162份材料進行了群體分析。群體基因組分析表明,二倍體群體基因的頻繁導入降低了栽培苜蓿的群體結構,提高了遺傳多樣性。這些結果為了解紫花苜蓿基因組的進化和群體結構的薄弱提供了依據。GWAS分析確定了可以有效控制重要農藝性狀的目標區域。msFTa2 可能與苜蓿在全球分布的幾個關鍵性狀有關,是價值靶基因鑑定的一個例子,可以為今後的功能研究和分子育種提供幫助。這些新的基因組資源將提高苜蓿的利用,為苜蓿的研究提供一個參考模式。
編者按
歐易生物擁有專業的動植物基因組研發團隊,為客戶提供從PacBio三代測序、de novo組裝、基因注釋、基礎分析,到比較基因組、個性化分析及多組學聯合分析(轉錄組/代謝組/群體進化/GWAS/ BSA/ QTL/遺傳圖譜)等高質量的技術服務,博士級專業人員,經過多年經驗沉澱積累,具備多角度分析問題能力,提供多元化項目技術服務,多組學技術平臺聯合支撐,極力打造一站式服務。
END