目前的二代+三代測序技術只能將基因組組裝至Contigs/Scaffolds水平,無法展示完整的基因組信息,需藉助遺傳圖譜、Hi-C技術等對基因組草圖進行進一步提升。Hi-C輔助組裝由於操作簡便,準確性高,已成為輔助基因組組裝的主流技術。那麼,Hi-C究竟如何輔助基因組組裝?結果文件如何解讀?今天,小編就和大家分享一些Hi-C輔助組裝小知識,讓你輕鬆看懂「Hi-C輔助組裝」~
Hi-C數據分析流程
甲醛交聯後的樣本經酶切、生物素標記、平末端連接、DNA純化提取、超聲打斷後,釣取含有生物素的嵌合DNA片段進行文庫構建,基於illumina平臺進行測序,原始下機數據經質控後獲得Clean reads。隨後,依據物種類別對Clean reads進行相應截取,基於截取後的Clean reads開展後續分析(圖1)。
圖1 Hi-C數據分析流程圖
參考基因組、酶切位點比對
將截取後的Clean reads與參考基因組、酶切位點比對,去除未能比對到參考基因組或酶切位點的reads(Unmapped reads)、只有一端序列能比對到基因組中的Singleton reads(單端比對)、一端序列比對到兩個或兩個以上位點的Multi mapped reads(多重比對),獲得雙端均能比對上的Unique mapped reads用於互作分析(圖2)。
圖2 Hi-C數據比對示意圖
Valid reads獲取
由於Hi-C文庫的構建具有一定的複雜性,在Hi-C中,僅有兩個來源不同的酶切片段連接在一起才會被認為是標準的文庫片段,但在實際建庫過程中可能會產生多種分子類型,導致測序過程中可能還會產生Dangling reads、Self circle、Dumped reads等Invalid reads。此外,由於Hi-C建庫過程中需要進行PCR擴增,使得下機數據中還可能會存在重複reads,即Duplication reads(圖3)。因此,在獲取Unique mapped reads後,除了要過濾掉Invalid reads,識別真正有效的Interaction reads,還要去除PCR產生的Dup,才能獲得最終用於互作分析的Valid reads(圖1)。
圖3 測序產生的不同類型reads[1]
聚類、排序、定向
進行輔助組裝時,首先會將存儲三代數據的bam文件和等位基因的Contigs列表文件輸入,通過prune修剪掉核酸片段間的一些平行信號和弱信號,隨後採用層級聚類算法,將Contigs劃分到不同的染色體群組中,並對每個組中的Contigs進行排序和定向,最終構建獲得染色體水平的基因組。
圖4 Hi-C輔助組裝分析流程[2]
基因組完整性、準確性評估
在輔助組裝中,會以掛載率來評價組裝基因組的完整性,其計算方式為:掛載率=(聚類的鹼基數/基因組草圖鹼基數)×(定向的鹼基數/聚類的鹼基數),基因組的掛載率一般都在90%以上。與此同時,還會通過熱圖來評估組裝基因組的準確性。通常情況下,染色質片段間的交互強度會呈現出隨距離衰減的規律,若熱圖中存在明顯獨立的強互作分群,且分群之間的互作關係顯著弱於各自內部的互作強度,則可能存在聚類錯誤(圖5a);如果遠距離bin之間的互作強於近距離互作,表明可能存在排序錯誤(圖5b);如果對角線附近較多的bin與鄰近bin弱互作而與較遠端存在強互作,則暗示組裝基因組中可能存在冗餘片段,後續可以對組裝基因組進行去冗餘(圖5c)。
圖5 聚類(a)、排序(b)錯誤及冗餘(c)示例
總 結
藉助Hi-C輔助組裝不但能夠獲得染色體水平的基因組,還可以通過糾錯提升組裝基因組的質量和連續性,判斷基因組中是否存在冗餘,進一步優化組裝結果;對於超大基因組和多倍體物種,也可以實現有效掛載及單體型分析,獲得高質量的參考基因組。
參考文獻
[1] Servant N, Varoquaux N, Lajoie B R, et al. HiC-Pro: an optimized and flexible pipeline for Hi-C data processing[J]. Genome Biology, 2015, 16(1): 259.
[2] Zhang X, Zhang S, Zhao Q, et al. Assembly of allele-aware, chromosomal-scale autopolyploid genomes based on Hi-C data[J]. Nature Plants, 2019, 5(8): 833-845.