單倍型解析或分階段的基因組組裝可提供基因組及其複雜遺傳變異的完整圖片。但是,當前用於分階段裝配的算法要麼不生成染色體尺度的定相,要麼需要譜系信息,這限制了它們的應用。
近日,哈佛醫學院Heng Li,George M. Church等人在Nature Biotechnology 在線發表題為「Chromosome-scale, haplotype-resolved assembly of human genomes」的研究論文,該研究提出了一種稱為二倍體組裝(DipAsm)的方法,該方法使用長而準確的讀數和長距離構象數據,以在1天之內生成染色體規模的分相組裝。DipAsm應用於四個公共人類基因組,PGP1,HG002,NA12878和HG00733,DipAsm產生了單倍型解析的程序集,具有最小重疊群長度,可覆蓋50%的已知基因組(NG50)直至25 Mb,並在大約90.5%的雜合位點分階段98-99%的準確性,在連續性和定相完整性方面均優於其他方法。
該研究證明了染色體規模的分階段裝配對於發現結構變異(SV)的重要性,包括數千個新的轉座子插入,以及高度多態性和醫學上重要的區域,例如人白細胞抗原(HLA)和殺傷細胞免疫球蛋白樣受體(KIR)區域。DipAsm將促進高質量的精準醫學以及個體單倍型變異和種群多樣性的研究。
另外,2020年11月30日,哈佛醫學院George M. Church及德國德勒斯登工業大學Volker Busskamp共同通訊在Nature Biotechnology 在線發表題為「A comprehensive library of human transcription factors for cell fate engineering」的研究論文,該研究提出了人TFome,這是一個全面的庫,其中包含1,564個TF基因和1,732 TF剪接亞型。人TFome的大規模組合篩選將補充基於發育生物學和計算系統生物學的細胞工程其他策略(點擊閱讀)。
人類包含每個染色體的兩個同源拷貝,並且推導每個拷貝的基因組序列對於正確理解等位基因特異性DNA甲基化和基因表達以及分析進化,法醫和遺傳疾病至關重要。然而,重建基因組序列的傳統從頭組裝算法通常將樣品表示為單倍體基因組。對於二倍體基因組,例如人類基因組,這種摺疊的表示法導致基因組中一半雜合變異的喪失,可能在單倍型之間分開的區域引入裝配錯誤。
已經提出了幾種算法來生成單倍型解析的程序集,也稱為分階段程序集。FALCON-Unzip,Supernova等使用相對短距離的序列數據進行定相,並且只能解析高達9兆鹼基的單倍型人類樣品。這些方法無法逐步完成著絲粒或長重複。擴展FALCON-Unzip的FALCON-Phase使用Hi-C連接相控序列模塊,可以生成更長的單倍型,但無法實現染色體長的定相。
Trio binning是唯一可以做到這一點的方法,加上整個染色體的組裝和定相。它使用父母雙方的序列讀段對後代的長讀段進行分區,然後分別組裝每個分區。但是,Trio binning無法解析雜合區域,並將使這些區域保持非定相狀態。更重要的是,並非總是有父母提供的樣本,例如,對於在野外捕獲或父母去世的樣本。這限制了Trio binning的應用。因此,目前缺乏能夠為單個人準確地產生階段性裝配並與序列技術創新保持同步的方法。
該研究提出了一種稱為二倍體組裝(DipAsm)的方法,該方法使用長而準確的讀數和長距離構象數據,以在1天之內生成染色體規模的分相組裝。DipAsm應用於四個公共人類基因組,PGP1,HG002,NA12878和HG00733,DipAsm產生了單倍型解析的程序集,具有最小重疊群長度,可覆蓋50%的已知基因組(NG50)直至25 Mb,並在大約90.5%的雜合位點分階段98-99%的準確性,在連續性和定相完整性方面均優於其他方法。
該研究證明了染色體規模的分階段裝配對於發現結構變異(SV)的重要性,包括數千個新的轉座子插入,以及高度多態性和醫學上重要的區域,例如人白細胞抗原(HLA)和殺傷細胞免疫球蛋白樣受體(KIR)區域。 DipAsm將促進高質量的精準醫學以及個體單倍型變異和種群多樣性的研究。
參考消息:
https://www.nature.com/articles/s41587-020-0711-0
來源:iNature