基因組結構變異(Structural Variation,SV)包括缺失、插入、倒位、重複和易位等類型的基因組變異,與人類的疾病、進化、基因調控和相關表型等密切相關[1]。近年來,Oxford Nanopore Technologies等平臺開發的長讀長測序技術為準確檢測基因組SV提供了可能。隨著識別解析度的不斷提升,相比於短讀長測序,長讀長測序可檢測出多達兩倍的SV[2,3]。然而受限於SV檢測的準確度、靈敏度及測序成本等因素(目前,大多數SV檢測工具仍然高度依賴高深度的測序數據),在相關領域大範圍推廣SV檢測技術仍然面臨著巨大的挑戰。
來自哈爾濱工業大學的姜濤老師在近期發表的文章中[4]介紹了一款全新的SV檢測工具——cuteSV,該工具使用了納米孔測序高通量測序平臺PromethION最新發布的長讀長測序技術,解析了Genome in a Bottle(GIAB)HG002人類參考基因組樣本中的SV。cuteSV是一款快速的SV檢測工具,在準確度和靈敏度等指標上均有優異的表現,同時在低測序深度數據上仍保持著良好的結構變異檢測率(見圖2)。這些結果表明,基因組SV研究領域正在進入一個高性能和低成本的時代。
cuteSV概覽
cuteSV是一款基於長測序片段比對的基因組SV檢測工具,它主要包括以下三個步驟(圖1):
SV信號的識別:cuteSV設計和實現了多種SV信號識別方法,分別從比對內和比對間全面收集多種類型SV信號。同時,cuteSV採用了一套高效的啟發式算法,將瑣碎的插入與刪除變異信號進行自動化整合以提升後續過程中SV識別的準確度。
SV信號的聚類:cuteSV設計了一種漸進複雜空間的聚類算法以及多重啟發式的規則,在基因組局部區域內分別對SV信號進行聚類並對其進行優化,使零亂、繁雜的SV信號轉換為高一致性的SV候選位點。
SV的檢測與基因分型:cuteSV設計了一套特定的SV檢測與基因分型規則,在上述聚類得到的SV候選位點中識別SV並完成基因分型。此外,cuteSV還可以輸出基因型的似然估計、變異質量分數等多重統計量,以便於進一步的質量控制和構建更高準確度的檢測集。
姜濤老師採用了最新發布的ONT PromethION HG002基因組樣本數據集(平均讀長:17335 bp,覆蓋度:47x,下載地址:ftp://ftp.ncbi.nlm.nih.gov/giab/ftp/data/AshkenazimTrio/HG002_NA24385_son/UCSC_Ultralong_OxfordNanopore_Promethion/)對cuteSV的性能進行了基準測試[5],同時與Sniffles[6]、PBSV和SVIM[7]等工具進行了比較。cuteSV展現出了三大主要優勢:
相較於其他工具,cuteSV在不同測序深度數據中能夠檢測出更多的SV(圖2A-2C)。特別是在低覆蓋度數據集中,cuteSV在準確度沒有降低的前提下仍保持著較高的靈敏度。
cute SV在基因型檢測方面表現出色,發現了更多的雜合與純合SV。
與其他工具相比,cute SV具有更好的檢測速度,同時內存的消耗也更低(圖2H)。此外,cute SV的運行速度隨CPU線程數的增加幾乎呈線性增長,這表明其擁有良好的可擴展性。
在ONT PromethION數據的不同測序深度下,分別比較(A)F1分數、(B)準確度、(C)靈敏度、(D)結合基因型的F1分數、(E)結合基因型的準確度、(F)結合基因型的靈敏度。使用47x ONT PromethION數據分別在不同CPU線程下的(G)運行時間和(H)內存佔用的統計結果。「GT」和「Skip GT」分別表示統計指標結合基因型和忽略基因型。由於SVIM不支持多線程運行,因此僅完成了單線程測試。PBSV在47x數據集的檢測中程序異常終止,因此沒有納入統計。
納米孔測序技術產生的超長讀長序列,使大尺度結構變異的解析成為可能。圖3給出了一個僅在納米孔長讀長序列中被檢測出來的6481 bp的插入(斷點位於chr1:9683994)。憑藉納米孔測序產生的超長讀長的測序片段,片段比對工具在此區域CIGAR中給出了若干插入信號,cuteSV根據這些信號經過聚類檢測出了該插入變異。然而其他長片段測序平臺在此區域上產生的測序片段讀長較短(平均長度7983 bp),片段比對工具無法比對出如此大的插入,因此導致了該插入變異的漏檢。
展望
雖然長讀長序列的可比對性遠高於短讀長序列,但由於測序錯誤、SV複雜程度、重複序列等因素的存在,片段比對仍存在著局限性。從頭組裝方法雖然克服了比對所產生的錯誤,且能夠解析SV的單倍型,但從頭組裝方法仍然有著其自身的瓶頸,例如組裝錯誤、計算量巨大、嚴重依賴不同類型的測序技術等。考慮到這些優缺點,姜濤老師認為基於比對和基於組裝的檢測方法是相輔相成的,將兩種方法結合起來將有助於生成更高質量的SV檢測集。
隨著多元化大規模人群基因組項目的發展,群體基因組SV檢測的需求也穩步增長。當前版本的cuteSV僅支持在單個基因組中檢測SV,面向群體基因組進行SV檢測對cuteSV來說仍是一個挑戰。姜濤老師正在開發一個全新的群體基因組檢測模塊,旨在完成特定人群SV的檢測。此外,姜濤老師所在的團隊正在嘗試建立一項新的基於長讀長的變異檢測技術,希望藉此技術能夠靈敏、高效地同時完成對SNP、Indel和SV的檢測。(生物谷Bioon.com)
【直播預告】納米孔測序在人類遺傳學和罕見病研究中的應用
【日期】2020/11/19 15:00
http://count.medsci.cn/link/redirect/199d0462698595ba