cuteSV——基因組結構變異檢測工具

2020-11-27 生物谷

 

基因組結構變異(Structural Variation,SV)包括缺失、插入、倒位、重複和易位等類型的基因組變異,與人類的疾病、進化、基因調控和相關表型等密切相關[1]。近年來,Oxford Nanopore Technologies等平臺開發的長讀長測序技術為準確檢測基因組SV提供了可能。隨著識別解析度的不斷提升,相比於短讀長測序,長讀長測序可檢測出多達兩倍的SV[2,3]。然而受限於SV檢測的準確度、靈敏度及測序成本等因素(目前,大多數SV檢測工具仍然高度依賴高深度的測序數據),在相關領域大範圍推廣SV檢測技術仍然面臨著巨大的挑戰。

來自哈爾濱工業大學的姜濤老師在近期發表的文章中[4]介紹了一款全新的SV檢測工具——cuteSV,該工具使用了納米孔測序高通量測序平臺PromethION最新發布的長讀長測序技術,解析了Genome in a Bottle(GIAB)HG002人類參考基因組樣本中的SV。cuteSV是一款快速的SV檢測工具,在準確度和靈敏度等指標上均有優異的表現,同時在低測序深度數據上仍保持著良好的結構變異檢測率(見圖2)。這些結果表明,基因組SV研究領域正在進入一個高性能和低成本的時代。

cuteSV概覽

cuteSV是一款基於長測序片段比對的基因組SV檢測工具,它主要包括以下三個步驟(圖1):

SV信號的識別:cuteSV設計和實現了多種SV信號識別方法,分別從比對內和比對間全面收集多種類型SV信號。同時,cuteSV採用了一套高效的啟發式算法,將瑣碎的插入與刪除變異信號進行自動化整合以提升後續過程中SV識別的準確度。

SV信號的聚類:cuteSV設計了一種漸進複雜空間的聚類算法以及多重啟發式的規則,在基因組局部區域內分別對SV信號進行聚類並對其進行優化,使零亂、繁雜的SV信號轉換為高一致性的SV候選位點。

SV的檢測與基因分型:cuteSV設計了一套特定的SV檢測與基因分型規則,在上述聚類得到的SV候選位點中識別SV並完成基因分型。此外,cuteSV還可以輸出基因型的似然估計、變異質量分數等多重統計量,以便於進一步的質量控制和構建更高準確度的檢測集。

姜濤老師採用了最新發布的ONT PromethION HG002基因組樣本數據集(平均讀長:17335 bp,覆蓋度:47x,下載地址:ftp://ftp.ncbi.nlm.nih.gov/giab/ftp/data/AshkenazimTrio/HG002_NA24385_son/UCSC_Ultralong_OxfordNanopore_Promethion/)對cuteSV的性能進行了基準測試[5],同時與Sniffles[6]、PBSV和SVIM[7]等工具進行了比較。cuteSV展現出了三大主要優勢:

相較於其他工具,cuteSV在不同測序深度數據中能夠檢測出更多的SV(圖2A-2C)。特別是在低覆蓋度數據集中,cuteSV在準確度沒有降低的前提下仍保持著較高的靈敏度。

cute SV在基因型檢測方面表現出色,發現了更多的雜合與純合SV。

與其他工具相比,cute SV具有更好的檢測速度,同時內存的消耗也更低(圖2H)。此外,cute SV的運行速度隨CPU線程數的增加幾乎呈線性增長,這表明其擁有良好的可擴展性。

在ONT PromethION數據的不同測序深度下,分別比較(A)F1分數、(B)準確度、(C)靈敏度、(D)結合基因型的F1分數、(E)結合基因型的準確度、(F)結合基因型的靈敏度。使用47x ONT PromethION數據分別在不同CPU線程下的(G)運行時間和(H)內存佔用的統計結果。「GT」和「Skip GT」分別表示統計指標結合基因型和忽略基因型。由於SVIM不支持多線程運行,因此僅完成了單線程測試。PBSV在47x數據集的檢測中程序異常終止,因此沒有納入統計。

納米孔測序技術產生的超長讀長序列,使大尺度結構變異的解析成為可能。圖3給出了一個僅在納米孔長讀長序列中被檢測出來的6481 bp的插入(斷點位於chr1:9683994)。憑藉納米孔測序產生的超長讀長的測序片段,片段比對工具在此區域CIGAR中給出了若干插入信號,cuteSV根據這些信號經過聚類檢測出了該插入變異。然而其他長片段測序平臺在此區域上產生的測序片段讀長較短(平均長度7983 bp),片段比對工具無法比對出如此大的插入,因此導致了該插入變異的漏檢。

展望

雖然長讀長序列的可比對性遠高於短讀長序列,但由於測序錯誤、SV複雜程度、重複序列等因素的存在,片段比對仍存在著局限性。從頭組裝方法雖然克服了比對所產生的錯誤,且能夠解析SV的單倍型,但從頭組裝方法仍然有著其自身的瓶頸,例如組裝錯誤、計算量巨大、嚴重依賴不同類型的測序技術等。考慮到這些優缺點,姜濤老師認為基於比對和基於組裝的檢測方法是相輔相成的,將兩種方法結合起來將有助於生成更高質量的SV檢測集。

隨著多元化大規模人群基因組項目的發展,群體基因組SV檢測的需求也穩步增長。當前版本的cuteSV僅支持在單個基因組中檢測SV,面向群體基因組進行SV檢測對cuteSV來說仍是一個挑戰。姜濤老師正在開發一個全新的群體基因組檢測模塊,旨在完成特定人群SV的檢測。此外,姜濤老師所在的團隊正在嘗試建立一項新的基於長讀長的變異檢測技術,希望藉此技術能夠靈敏、高效地同時完成對SNP、Indel和SV的檢測。(生物谷Bioon.com)

 

【直播預告】納米孔測序在人類遺傳學和罕見病研究中的應用
【日期】2020/11/19 15:00
http://count.medsci.cn/link/redirect/199d0462698595ba

相關焦點

  • Oxford Nanopore Technology獨家報導我中心姜濤老師最新科研成果cuteSV
    ——基於第三代測序數據的基因組結構變異檢測軟體cuteSV在其官方網站進行了獨家報導。報導中,姜濤老師受邀對結構變異檢測工作的算法和優勢進行了介紹,同時對未來結構變異檢測的發展做了展望。 在此之前,以ONT、GenomeWeb、European Galaxy(歐洲雲服務)、BioDecoded (生物解碼)等為代表的公司、媒體、社區就已關注到姜濤老師所開發的cuteSV工具在三代測序數據上的出色表現:2020年8月3日,ONT公司將cuteSV展示在其官方網站的toolList中,並推薦使用cuteSV進行結構變異檢測;2020年8
  • 農科院基因組所開發出全新檢測基因編輯工具脫靶技術
    3月1日,中國農業科學院深圳農業基因組研究所動物基因組中心左二偉課題組與中科院神經科學研究所、中國科學院馬普計算生物學研究所、史丹福大學遺傳學系合作開發出一種全新的檢測基因編輯工具脫靶的技術。該技術是一種在精度、廣度和準確性上遠超越之前的基因編輯脫靶檢測技術,有望由此開發精度更高、安全性更大的新一代基因編輯工具,建立行業的新標準。相關研究成果在線發表在《科學(Science)》上。基因組編輯技術可對特定基因進行精準定點誘變,從而改變其調控的特定性狀,在保證全球糧食安全、人類健康方面有著巨大的應用潛力。
  • 揭開人類基因組變異研究新時代
    BioArt編輯部將對gnomAD資料庫文章集合進行解析,讓該資料庫為更多的科學研究服務,為更好的從群體以及個體角度解析基因組變異發掘新的工具。前面提到,gnomAD資料庫相較於其前身外顯子組資料庫,增加了結構變異的相關數據,豐富了對於人類基因組變異的認識。在gnomAD資料庫中,作者們對來自全球不同人群的14,891個基因組的序列的結構變異數據進行了大量的經驗評估,為疾病相關性研究、群體遺傳學和診斷篩選提供了參考圖譜。
  • 基因組測序揭示結構變異影響桃農藝性狀形成的機制
    近日,中國農業科學院鄭州果樹研究所王力榮研究團隊聯合美國康奈爾大學、紐西蘭植物與食品皇家研究院及華中農業大學繪製了桃全基因組結構變異圖譜,並揭示了基因組結構變異在桃馴化、改良及農藝性狀形成中的重要角色,相關成果發表在國際基因組學重要期刊《基因組生物學》(Genome Biology)上。
  • Bionano光學圖譜技術可檢測罕見病變異
    利用全外顯子組測序無法檢測大多數結構變異,無法生成染色體圖譜,遺漏掉捕獲效率低的外顯子區域的變異,幾乎不能檢測重複區域,將非外顯子區域的變異排除在外。相比之下,全基因組測序能提高9%的診斷率,但是依舊無法檢測大多數結構變異(尤其是重複、倒位和易位),無法生成染色體圖譜,也不能分相。
  • 高齡孕婦胎兒基因組拷貝數變異發生率研究_高齡孕婦_拷貝數變異_高...
    ,王穎,劉璐瑤,李淑媛,哈爾濱醫科大學附屬第一醫院摘要:目的   探討應用基因組拷貝數變異測序(CNV-seq)技術檢測高齡孕婦羊水中基因組拷貝數變異(CNV)的發生率。結果    247例羊水標本中,染色體核型分析和CNV-seq同時檢測出染色體非整倍體共計21例,其中21-三體症候群14例,18-三體症候群2例,13-三體症候群1例,性染色體非整倍體4例。染色體核型分析檢出性染色體非整倍體1例(為45,XO[3]/46,XX[97]);染色體結構異常9例,其中染色體易位4例,染色體正常變異3例,2例染色體結構異常經CNV-seq檢測最終確定異常片段的來源。
  • Nature Commun 詳細解讀 | 中國農科院棉花所李付廣團隊揭示陸地棉栽培種廣泛的基因順序和基因結構變異
    通過組裝完成的TM-1和zhongmiansuo24(ZM24)的基因組與二倍體祖先種之間的比較,發現了大量的遺傳變異。其中,前3個最長的結構變異位於四倍體陸地棉的A08染色體上,佔該染色體總長度的約30%。這兩個栽培種和種質panel的作圖群體的單倍型分析顯示該區域的重組率受到抑制。
  • DGV:人類基因組結構變異資料庫
    DGV資料庫收錄了健康樣本中大於50bp以上的基因組結構變化信息,對應的文章發表在Nucleic Acids Research上,連結如下https://academic.oup.com/nar/article/42/D1/D986/1068860資料庫的網址如下
  • OncoKB:腫瘤藥物靶點相關基因組變異資料庫
    OncoKB收集了腫瘤發生發展相關的,具有臨床意義的基因組變異信息,對於每個變異,提供了其對應的生物學效應,藥物互作,預後和治療意義等詳細信息,對應的文章連結如下http://ascopubs.org/doi/full/10.1200/PO.17.00011資料庫的網址如下
  • 研究揭示不同癌症基因組圖譜中的複雜結構變異類型
    研究揭示不同癌症基因組圖譜中的複雜結構變異類型 作者:小柯機器人 發布時間:2020/10/4 23:06:30 美國威爾康奈爾醫學院Marcin Imielinski團隊發現不同癌症基因組圖譜中的複雜結構變異類型。
  • 個性化癌症治療:綜合的基因組分析方法及其在臨床的應用
    為了提高已知的癌症基因突變熱點的監測靈敏度,我們還取得了Ion AmpliSeq的癌症HotspotPanel V2(CHPv2)數據。我們將綜合所得的數據與已有的癌症資料庫結合起來,開發了一套針對不同癌症類型的分析流程, 以提高基因組數據分析的質量。  工作流程:   流程說明:  1.
  • 專家點評Cell|利用基因組圖揭示癌症複雜結構變異特徵
    與缺乏結構變異的大類(QUIET)相比,有六類病人的總生存期顯著縮短,標誌著結構變異的歸類在臨床預後中的應用潛力。作者們表示,這項研究成果證明基因組圖數據結構是分析腫瘤結構變異的強有力的工具,隨著數據量進一步增大還會有更多的突變模式被發現,並與背後的的病因聯繫更緊密,最終進一步推動全基因組測序走向臨床應用。
  • 合作文章|變異檢測軟體技能PK,誰是Battle King?
    DNA變異是個體間遺傳變異的重要來源之一。第二代測序技術(NGS)和第三代測序技術(TGS)都在遺傳變異研究中大放異彩。許多變異檢測工具可以用來解析二代或三代數據,但是目前沒有軟體能兼顧靈敏性和特異性地分析NGS或TGS數據,且通過不同工具組合的分析流程得到的結果可能會有很大差異,那麼變異檢測到底應該用什麼軟體呢?
  • 泛基因組資料庫:找到油菜的「好基因」
    「現有的研究數據表明,甘藍型油菜基因組中7成以上基因都存在大的遺傳變異,也就是通常所說的結構變異。換句話說,對於油菜這樣的年輕多倍體物種,單一參考基因組往往無法很好地包含物種內豐富的遺傳變異信息。」楊慶勇進一步解釋道。如何系統挖掘和揭示甘藍型油菜的遺傳變異?
  • 華大基因幫丹麥人構建了基因組序列與變異圖譜
    (原標題:中丹合作構建丹麥人泛基因組圖譜) 科技日報訊
  • 大型人類基因組甲基化分析研究揭示表觀遺傳變異普遍存在
    一方面,某些遺傳變異在技術水平上很難被檢測到;另一方面,很多遺傳病與表觀遺傳變異有關,但臨床醫生目前還無法對這些變異進行充分的解讀,也無法確定它們是否與某種疾病直接相關。隨著研究的深入,表觀變異通常被認為是導致基因沉默的啟動子超甲基化事件,與許多人類疾病有關。
  • Cell|從人群結構、群體分層及基因滲入全面理解人類結構變異
    、群體分層及基因滲入角度解讀人群結構變異,並補充了人類參考序列中缺失的序列。圖2 結構變異按人群結構分布隨後,該研究對古人類,主要是尼安德特人和丹尼索瓦人的基因滲入進行探究。因為過去報導發現,尼安德特人和丹尼索瓦人基因組中的上百個變異僅在非洲人群中出現,表明這些變異在非洲之外的地區已經丟失。
  • 泛基因組資料庫:找到油菜的「好基因」—新聞—科學網
    「現有的研究數據表明,甘藍型油菜基因組中7成以上基因都存在大的遺傳變異,也就是通常所說的結構變異。換句話說,對於油菜這樣的年輕多倍體物種,單一參考基因組往往無法很好地包含物種內豐富的遺傳變異信息。」楊慶勇進一步解釋道。 如何系統挖掘和揭示甘藍型油菜的遺傳變異?
  • RNA-seq 檢測變異之 GATK 最佳實踐流程
    ,比對到參考基因組需要跨越轉錄剪切位點,所以 RNA-seq 進行變異檢測的重點就在於跨剪切位點的精確序列比對。STAR 2-pass 模式需要進行兩次序列比對,建立兩次參考基因組索引。它的思路是第一次建參考基因組索引之後進行初步的序列比對,根據初步比對結果得到該樣本所有的剪切位點信息,包括參考基因組注釋 GTF 中已知的剪切位點和比對時新發現的剪切位點,然後利用第一次比對得到的剪切位點信息重新對參考基因組建立索引,然後進行第二次的序列比對,這樣可以得到更精確的比對結果。
  • 全基因組單核苷酸變異資料庫建立
    有助推動我國及周邊國家人群的進化遺傳和醫學研究 中國科學院上海營養與健康研究所/馬普計算生物學研究所徐書華團隊新近建立的全基因組單核苷酸變異資料庫PGG.SNV),收集了超過20萬個基因組,涵蓋了800多個現存人類族群和來源於古DNA研究的100多個已消亡人類族群,有助於更深入解析人類基因組變異的功能