cuteSV——基因組結構變異檢測工具

2020-12-18 生物谷

 

基因組結構變異(Structural Variation,SV)包括缺失、插入、倒位、重複和易位等類型的基因組變異,與人類的疾病、進化、基因調控和相關表型等密切相關[1]。近年來,Oxford Nanopore Technologies等平臺開發的長讀長測序技術為準確檢測基因組SV提供了可能。隨著識別解析度的不斷提升,相比於短讀長測序,長讀長測序可檢測出多達兩倍的SV[2,3]。然而受限於SV檢測的準確度、靈敏度及測序成本等因素(目前,大多數SV檢測工具仍然高度依賴高深度的測序數據),在相關領域大範圍推廣SV檢測技術仍然面臨著巨大的挑戰。

來自哈爾濱工業大學的姜濤老師在近期發表的文章中[4]介紹了一款全新的SV檢測工具——cuteSV,該工具使用了納米孔測序高通量測序平臺PromethION最新發布的長讀長測序技術,解析了Genome in a Bottle(GIAB)HG002人類參考基因組樣本中的SV。cuteSV是一款快速的SV檢測工具,在準確度和靈敏度等指標上均有優異的表現,同時在低測序深度數據上仍保持著良好的結構變異檢測率(見圖2)。這些結果表明,基因組SV研究領域正在進入一個高性能和低成本的時代。

cuteSV概覽

cuteSV是一款基於長測序片段比對的基因組SV檢測工具,它主要包括以下三個步驟(圖1):

SV信號的識別:cuteSV設計和實現了多種SV信號識別方法,分別從比對內和比對間全面收集多種類型SV信號。同時,cuteSV採用了一套高效的啟發式算法,將瑣碎的插入與刪除變異信號進行自動化整合以提升後續過程中SV識別的準確度。

SV信號的聚類:cuteSV設計了一種漸進複雜空間的聚類算法以及多重啟發式的規則,在基因組局部區域內分別對SV信號進行聚類並對其進行優化,使零亂、繁雜的SV信號轉換為高一致性的SV候選位點。

SV的檢測與基因分型:cuteSV設計了一套特定的SV檢測與基因分型規則,在上述聚類得到的SV候選位點中識別SV並完成基因分型。此外,cuteSV還可以輸出基因型的似然估計、變異質量分數等多重統計量,以便於進一步的質量控制和構建更高準確度的檢測集。

姜濤老師採用了最新發布的ONT PromethION HG002基因組樣本數據集(平均讀長:17335 bp,覆蓋度:47x,下載地址:ftp://ftp.ncbi.nlm.nih.gov/giab/ftp/data/AshkenazimTrio/HG002_NA24385_son/UCSC_Ultralong_OxfordNanopore_Promethion/)對cuteSV的性能進行了基準測試[5],同時與Sniffles[6]、PBSV和SVIM[7]等工具進行了比較。cuteSV展現出了三大主要優勢:

相較於其他工具,cuteSV在不同測序深度數據中能夠檢測出更多的SV(圖2A-2C)。特別是在低覆蓋度數據集中,cuteSV在準確度沒有降低的前提下仍保持著較高的靈敏度。

cute SV在基因型檢測方面表現出色,發現了更多的雜合與純合SV。

與其他工具相比,cute SV具有更好的檢測速度,同時內存的消耗也更低(圖2H)。此外,cute SV的運行速度隨CPU線程數的增加幾乎呈線性增長,這表明其擁有良好的可擴展性。

在ONT PromethION數據的不同測序深度下,分別比較(A)F1分數、(B)準確度、(C)靈敏度、(D)結合基因型的F1分數、(E)結合基因型的準確度、(F)結合基因型的靈敏度。使用47x ONT PromethION數據分別在不同CPU線程下的(G)運行時間和(H)內存佔用的統計結果。「GT」和「Skip GT」分別表示統計指標結合基因型和忽略基因型。由於SVIM不支持多線程運行,因此僅完成了單線程測試。PBSV在47x數據集的檢測中程序異常終止,因此沒有納入統計。

納米孔測序技術產生的超長讀長序列,使大尺度結構變異的解析成為可能。圖3給出了一個僅在納米孔長讀長序列中被檢測出來的6481 bp的插入(斷點位於chr1:9683994)。憑藉納米孔測序產生的超長讀長的測序片段,片段比對工具在此區域CIGAR中給出了若干插入信號,cuteSV根據這些信號經過聚類檢測出了該插入變異。然而其他長片段測序平臺在此區域上產生的測序片段讀長較短(平均長度7983 bp),片段比對工具無法比對出如此大的插入,因此導致了該插入變異的漏檢。

展望

雖然長讀長序列的可比對性遠高於短讀長序列,但由於測序錯誤、SV複雜程度、重複序列等因素的存在,片段比對仍存在著局限性。從頭組裝方法雖然克服了比對所產生的錯誤,且能夠解析SV的單倍型,但從頭組裝方法仍然有著其自身的瓶頸,例如組裝錯誤、計算量巨大、嚴重依賴不同類型的測序技術等。考慮到這些優缺點,姜濤老師認為基於比對和基於組裝的檢測方法是相輔相成的,將兩種方法結合起來將有助於生成更高質量的SV檢測集。

隨著多元化大規模人群基因組項目的發展,群體基因組SV檢測的需求也穩步增長。當前版本的cuteSV僅支持在單個基因組中檢測SV,面向群體基因組進行SV檢測對cuteSV來說仍是一個挑戰。姜濤老師正在開發一個全新的群體基因組檢測模塊,旨在完成特定人群SV的檢測。此外,姜濤老師所在的團隊正在嘗試建立一項新的基於長讀長的變異檢測技術,希望藉此技術能夠靈敏、高效地同時完成對SNP、Indel和SV的檢測。(生物谷Bioon.com)

 

【直播預告】納米孔測序在人類遺傳學和罕見病研究中的應用
【日期】2020/11/19 15:00
http://count.medsci.cn/link/redirect/199d0462698595ba

相關焦點

  • 專家點評Cell|利用基因組圖揭示癌症複雜結構變異特徵
    與缺乏結構變異的大類(QUIET)相比,有六類病人的總生存期顯著縮短,標誌著結構變異的歸類在臨床預後中的應用潛力。作者們表示,這項研究成果證明基因組圖數據結構是分析腫瘤結構變異的強有力的工具,隨著數據量進一步增大還會有更多的突變模式被發現,並與背後的的病因聯繫更緊密,最終進一步推動全基因組測序走向臨床應用。
  • 《科學大家》專欄|鎖定「毒源」的利器:基因組時代的病原檢測技術
    因此,加強病原檢測鑑定技術以及藥物疫苗的研究,是應對未來可能出現的新發突發傳染病挑戰的一項重要舉措,這其中病原檢測技術又首當其衝。目前病原的檢測技術面臨著眾多的挑戰。一是病原的種類非常多。目前可以引起傳染病的病原包括病毒、細菌、真菌、寄生蟲等很多種類。二是病原體的變異非常頻繁,可以通過突變來逃逸免疫,引起新的流行,也可以逃避原有疫苗的作用。動物來源的病原識別也比較困難。
  • 科學家開發從低解析度Hi-C數據中提取高解析度3D基因組結構的新方法
    科學家開發從低解析度Hi-C數據中提取高解析度3D基因組結構的新方法 2018-08-16 北京基因組研究所 【字體:大 中 小】
  • 由結構域邊界插入來調節基因組的空間摺疊
    ,構建新的亞微米結構,並剖析邊界DNA元件和不同基因組環境間相互作用的發現。但值得一提的是,不是所有CTCF都處於結構域的邊界,而且同樣處於結構域邊界的還有不少其他基因組特徵(genomic features),比如轉錄起始位點(transcription start site: TSS)。目前不少描述性研究把一些基因組特徵與其處於相同位置的結構域邊界大致關聯(correlation)起來。
  • 北京市農林科學院在小白菜基因組及其重要形態性狀進化分子基礎...
    該研究發布了不結球白菜(小白菜)的高質量基因組,首次揭示了基因組結構變異在白菜類蔬菜重要性狀進化和選擇中的重要作用。  白菜類蔬菜包括結球白菜(大白菜)、小白菜、菜心、蕪菁和油用白菜等,其中大白菜和小白菜是我國傳統的重要蔬菜作物,約佔蔬菜種植面積的15%,是名副其實的「當家菜」。
  • 多項研究開發出可增強基因組編輯範圍的新型CRISPR/Cas9工具
    CRISPR的應用範圍從治療遺傳疾病到農作物的營養功效,它已經成為最有前景的基因組編輯工具之一。然而,Cas9酶依賴特定的DNA郵政編碼來確定切割和編輯的位置。雖然來自釀膿鏈球菌的Cas9(SpCas9)受到最廣泛使用,但是它需要靶位點旁邊存在兩個G鹼基。只有不到10%的DNA序列符合這一要求。
  • 成功研發新冠變異病毒檢測試劑 聖湘生物再次展示科研實力
    聖湘生物董秘彭鑄對《證券日報》記者表示:「為助力應對新冠突變病毒對全球疫情防控帶來的影響,公司第一時間組織科技攻關團隊研發快速新冠突變病毒鑑別檢測試劑盒,憑藉已有的技術積澱和平臺支撐,公司在較短時間內攻克了這一產品。」新產品快速鑑別變異病毒據了解,聖湘生物之前獲國內外各類權威註冊認證上市的新冠核酸檢測試劑盒可覆蓋B.1.1.7突變毒株檢測。
  • 科學家開發出評估病毒基因組質量和完整性的新工具
    科學家開發出評估病毒基因組質量和完整性的新工具 作者:小柯機器人 發布時間:2020/12/22 22:27:01 美國勞倫斯伯克利國家實驗室Nikos C.
  • 微生物分類學研究利器:模式微生物基因組資料庫
    由國家微生物科學數據中心(世界微生物數據中心)建立的模式微生物基因組資料庫(gcType)http://gctype.wdcm.org/,是為分類學家進行基因組研究、新種鑑定的一個非常有價值的工具平臺。
  • 利用宏基因組數據組裝巨病毒基因組的優勢與限制
    通過比對發現注釋為古菌的MAG與Fadolivirus基因組的相似度超過99.7%,可以確認成功檢測到外源添加的Fadolivirus。該病毒MAG僅在高濃度病毒顆粒樣本中被檢測到,為了測試其他常用binning方法作者採用了MetaBAT 2-dc、MaxBin2、CONCOCT和DAS_Tool對宏基因組組裝結果進行分析,發現獲得與Fadolivirus基因組達到相似度98.3%~99.7%的MAG(表1)。圖1.宏基因組組裝與binning得到Fadolivirus 的MAG。
  • 研究揭示高效從頭基因組組裝工具WENGAN
    研究揭示高效從頭基因組組裝工具WENGAN 作者:小柯機器人 發布時間:2020/12/15 16:18:36 法國裡昂大學Marie-France Sagot、Alex Di Genova研究團隊在研究中取得進展。
  • 《核酸研究》:高質量模式微生物基因組資料庫及分析平臺
    由國家微生物科學數據中心(世界微生物數據中心)建立的模式微生物基因組資料庫(gcType)http://gctype.wdcm.org/,是為分類學家進行基因組研究、新種鑑定的一個非常有價值的工具平臺。
  • 變異新冠病毒太狡猾 武漢疾控專家提醒防輸入
    記者梳理發現,來自國外的變異新冠病毒感染病例在國內均已陸續被檢測出病例。 2020年12月14日,英國確認出現一種變異新冠病毒。12月18日,病毒被重新命名為VOC-202012/01。12月23日,英國政府宣布,又發現了另一種傳染性更強的變異新冠病毒。
  • gf-cli v0.7.4 發布,GoFrame 開發工具鏈
    大家好啊,GoFrame框架隆重推出了開發工具鏈項目,該工具鏈通過CLI命令行工具提供,工具開源項目地址:
  • ...專科醫院「植入前胚胎單細胞基因組微缺失微重複識別新技術(GeM...
    據悉,該院通過「植入前胚胎單細胞基因組微缺失微重複識別新技術(GeMiLa)」幫助遺傳性手足裂患者誕生健康嬰兒尚屬國際首例,這標誌著我院在胚胎植入前遺傳學診斷新技術研發領域又一次取得突破性進展。圖為患者和寶寶牽手的溫馨照片案例剖析—如何幫助手足裂患者家庭生育健康後代?
  • 卒中領域首個萬人全基因組深度測序研究方案
    使用高通量測序技術對中國國家卒中登記-III(The Third China National Stroke Registry, CNSR-III)的萬餘例卒中患者樣本進行全基因組深度測序,可獲得患者的全部遺傳信息,繪製中國卒中人群基因圖譜,從而揭示卒中發生、發展或預後的機制,有助於發現潛在的卒中二級預防治療的新藥靶點。
  • 科學家利用CRISPR剪切冠狀病毒基因組 有效減少病毒...
    科學家利用CRISPR剪切冠狀病毒基因組 有效減少病毒複製  Evelyn Zhang • 2020-03-26 19:40:30 來源:前瞻網
  • Nature|人基因組複製過程中姐妹染色單體的構象
    撰文 | 十一月責編 | 兮3D基因組結構支持基因表達調控、重組、DNA修復以及有絲分裂過程中的染色體分離。作者們考慮如果能在基因組DNA純化後將4sT轉化成為5mC(圖1),那麼就可以對4sT標記的DNA產生特徵突變進行高通量測序。通過對4sT標記的DNA被OsO4/NH4Cl處理後的轉化效率以及4sT本身對細胞的毒性進行檢測後,作者們發現4sT標記的DNA能夠被高效率轉化同時對細胞幾乎沒有毒性,完全符合活細胞中進行姐妹染色單體基因組DNA標記的全部要求。
  • 基因組研究揭示棘魚進化之路
    儘管這種變異在各自獨立的不同地區發生,但每次變異似乎都涉及到許多相同的遺傳突變。 為了找到關鍵DNA差異,研究人員對21種棘魚的全部基因組進行了測序。這些棘魚來自3個大洲的海洋和淡水水域。研究結果刊登在4月4日出版的《自然》雜誌上。 研究人員發現,淡水棘魚與其最鄰近的海洋棘魚基因組最相似。
  • 華為雲發布全新AutoML工具,支持對基因組數據全自動AI建模
    在華為開發者大會2020(Cloud)期間,華為雲發布全新AutoML工具AutoGenome,支持對基因組數據進行全自動AI建模,助力科研人員探索生命奧秘。  目前,AI技術已經廣泛應用在圖像、語音等領域,然而在生物醫學領域,尤其是基因組學數據領域,AI的應用仍處於初期階段。