Science:震驚!公共資料庫存在非常高的測序錯誤

2020-12-02 生物谷

2017年2月18日/

生物谷

BIOON/---在一項新的研究中,來自新英格蘭生物學實驗室公司(New England Biolabs Inc., 簡稱NEB)的一個研究團隊發現儲存在公共資料庫中的DNA測序樣品具有比期待中更高的低頻突變錯誤率(low-frequency mutation error rate)。他們描述了他們如何開發出一種能夠計算DNA測序樣品中錯誤率的算法,以及當在兩種公共基因組資料庫中運行時,它揭示了什麼。相關研究結果發表在2017年2月17日的

Science

期刊上,論文標題為「DNA damage is a pervasive cause of sequencing errors, directly confounding variant identification」。

當研究DNA在導致癌性

腫瘤

(cancerous tumor)的細胞突變中的作用時,研究人員依賴於儲存測序信息的資料庫的準確性,比如當嘗試著找出趨勢時,依賴於這些資料庫中的信息尋找共性的那些研究人員。這些研究涉及對發生低頻突變的不同人的基因組與總體人口的基因組進行比較,並且利用他們發現的結果構建癌症數據集。但是如今,NEB團隊開展的這項研究對公共資料庫的準確性提出質疑。

為了測量一種給定的數據集的準確率,NEB團隊開發出一種算法,該算法能夠被用來計算因測序過程期間發生DNA損傷而表現出突變(不是自然發生的突變)的序列數量。該團隊隨後利用他們的算法計算幾種公共資料庫(最為知名的是**基因組計劃和TCGA資料庫的一部分)的錯誤率,他們報導他們發現這兩種知名資料庫的錯誤率分別是41%和73%。

NEB團隊注意到他們的算法不能夠揭示出這些非自然發生的DNA損傷的來源,但是提出它可能是由於在進行測序之前使用的某些樣品製備技術導致的。他們也指出為測序儀開發出的其他算法能夠測試它們自己的測序錯誤,但是由於缺乏非常有說服力的理由,它們並沒有被廣泛地使用。他們指出DNA測序儀開始這樣做了。他們也注意到已在開發的新工具可能有助在製備期間讓DNA損傷最小化,而且它們的使用可能改進公共資料庫的準確性。(生物谷 Bioon.com)

本文系生物谷原創編譯整理,歡迎轉載!點擊 獲取授權 。更多資訊請下載生物谷APP原始出處:Lixin Chen, Pingfang Liu, Thomas C. Evans Jr. et al. DNA damage is a pervasive cause of sequencing errors, directly confounding variant identification. Science, 17 Feb 2017, 355(6326):752-756, doi:10.1126/science.aai8690.

相關焦點

  • 確認過眼神,是值得挖掘的單細胞測序資料庫
    考慮到單細胞測序的火熱趨勢,目前介紹的單細胞測序結果的專業資料庫主要包括:scRNASeqDB和 SCPortalen: human and mouse single-cell centricdatabase.,其中scRNASeqDB主要收錄的是來自 GEO的生物醫學單細胞測序數據。
  • 一庫在手,Chip測序分析不再愁 —ChIP-Atlas公共資料庫
    ChIP-Atlas集成了海量的公共ChIP測序資源,涵蓋了提交給NCBI,DDBJ或ENA的SRA(序列讀取檔案)的幾乎所有公共ChIP-seq數據
  • 科學家呼籲關注全球基因組資料庫汙染
    科學家呼籲關注全球基因組資料庫汙染樣品處理有可能是導致DNA資料庫廣泛汙染的最主要原因
  • 科學家提出基因測序數據分類新標準
    科學家提出基因測序數據分類新標準有助於開發出更有效的疫苗;更迅速應對潛在公共衛生突發事件  最近,美國洛斯阿拉莫斯國家實驗室(LANL)的一個遺傳學小組和一國際財團聯合提出了一套旨在闡明可公開獲取的基因測序數據信息的質量標準
  • 資源動態 | Science期刊資料庫
    資源名稱:Science期刊資料庫訪問連結:http://www.sciencemag.org/訪問期限:2020.1.1-2020.12.31訂購期刊:《科學》周刊等6本科學性期刊訪問連結:http://www.sciencemag.org/期刊名中文:《科學信號》2017年影響因子:6.378期刊介紹:發表代表細胞信號轉導方面最新研究進展的同行評審原始研究文章,包括信號轉導網絡、系統生物學
  • Science期刊盤點2018年十大科學突破
    再者,還有一個研究團隊利用一種被稱作Drop-Seq的單細胞測序技術在高時間解析度下研究斑馬魚胚胎12多個小時[3]。他們利用計算方法URD重建出胚胎發育中的細胞軌跡。他們分析了斑馬魚胚胎發育早期的38000多個細胞,並開發了揭示當25種細胞類型發生特化時,它們的基因表達發生變化的細胞「家族樹」。通過將這些數據與空間推理相結合,他們還能夠重建早期斑馬魚胚胎中的各種細胞類型的空間起源。
  • Science:馬基因組測序發現新染色體著絲點
    Science據11月5日的《科學》雜誌報導說,研究人員成功地為一匹名叫Twilight的灰色的研究用馬做了基因組的測序。研究人員說,這一工作闡述了馴化的過程,並顯示了其與其它的像牛這樣的被測序的胎盤類哺乳動物之間存在著相當大的相似性。
  • 每周一庫 | Elsevier ScienceDirect 資料庫
    【資料庫簡介】Elsevier ScienceDirect 資料庫(簡稱 SD,曾用名 Elsevier Science)是荷蘭愛思唯爾(Elsevier)出版集團生產的世界著名的科學文獻全文資料庫之一。ScienceDirect 平臺上的資源分為四大學科領域:自然科學與工程、生命科學、醫學/健康科學、社會科學與人文科學。
  • 宏基因組測序助力新冠病毒檢測
    引子: 湖北省醫學影像專業委員會副主委譚偉認為,CT結果非常符合新冠肺炎但核酸檢測為陰性的病例大約佔30%—40%。 在杭州一所醫院,有個病人測了6次核酸試劑都為陰性,直到第7次才測出陽性。
  • Science:單個細胞分裂錯誤導致一連串具有癌症特徵的突變
    為了確定染色體橋斷裂的直接後果,他們將活細胞成像與單細胞全基因組測序(Look-Seq)相結合。通過比較子細胞或孫細胞(granddaughter cell, 即子細胞在分裂後產生的子細胞)的單倍型拷貝數和結構變異,就可以揭示BFB循環中的複雜突變機制,其中的一些突變機制經過兩代以上才會發生。
  • 中國學界首次被Science撤稿,團隊稱疫情溝通不暢導致錯誤
    ,但是計算機數據從一個學生傳輸到另一個學生時,發生了錯誤。所有準備手稿和補充材料數據的作者在不同的城市和國家被隔離開來,而無法使用實驗室計算機或資料庫資源,從而導致通信錯誤。但是,鑑於補充材料中的錯誤,我們決定撤回該報告。
  • 基因測序是顛覆醫療的技術
    其靈敏度高達0.001%,能克服核酸降解的不利影響,非常適合稀有樣本中核酸的精確檢測。多種測序技術的對比,臨床金標準qPCR一次只能針對一個已知位點進行檢測,而一代測序可以同時檢測多個位點。晶片技術和二代測序的通量都非常高,可以同時檢測多個基因的多個位點,但是晶片技術的敏感度和準確性都遠不及二代測序。
  • 下一代測序技術臨床應用現狀和發展趨勢
    儘管短讀長NGS平臺總體準確率較高(>98%),但讀取高AT或高GC片段錯誤率仍差強人意。由於基因組包含重複序列、結構變異及拷貝數變化,短讀長測序平臺解析這些信息存在固有缺陷,近幾年相繼推出基於單分子測序和合成法測序第三代測序。PacBio Biosciences單分子實時測序,其PacBio RS Ⅱ平均測序讀長10 000~15 000 bp。
  • 泛基因組資料庫:找到油菜的「好基因」
    近日,他們在原有研究基礎上,通過整合1689份油菜的基因組及重測序數據,構建了首個油菜泛基因組和比較基因組生物信息平臺BnPIR。有了這一平臺,研究人員可以更快捷、更方便地檢索和使用油菜泛基因組相關資源。為何建設油菜泛基因組平臺?這是一個什麼樣的資料庫?油菜相關的多組學數據研究進展情況如何?《中國科學報》對此進行了採訪。
  • 華大智造發布中草藥DNA條形碼高通量基因測序一體機(HMBI-G30)新品
    採用ITS2序列精確鑑定中草藥物種,高效,簡便,可實現多樣本批量鑑定全面的物種覆蓋涵蓋2010版和2015版《中國藥典》收錄的幾乎所有動植物藥材及其常見混偽品,資料庫物種超3萬個權威的中草藥DNA條形碼資料庫經國內外權威專家採用經典分類方法確定資料庫基原序列,嚴格的校對機制確保條形碼序列和基原樣本高度一致準確的序列測定
  • 可攜式測序技術,開啟實時測序時代?
    她和她的同事們成功地從這些狐猴中提取了 DNA 並進行了測序,這使他們得以確認森林中某些狐猴物種的存在。「我們在現場的研究方案將所有方法——捕獲、取樣、分析、測序——結合在一起。這意味著實地研究和實驗室研究實際上可以由同一個人執行。這使我們能夠在幾天之內回答一個問題,而不必等待數月或數年。」
  • Science:利用單細胞RNA測序分析黑色素瘤
    在此之前,科學家們大多數進行「大體積(bulk)」腫瘤測序,特別是為了研究整塊腫瘤組織,利用RNA測序(RNA-seq)或DNA測序(DNA-seq)分析癌症基因組或轉錄組。 這些不同的細胞具有非常不同的基因表達模式,因而在這種典型的「大體積」測序過程中,它們的表達模式基本上受到平均化,而且它們全部混合在一起,人們也不能夠分析單個細胞。 在這項新的研究中,研究人員利用單細胞RNA-seq方法每次一個細胞地研究整個腫瘤以便確定哪些類型的細胞存在於腫瘤中。
  • 全基因組單核苷酸變異資料庫建立
    有助推動我國及周邊國家人群的進化遺傳和醫學研究 中國科學院上海營養與健康研究所/馬普計算生物學研究所徐書華團隊新近建立的全基因組單核苷酸變異資料庫  徐書華團隊通過全基因組深度測序技術,收集、整合公共人類基因組數據,獲得2.5億以上人類單核苷酸變異,進行了變異頻率、基因多樣性、群體分化、功能效應、進化保守性、自然選擇信號、連鎖不平衡等方面的解析和注釋,對人類孟德爾遺傳疾病關聯變異的頻率進行了分析。
  • 12月在線資料庫匯總|資料庫|甲基化|DNA|標誌物|預測|分析|-健康界
    在12月期間,總共發表了醫學相關在線資料庫47個。下面就來給大家介紹一下主要有哪些資料庫,以及筆者比較感興趣的資料庫。1. 疾病與藥物相關資料庫疾病和藥物相關的資料庫一共有5個。涉及到多種不同的疾病。
  • 基因測序行業深度研究:前景廣闊 相關公司發展不確定性高
    第一代技術準確率高,讀取長,是至今唯一可以進行「從頭至尾」測序的方法,新的測序技術仍然依賴於Sanger技術的協助作用,但其存在成本高、速度慢等方面的不足,並不是最理想的測序方法。使用第一代Sanger測序技術完成的人類基因組計劃,花費了30億美元巨資,用了十三年的時間。