如何看懂三代測序數據

2021-01-10 百邁客雲

東風吹,戰鼓擂,二代三代誰怕誰

小編作為生信人,還沉浸在illumina的paired-end中,突然發現,我國已成為迄今以及將來的全球最大三代測序平臺擁有國,深感焦慮啊。如果不了解些三代測序的知識,將來如何在生信圈立足呢?本著好東西要和好朋友分享的態度,小編整理了最近get到的一些三代測序知識點,首先是QC篇。

1下機數據

小編選擇了一個cell的下機數據為例進行介紹,不多說,先上圖:

在analysis文件夾中,下機的數據被分割為三個文件進行存儲,其中以bax.h5為後綴的是原始二進位文件;以subreads.fasta/subreads.fastq 為後綴的是經一級處理得到的標準格式的鹼基文件;以sts.csv/sts.xml為後綴的是記錄測序過程中每個ZMW度量指標的統計文件。

在這裡,小編還仔細查看了下機數據的命名,發現其中也有著固定的規律,且看小編細細道來:

這裡解釋一下:

1. m是movie的縮寫;

2. 測序時間,格式為yymmdd_hhmmss;

3. 儀器編號;

4. SMRT Cell Barcode;

5和6無實際意義,一般是固定的。

2數據結構

要做好數據的質控,不僅要知其然,還有知其所以然。首先小編展示的是三代數據的文庫模型:

三代測序的文庫模型是兩端加接頭的啞鈴型結構,測序時會環繞著文庫進行持續的進行,由此得到的測序片段稱為polymerase reads,即一條含接頭的測序序列,其直觀的反映了三代測序的長度。目前,採用最新的P6-C4酶,最長的讀長可達到60kb以上。

在這裡,大家可能會有疑問,環繞測序豈不是產生了很多冗餘的信息?其實,這裡的polymerase reads是需要進行一定的處理才能獲得用於後續分析的。這個過程首先是去除低質量序列和接頭序列:

Polymerase reads 經處理後得到的序列稱為subreads ,根據不同插入片段長度的文庫, subreads 的類型也有所不同。

在用於基因組denovo時,通常會構建10kb/20kb的文庫,對長插入片段文庫的測序基本是少於2 passes的(pass即環繞測序的次數),得到的reads也稱為Continuous Long Reads (CLR),這樣的reads測序錯誤率等同於原始的測序錯誤率。

而對於全長轉錄組或全長16s測序,構建的文庫插入片段較短,測序會產生多個passes,這時會對多個reads進行一致性校正,得到一個唯一的read,也稱為Circular Consensus Sequencing (CCS) Reads,這樣的reads測序準確率會有顯著的提升。

3數據質控

不同於二代測序的鹼基質量標準Q20/Q30,三代測序由於其隨機分布的鹼基錯誤率,其單鹼基的準確性不能直接用于衡量數據質量。那麼,怎麼判斷三代測序的數據好不好呢?

最直接的方法是看長度。長度短的測序數據不一定差(與文庫大小有關),但差的數據長度一定短。在上遊測序,最關鍵的影響因素是文庫的構建。高質量的文庫產出的數據長度長,質量好;而低質量的文庫產出的數據長度短,質量差。

其次,看比例。需要關注的是兩個比例,一個是subreads與polymerase reads數據量的比例,比例過低反映測序過程中的低質量的序列較多;一個是zmw孔載入的比例,根據孔中載入的DNA片段數分為P0、P1和P2。P1比例過低反映數據產量低,P2比例過高反映上樣濃度異常。

結語

對於測序,小編認為不管一代二代三代,還是要落實到能夠解決實際問題。測序數據類型和格式會變,而數據分析背後的原理不會變。當然,紙上得來終覺淺,絕知此事要躬行,小編也歡迎大家分享關於三代測序數據處理方面的經驗。

PS: 本文相關介紹均以Pacbio RSII測序平臺的數據為準,與Sequel測序平臺略有出入,如有舉報,概不接受 ~_~

相關焦點

  • 三代測序數據簡單分析
    簡單介紹:三代測序技術讀長較長,針對比較小的基因組像只有16kbp的人類線粒體
  • 測序原理-------一代測序、二代測序、三代測序
    市面上出現了很多二代測序(NGS;next generation sequencing)儀器,每種儀器產出的數據格式不同,測序流程也略有不同,不同平臺有不同的優勢。(3)測序,分三步:DNA聚合酶聚合帶螢光且具有保護基團的NTP(可終止反應),螢光標記簇成像,保護基團被切除進行下一個循環。因為該測序方法先對插入片段的一端進行測序,其後對另一端進行測序,因此通常產出數據常為成對的reads.(4)數據產出。
  • 中國學者在Nature Methods發表論文,介紹三代測序數據計算方法的突破
    基於三代測序數據的基因組組裝中最消耗計算時間的過程是序列局部比對。為了減少進入局部序列比對的候選區域,研究人員提出快速測量兩個序列編輯距離的序列差異因子(DDF)和全局種子投票打分的計算理論模型。該模型表現出了兩個序列全局種子得分與重疊長度成線性相關的重要特徵,這一特徵使得兩序列重疊區域的長度可以通過種子全局得分進行評估。
  • 【三代測序傳】——動植物研究中的捕獲測序
    為了鑑定特定表型的基因,必須對包含特定信息的SNP進行精細定位-通常用靶向測序來進行。這些區域一般比較大,可能有幾K,可能包含難以用現有技術進行識別的結構變化。單分子實時測序為靶向感興趣的區域提供了靈活的解決方案,大小可靈活調整,為相關基因提供最全面的檢測。它還能提供精細定位所需的讀取長度和準確性,並簡化LargeRegion的組裝。
  • 三代重測序助力阿爾茲海默症研究
    簡單一句話介紹就是,作者採用二代和三代Nanopore重測序數據找到了DPP6上的4M大小的倒位,並採用二代測序數據大隊列研究DPP6基因的變異對阿爾茲海默症的影響。本研究中,作者採用二代測序和三代長read全基因組測序來研究常染色體顯性遺傳史的痴呆家族顯著關聯的7q36。他們識別並驗證了4Mb的倒位在疾病單倍型中分離,並擾亂了DPP6基因的編碼序列。在早發性阿爾茲海默症和額顳葉痴呆中,利用DPP6基因的重測序技術識別了更多罕見的非同義突變,移碼突變和無義突變。
  • 美格基因引入Nanopore平臺助力宏基因組三代測序!
    1、更真實反映菌群實際組成美格基因三代宏基因組採用「三+二」測序策略,三代宏基因組測序策略解決了二代讀長短的限制,能輕鬆覆蓋基因間區或基因特異性區域,長讀長Reads能夠更為精準地鑑定水體、土壤、腸道等生境中微生物的種類,有效提高微生物群落鑑定的解析度,更加真實的反映菌群的實際組成。
  • 李曼大會——三代測序技術在豬病檢測中的作用
    三代測序技術在豬病檢測中的作用中國動物疫病預防控制中心 原霖1、準確度:單條序列的準確率約85%, 拼接後可達99%, 準確度低於二代測序和一代測序;2、測序長度:單端幾百bp--幾M,長度最長;3、測序成本:目前比二代和一代測序成本高;4、測序通量:可達數百萬條以上片段,幾十G-幾T的數據量;5、
  • 三代全基因組測序成本降至1萬元,有望成為打開基因測序基層市場的...
    希望組CEO汪德鵬第一次接觸到三代測序技術,是在2009年。當時有傳言說三代技術可以在15分鐘內就完成一個全基因組測序,而且成本僅在大約1000美元左右,全世界都為之震驚。但從實測的數據來看,無論是測序結果還是測序成本,三代測序平臺都遠遠沒有沒有達到大家的預期,使得這項技術在全世界面前都面臨非常大的爭議。
  • Nature Methods:中山大學中山眼科中心團隊發表三代測序計算方法
    ,在 Nature Methods 在線發表了三代基因組測序數據計算方法,文章題目為 「MECAT: fast mapping, error correction, de novo assembly tool for single-molecule sequencing reads」。
  • 三代基因組測序技術原理簡介
    摘要:從1977年第一代DNA測序技術(Sanger法)1,發展至今三十多年時間,測序技術已取得了相當大的發展,從第一代到第三代乃至第四代,測序讀長從長到短,再從短到長。雖然就當前形勢看來第二代短讀長測序技術在全球測序市場上仍然佔有著絕對的優勢位置,但第三和第四代測序技術也已在這一兩年的時間中快速發展著。
  • 第三代基因測序技術比較與總結
    在第二代測序技術的協助下,個人基因組圖譜正在如火如荼地繪製中。但第二代測序技術很快就遇上了強勁的對手——第三代測序技術,也被稱為「下、下一代的測序(next-next-generation sequencing)」。
  • 第二代測序原理的詳細解析!
    後續隨著Illumina系列測序平臺的推出,極大降低了二代測序的價格,推動了高通量測序在生命科學各個研究領域的普及。目前,高通量測序已經成為一種常規研究方法,大量科研工作中均會用到。然而,為什麼二代測序能實現高通量?為什麼二代測序讀長如此之短?為什麼reads末端測序質量會降低?應該如何選擇測序讀長與打斷片段的長度?想要回答這些問題,都需要詳細了解二代測序的基本原理。
  • 三代宏基因組測序探究人類腸道中染色體外的可移動基因元件
    目前宏基因組研究主要是通過二代測序來進行研究,隨著三代測序技術的發展,PacBio SMRT測序技術應用場景越來越廣泛。與二代測序方法相比,採用PacBio SMRT長讀長測序技術的三代宏基因組可以減少部分拼接錯誤,提高基因組組裝注釋的準確性和微生物群落鑑定的解析度。
  • 第二代測序的原理
    第二代測序
  • 醫藥生物:三代基因測序獲突破 推精準醫療
    針對第三代基因測序儀硬體錯誤率高達15%-40%的現實,採用新算法設計的Sparc軟體所取得的結果錯誤率低於0.5%,同時還可節省測序時間和內存達80%。主要觀點三代測序準確率低的難題有望解決從1975年Sanger和Coulson發明了第一代基因測序技術--雙脫氧終止法,到現在,基因測序已經經歷了三代技術革命。
  • 三代重測序告訴你答案 | 群體研究
    在該研究中,大片段的結構變異的檢測是分析的基礎,而三代測序技術能夠高效地助力大片段倒位的發現。今天大師兄為大家奉上文章解讀,以饕讀者。主要結果1、三代測序發現1.7Mb的倒位與桃子扁平性狀共分離對蟠桃品種「124蟠」進行三代和二代重測序,三代測序共得到10x數據,subreads平均長度11.3kb。
  • 三代nanopore宏基因組測序數據分析,北京,11月7-9日
    本期主題圍繞「nanopore宏基因組測序數據分析」,nanopore測序實時,快速,便攜,長度長,高通量等諸多特點,特別適合微生物研究。在新冠病毒研究以及後續病毒溯源方面都會有重要的應用。本次培訓班,我們將系統介紹納米孔測序在宏基因組中的應用,通過本次培訓班你將完成以下四大主題:1、熟悉納米孔測序;2、病原微生物快速鑑定;3、宏基因組數據分結果可視化;4、納米孔建庫測序實驗。課程特色1、真正的小班授課,提供助教,提供一對一指導,零基礎可學習。2.
  • 瀚海基因發布全球最準三代基因測序儀,測序成本將降至一百美金
    同時從源頭帶動深圳本地光學、精密機械、生物製劑等多個領域的發展,促進大數據、精準醫療、和生物製藥企業的聚集,最終撬動上千億的產業鏈。資料顯示,第一代DNA測序技術由Sanger等人開創,並在1977年完成第一個基因組序列。第一代基因測序儀完成一個人的全基因組的價格是30億美元,一個人測一次基因序列相當於建了一艘航母。
  • 湯富酬課題組與合作者開發出單細胞轉錄組三代單分子測序新方法
    ., 2019),遠遠超過二代測序方法所能檢測的最大讀長。該研究的主要突破有:1)開發了一種基於三代單分子測序平臺的高靈敏度單細胞轉錄組測序方法—SCAN-seq (Single cell amplification and sequencing of full-length RNAs by Nanopore platform),能夠在單細胞解析度直接獲取全長轉錄本序列信息,表現出高靈敏度和高穩健性,在小鼠胚胎幹細胞每個單細胞中可以檢測到8000
  • 【技術專題】之 Pacbio 三代測序及其在醫學研究中的應用
    而測序在研究靶點的選擇中經常起到關鍵的第一步。Pacbio三代測序技術介紹:Pacbio三代測序的長讀長可以輕鬆地跨越基因組的複雜區域,獲得單鹼基解析度的SV斷點結果,並且由於其無GC偏好性,對基因組的覆蓋更加均一,相比於二代測序能夠獲得更高的結構變異檢出率。