東風吹,戰鼓擂,二代三代誰怕誰
小編作為生信人,還沉浸在illumina的paired-end中,突然發現,我國已成為迄今以及將來的全球最大三代測序平臺擁有國,深感焦慮啊。如果不了解些三代測序的知識,將來如何在生信圈立足呢?本著好東西要和好朋友分享的態度,小編整理了最近get到的一些三代測序知識點,首先是QC篇。
1下機數據
小編選擇了一個cell的下機數據為例進行介紹,不多說,先上圖:
在analysis文件夾中,下機的數據被分割為三個文件進行存儲,其中以bax.h5為後綴的是原始二進位文件;以subreads.fasta/subreads.fastq 為後綴的是經一級處理得到的標準格式的鹼基文件;以sts.csv/sts.xml為後綴的是記錄測序過程中每個ZMW度量指標的統計文件。
在這裡,小編還仔細查看了下機數據的命名,發現其中也有著固定的規律,且看小編細細道來:
這裡解釋一下:
1. m是movie的縮寫;
2. 測序時間,格式為yymmdd_hhmmss;
3. 儀器編號;
4. SMRT Cell Barcode;
5和6無實際意義,一般是固定的。
2數據結構
要做好數據的質控,不僅要知其然,還有知其所以然。首先小編展示的是三代數據的文庫模型:
三代測序的文庫模型是兩端加接頭的啞鈴型結構,測序時會環繞著文庫進行持續的進行,由此得到的測序片段稱為polymerase reads,即一條含接頭的測序序列,其直觀的反映了三代測序的長度。目前,採用最新的P6-C4酶,最長的讀長可達到60kb以上。
在這裡,大家可能會有疑問,環繞測序豈不是產生了很多冗餘的信息?其實,這裡的polymerase reads是需要進行一定的處理才能獲得用於後續分析的。這個過程首先是去除低質量序列和接頭序列:
Polymerase reads 經處理後得到的序列稱為subreads ,根據不同插入片段長度的文庫, subreads 的類型也有所不同。
在用於基因組denovo時,通常會構建10kb/20kb的文庫,對長插入片段文庫的測序基本是少於2 passes的(pass即環繞測序的次數),得到的reads也稱為Continuous Long Reads (CLR),這樣的reads測序錯誤率等同於原始的測序錯誤率。
而對於全長轉錄組或全長16s測序,構建的文庫插入片段較短,測序會產生多個passes,這時會對多個reads進行一致性校正,得到一個唯一的read,也稱為Circular Consensus Sequencing (CCS) Reads,這樣的reads測序準確率會有顯著的提升。
3數據質控
不同於二代測序的鹼基質量標準Q20/Q30,三代測序由於其隨機分布的鹼基錯誤率,其單鹼基的準確性不能直接用于衡量數據質量。那麼,怎麼判斷三代測序的數據好不好呢?
最直接的方法是看長度。長度短的測序數據不一定差(與文庫大小有關),但差的數據長度一定短。在上遊測序,最關鍵的影響因素是文庫的構建。高質量的文庫產出的數據長度長,質量好;而低質量的文庫產出的數據長度短,質量差。
其次,看比例。需要關注的是兩個比例,一個是subreads與polymerase reads數據量的比例,比例過低反映測序過程中的低質量的序列較多;一個是zmw孔載入的比例,根據孔中載入的DNA片段數分為P0、P1和P2。P1比例過低反映數據產量低,P2比例過高反映上樣濃度異常。
結語
對於測序,小編認為不管一代二代三代,還是要落實到能夠解決實際問題。測序數據類型和格式會變,而數據分析背後的原理不會變。當然,紙上得來終覺淺,絕知此事要躬行,小編也歡迎大家分享關於三代測序數據處理方面的經驗。
PS: 本文相關介紹均以Pacbio RSII測序平臺的數據為準,與Sequel測序平臺略有出入,如有舉報,概不接受 ~_~