【擴增子分析】樣品拆分的疑問

2021-02-17 沈夢圓
背景知識

通過使用「多路復用」,可以將幾個樣品合併到一個測序儀運行中,在測序構建體中插入識別樣品的條形碼(barcode)測序。條形碼也稱為索引(index)序列。在Illumina測序中,條形碼通常位於測序引物之前,因此不會出現在包含生物序列的正向讀數中。條形碼是通過進行一次(單索引)或兩次(雙索引)額外讀取獲得的,有時單索引稱為i1,雙索引稱為i5+i7。對於其他下一代測序儀,條形碼序列通常出現在讀取的開始,可能在機器特定的序列之後,例如454的TCAG。使用當前的Illumina軟體和標準庫準備協議,獲得的下機數據已經是拆分好的每個樣本的FASTQ文件,並且不包括索引序列。但是,有時自己需要進行樣品拆分,您可以獲得「原始」i1、r1和r2讀數。對於454和Illumina,由於錯誤的條形碼序列,序列被錯誤拆分,並且錯誤率極高。減少cross-talk的建議策略是使用稀疏雙索引方案,其中大多數索引對不分配給樣本。

原文:Several samples can be combined into a single sequencer run by using "multiplexing" where a barcode sequencing identifying the sample is inserted into the sequencing construct. Barcodes are also called index sequences.
With Illumina sequencing, the barcode is usually positioned before the sequencing primer so does not appear in the forward reads that contain the biological sequence. Barcodes are obtained by making one (single-indexing) or two (dual-indexing) additional reads which are sometimes called i1 for single indexing and i5+i7 for dual indexing.
With other next-generation sequencers, the barcode sequence usually appears at the beginning of the read, possibly after a machine-specific sequence such as TCAG for 454.
With current Illumina software and standard library preparation protocols, the demultiplexing is usually done for you and the basespace download includes one FASTQ file for each sample; the index reads are not included. However, it is sometimes useful to do the demultiplexing yourself, in which case you can get "raw" i1, r1 and r2 reads.
With both 454 and Illumina, reads are assigned to the wrong sample due to incorrect barcode sequences at a surprisingly high rate. I call this problem cross-talk. A suggested strategy for reducing cross-talk is to use a sparse dual index scheme where most pairs of indexes are not assigned to samples.

我拿到的數據是後綴R1.fq.gz和R2.fq.gz的兩個雙端16S的擴增子測序文件,共有60個樣本混合在這兩個文件裡,需要根據這些樣本barcode進行拆分。我檢索到拆分樣品有不同的工具可以使用,例如:fastq-multx、seqtk_demultiplex和usearch -fastx_demux。

正反向確認

對了在此之前,要先確定下R1和R2兩個文件名是否標註正確。我的這批數據就反了,我後面排查出來了。具體做法可以正反向引物去兩個文件上檢索一下,與正向引物順序一致的則是R1。同時還能檢驗一下引物是否正確。這裡可以使用usearch -search_oligodb命令:

# 軟體路徑
usearch=/home/tools/protocols/dix-seq-0.0.1/binaries
# 構造引物序列
[shenmy@extranet-206 raw_data]$ cat 515F.fa
>515F
GTGCCAGCMGCCGCGGTAA
[shenmy@extranet-206 raw_data]$ cat 806R.fa
>806R
GGACTACHVGGGTWTCTAAT
# 檢測引物
$usearch/usearch -search_oligodb  s2_H5WK5BCX2_L2_1.clean.fq -db 515F.fa -strand plus -userout R1_515F.txt -userfields query+qlo+qhi+qstrand
$usearch/usearch -search_oligodb  s2_H5WK5BCX2_L2_1.clean.fq  -db 806R.fa -strand plus -userout R1_806R.txt -userfields query+qlo+qhi+qstrand
$usearch/usearch -search_oligodb  s2_H5WK5BCX2_L2_2.clean.fq -db 515F.fa -strand plus -userout R2_515F.txt -userfields query+qlo+qhi+qstrand
$usearch/usearch -search_oligodb  s2_H5WK5BCX2_L2_2.clean.fq -db 806R.fa -strand plus -userout R2_806R.txt -userfields query+qlo+qhi+qstrand

我這批數據比較奇葩,一般情況下R1文件裡只能檢測到正向引物(R1_515F的檢索率為100%,R1_806R的檢索率為0%)。而我的數據正反向文件檢測到的引物都接近50%左右。這告訴我們上面的R1文件裡混了真正的R1和R2樣本。嗯….為什麼會這樣子……

樣本拆分

我使用的是usearch -fastx_demux,我不清楚是index是單端的還是雙端的,我手頭上的barcode是一個樣本一個標籤,只能按照這個標籤拆分了。

# Illumina paired with single index (i1 + r1 + r2)
$usearch/usearch -fastx_demux s2_H5WK5BCX2_L2_1.clean.fq -reverse s2_H5WK5BCX2_L2_2.clean.fq -fastqout fwd_demux.fq -output2 rev_demux.fq -barcodes barcode.fa
# Demuxed 6690945 / 13882527 (48.2%)

$usearch/usearch -fastx_demux R1.fq -reverse R2.fq -fastqout R1_demux.fq -output2 R2_demux.fq -barcodes ../barcode.fa
## 01:35 77Mb    100.0% Demuxed 12715252 / 13721440 (92.7%)

由於先預先嘗試直接拆分樣本,拆分率只有48.2%,說明還有一半的數據沒有拆分成功。我對上面的R1和R2序列進行分析,將所有帶806R引物序列的合併到R1文件,所匹配的序列提取到R2文件,拆分率提升到92.7%。我還在思考這麼做到底對不對?問題出在哪裡了呢?(有小夥伴知道嘛)

這果然是一批問題數據,
我從拿到手的那一刻就有預感。

有問題請聯繫我

個人微信ID:
Shenmengyuan1993

相關焦點

  • 課程免費領取 | 微生太擴增子分析第一節:α多樣性分析及繪圖
    擴增子測序是一種二代靶向測序技術,它使用PCR技術來生成稱為擴增子的DNA序列,它簡單、快速、應用廣泛。擴增子測序可以有效地識別微生物高可變區並有效獲取微生物物種的信息。擴增子測序主要包括16S rDNA測序、18S rDNA測序、ITS測序及目標區域擴增子測序等。
  • 擴增子裡妥妥的C位是它,你想到了嗎?
    所謂擴增子,簡單地理解,就是經過人工擴增的DNA片段或RNA片段的擴增產物。擴增子測序主要包括16S rDNA測序、18S rDNA測序、ITS測序及目標區域擴增子測序等。今天要向大家介紹的是擴增子裡的C位——OTU君。
  • 美格基因|擴增子物種群落分析
    一、物種群落結構分析1、共有及特有OTU統計分析1)OTU 數目統計基於 OTU_table 統計 No. of OTUs,將 OTU 序列數大於 0 的全部記為 1,並對每列數求和,即為每個樣本的OTU 總數。
  • 基因擴增和基因測序分析3D虛擬仿真軟體
    而基因擴增技術可將極微量的靶DNA特異地擴增上百萬倍,從而大大提高對DNA分子的分析和檢測能力,能檢測單分子DNA或對每10萬個細胞中僅含1個靶DNA分子的樣品。
  • 16S/18S/ITS 擴增子測序
    在原核微生物核糖體中的16S rRNA基因長度約為1500 bp,因其結構與功能上的高度保守性,常用於菌種鑑定和系統發育分析。與16S rRNA類似,真核微生物18S rRNA基因長度1500-2000 bp,常用於研究環境樣本中真核微生物群落結構多樣性,其中,真菌rRNA基因的非轉錄區還包含一段隱秘的內轉錄間隔區(Internal Transcribed Spacer,ITS),長度為400-900bp,由於種內保守,種間差異明顯,也非常適於種類鑑定和群落分析。
  • 關於支原體核酸擴增法的方法驗證
    為驗證支原體PCR/qPCR法的靈敏度,德國MB提供滅活支原體的靈敏度標準品,經過10CFU或100CFU嚴格標定,可用於支原體核酸擴增法的方法驗證。分析證書(COA)提供該批次GU:CFU比值(支原體基因組/菌落數比值)。5. 支原體已滅活,保障細胞實驗室安全。二、操作步驟步驟1. 離心,收集標準品凍乾粉至管底。步驟2. 每個管中添加1ml你的樣品基質。步驟3. 室溫孵育5分鐘。步驟4. 渦旋振蕩10秒,再離心10秒。步驟5. 繼續DNA抽提。
  • 新方法可完成高精度長讀擴增子測序
    新方法可完成高精度長讀擴增子測序 作者:小柯機器人 發布時間:2021/1/12 16:40:51 丹麥奧爾堡大學Mads Albertsen研究團隊近日取得一項新成果。
  • 臨床基因擴增PCR實驗室
    基本建設方案 1、建立樣品準備區這個區域專門用作樣品的準備,在製備和操作用於核酸提取的試劑時應該採取預防措施:⑴PCR產物和帶有要擴增序列的DNA克隆不能在這個房間操作。⑵組織培養物、組織標本和血清樣品都帶進樣品準備間處理,以根據應用的需要提取DNA或RNA。
  • 科學家發現功能增強子導致染色體外致癌基因擴增
    近日,美國克利夫蘭凱斯綜合癌症中心等科研機構的科研人員在Cell上發表了題為「Functional Enhancers Shape Extrachromosomal Oncogene Amplifications」的文章,發現功能增強子導致染色體外致癌基因擴增
  • 基金拆分是好還是壞?基金拆分的原因分析
    基金拆分和基金分紅都是對基金淨值進行了下折操作,一般來說對持有人的實際收益是沒有影響的。那麼,基金拆分是怎麼回事?為什麼要進行基金拆分呢?接下來天小編就帶大家一起聊一聊相關問題吧。
  • R包ggrepel解決散點圖樣品標籤重疊,方便篩選樣品
    尤其是在擴增子研究中,在相同基因型、環境條件宿主(溫室植物、飼養動物)至少也需要6次以上生物學重複,如人類這種無法控制基因型和生活環境的研究對象,實驗組至少30個起才容易發現有統計為意義的差異菌。而在樣品比較、樣品篩選時又必須看清這些點名字,用於篩選掉一些記錄錯誤、未報抗生素使用或隱性疾病等異常樣品。ggplot2的輔助包ggrepel就是專門處理遮蓋問題的專家。
  • Microbiome:環境樣品中絕對定量菌群豐度的新方法
    結果 我們已經開發出了使用合成的嵌合DNA 內參(spikes)對擴增子家族進行絕對定量的方法。將合成的內參直接添加到環境樣品中,共提取並進行PCR擴增,從而可以計算擴增子家族的絕對豐度。(例如每單位質量樣品的原核生物的16S,真核生物的18S和真菌ITS)。
  • PCR及其它核酸擴增技術
    核酸體外擴增是分子生物學研究的基礎。隨著生物技術的發展, 出現了越來越多的核酸體外擴增技術。根據其特點可分為三類: 一類是靶核酸的直接擴增, 如聚合酶鏈式反應等; 一類是探針擴增技術,如Cleavase/Invader Technology;另一類是信號放大擴增, 如HC2。
  • 16S rDNA擴增子測序研究健康人血液微生物多樣性
    在人們的潛意識當中,健康人的血液應該是無菌狀態的。
  • PCR技術:用PCR擴增cDNA庫中的特異序列
    為檢 驗不用傳統篩選方法即能克隆該蛋白基因的假說,我們採取了如下策略:  a).在Lambdagt22中建立一個在蝙蝠唾液腺中所有轉錄子的cDNA庫,並在邊側加 上SP6、T6聚合酶啟動子,這樣可以直接用兩種啟動子序列之一作引物進行擴增和測 序。  b).合成四組引物,組合起來代表已知的部分蛋白序列的全部有效密碼子組合 (1024種衍生列)。
  • 出現假陽性結果的另一種可能是樣品中存在有靶基因的同源序列
    PCR的汙染主要是標本間的交叉汙染和擴增子的汙染。出現假陽性結果的另一種可能是樣品中存在有靶基因的同源序列。為了避免因汙染而造成的假陽性,PCR操作時要隔離不同操作區、分裝試劑、簡化操作程序,使用一次性吸頭。PCR擴增DNA片段只是一個重要手段。
  • 微生物擴增子測序圖表解讀最新
    樣品中的微生物多樣性和不同微生物的豐度都是基於對OTU的分析。有了OTU這個概念之後,就不難理解下表。對每個樣本的測序數量和OTU數目進行統計,並且在表栺中列出了測序覆蓋的完整度。其中曲線的最高點也就是該樣本的Shannon指數,指數越高表明樣品的物種多樣性越高。好奇的同學又有疑問,Shannon指數怎麼算的?
  • ggrepel-解決散點圖樣品標籤重疊,方便篩選樣品
    尤其是在擴增子研究中,在相同基因型、環境條件宿主(溫室植物、飼養動物)至少也需要6次以上生物學重複,如人類這種無法控制基因型和生活環境的研究對象,實驗組至少30個起才容易發現有統計為意義的差異菌。而在樣品比較、樣品篩選時又必須看清這些點名字,用於篩選掉一些記錄錯誤、未報抗生素使用或隱性疾病等異常樣品。ggplot2的輔助包ggrepel就是專門處理遮蓋問題的專家。
  • PCR擴增分離目的DNA片段
    這項技術已廣泛地應用於分子生物學各個領域,它不僅可用於基因分離克隆和核酸序列分析,還可用於突變體和重組體的構建,基因表達調控的研究,基因多態性的分析,遺傳病和傳染病診斷,腫瘤機制探查,法醫鑑定等方面。PCR技術已成為方法學上的一次革命,它必將大大推動分子生物學各學科的研究發展。
  • 病原微生物基因擴增檢測
    可以將極微量的靶DNA特異性擴增上百萬倍,從而大大提高對DNA分子的分析和檢測能力,能檢測單分子DNA或每10萬個細胞中僅含1個靶DNA分子的樣品,因而此方法在分子生物學、微生物學、醫學及遺傳學等多領域廣泛應用和迅速發展。病原微生物基因擴增檢測不僅能滿足病毒性疾病診斷的需要,還有助於疾病預後的判斷、療效的監測等等。