Hello大家好!我們又見面了!
通過前面的生物信息學10個基礎問題,我相信大家對測序的基本原理,FASTA與FASTQ格式以及FastQC的質控報告都有了一個清楚的認識。那麼接下來,我們就要進一步學習,學習如何把原始的FASTQ測序結果一步一步的準備成可以用來比對(mapping)的質控過後的FASTQ。
在生物信息學100個基礎問題 —— 第10題 讀懂FastQC報告之adapter與kmer(請點擊「原文連結」查看!)中,我們知道,測序結果中可能會有若干條序列存在adapter的信息,而adapter的信息一般是不在基因組上存在的。所以,在比對之前如果不把adapter去乾淨,我相信你會得到1個非常非常低的mapping rate。
圖1 RNA-Seq建庫的結果,如果不去adapter接下來根本比對不上!通常情況下,我們都是使用cutadapt這個軟體進行adapter(接頭)序列的去除。cutadapt這個軟體不但支持單端序列,還支持雙端序列的切除,同時還支持gz格式的自動壓縮與解壓縮。1個常用的切除命令類似:
cutadapt -a ADAPTER_FWD -A ADAPTER_REV -o out.1.fastq -p out.2.fastq reads.1.fastq reads.2.fastq
那麼我們今天需要思考的問題,與切除adapter的具體內容有關。
問題1. cutadapt中-a/-A 參數與-g/-G參數分別代表什麼意思?Illumina測序過程中,一般不會用到哪個參數?
問題2. cutadapt可以過濾一些非常短的reads,請解釋其中-m 參數是什麼意思?為什麼要過濾一些非常短的reads?
問題3. 在測序的過程中,我們經常發現一些序列的3'端的測序質量不太好(如圖2所示),即使去掉adapter以後還是需要把低質量的序列再去除1次,從而保證後續的mapping質量。cutadapt可以使用一些辦法來去除3'端質量不太好的序列。請說明用哪個參數來設置相關的cutoff,並簡要說明cutadapt對read質量判斷的策略與方法。
圖2 一般3'端的序列質量不夠好,即使去掉adapter以後還是需要把低質量的序列再去除1次,從而保證後續的mapping質量。參考資料:
請點擊「原文連結」查看!