當我們拿到我們測序數據,我們都很好奇的是想看看我們的數據長什麼樣子。那我們拿到的測序數據一般是什麼樣子呢?下面我看看一個簡單例子:
@SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT+!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65上面這個就是一個簡單的fastq數據格式,分別代表如下意思:
Line 1 用一個@開頭,代表的序列id
Line 2 表示的是raw sequence.
Line 3 + 表示following數據.
Line 4 表示的測序數據的質量.
數據質量對應的數字關係如下
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHI| | | | | | | | |0....5...10...15...20...25...30...35...40| | | | | | | | |worst..best當我們明白了fastq的數據格式,那我們下面的問題就是如何可以看到我們測序數據的質量。
通常我們用FastQC來檢查我們測序數據的質量。
1.FastQC安裝
你能得到安裝code從以下連結:
https://github.com/s-andrews/FastQC
http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
或者通過下載得到安裝包
curl -O http://data.biostarhandbook.com/data/sequencing-platform-data.tar.gztar xzvf sequencing-platform-data.tar.gz或者通過conda 安裝
conda install -c bioconda fastqc2.FastQC的運行
FastQC運行的命令很簡單,只需執行如下命令即可。
fastqc -t 64 -o ./raw_data_results/ t 表示運行的cores數量o 表示輸出文件路徑seq/$line.2.R1.fq.gz 表示需要分析的序列數據運行完命令後,我們可以看到一個html格式的文件,可以用打開html格式的工具打開,比如Chrome,firefox等等。
3.我們能看到什麼呢?
per base數據質量分布圖
The vertical axis are the FASTQ scores that represent error probabilities:
10 corresponds to 10% error (1/10),
20 corresponds to 1% error (1/100),
30 corresponds to 0.1% error (1/1,000) and
40 corresponds to one error every 10,000 measurements (1/10,000) that is an error rate of 0.01%.
The three-colored bands illustrate the typical labels that we assign to these measures: reliable (30-40, green), less reliable (20-30, yellow), and error-prone (1-20, red). The yellow boxes contain 50% of the data, the whiskers indicate the 75% outliers.
序列長度分布圖
序列質量分布圖
接頭分布
重複序列分布
GC含量分布圖
N 含量分布圖
基於以上信息,我們明白了我們測序數據中是不是有接頭序列,是不是有重複序列,是不是有N序列,序列的長度主要在什麼範圍內,序列的質量在什麼範圍內,基於以上信息,為我們後續的質量控制提供數據信息。