高通量測序—2.檢查測序數據質量

2021-02-13 生信苑

當我們拿到我們測序數據,我們都很好奇的是想看看我們的數據長什麼樣子。那我們拿到的測序數據一般是什麼樣子呢?下面我看看一個簡單例子:

@SEQ_IDGATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT+!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

上面這個就是一個簡單的fastq數據格式,分別代表如下意思:

Line 1 用一個@開頭,代表的序列id

Line 2 表示的是raw sequence.

Line 3 + 表示following數據.

Line 4 表示的測序數據的質量.

數據質量對應的數字關係如下

!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHI|    |    |    |    |    |    |    |    |0....5...10...15...20...25...30...35...40|    |    |    |    |    |    |    |    |worst..best

當我們明白了fastq的數據格式,那我們下面的問題就是如何可以看到我們測序數據的質量。

通常我們用FastQC來檢查我們測序數據的質量。

1.FastQC安裝

你能得到安裝code從以下連結:

https://github.com/s-andrews/FastQC

http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

或者通過下載得到安裝包

curl -O http://data.biostarhandbook.com/data/sequencing-platform-data.tar.gztar xzvf sequencing-platform-data.tar.gz

或者通過conda 安裝

conda install -c bioconda fastqc

2.FastQC的運行

FastQC運行的命令很簡單,只需執行如下命令即可。

fastqc -t 64 -o ./raw_data_results/ t 表示運行的cores數量o 表示輸出文件路徑seq/$line.2.R1.fq.gz 表示需要分析的序列數據

運行完命令後,我們可以看到一個html格式的文件,可以用打開html格式的工具打開,比如Chrome,firefox等等。

3.我們能看到什麼呢?

per base數據質量分布圖

The vertical axis are the FASTQ scores that represent error probabilities:

10 corresponds to 10% error (1/10),

20 corresponds to 1% error (1/100),

30 corresponds to 0.1% error (1/1,000) and

40 corresponds to one error every 10,000 measurements (1/10,000) that is an error rate of 0.01%.

The three-colored bands illustrate the typical labels that we assign to these measures: reliable (30-40, green), less reliable (20-30, yellow), and error-prone (1-20, red). The yellow boxes contain 50% of the data, the whiskers indicate the 75% outliers. 

序列長度分布圖

序列質量分布圖

接頭分布

重複序列分布

GC含量分布圖

N 含量分布圖

基於以上信息,我們明白了我們測序數據中是不是有接頭序列,是不是有重複序列,是不是有N序列,序列的長度主要在什麼範圍內,序列的質量在什麼範圍內,基於以上信息,為我們後續的質量控制提供數據信息。

相關焦點

  • 高通量測序(又名下一代測序, NGS)的原理簡介
    高通量測序(High-Throughput Sequencing)又名下一代測序(Next Generation Sequencing,NGS)
  • 高通量測序的十年:從科研進入臨床
    各代測序的應用範圍:   一代測序(Sanger)適合單一片段,長度小於800bp的精準測序;二代適合快速、低價測量海量數據,每次測序能產生數百、數千萬條序列,但讀長不超過500bp;而以PacBio為代表的三代測序更適合單分子測序,最長可以到幾十K的讀長,但測序質量略低。
  • 高通量測序的前世今生
    「高通量測序」這詞我想大部分人都不會感到陌生,因為現如今它算得上是一個比較熱門的領域,但是您又知道多少關於高通量的知識呢?接下來小編來聊聊它的前世以及今生,帶您走進高通量測序的世界。所有事物的出現都是有必然聯繫的,不可能憑空出現。
  • 高通量測序技術在產前診斷中的應用
    常染色體P-CNV的胎兒更容易在中孕期或晚孕期發現存在結構畸形或生長受限等,而性染色體P-CNV的胎兒超聲檢查多無異常,如Xp22.31、Xp21.1、Xq22.1-q22.2的微缺失/微重複等。聯合核型分析和CNV-seq的產前診斷方案有利於相互驗證,避免漏診。由於所用的測序深度低,CNV-seq的不足在於:不能檢測胎兒染色體多倍體、染色體平衡性結構異常、低比例的染色體嵌合體、雜合性丟失等。
  • 高通量測序技術的原理和應用——第二代測序技術
    SOLiD以四色螢光標記寡核苷酸的連續連接合成為基礎,取代了傳統的聚合酶連接反應,可對單拷貝DNA片段進行大規模擴增和高通量並行測序。Preparation454測序技術利用噴霧法將待測DNA打斷成300-800bp長的小片段,並在片段兩端加上不同的接頭,或將待測DNA變性後用雜交引物進行PCR擴增,連接載體,構建單鏈DNA文庫。2.
  • 「基因組與轉錄組高通量測序應用最新技術與數據分析」高級實操...
    關於舉辦「基因組與轉錄組高通量測序應用最新技術與數據分析」高級實操班培訓通知各有關單位:隨著新一代高通量測序技術的快速發展,在準確度大大提高的前提下, 進一步降低測序成本。由此不斷產生出巨量的分子生物學數據,這些數據有著數量巨大、關係複雜的特點,以至於不利用計算機根本無法實現數據的存儲和分析。隨著生物信息學作為新興學科迅速蓬勃發展,正在改變人們研究生物醫學的傳統方式,高通量測序技術以及數據分析技術已成為探索生物學底層機制和研究人類複雜疾病診斷、治療及預後的重要工具,廣泛應用於生命科學各個領域,是21世紀生命科學與生物技術的重要戰略前沿和主要突破口。
  • 亞熱帶生態所開展「微生物16S高通量測序數據分析及作圖培訓」講座
    鑑於中國科學院亞熱帶農業生態研究所近年來對微生物的測序量大、研究生對測序數據的分析和信息挖掘不熟悉,造成微生物測序數據的發表相對滯後,應研究所研究員孔祥峰和所青年創新促進會的邀請,南京農業大學消化道微生物研究團隊的副教授成豔芬7月31日至8月2日到該所進行微生物16S高通量測序數據分析及作圖培訓。
  • 「基因組與轉錄組高通量測序應用最新技術與數據分析」高級實操班...
    由此不斷產生出巨量的分子生物學數據,這些數據有著數量巨大、關係複雜的特點,以至於不利用計算機根本無法實現數據的存儲和分析。隨著生物信息學作為新興學科迅速蓬勃發展,正在改變人們研究生物醫學的傳統方式,高通量測序技術以及數據分析技術已成為探索生物學底層機制和研究人類複雜疾病診斷、治療及預後的重要工具,廣泛應用於生命科學各個領域,是21世紀生命科學與生物技術的重要戰略前沿和主要突破口。
  • 華點雲:網際網路+高通量基因測序,讓基因解讀更容易
    華點雲自主研發的CelLoud雲平臺是基於高通量基因測序技術NGS的生物信息分析雲平臺,致力於為合作夥伴提供實現基於高通量基因檢測技術最終應用的全面解決方案,是我國最早自主研發並在臨床醫院推進使用的生物信息分析雲平臺之一。
  • 高通量多通道的單細胞測序設備,將投入醫療科研應用
    彼時,Bulk RNA測序還是細胞活檢組織轉錄組研究的主要手段,通過將組織中RNA釋放出來,然後進行全轉錄組的高通量定量檢測。 2012年美國上市公司Fluidigm推出了C1系統,96個單細胞腔體的Smart-Seq cDNA建庫解決方案,使得對96個細胞進行RNA測序和定量成為可能。
  • 火爆的背後,高通量測序面臨5大挑戰|深度
    Baker博士撰文講解該領域面臨的困難與挑戰過去十年裡,高通量測序技術經歷了跨越式的發展,測序能力大幅上升,費用下降,兩者的變化都是數量級的。到目前為止,全球範圍內,共配備測序設備超過一萬臺。過去十幾年來,主要的平臺公司都致力於提升系統的易用性。
  • 什麼是高通量單細胞RNA測序技術?
    打開APP 什麼是高通量單細胞RNA測序技術?該五篇文章幾乎都是同時發表,表明該領域的競爭激烈,同時也說明了單細胞測序技術在植物研究應用中已經成熟,期待未來更多的植物組織細胞的測序,為解決植物如何從胚發育成全株提供更多的信息! 什麼是高通量單細胞RNA測序技術?
  • 新型冠狀病毒33:胡晉川博士;高通量測序;間期,有絲分裂,紡錘
    本義:用量器計算容積或長度… …量2:數量:降雨~。產~… …通量:在流體運動中,單位時間內流經某單位面積的某屬性量,是表示某屬性量輸送強度的物理量。在經典力學中,動量表示為物體的質量和速度的乘積。
  • 基於高通量技術的SFTS病毒基因組測序方法的建立
    1.6 Illumina測序使用Illumina Hiseq 4000,按照標準操作對其進行雙端測序。Illumina測序得到的原始圖像數據經過Base Calling轉化為序列數據,結果以FASTQ文件格式來存儲。
  • 高通量測序+驗證套路,5分+SCI,可移植性高,門檻低,懂?
    高通量測序是一次性對幾百萬到十億條DNA分子進行並行測序,又稱為下一代測序技術,其使得可對一個物種的轉錄組和基因組進行深入、細緻、全貌的分析,所以又被稱為深度測序。在高通量測序發展的過程中,也有很多的問題需要我們去解決:數據在臨床診斷上的作用,測序數據的儲存和分析,數據的安全和信息隱私等。
  • 三大巨頭高通量測序(NGS)的原理特點、技術應用和意義
    三個廠家的高通量測序儀器雖然各具特點,在原理上很多的共同之處:1、 將目標DNA剪切為小片段2、 單個小片段DNA分子結合到固相表面3、 單分子獨立擴增4、 每次只複製一個鹼基(A,C,T,G)並檢測信號5、 高解析度的成像系統高通量測序以其高輸出量與高解析度的特性
  • 高通量測序公司靠什麼賺錢?
    其中,Sequenom,CardioDx,Foundation Medicine等都是通過提供臨床測序服務來盈利的。高通量測序技術出現以後,很多公司都試圖在這個平臺上進行產業化,包括國內的華大基因,貝瑞和康等。
  • 高通量測序原始數據中,adapter序列的去除及cutadapt使用介紹
    adapter是在高通量測序過程中,我們在未知片段兩端加入的已知片段,它緊緊連接在未知片段的兩端。測得的數據中為什麼會有adapter序列?因為在測序過程中未知片段的長短是不確定的,當我們的測序長度長於未知片段的時候,就會測到某一端的adapter序列。如下圖中,如果我們的未知片段(灰色點部分)長度為85bp,我們設定的read1測100bp,這個時候就會測到15bp的5』端adapter,即右側的紅色部分。
  • 高通量單細胞測序技術成果落地,萬乘基因獲500萬元天使輪融資
    這輪融資主要用於上海中心實驗室和代理網絡的建設,高通量核單細胞測序技術的開發,以及單細胞測序設備的設計和製造。萬城成立於2018年,主要業務是利用自主研發的高通量單細胞測序技術平臺服務於科研、臨床和工業市場。
  • 論文|高通量技術在微生物培養中的應用進展及分子測序對比分析
    單位:1.河南省糧油飼料產品質量監督檢驗中心;2.華中農業大學作物遺傳改良國家重點實驗室;3.南京農業大學;4.洛陽師範學院生命科學學院在分離培養方面,高通量已成功實現單細胞分離培養、模擬微生物原有生境的微生物原位富集培養以及對空氣中的微生物和一些環境耐受力弱或含量低的微生物的分離純化培養等;在分子測序方面,基於單分子簇的邊合成邊測序技術(SBS)和特有可逆終止化學反應,可實現對生物基因的快速測序。該研究通過對高通量分離培養及測序技術研究進行綜述,以期為高通量技術在微生物學和遺傳學的深入探究提供有益參考。