使用featureCounts進行定量分析

2020-10-18 生信修煉手冊

featuresCounts軟體用於統計基因/轉錄本上mapping的reads數,也就是用於raw count定量。該軟體不僅支持基因/轉錄本的定量,也支持exon, gene bodies, genomic bins, chromsomal locations等區間的定量。

官網如下

http://bioinf.wehi.edu.au/featureCounts/

featureCounts集成在subreads 軟體中, 類似 word 和 office 的關係, subreads 這個軟體也有對應的 R包Rsubreads

featureCounts 需要兩個輸入文件:

  1. 比對產生的BAM/ SAM文件

  2. 區間注釋文件

對於區間文件而言,支持以下兩種格式

  1. GTF 格式

  2. SAF 格式

GTF格式在之前的文章中詳細介紹過,這裡看下SAF格式,示例如下

GeneID    Chr    Start    End    Strand497097    chr1    3204563    3207049    -497097    chr1    3411783    3411982    -497097    chr1    3660633    3661579    -

就是\t分隔的5列文件,記錄了基因的染色體上的區間和正負鏈信息。

在featureCounts 軟體中,有兩個核心概念:

  1. feature

  2. metafeature

feature指的是基因組區間的最小單位,比如exon; 而metafeature可以看做是許多的feature構成的區間,比如屬於同一個gene的外顯子的組合。

在定量的時候,支持對單個feature 定量(對外顯子定量), 也支持對meta-feature 進行定量(對基因進行定量)。

當reads 比對到2個或者以上的features 時,默認情況下,featureCounts在統計時會忽略到這部分reads, 如果你想要統計上這部分reads, 可以添加-O 參數,此時一條reads 比對到多個feature, 每個feature 定量時,都會加1,對於meta-features 來說,如果比對到多個features 屬於同一個 meta-features(比如一條reads比對到了exon, 但這些exon 屬於同一個gene), 則對於這個gene 而言,只會計數1次。

總之,不管對於feature 還是meta-feature, 只有比對多個不同的區間時,才會分別計數。

features 支持對單個樣本定量,還支持對多個樣本進行歸一化。單個樣本定量的用法如下

featureCounts-T 5  \-t exon \-g gene_id -a annotation.gtf -o counts.txt mapping.sam

多個樣本歸一化的用法如下

featureCounts -t exon -g gene_id -a annotation.gtf -o counts.txt library1.bam library2.bam library3.bam

-a參數指定的區間注釋文件,默認是gtf格式;-T參數指定線程數,默認是1;-t參數指定想要統計的feature的名稱,取值範圍是gtf 文件中的第3列的值,默認是exon;-g參數  指定想要統計的meta-feature的名稱,取值範圍參考gtf第9列注釋信息,gtf的第9列為key=value的格式,-g參數可能的取值就是所有的key, 默認值是gene_id。

輸出的表達量文件內容示意如下

# Program:featureCounts v1.6.0; Command:"./featureCounts" "-T" "20" "-t" "exon" "-g" "gene_id" "-a" "hg19.gtf" "-o" "gene" "accepted_hits.bam"Geneid Chr Start End Strand Length accepted_hits.bamDDX11L1 chr1;chr1;chr1 11874;12613;13221 12227;12721;14409 +;+;+ 1652 0

#號開頭的注釋行,記錄了運行的命令;Geneid開頭的行是表頭,Geneid代表統計的meta-features的名稱,Chr,Start,End對應染色體上的位置,Strand代表正負鏈,由於一個基因有多個外顯子構成,所以這裡的染色體位置信息有多個,和外顯子個數一一對應。

Length 該區間的長度,最後一列的表頭是你的輸入文件的名稱,代表的是這個meta-feature的表達量。

這個軟體最大的特點就是運行速度非常快,幾分鐘就可以運行完一個樣本的定量。

·end·

相關焦點

  • 使用htseq-count進行定量分析
    和featurecounts一樣,htseq-count也是一款進行raw count定量的軟體。該軟體採用python語言進行開發,集成在HTseq這個包中。
  • 一個超簡單的轉錄組項目全過程--iMac+RNA-Seq(四)featureCounts
    比對結束後需要進行計數咯!featureCounts -h ## 好像發現了什麼不得了的$featureCounts -hfeatureCounts: invalid option -hVersion 1.6.2Usage: featureCounts [options] -a-oinputfile1
  • 使用LBA分析方法進行大分子生物標誌物的定量檢測分析
    相比較開發一個全新的方法用於生物標誌物的檢測,直接使用商業化的試劑盒可以大大地縮短生物分析方法建立的時間,減少方法建立所需的資源。其次,從開發程度上來說,雖然商業化試劑盒在研發過程中有內部的考察項和合格標準,但不同的生產商對試劑盒的標準相差甚遠,不同類別的試劑盒也有其不同的校驗體系,因此不同供應商的產品在穩定性和重現性上也差別較大,在實際的生物分析方法中需要進行確認。最後,從分析方法驗證的角度上來說,需要對分析方法進行特定的驗證項的考察,這些驗證通常是試劑盒生產商並未在產品開發中進行過的,或者進行的標準和方式不太適用。
  • 使用DESeq2進行兩組間的差異分析
    DESeq2 接受raw count的定量表格,然後根據樣本分組進行差異分析,具體步驟如下1.讀取文件的代碼如下# 讀取表達量的表格count <- read.table( "gene.counts.tsv", header=T, sep="\t", row.names=1, comment.char="", check.names=F)# 預處理,過濾低豐度的數據countData
  • 對轉錄組測序的counts矩陣去除批次效應
    最近連續收到好幾個求助,都是關於轉錄組測序的counts矩陣去除批次效應,值得寫推文解答一下咯!: nonephenoData  sampleNames: treated1fb treated2fb ... untreated4fb (7 total)  varLabels: sizeFactor condition type  varMetadata: labelDescriptionfeatureData: noneexperimentData
  • 5種高效利用value-counts函數的方法,一鍵提升數據挖掘姿勢水平
    Pandas 庫為此提供了許多有用的函數,value_counts 就是其中之一。此函數返回 pandas 數據框中各個項的數量。但在使用 value-counts 函數的大多數時候用到的是默認參數。因此,在這篇短文中,作者介紹了如何通過自定義參數來實現更多的功能。
  • 掃盲帖:轉錄組測序的Counts值,RPM,RPKM,FPKM,TPM介紹
    在RNA-seq中,對基因或轉錄本的reads數目進行標準化是非常重要的一步,因為落在一個基因區域內的read counts
  • 差異基因表達分析(上)
    廣義概念的定量PCR技術是指以外參或內參為標準,通過對PCR終產物的分析或PCR過程的監測,進行PCR起始模板量的定量。狹義概念的定量PCR技術(嚴格意義的定量PCR技術)是指用外標法(螢光雜交探針保證特異性)通過監測PCR過程(監測擴增效率)達到精確定量起始模板數的目的,同時以內對照有效排除假陰性結果(擴增效率為零)。
  • 如何用ImageJ對條帶進行定量分析?
    ImgaeJ是一款比較常用的科研圖片分析軟體,在之前已介紹過用它來進行細胞計數、不同顏色通道的螢光照片的融合和不規則區域面積的測定等
  • 代碼分析 | 單細胞轉錄組clustering詳解
    該數據集已進行了預處理、創建了SingleCellExperiment對象並對細胞進行了注釋(cellassign:用於腫瘤微環境分析的單細胞注釋工具(9月Nature))。特徵選擇第一步是決定在細胞聚類中使用哪些基因(Hemberg-lab單細胞轉錄組數據分析(十)- Scater基因評估和過濾)。
  • 使用OncoLnc進行TCGA生存分析
    通過收集整理TCGA中不同腫瘤患者的生存數據和基因表達譜信息,OncoLnc提供了一個生存分析的web服務,對應文章的連結如下https://peerj.com/articles/cs-67/網址如下http://www.oncolnc.org/OncoLnc收集了TCGA中21種腫瘤,共8647個病人的生存數據
  • 物有所值定量評價方法及流程分析
    因為獲得相同效益的前提就未必能實現,那對於這類項目(很多是使用者付費,且由社會資本承擔需求風險的項目),此時可以考慮在PSC法的基礎上,使用成本效益分析法進行補充評價,或者利用成本效益分析法對這類效益不能準確預測的項目進行敏感性分析。
  • R語言mRNA差異表達分析
    第五列FDR是對P值的校正結果,一般使用FDR小於0.05。火山圖數據使用:FDR取對數和FC取對數,用來繪製火山圖,並標註上調和下調基因。其中上調是指FC取對數大於某個正數,比如1,下調指的是FC取對數小於某個負數,比如-1.
  • . | 多重定量免疫肽組學平臺揭示MHC I結合肽變化
    目前針對檢查點阻斷的治療方法可以強化這種相互作用,但是為了深入理解相關藥物的最佳治療組合,需要對不同擾動因素如何改變免疫肽組進行定量的分析,而且實現呈遞抗原的絕對定量對於藥物設計同樣關鍵。為了提高免疫肽庫分析中的定量準確性,作者提出了一個分析方法,能夠對多個樣品中的pMHC進行準確的相對和絕對定量,同時控制與樣品處理和富集相關的損失。該方法使用內標和多點內部校準曲線進行準確的定量分析。
  • ATR法用於真絲棉混紡面料的定量分析
    為了滿足真絲棉混紡製品中真絲含量分析的要求,文中使用衰減全反射紅外光譜法(ATR)對真絲棉混紡製品進行蠶絲含量的定量分析。一般消費者和質量監察人員識別蠶絲製品的方法為看價格,看標籤,看靜電反應,看燃燒反應[1],國家標準使用燃燒法、顯微鏡法、紅外吸收光譜法進行定性分析[2],使用溶解法[3-4]等進行定量分析。以上方法需要破壞織物產品,或消耗大量試劑,既不適合大批量樣品的鑑定,又限制了成品的無損檢測。
  • 是什麼定量分析方法
    (-)三標準試法三標準試樣法是光譜定量分析最基本的方法,它準確度高,重現性好,適用於成品分析。它的缺點是,分析時間長,用感光板多,消耗標樣多,不適於快速分析。分析時,將控制標樣與分析試樣按同一分析條件攝在同一塊感光板上,然後測其分析線對的黑度差,根據持久曲線的斜率(rb),和由均稱線對的黑度差算出k值,並按下列公式計算log Cx = k(△S分 - △S標)/rb + log C標式中△S分和△S標別為分析試樣和控制標樣的分析線對的黑度差;rb——工作曲線的斜率;Cx——試樣的含量;
  • 數據特徵分析的基本知識
    分布分析:研究數據的分布特徵和分布類型,分定量數據,定性數據,區分基本統計量,清晰的結構認識極差/頻率分布情況(定性,定量(離散化)/分組組距及組數餅圖柱狀圖散點圖 plt.scatter()直方圖 plt.hist pd.cut value_counts 累計頻率 cumsum2.
  • 使用MISO進行可變剪切的分析
    MISO是一款經典的可變剪切分析工具,和rmats類似,該軟體也支持對可變剪切事件進行定量和差異分析,網址如下https://miso.readthedocs.io/en/fastmiso/index.html#這個軟體支持exon和transcript兩種水平的可變剪切分析,在rmats