kallisto 是2016年發布的一款無須比對的轉錄本定量工具,採用了名為pseudo-alignment的算法。傳統的定量算法是根據reads的比對位置來確認其屬於哪個轉錄本或者基因,而pseudo-alignment 算法不關係reads具體的比對位置,而是通過reads的kmer特徵來判斷其屬於哪一條轉錄本,示意圖如下
![]()
首先將每個轉錄本序列劃分為kmer, 利用所有轉錄本的kmer序列構建de Bgujin Graph, 簡稱T-DBG,在這個圖中,每個節點是一個kmer, 每條路徑代表一個轉錄本, 由於轉錄本序列的冗餘,實際上每個kmer對應多條路徑,也就是對應多個轉錄本; 然後將測序的reads也劃分為kmer, 並將其映射到T-DBG中。
最終定量時,將該reads的所有kmer對應的轉錄本取交集,就能夠分析出reads可能屬於哪些轉錄本序列。
軟體的官網如下
https://pachterlab.github.io/kallisto/download.html
官網有編譯好的可執行文件,下載解壓即可。代碼如下
wget https://github.com/pachterlab/kallisto/releases/download/v0.44.0/kallisto_linux-v0.44.0.tar.gztar xzvf kallisto_linux-v0.44.0.tar.gz
解壓之後,在文件夾下可以看到名為kallisto
的可執行文件。從算法也可以看到,軟體的運行需要兩步,第一步對轉錄本的序列劃分kmer, 構建T-DBG, 也稱之為建索引;第二步對reads 定量。
1. 對轉錄本序列建立索引
kallisto支持讀取gzip壓縮的轉錄本序列,用法如下
kallisto index -k 31 -i hg19.idx hg19.refMrna.fa
只需要提供轉錄本的fasta格式的序列即可。-k
參數指定kmer的長度,-i
參數指定輸出的索引的名字,注意kallisto建立的索引為一個文件。
2. 定量
kallisto 支持單端和雙端數據的定量,雙端數據用法如下
kallisto quant -i hg19.idx -o out_dir -t 20 \R1.fastq.gz R2.fastq.gz
-i
參數指定轉錄本的索引文件,-o
參數指定輸出結果的目錄,-t
參數指定線程數,kallisto支持gzip壓縮的序列文件。
單端數據用法如下
kallisto quant -i hg19.idx -o output --single -l 180 -s 20 -t 20 reads.fastq.gz
對於單端數據而言,必須指定fragment長度的均值和方差,分別對應-l
和-s
參數。
在輸出目錄,會生成以下3個文件
├── abundance.h5├── abundance.tsv└── run_info.json
run_info.json 文件為JSON格式,保存了運行的命令和參數。
前綴為abundance
的文件,保存了轉錄本的定量信息。其中h5
為HDF5格式的文件,當轉錄本數量較多時,相比純文本,這種格式的文件大小會小很多;tsv
為純文本的文件,內容如下
target_id | length | eff_length | est_counts | tpm |
---|
NR_103451
相關焦點
-
CPAT:轉錄本蛋白編碼能力預測軟體
對於轉錄組測序的數據而言,組裝得到轉錄本之後,首先要做的就是區分蛋白編碼和非蛋白編碼的RNA。目前針對這一問題,有多種解決方案,基本可以分為以下兩類alignment-basedalignment-free第一種算法基於序列比對,可以較好的識別保守性較好的蛋白編碼基因, 包括CPC,PhyloCSF等軟體; 第二種算法不需要比對
-
stringTie:轉錄本組裝和定量工具
對於轉錄組數據而言,最基礎的分析就是基因和轉錄本水平的定量了,定量就是確定一個基因或者轉錄本的表達量,其中定量的方式有很多種。最直接的方式就是統計mapping到這個基因/轉錄本上的reads的個數,將reads數作為表達量。我們稱這種表達量為raw count。
-
希望組正式推出納米孔單細胞全長轉錄組測序分析服務
因此,結合了長讀長測序技術的單細胞全長轉錄組備受矚目。作為國內三代測序服務的引領者,希望組在三代測序技術領域深耕多年,將長讀長與單細胞測序技術結合,開發出了完整的納米孔單細胞全長轉錄組實驗分析流程,打破用三代測序單細胞全長轉錄組建庫起始量高的技術壁壘,並於近日正式推出納米孔單細胞全長轉錄組測序分析服務。
-
Cpf1-crRNA成為DNA-free基因編輯的稱手工具
但是,由於密碼子偏愛性等因素的影響,CRISPR/Cpf1在植物中實際的應用效果並不理想。最近,基於Cpf1核糖核酸酶的特點,科學家通過體外構建Cpf1–crRNA核糖核蛋白複合體的方式實現了對大豆和菸草的基因組編輯,DNA-free的方式不僅提高了編輯效率,還避免了因載體插入而引起的各種問題。
-
百度推出AI音頻轉錄工具SwiftScribe,讓你20分鐘搞定1小時的錄音 |...
原標題:百度推出AI音頻轉錄工具SwiftScribe,讓你20分鐘搞定1小時的錄音 | 鈦快訊 鈦媒體快訊 | ,一個利用人工智慧,讓用戶能快速將音頻快速轉成文字的免費網頁工具。
-
轉錄組測序之各類樣品如何取樣
我們將常見轉錄組測序的樣品分為五大類:植物、動物、血液、微生物和互作類型,不同的類型對於取樣方法和要求不盡一致,下面就一一介紹一下。1. 植物組織:植物組織一般要求重量大於 4g。首先我們要準備好液氮預冷的無酶管,並做好取樣器械的消毒和去RNA酶處理,儘量選取新鮮幼嫩、生長旺盛部位的樣本進行迅速採集,然後用RNase-free水對樣品表面進行快速的清洗,吸乾表面液體之後放入無酶管中液氮速凍(時間不要太短哦),待徹底冷凍後,轉移至-80℃冰箱保存。2. 動物組織:送樣的重量一般要求在 2g以上。
-
「基因組與轉錄組高通量測序應用最新技術與數據分析」高級實操...
隨著生物信息學作為新興學科迅速蓬勃發展,正在改變人們研究生物醫學的傳統方式,高通量測序技術以及數據分析技術已成為探索生物學底層機制和研究人類複雜疾病診斷、治療及預後的重要工具,廣泛應用於生命科學各個領域,是21世紀生命科學與生物技術的重要戰略前沿和主要突破口。
-
Nat Comm | 松陽洲組成功開發基於type I-F CRISPR-Cas系統的高效轉錄激活工具
short palindromic repeats-CRISPR-associated proteins)系統的效應蛋白融合,研究人員已經開發了一系列轉錄激活工具【1-5】。利用這些轉錄激活工具可以在不改變基因組DNA的情況下,直接激活細胞內源基因的表達,有望治療一些由於內源基因表達不足導致的遺傳疾病,並避免基因編輯導致的DNA脫靶等副作用。例如,激活HBG基因的表達可以治療HBB基因突變導致的β-地中海貧血。但是,現有轉錄激活工具激活內源基因表達的效率仍然不高,如何提高轉錄激活的效率成為亟待解決的科學問題。
-
實驗設計策略(一):RNA轉錄的實驗方法選擇和步驟
連轉錄和反轉錄都不太搞得清楚的科研新人如何根據自己的實際情況各取所需呢?作為新人,自然選擇前者,因為經打聽和查資料後我發現,RNA轉錄使用實時螢光定量PCR(qPCR)方法就好,容易上手出結果快,而對比蛋白質表達水平的Western Blot(WB),在抗體成本和摸索實驗體系的時間成本上都不合算(當然,很多實驗中如果RNA轉錄水平出現差異,還是很有必要在蛋白水平進行驗證的,這個我們會在以後的文章中詳述)。
-
「基因組與轉錄組高通量測序應用最新技術與數據分析」高級實操班...
隨著生物信息學作為新興學科迅速蓬勃發展,正在改變人們研究生物醫學的傳統方式,高通量測序技術以及數據分析技術已成為探索生物學底層機制和研究人類複雜疾病診斷、治療及預後的重要工具,廣泛應用於生命科學各個領域,是21世紀生命科學與生物技術的重要戰略前沿和主要突破口。
-
微生物組學數據分析工具綜述 | 16S+宏基因組+宏病毒組+宏轉錄組
宏轉錄組的好處是,跳出了DNA層面的束縛,可以獲得實時活躍的、真正對群落有貢獻的基因和通路,然而mRNA不如DNA穩定,此外多純化和擴增的步驟也可能引入錯誤。表1 三種技術的選擇策略關於16S的全流程,我在生信者言的千聊直播間裡和大家做過系列課程分享,ppt可聯繫小秘書Anymore(微信號:genegogo007)獲取,另外,專門針對16S的生信分析,也給大家做過一個詳細的工具單和點評:《9個模塊+40
-
一個超簡單的轉錄組項目全過程--iMac+RNA-Seq(四)featureCounts
前期文章一個超簡單的轉錄組項目全過程--iMac+RNA-Seq(一)一個超簡單的轉錄組項目全過程-
-
BBRC:章張等開發出編碼蛋白質DNA序列並行比對工具ParaAT
近日,國際雜誌Biochemical and Biophysical Research Communications在線刊登了中國科學院北京基因組研究所基因組科學與信息重點實驗室「百人計劃」章張研究員團隊的最新研究成果,研究者成功開發出「編碼蛋白質DNA序列並行比對工具—ParaAT(Parallel Alignment and back-Translation
-
基因轉錄調控:共激活因子的多樣性及調控機制
Roeder教授首先發現了真核生物RNA聚合酶I、II、III,從而開創了真核生物轉錄調控領域。隨後Roeder實驗室採用生物化學方法建立了體外轉錄系統,並利用該系統分離和鑑定了眾多關鍵轉錄調控因子,其中包括第一個真核轉錄因子TFIIIA、中介體複合物(mediator)以及多種通用轉錄因子(GTFs),並且揭示了染色質結構(包括組蛋白修飾)在表觀遺傳水平對基因轉錄的影響。
-
BBRC:章張團隊研究開發出DNA序列並行比對新工具
最近,中國科學院北京基因組研究所基因組科學與信息重點實驗室「百人計劃」章張研究員,帶領其團隊成功開發出「編碼蛋白質DNA序列並行比對工具—ParaAT(Parallel Alignment and back-Translation)」。
-
Nature 重磅,線粒體基因編輯工具橫空出世! 劉如謙繼續革新鹼基編輯器
與傳統線粒體基因編輯工具(核酸酶)不同,DddA 可在不引起線粒體雙鏈 DNA 斷裂的情況下將胞嘧啶 C 轉化為尿嘧啶 U,使其成為完美的線粒體基因編輯工具內核。Mougous 和 David Liu 研究組開發的線粒體基因編輯工具 DdCBE。
-
No Smoking是「禁止吸菸」,那Smoking-free是禁菸,還是抽菸呢?
在中國大都市中,我最喜歡深圳的控制吸菸的條例,這個地方性法規,被稱為「史上最嚴控煙條例」,二手菸的危害大家都知道到,為了保障公眾健康,創造良好的工作和生活環境,深圳控制吸菸的條例規定:在室內工作場所,室內公共場所,公共運輸工具內以及學校、公園、醫療衛生機構等室外場所禁止吸菸,違法吸菸者最高罰款可達500元。
|