CPAT:轉錄本蛋白編碼能力預測軟體

2020-10-18 生信修煉手冊

隨著高通量測序在lncRNA研究領域的應用, 越來越多的lncRNA被發現。對於轉錄組測序的數據而言,組裝得到轉錄本之後,首先要做的就是區分蛋白編碼和非蛋白編碼的RNA。

目前針對這一問題,有多種解決方案,基本可以分為以下兩類

  1. alignment-based

  2. alignment-free

第一種算法基於序列比對,可以較好的識別保守性較好的蛋白編碼基因, 包括CPC,PhyloCSF等軟體; 第二種算法不需要比對,而是通過coding和non-coding轉錄本的序列特徵來進行區分,包括CNCI, CPAT, PLEK等。

lncRNA在物種間的保守性較差,另外部分lncRNA的染色體位置和蛋白編碼基因存在重疊,通過序列比對的方式來區分容易造成誤判。除此之外,基於序列比對的軟體,其運行速度相對較慢,所以採用第二種算法的軟體綜合效果更好。

本文主要介紹CPAT的使用,網址如下

http://lilab.research.bcm.edu/cpat/

對於一個轉錄本而言,它是coding還是noncoding,  本質上是一個二分類問題,所以CPAT的開發者想到了通過邏輯回歸來解決這個問題。該軟體基於以下四個特徵構建了邏輯回歸模型來區分coding和noncoding

  1. open reading frame size

  2. open reading frame coverage

  3. Fickett TESTCODE statistic

  4. hexamer usage bias

前兩個因素都是針對開放閱讀框定義的,第一個因素是開放閱讀框的大小,第二個因素是開放閱讀框佔轉錄本總長度的比例,第三個因素基於序列的鹼基組成和密碼子分布進行定義,第四個因素基於序列中六聚體的頻率進行定義。

在論文中,針對以上4種特徵,首先評估在coding和noncoding中的分布,圖示如下

可以看到,coding和noncoding形成了兩個不同的峰,說明這4種特徵在coding和noncoding之間確實存在差異。

在論文中還通過ROC曲線評估了不同軟體的性能,結果如下

可以看到CPATCPC的效果是最好的。CPAT基於python程式語言開發,安裝非常的簡便,代碼如下

pip install CPAT

該軟體既可以在本地運行,也提供了在線版本。

1. 在線版本

在線版本的網址如下

http://lilab.research.bcm.edu/cpat/

可以直接輸入fasta格式的序列,也可以輸入bed格式的文件,此時需要指定對應的基因組版本,示意如下

2. 本地版本

本地版本對應的也有兩種用法,輸入bed文件的用法如下

cpat.py -r /database/hg19.fa -g mRNA_hg19.bed -d dat/Human_logitModel.RData -x  dat/Human_Hexamer.tsv -o output.txt

輸入fasta文件的用法如下

cpat.py -g transcript.fa -d dat/Human_logitModel.RData -x dat/Human_Hexamer.tsv -o output.txt

-d-x參數對應的文件為軟體構建好的模型,位於軟體的安裝目錄下。軟體的輸出結果如下所示

最後一列給出了轉錄本的蛋白編碼信息,yes代表該轉錄本為protein-coding轉錄本,no代表該轉錄本為noncoding轉錄本。

·end·

相關焦點

  • GeneMark-ES:真核生物編碼基因預測軟體
    GeneMark-ES軟體用於預測真核生物中的蛋白編碼基因,和其他預測基因結構的軟體不同,它採用的是非監督算法,可以不依賴訓練集進行預測。/gm_key_64 ~/.gm_keygm_key文件是軟體的通行證,需要拷貝到家目錄下,軟體本身只需要解壓縮就可以了。
  • miRcode:轉錄組miRNA靶點預測圖譜
    miRcodehttp://www.mircode.org/index.phpmiRcode-基於全面的GENCODE基因注釋,提供了「整個轉錄組」人類microRNA靶標預測,覆蓋完整的GENCODE注釋的轉錄組,包括10419條已經註冊的lncRNA,轉錄本注釋來源於Gencode
  • 北京基因組所開發跨物種長非編碼RNA鑑定軟體LGC
    近日,基因組所在國際生物多樣性與健康大數據(Global Biodiversity & Health Big Data,簡稱BHBD)聯盟框架下,與沙特阿卜杜拉國王科技大學、巴基斯坦真納大學以及美國梅奧醫學院開展科研合作,聯合開發了可跨物種使用的長非編碼RNA(long non-coding RNA, lncRNA)鑑定軟體
  • 詳解三款剪接位點預測軟體
    本文授權轉載自:諾禾生信剪接(Splicing,又稱拼接),是一種基因重組現象,在分子生物學中,主要是指細胞核內基因信息在轉錄過程中或是轉錄後的一種修飾,即將內含子移除及合併外顯子——內含子與外顯子的名稱是通用於編碼基因的DNA及其轉錄後的RNA——是真核生物的信使RNA前體(precursor messenger RNA)變成成熟mRNA的過程之一。
  • 突破認知:LncRNA、circRNA編碼啦!
    根據circRNADb收錄的數據,32914條環狀RNA,預測編碼超過100個胺基酸的達16328條,存在IRES的達7170條,表明很多環狀RNA也存在編碼短肽的能力:Circ-FBXW7表達185aa的短肽與膠質母細胞瘤表型相關7;circ-SHPRH表達146aa的短肽可起到抑制膠質瘤的發生8;circ-ZNF609編碼的短肽可控制成肌細胞的增殖9。
  • 文獻分享|【week42】大腦的預測編碼
    「導讀」243.自我監督深度語言模型可以有效模擬人類大腦在加工語言時的詞彙預測能力244.早期視覺皮層早已能夠通過使用大腦內部的期望而促進對新信息的加工245.review,雙加工模型,大腦先使用預測信息進行對比,同時也加工未被預測到的信息246.本研究為預測編碼理論中大腦的預測信息對輸入信息進行對比,也加工未被預測到的信息提供了證據
  • 實時編碼為定性研究提供便利
    近日,美國猶他大學教育心理學助理教授烏瑪·帕拉莫斯瓦蘭·多恩(Uma Parameswaran Dorn)和護理學院副教授格溫·拉坦泰斯(Gwen Latendresse)等人在《定性社會工作》雜誌7月號發表論文《實時(編碼)或非實時:一種新型定性研究編碼方法》,介紹了一種「實時編碼」方法,用於增強轉錄過程對訪談參與者表達內容的「捕獲」,可作為傳統文本轉錄方法的替代選擇
  • PNAS:反轉錄轉座子編碼蛋白質結構研究揭示分子進化
    德國蒂賓根大學馬克斯普朗克發育生物學學會的研究員確定了一種由寄生蟲遺傳因素編碼並引起流動性的蛋白質結構(L1ORF1p)。被稱為LINE-1的反轉錄轉座子是一種可以繁殖並能在不同方位插入染色體DNA中的移動遺傳因素。這就會打亂融合的遺傳密碼,由此對宿主生物體帶來嚴重後果。
  • 揭示反義長鏈非編碼RNA順式調控基因轉錄的新模式
    多細胞生物擁有不同大小的基因組,比如人的基因組比秀麗線蟲的大30倍,它們卻擁有相似數目的蛋白編碼基因。蛋白分子一直被認為是生命活動的載體和執行者。近年來隨著高通量DNA測序技術的發展,研究表明80%的人類基因組序列雖然能夠轉錄表達並產生RNA ,卻不能編碼和翻譯成蛋白。由此產生了大量的長鏈非編碼RNA(lncRNA),其基因數量(近2萬個)和蛋白編碼基因相當。
  • Science:對人類血細胞中的所有蛋白編碼基因進行全基因組轉錄組分析
    為此,在一項新的研究中,來自瑞典卡羅林斯卡研究所等研究機構的研究人員對通過流式細胞儀分選技術分離出的18種經典免疫細胞群體進行了基於轉錄組學的表達分析。他們將血細胞表達譜與組織表達譜相結合在一起,包括來自外部來源的轉錄組學數據以擴大這個開放式資料庫中包含的組織類型和大腦區域的數量。他們依據血細胞和組織中的表達特異性和分布對蛋白編碼基因進行了全基因組分類。
  • miRNA靶基因預測軟體__miRWalk 3.0
    /miRWalk 3.0 新特性:1、包括了TargetScan和miRDB這兩個靶基因預測資料庫的結果2、包括了miRTarBase實驗驗證的資料庫3、採用TarPmiR算法預測基因的CDS,5'UTR和3'UTR和miRNA的靶基因4、相對miRWalk 2.0,結果會更準確,界面操作也更加簡單方便Sticht
  • 直接RNA測序、串聯質譜法揭示新冠病毒的轉錄組和蛋白質組特徵
    近日,發表在預印本網站bioRxiv上的一篇論文使用直接RNA測序和串聯質譜法表明了SARS-CoV-2的轉錄組和蛋白質組的特徵,揭示了細胞通道在去除了疑似Furin 蛋白酶切位點的S蛋白中誘導的框內缺失突變的證據。
  • 預測編碼理論可啟發 AI 構建和人類似的意識
    上月,DeepMind 公司推出一種新型軟體,可以根據包含幾個物體的單幅照片,在沒有人類幹預的情況下,推測出從另一個視角看這些物體是什麼樣子。如果再多給幾張圖片,那麼這個軟體可以使用生成查詢網絡(Generative Query Network,GQN)生成一個簡單的模型。神經科學家也對生成查詢網絡產生了興趣,尤其是對其訓練算法。
  • 轉錄後修飾機制研究獲進展
    轉錄後修飾是真核細胞中,將初級轉錄RNA轉化為成熟RNA的加工過程。比如mRNA前體轉化為成熟的mRNA,其中包括剪接,並發生在蛋白質生物合成之前。這一加工過程對於真核生物基因組的正確翻譯至關重要,這是因為真核生物的初級轉錄RNA中包含既包括用於編碼蛋白質的外顯子又包含非編碼的內含子。
  • 研究揭示SARS-CoV-2的編碼能力
    研究揭示SARS-CoV-2的編碼能力 作者:小柯機器人 發布時間:2020/9/12 22:32:38 以色列魏茨曼科學研究院Noam Stern-Ginossar團隊揭示SARS-CoV-2的編碼能力。
  • 宏基因組bining+宏轉錄組強強聯合
    採用宏基因組genome bining以及宏轉錄組的方法,發現並驗證新物種和新功能。令人驚訝的是,這些基因組也編碼了DsrL蛋白,迄今為止該基因只在硫氧化微生物中發現。通過宏轉錄組分析進一步展示了酸桿菌的硫代謝基因在原生泥炭土壤中的表達情況以及它們在不同缺氧環境下的上調表達情況。這一結果說明了硫酸鹽呼吸途徑具有表達活性,但是,也有可能是像硫氧化細菌Desulfurivibrio alkaliphilus 那樣進行異化硫氧化或分歧反應。
  • 研究揭示轉錄迴路的進化規律
    研究揭示轉錄迴路的進化規律 作者:小柯機器人 發布時間:2020/1/3 14:48:42 美國加州大學舊金山分校Alexander D.
  • 表觀轉錄組學-m6A簡介
    與DNA相對應,在RNA水平也存在著多種化學修飾,已經發現的就有100種以上,在編碼和非編碼RNA上都存在。Epitranscriptome sequencing technologies: decoding RNA modificationshttps://www.nature.com/articles/nmeth.4110m6A是其中最常見,數量最多的一種轉錄後修飾
  • 軟體工程師的自白:真希望自己從沒學過編碼
    儘管從事這一領域會有回報,但我必須承認:有時真希望自己從沒學過編碼。怪癖自從我開始學習編寫代碼以來,瀏覽網頁就變得不一樣了。我再也不能忍受我在使用其他網站時遇到的錯誤。每當有什麼奇怪的事情發生時,好奇心就佔了上風,這時我必須打開瀏覽器的開發工具,開始調試。