如何計算蛋白序列的長度、分子量、等電點等信息

2021-01-13 組學大講堂

做基因家族等分析時,有時候我們想知道蛋白質的分子量、等電點信息以及序列長度等信息。今天,小編教大家如何獲取這些信息。

ExPASy ProtParam在線獲取

ExPASy ProtParam 是一款在線蛋白質分析軟體,它可以計算一個蛋白質序列的各種理化參數,例如胺基酸序列長度、等電點、分子量等等。其用法如下:

輸入一條蛋白質序列:

提交後,系統會計算蛋白質序列的各種理化參數並顯示出來,而我們需要的信息如下圖所示:

perl腳本批量計算

ProtParam 網站一次只能提交一條序列,如果我們的蛋白質序列較少還可以使用,但是序列多的話就不適用了。這就需要一種批量處理的方法,為此我們專門寫了一個perl腳本,利用bioperl包裡面的方法,批量計算蛋白序列的長度、分子量、等電點信息。

使用方法:

perl  stat_protein_fa.pl  pep.fa  pep.stat.xls

pep.fa :是輸入的蛋白質序列;

pep.stat.xls :為輸出文件。

perl腳本代碼如下:




die "perl $0 <in>  <out>" unless(@ARGV==2);
use Bio::SeqIO;
use Bio::Seq;
use Bio::Tools::SeqStats;
use Bio::Tools::pICalculator;
use Data::Dumper;

my $in = Bio::SeqIO->new(
        -file   => "$ARGV[0]",
        -format => 'Fasta'
);

open OUT,">$ARGV[1]" or die "$!";
print OUT "#ID\tlength\tMV(Da)\tpI\n";
my $calc = Bio::Tools::pICalculator->new(-places => 2,-pKset => 'EMBOSS');



while ( my $seq = $in->next_seq() ) {
        my ( $id, $sequence, $desc ) = ( $seq->id, $seq->seq, $seq->desc );
        my $weight = Bio::Tools::SeqStats ->get_mol_wt($seq);
        $calc->seq($seq);
    my $iep = $calc->iep;
    print OUT sprintf("%s\t%s\t%s\t%s\n",
                  $seq->id,
                  $seq->length,
                  "$weight->[0]",
                  $iep);
}
$in->close();
close(OUT);

最後祝您科研愉快!

R語言基礎繪圖 | 出眾的進化樹注釋軟體 | 再教你畫Venn圖 | R語言繪製聚類熱圖 | 畫誤差線 | WGCNA篩選biomarker | 3分2區蛋白質組學文章 | 基因家族分析 | ceRNA | NCBI中的基因組數據

相關焦點

  • 蛋白質研究必備:等電點計算(pI)
    蛋白質研究的小夥伴們肯定經常接觸到一個名詞,等電點(isoelectric point)。當蛋白質處於某一pH環境中,所帶正、負電荷恰好相等,即淨電荷為零,呈兼性離子,此時溶液的pH值被稱為蛋白質的等電點。蛋白質在等電點時,其溶解度最小,最易形成沉澱物,主要應用於蛋白質等兩性電解質的分離提純。
  • 使用BiopharmaLynx軟體分析蛋白完整分子量
    賈偉                             沃特世科技(上海)有限公司實驗中心對蛋白藥的分子量進行測定,可以在完整蛋白水平,對其進行宏觀表徵,以初步確定蛋白的表達是否正確。
  • 如何獲取蛋白序列並進行序列比對?
    很多情況下,我們為了研究一個蛋白的重要性,需要查看這個蛋白在多個物種,以及與這個蛋白家族中其它蛋白的相似性,並構建進化樹。
  • 上海生科院揭示果蠅piRNA通路中Papi蛋白序列特異性識別Piwi蛋白在...
    Piwi蛋白並參與piRNA 3』端修剪的分子機制。過去研究發現,果蠅中敲除Papi蛋白時能夠特異性影響Piwi蛋白結合piRNA的長度,而Ago3和Aub蛋白結合的piRNA長度卻不受影響。然而對於Papi蛋白敲除特異性影響Piwi蛋白結合piRNA長度這一現象缺少分子機制的解釋。
  • 科學家發明蛋白序列比對新工具
    :HHblits,這是一種能極大增加蛋白功能性分析技術的軟體,能通過新穎的序列尋找方法,更快更準確的識別資料庫中具有相似序列的蛋白,比現有的方法能快2500倍!因此對於序列相似的蛋白來說,生物信息學方法能預測出其進化相關性,從而預測出相似的結構和功能。 所以蛋白結構分析是蛋白研究的一個重要方面,蛋白結構比對也成為了常規手段之一,研究人員常常在公眾資料庫中比對蛋白結構,通過分析這些相似的已知結構來分析蛋白的功能,Söding博士說,「這種序列分析方法是生物信息學領域的一種基礎研究手段。」
  • 分子量計算
    翻譯:劉廣峰這是RAW-BioSAXS教程的第二篇,本教程涵蓋了根據SAXS數據計算分子量的基本原理和操作。具體的操作可以參看之前的一篇:分子量的計算。 概述有許多方法可以根據SAXS數據計算分子量。RAW程序支持四種最常用的方法:Ø 利用絕對強度I(0)計算分子量[1]。
  • 如何選擇蛋白晶體結構
    在使用殷賦雲計算平臺的時候,有不少用戶對於如何選擇蛋白晶體結構存在疑問。本篇就這個話題做一些經驗分享。任何標準都有一個適用範圍。我們在這裡只討論用於分子對接的蛋白晶體結構的選擇原則和方法。1. 確定蛋白種屬在實驗當中,研究人員通常使用動物模型(如小鼠)來研究人源蛋白。
  • Nat Methods:蛋白序列比對新工具HHblits更快更準
    ,更快更準確的識別資料庫中具有相似序列的蛋白,比現有的方法能快2500倍!。蛋白存在於生命中幾乎所有生化過程中,一個蛋白的功能很大程度上依賴於其20種胺基酸排列組合的順序,以及胺基酸序列組成的三維空間結構。因此對於序列相似的蛋白來說,生物信息學方法能預測出其進化相關性,從而預測出相似的結構和功能。
  • Methods:德發明蛋白序列比對新工具——HHblits
    HHblits是一種能極大增加蛋白功能性分析技術的軟體,能通過新穎的序列尋找方法,更快更準確的識別資料庫中具有相似序列的蛋白,比現有的方法能快2500倍!領導這一研究的是慕尼黑大學基因中心的Johannes Soding博士,他表示,「我們的方法能延伸序列分析的廣度和力度,從而能方便之後的蛋白結構和功能的解析。」
  • 解析組蛋白氨基末端甲基化分子機制
    「NRMT1催化組蛋白氨基末端甲基化的分子機制」的論文,首次報導了人源氨基末端甲基轉移酶NRMT1與人著絲粒組蛋白CENP-A的複合物晶體結構,並通過一系列生化實驗,闡明了NRMT1識別組蛋白底物並進行氨基末端甲基化的分子機制。
  • DFT的計算量
    打開APP DFT的計算量 本站 發表於 2008-10-30 12:59:19 DFT的計算量離散傅立葉變換在實際應用中是非常重要的
  • Nat Commun:科學家揭示分子伴侶如何保護核糖體蛋白
    在一項新研究中,研究人員了解到了更多關於核糖體分子伴侶如何發揮作用的信息,發現每個分子伴侶都會以獨特的方式與被保護的蛋白結合。研究人員藉助X射線晶體成像技術解析了結合分子伴侶的核糖體蛋白的原子結構。「組裝核糖體的過程有點像做麵包。每一種成分都會有特別適合它們尺寸和形狀的包裝,一直到組裝的時候才會拆開包裹彎曲成需要的形狀。
  • 如何預測蛋白的跨膜螺旋?
    而α-螺旋在細胞中通常具有信號傳導或轉運通道功能,細胞中的跨膜蛋白以此類型為主,在人類中,27%的蛋白質被預測為α-螺旋型跨膜蛋白。 那麼,如何預測一個蛋白是否具有跨膜螺旋(TMH)呢? 今天推薦大家一款比較好用的在線工具-TMHMM 2.0。
  • 魏冬青——上海交通大學——生物信息學,計算生物學,計算化學...
    所在院校: 上海交通大學       所在院系: 生命科學技術學院 職稱: 教授       招生專業: 生物醫學工程 研究領域: 生物信息學
  • 中科院長春應化所李茂研究員:電化學引發序列和拓撲結構可控的逐步聚合
    電化學反應進行時同時激發至少2個反應位點在電極表面直接製備聚合物薄膜,但是這類電化學製備的高分子的分子量分布和序列結構是不可控的。中國科學院長春應用化學研究所李茂課題組首次同時利用電化學氧化和還原反應,基於電極上的自組裝電活性單分子,通過簡單地控制正負偏壓,實現了單個反應單體可控的逐步聚合反應(圖1),並且通過紫外可見吸收光譜電化學的數據得到了驗證(圖2)。
  • 尼羅羅非魚IL-6受體(IL-6R)和糖蛋白130(Gp130)的分子功能研究
    尼羅羅非魚IL-6受體(IL-6R)和糖蛋白130(Gp130)的分子功能研究出處:水生動物健康評估公眾號 作者:陳國權 水產養殖網 2020-04Gp130)的分子功能研究,引用信息如下:白細胞介素6(IL-6)是一種多效性細胞因子,通過與配體特異性的IL-6受體(IL-6R)和共同的信號轉導受體(gp130)組成的受體系統發揮生物學功能。
  • 生物物理所揭示鋅指抗病毒蛋白ZAP識別RNA的分子機制
    該研究工作解析了鋅指抗病毒蛋白ZAP N端抗病毒主要功能域與富含CG二核苷酸的單鏈RNA複合物的高解析度晶體結構,揭示了鋅指抗病毒蛋白ZAP識別單鏈RNA中CG二核苷酸、單獨鳥嘌呤核苷酸以及單獨胞嘧啶核苷酸的分子基礎。鋅指抗病毒蛋白ZAP最早由高光俠於2002年報導,是對於小鼠白血病病毒的複製具有抑制作用的一種宿主因子。
  • 雪球說生信 | 科研老司機如何檢索不同類型的分子信息
    分子可以給課題帶來變化,以分子為主要研究要素在多個維度進行分析和論證,是基礎科研和生信領域研究的常規套路;不同的分子,用相同或者類似的研究套路,往往又是一個新的課題研究。當然也有的科學研究,刻畫的是分子的群像,或者是從細胞的層面進行論證,這些不在本期的討論範圍。今天我就和大家聊一聊科研老司機是如何檢索不同分子類型的信息的。
  • 我國科學家揭示鋅指抗病毒蛋白ZAP識別RNA的分子機制
    鋅指抗病毒蛋白(Zinc-finger Antiviral protein,ZAP)是一種由宿主編碼的重要抗病毒因子,ZAP特異能夠抑制包括小鼠白血病病毒ZAP特異結合病毒的靶RNA序列,幹擾靶mRNA的翻譯起始。而ZAP識別RNA的序列特徵和作用分子機制一直是亟待解決的科學問題。我國科學家對不同ZAP蛋白的截短體和不同序列、不同長度的富含胞嘧啶和鳥嘌呤(CG)二核苷酸的單鏈RNA複合物進行晶體篩選,最終得到了解析度為2.19?的ZAP蛋白N端結構域(NZAP)與6-nt(CGUCGU)單鏈RNA複合物的晶體結構。
  • 膜蛋白以及疏水性蛋白精確分子量測定的LC-MS分析方法
    上篇推文《同時檢測50種膽汁酸的LC-MS分析方法》的閱讀量也突破了1000+,小編再次感謝大家的分享與轉發。話不多說,這篇推文的主題是膜蛋白以及疏水性蛋白精確分子量測定的LC-MS分析方法。精確分子量測定是蛋白表徵最重要的一步,確定蛋白的精確分子量可以幫助我們進一步確定其翻譯後修飾的存在以及水解的發生,更重要的是可以幫助我們判斷在蛋白純化過程中是否得到了目標純蛋白。變性LC-MS方法是實現蛋白精確分子量測定的一種常用方法,很多水溶性蛋白精確分子量測定的流程已經很成熟了,在此不再贅述。今天和大家分享如何用變性LC-MS方法實現膜蛋白以及疏水性蛋白的精確分子測定。