做基因家族等分析時,有時候我們想知道蛋白質的分子量、等電點信息以及序列長度等信息。今天,小編教大家如何獲取這些信息。
ExPASy ProtParam在線獲取ExPASy ProtParam 是一款在線蛋白質分析軟體,它可以計算一個蛋白質序列的各種理化參數,例如胺基酸序列長度、等電點、分子量等等。其用法如下:
輸入一條蛋白質序列:
提交後,系統會計算蛋白質序列的各種理化參數並顯示出來,而我們需要的信息如下圖所示:
perl腳本批量計算ProtParam 網站一次只能提交一條序列,如果我們的蛋白質序列較少還可以使用,但是序列多的話就不適用了。這就需要一種批量處理的方法,為此我們專門寫了一個perl腳本,利用bioperl包裡面的方法,批量計算蛋白序列的長度、分子量、等電點信息。
使用方法:
perl stat_protein_fa.pl pep.fa pep.stat.xls
pep.fa :是輸入的蛋白質序列;
pep.stat.xls :為輸出文件。
perl腳本代碼如下:
die "perl $0 <in> <out>" unless(@ARGV==2);
use Bio::SeqIO;
use Bio::Seq;
use Bio::Tools::SeqStats;
use Bio::Tools::pICalculator;
use Data::Dumper;
my $in = Bio::SeqIO->new(
-file => "$ARGV[0]",
-format => 'Fasta'
);
open OUT,">$ARGV[1]" or die "$!";
print OUT "#ID\tlength\tMV(Da)\tpI\n";
my $calc = Bio::Tools::pICalculator->new(-places => 2,-pKset => 'EMBOSS');
while ( my $seq = $in->next_seq() ) {
my ( $id, $sequence, $desc ) = ( $seq->id, $seq->seq, $seq->desc );
my $weight = Bio::Tools::SeqStats ->get_mol_wt($seq);
$calc->seq($seq);
my $iep = $calc->iep;
print OUT sprintf("%s\t%s\t%s\t%s\n",
$seq->id,
$seq->length,
"$weight->[0]",
$iep);
}
$in->close();
close(OUT);
最後祝您科研愉快!
R語言基礎繪圖 | 出眾的進化樹注釋軟體 | 再教你畫Venn圖 | R語言繪製聚類熱圖 | 畫誤差線 | WGCNA篩選biomarker | 3分2區蛋白質組學文章 | 基因家族分析 | ceRNA | NCBI中的基因組數據