Igblast的安裝與使用

2021-02-22 生信菜鳥團

IgBlast是NCBI設計開發的一種專一的blast工具,特定用於比對抗體( immunoglobulin ,IG)或T細胞受體( T cell receptor,TR)序列。

IG和TR的結構類似,都是由2條輕鏈和2條重鏈構成,每條鏈可以分為可變區(variable domain)和恆定區(constant domain)。可變區還可以進一步分為骨架區(FR)和互補作用區(CDR)。

IG或TR識別抗原的關鍵在於可變區的高度可變性,這種可變性是由「基因重排」機制產生。

人類的抗體或TR序列主要有3個基因座位編碼:

IGH:The immunoglobulin heavy locus,位於染色體14,包含重鏈的染色體序列

IGK:The immunoglobulin kappa (κ) locus ,位於染色體2,包含部分輕鏈序列

IGL:The immunoglobulin lambda (λ) locus ,位於染色體22,包含剩餘的輕鏈序列

這3種類別的輕鏈和重鏈也有多種基因片段組成,每個片段有多種拷貝,這些拷貝之間的重排就形成了繁複多樣的IG和TR。

對於重鏈而言:包含2個恆定區基因序列 Cμ 和Cδ、 44 個V基因、27 D基因、 6 個J基因。

對於輕鏈:包含2個 恆定區基因序列 Cμ 和Cδ,以及多個V、J基因,但是沒有D基因。

IgBlast可以識別一個IG或TR序列的原始V、D、J基因,分析這三種基因的結合細節、找到FR和CDR的邊界。Blast程序也可以進行IG或TR比對,但是由於IG或TR序列的特殊性,如不同的基因特徵長度,D基因至多10bp而V基因可達290bp,因此一個IG或TR其實需要多種不同參數的Blast程序進行比對,最後手工合成比對結果,不但繁瑣而且易出錯,但是使用IgBlast就可以快速高效的完成序列比對。

Igblast的安裝

同Blast一樣,IgBlast也可以使用網頁工具https://www.ncbi.nlm.nih.gov/projects/igblast/,使用方法同Blast大同小異。

而這裡主要是說的本地化IgBlast的安裝,以human的IG序列比對所需要的Igblast安裝配置為例。

1. 下載並解壓igblast,並檢查文件的md5

mkdir igblast && cd igblast

# 下載安裝包

wget ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/1.8.0/ncbi-igblast-1.8.0-x64-linux.tar.gz

# 下載安裝包的md5

wget ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/1.8.0/ncbi-igblast-1.8.0-x64-linux.tar.gz.md5

# 檢查md5值

md5sum ncbi-igblast-1.8.0-x64-linux.tar.gz|diff - ncbi-igblast-1.8.0-x64-linux.tar.gz.md5

# 解壓即可

tar -xvzf ncbi-igblast-1.8.0-x64-linux.tar.gz

2. 下載所需要的optional_file文件及internal_data

IgBlast的安裝必須有V(D)J基因資料庫文件和 internal_data文件。V(D)J基因資料庫文件使用IMGT資料庫(見第3步)。

可選的文件是optional_file,optional_file是用於注釋V基因的類型及編碼區開始、結束位置等信息。

# 進入解壓後文件下的bin文件夾(ncbi-igblast-1.8.0/bin)

cd ncbi-igblast-1.8.0/bin

# 下載internal_data文件

wget -nH -m ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/internal_data/human/

mv blast/executables/igblast/release/internal_data ./ #將internal_data文件夾至於bin目錄下

# 下載optional_file(aux擴展名)文件

wget ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/optional_file/human_gl.aux

mkdir -p optional_file && mv human_gl.aux optional_file # 將aux文件置於optional_file文件夾下

3. 下載並配置IMGT資料庫

這裡是human的資料庫安裝,其他物種類似。IMGT資料庫的配置需要4步:

下載

IgBlast的README文件中註明可以在http://www.imgt.org/IMGT_vquest/share/textes/ 下載IMGT資料庫,而實際上這個頁面已經失效了。

正確的地址是http://www.imgt.org/download/V-QUEST/V-QUEST_reference_directory。

合併文件

將多個V基因文件合併成一個V基因文件,J做同樣處理,D只有一個,不需要合併。

修改序列名

使用NCBI提供的edit_imgt_file.pl將資料庫文件中的序列名稱從IMGT注釋修改為基因名稱。

edit_imgt_file.pl文件的地址為ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/edit_imgt_file.pl

創建blast資料庫

使用makeblastdb將V(D)J資料庫創建為blast資料庫,這個工具在igblast安裝包解壓後的ncbi-igblast-1.8.0文件夾下。

運行後就會產生18個資料庫文件,V、D、J各6個。

具體過程如下:

# 下載imgt資料庫文件

# 將下述地址目錄中的文件全部下載

http://www.imgt.org/download/V-QUEST/V-QUEST_reference_directory/Homo_sapiens/IG

# 將多個V、J文件分別整合為一個V、J文件

cat IGHJ.fasta IGKJ.fasta IGLJ.fasta>IGJ.fa

cat IGHV.fasta IGKV.fasta  IGLV.fasta >IGV.fa

mv IGHD.fasta IGD.fa # 更改名稱,便於後續處理

rm *fasta

# 將下載的文件進行序列名修剪,只剩餘基因名

# 需要使用工具edit_imgt_file.pl

wget ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/edit_imgt_file.pl #下載

ls *.fa|grep IG|while read i; do ./edit_imgt_file.pl $i >${i%.*}.faq;done

rm IGJ.fa IGV.fa IGHD.fa

# 創建blast資料庫

ls *.faq|while read i; do j=${i%.*}; ./makeblastdb -parse_seqids -dbtype nucl -in $i -out human_gl_${j#*G};done

rm *.faq

Igblast使用

有以下人源BCR序列,使用igblast比對工具查看其由哪一個V,D,J基因重排而成:

AGACGAGGGGGAAGACATTTGGGAAGGACTGACTCTCTGCAGAGACAGTGACCAGAGTCCCTTGGCCCCAGTAAGCAAACGGCGTAATCATATCTGCACAGTAATAGACGGCAGAGTCCTCAGATGTCAGGCTGCTGAGTTGCATGTAGGCTGTGTTGGAGGATGTATCTGCAGTGAATGTGGCCTTGCCCTTGAACTTCTCATTGTAGTTAGTACTACCACTTCCAGGTAAAATCTCTCCAATCCACTCAAGGCCATGTCCAGGCCTCTGCTTTACCCACTCTATCCAGTAGCTACTGA

1. 比對過程:

先將上述序列保存為BCRseq.fa文件,然後使用./igblastn進行比對即可。

比對命令為./igblastn -query BCRseq.fa -show_translation -outfmt 3。

igblastn命令有以下參數與注意事項:

由於已經將IGMT資料庫文件的文件名指定為了human_gl_V、human_gl_D、human_gl_J的標準形式,不需要再使用-germline_db_V -germline_db_D -germline_db_J用於指定V、D、J的資料庫文件。

使用optional_file(aux擴展名)可以找到v基因的編碼區開始位點、J基因類型以及CDR3結束位點。需要將optional_file文件放置於optional_file文件夾下,否則需要使用參數-auxiliary_data指定aux文件所在。

-organism 指定物種,默認是human

-ig_seqtype 指定TR代表進行TR比對,需要TR資料庫

-show_translation 顯示翻譯的蛋白質序列

-domain_system 可以指定kabat與imgt

-outfmt輸出格式,有三種格式3、4、7

2. 具體操作如下:

# 創建序列文件

vi BCRseq.fa # 複製序列

# 比對

./igblastn -query BCRseq.fa  -show_translation -outfmt 3

3. 結果

默認每個基因會輸出3個最佳的比對序列,從圖示可以看出此序列是抗體的重鏈(有D基因),最可能的V、D、J基因為IGHV1-69*06、IGHD3-16*01、IGHJ4*03。

輸出結果中還有很多其他細節。

image-1

參考資料

IgBlast Tools. https://www.ncbi.nlm.nih.gov/projects/igblast/

IgBLAST: an immunoglobulin variable domain sequence analysis tool. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3692102/#gkt382-B2

V(D)J recombination. https://en.wikipedia.org/wiki/V(D)J_recombination

還有更多文章,請移步公眾號閱讀

生信技能樹公眾號二維碼

如果你生信基本技能已經入門,需要提高自己,請關註上面的生信技能樹,看我們是如何完善生信技能,成為一個生信全棧工程師。

如果你是初學者,請關注下面的生信菜鳥團,了解生信基礎名詞,概念,紮實的打好基礎,爭取早日入門。

生信菜鳥團公眾號二維碼

相關焦點