Igblast的安裝與使用

2021-02-22 生信菜鳥團

IgBlast是NCBI設計開發的一種專一的blast工具，特定用於比對抗體（ immunoglobulin ，IG）或T細胞受體（ T cell receptor，TR）序列。

IG和TR的結構類似，都是由2條輕鏈和2條重鏈構成，每條鏈可以分為可變區（variable domain）和恆定區（constant domain）。可變區還可以進一步分為骨架區（FR）和互補作用區（CDR）。

IG或TR識別抗原的關鍵在於可變區的高度可變性，這種可變性是由「基因重排」機制產生。

人類的抗體或TR序列主要有3個基因座位編碼：

IGH：The immunoglobulin heavy locus，位於染色體14，包含重鏈的染色體序列

IGK：The immunoglobulin kappa (κ) locus ，位於染色體2，包含部分輕鏈序列

IGL：The immunoglobulin lambda (λ) locus ，位於染色體22，包含剩餘的輕鏈序列

這3種類別的輕鏈和重鏈也有多種基因片段組成，每個片段有多種拷貝，這些拷貝之間的重排就形成了繁複多樣的IG和TR。

對於重鏈而言：包含2個恆定區基因序列 Cμ 和Cδ、 44 個V基因、27 D基因、 6 個J基因。

對於輕鏈：包含2個恆定區基因序列 Cμ 和Cδ，以及多個V、J基因，但是沒有D基因。

IgBlast可以識別一個IG或TR序列的原始V、D、J基因，分析這三種基因的結合細節、找到FR和CDR的邊界。Blast程序也可以進行IG或TR比對，但是由於IG或TR序列的特殊性，如不同的基因特徵長度，D基因至多10bp而V基因可達290bp，因此一個IG或TR其實需要多種不同參數的Blast程序進行比對，最後手工合成比對結果，不但繁瑣而且易出錯，但是使用IgBlast就可以快速高效的完成序列比對。

Igblast的安裝

同Blast一樣，IgBlast也可以使用網頁工具https://www.ncbi.nlm.nih.gov/projects/igblast/，使用方法同Blast大同小異。

而這裡主要是說的本地化IgBlast的安裝，以human的IG序列比對所需要的Igblast安裝配置為例。

1. 下載並解壓igblast，並檢查文件的md5

mkdir igblast && cd igblast

# 下載安裝包

wget ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/1.8.0/ncbi-igblast-1.8.0-x64-linux.tar.gz

# 下載安裝包的md5

wget ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/1.8.0/ncbi-igblast-1.8.0-x64-linux.tar.gz.md5

# 檢查md5值

md5sum ncbi-igblast-1.8.0-x64-linux.tar.gz|diff - ncbi-igblast-1.8.0-x64-linux.tar.gz.md5

# 解壓即可

tar -xvzf ncbi-igblast-1.8.0-x64-linux.tar.gz

2. 下載所需要的optional_file文件及internal_data

IgBlast的安裝必須有V(D)J基因資料庫文件和 internal_data文件。V(D)J基因資料庫文件使用IMGT資料庫（見第3步）。

可選的文件是optional_file，optional_file是用於注釋V基因的類型及編碼區開始、結束位置等信息。

# 進入解壓後文件下的bin文件夾（ncbi-igblast-1.8.0/bin)

cd ncbi-igblast-1.8.0/bin

# 下載internal_data文件

wget -nH -m ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/internal_data/human/

mv blast/executables/igblast/release/internal_data ./ #將internal_data文件夾至於bin目錄下

# 下載optional_file（aux擴展名）文件

wget ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/optional_file/human_gl.aux

mkdir -p optional_file && mv human_gl.aux optional_file # 將aux文件置於optional_file文件夾下

3. 下載並配置IMGT資料庫

這裡是human的資料庫安裝，其他物種類似。IMGT資料庫的配置需要4步：

下載

IgBlast的README文件中註明可以在http://www.imgt.org/IMGT_vquest/share/textes/ 下載IMGT資料庫，而實際上這個頁面已經失效了。

正確的地址是http://www.imgt.org/download/V-QUEST/V-QUEST_reference_directory。

合併文件

將多個V基因文件合併成一個V基因文件，J做同樣處理，D只有一個，不需要合併。

修改序列名

使用NCBI提供的edit_imgt_file.pl將資料庫文件中的序列名稱從IMGT注釋修改為基因名稱。

edit_imgt_file.pl文件的地址為ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/edit_imgt_file.pl

創建blast資料庫

使用makeblastdb將V(D)J資料庫創建為blast資料庫，這個工具在igblast安裝包解壓後的ncbi-igblast-1.8.0文件夾下。

運行後就會產生18個資料庫文件，V、D、J各6個。

具體過程如下：

# 下載imgt資料庫文件

# 將下述地址目錄中的文件全部下載

http://www.imgt.org/download/V-QUEST/V-QUEST_reference_directory/Homo_sapiens/IG

# 將多個V、J文件分別整合為一個V、J文件

cat IGHJ.fasta IGKJ.fasta IGLJ.fasta>IGJ.fa

cat IGHV.fasta IGKV.fasta IGLV.fasta >IGV.fa

mv IGHD.fasta IGD.fa # 更改名稱，便於後續處理

rm *fasta

# 將下載的文件進行序列名修剪，只剩餘基因名

# 需要使用工具edit_imgt_file.pl

wget ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/edit_imgt_file.pl #下載

ls *.fa|grep IG|while read i; do ./edit_imgt_file.pl $i >${i%.*}.faq;done

rm IGJ.fa IGV.fa IGHD.fa

# 創建blast資料庫

ls *.faq|while read i; do j=${i%.*}; ./makeblastdb -parse_seqids -dbtype nucl -in $i -out human_gl_${j#*G};done

rm *.faq

Igblast使用

有以下人源BCR序列，使用igblast比對工具查看其由哪一個V,D,J基因重排而成：

AGACGAGGGGGAAGACATTTGGGAAGGACTGACTCTCTGCAGAGACAGTGACCAGAGTCCCTTGGCCCCAGTAAGCAAACGGCGTAATCATATCTGCACAGTAATAGACGGCAGAGTCCTCAGATGTCAGGCTGCTGAGTTGCATGTAGGCTGTGTTGGAGGATGTATCTGCAGTGAATGTGGCCTTGCCCTTGAACTTCTCATTGTAGTTAGTACTACCACTTCCAGGTAAAATCTCTCCAATCCACTCAAGGCCATGTCCAGGCCTCTGCTTTACCCACTCTATCCAGTAGCTACTGA

1. 比對過程：

先將上述序列保存為BCRseq.fa文件，然後使用./igblastn進行比對即可。

比對命令為./igblastn -query BCRseq.fa -show_translation -outfmt 3。

igblastn命令有以下參數與注意事項：

由於已經將IGMT資料庫文件的文件名指定為了human_gl_V、human_gl_D、human_gl_J的標準形式，不需要再使用-germline_db_V -germline_db_D -germline_db_J用於指定V、D、J的資料庫文件。

使用optional_file（aux擴展名）可以找到v基因的編碼區開始位點、J基因類型以及CDR3結束位點。需要將optional_file文件放置於optional_file文件夾下，否則需要使用參數-auxiliary_data指定aux文件所在。

-organism 指定物種，默認是human

-ig_seqtype 指定TR代表進行TR比對，需要TR資料庫

-show_translation 顯示翻譯的蛋白質序列

-domain_system 可以指定kabat與imgt

-outfmt輸出格式，有三種格式3、4、7

2. 具體操作如下：

# 創建序列文件

vi BCRseq.fa # 複製序列

# 比對

./igblastn -query BCRseq.fa -show_translation -outfmt 3

3. 結果

默認每個基因會輸出3個最佳的比對序列，從圖示可以看出此序列是抗體的重鏈（有D基因），最可能的V、D、J基因為IGHV1-69*06、IGHD3-16*01、IGHJ4*03。

輸出結果中還有很多其他細節。

image-1

參考資料

IgBlast Tools. https://www.ncbi.nlm.nih.gov/projects/igblast/

IgBLAST: an immunoglobulin variable domain sequence analysis tool. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3692102/#gkt382-B2

V(D)J recombination. https://en.wikipedia.org/wiki/V(D)J_recombination

還有更多文章，請移步公眾號閱讀

生信技能樹公眾號二維碼

如果你生信基本技能已經入門，需要提高自己，請關註上面的生信技能樹，看我們是如何完善生信技能，成為一個生信全棧工程師。

如果你是初學者，請關注下面的生信菜鳥團，了解生信基礎名詞，概念，紮實的打好基礎，爭取早日入門。

生信菜鳥團公眾號二維碼

Igblast的安裝與使用

相關焦點

為什麼 Biopython 的在線 BLAST 這麼慢?

拆解Megablast音箱,揭開其聲控設計的秘密

尋找同源基因工具OrthoMCL與OrthoFinder的安裝與使用

Blast at kindergarten gate wreaks havoc

從零開始學生信-orthofinder的安裝

【科普】淺談藍ig

實驗專欄 | Blast,有種,有料,有用!

From water droplets onplant leaves to blast furnace technology

Mesoblast公司幹細胞療法治療骨髓移植併發症3期試驗達終點

12月24日講座預告:The Rice Blast Fungus: Genomics and Beyond

諾華與Mesoblast達成合作共同推進新冠肺炎呼吸窘迫藥物研發

FPX VS iG評論大爆炸

Putin Vows to Perfect Mystery Rocket after Engine Blast

「S8的趙信加入IG,喊話王校長還記得峽谷的我嗎」

網友發現:官方在tes打IG的時候,有沒有單獨給JKL開美顏?

老ig團建了?LPL全明星投票三叉戟鎖定前三,karsa:打擾了

生信工具 | antiSMASH 安裝教程

Arctic blast poised to shatter records this week

精彩幻燈:生物序列的相似性搜索-blast簡介及其應用

使用OrthoFinder進行直系同源基因分析

Igblast的安裝與使用

相關焦點

為什麼 Biopython 的在線 BLAST 這麼慢?

拆解Megablast音箱,揭開其聲控設計的秘密

尋找同源基因工具OrthoMCL與OrthoFinder的安裝與使用

Blast at kindergarten gate wreaks havoc

從零開始學生信-orthofinder的安裝

【科普】淺談藍ig

實驗專欄 | Blast,有種,有料,有用!

From water droplets onplant leaves to blast furnace technology

Mesoblast公司幹細胞療法治療骨髓移植併發症3期試驗達終點

12月24日講座預告:The Rice Blast Fungus: Genomics and Beyond

諾華與Mesoblast達成合作 共同推進新冠肺炎呼吸窘迫藥物研發

FPX VS iG評論大爆炸

Putin Vows to Perfect Mystery Rocket after Engine Blast

「S8的趙信加入IG,喊話王校長還記得峽谷的我嗎」

網友發現:官方在tes打IG的時候,有沒有單獨給JKL開美顏?

老ig團建了?LPL全明星投票三叉戟鎖定前三,karsa:打擾了

生信工具 | antiSMASH 安裝教程

Arctic blast poised to shatter records this week

精彩幻燈:生物序列的相似性搜索-blast簡介及其應用

使用OrthoFinder進行直系同源基因分析

諾華與Mesoblast達成合作共同推進新冠肺炎呼吸窘迫藥物研發