IgBlast是NCBI設計開發的一種專一的blast工具,特定用於比對抗體( immunoglobulin ,IG)或T細胞受體( T cell receptor,TR)序列。
IG和TR的結構類似,都是由2條輕鏈和2條重鏈構成,每條鏈可以分為可變區(variable domain)和恆定區(constant domain)。可變區還可以進一步分為骨架區(FR)和互補作用區(CDR)。
IG或TR識別抗原的關鍵在於可變區的高度可變性,這種可變性是由「基因重排」機制產生。
人類的抗體或TR序列主要有3個基因座位編碼:
IGH:The immunoglobulin heavy locus,位於染色體14,包含重鏈的染色體序列
IGK:The immunoglobulin kappa (κ) locus ,位於染色體2,包含部分輕鏈序列
IGL:The immunoglobulin lambda (λ) locus ,位於染色體22,包含剩餘的輕鏈序列
這3種類別的輕鏈和重鏈也有多種基因片段組成,每個片段有多種拷貝,這些拷貝之間的重排就形成了繁複多樣的IG和TR。
對於重鏈而言:包含2個恆定區基因序列 Cμ 和Cδ、 44 個V基因、27 D基因、 6 個J基因。
對於輕鏈:包含2個 恆定區基因序列 Cμ 和Cδ,以及多個V、J基因,但是沒有D基因。
IgBlast可以識別一個IG或TR序列的原始V、D、J基因,分析這三種基因的結合細節、找到FR和CDR的邊界。Blast程序也可以進行IG或TR比對,但是由於IG或TR序列的特殊性,如不同的基因特徵長度,D基因至多10bp而V基因可達290bp,因此一個IG或TR其實需要多種不同參數的Blast程序進行比對,最後手工合成比對結果,不但繁瑣而且易出錯,但是使用IgBlast就可以快速高效的完成序列比對。
Igblast的安裝同Blast一樣,IgBlast也可以使用網頁工具https://www.ncbi.nlm.nih.gov/projects/igblast/,使用方法同Blast大同小異。
而這裡主要是說的本地化IgBlast的安裝,以human的IG序列比對所需要的Igblast安裝配置為例。
1. 下載並解壓igblast,並檢查文件的md5
mkdir igblast && cd igblast
# 下載安裝包
wget ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/1.8.0/ncbi-igblast-1.8.0-x64-linux.tar.gz
# 下載安裝包的md5
wget ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/1.8.0/ncbi-igblast-1.8.0-x64-linux.tar.gz.md5
# 檢查md5值
md5sum ncbi-igblast-1.8.0-x64-linux.tar.gz|diff - ncbi-igblast-1.8.0-x64-linux.tar.gz.md5
# 解壓即可
tar -xvzf ncbi-igblast-1.8.0-x64-linux.tar.gz
2. 下載所需要的optional_file文件及internal_data
IgBlast的安裝必須有V(D)J基因資料庫文件和 internal_data文件。V(D)J基因資料庫文件使用IMGT資料庫(見第3步)。
可選的文件是optional_file,optional_file是用於注釋V基因的類型及編碼區開始、結束位置等信息。
# 進入解壓後文件下的bin文件夾(ncbi-igblast-1.8.0/bin)
cd ncbi-igblast-1.8.0/bin
# 下載internal_data文件
wget -nH -m ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/internal_data/human/
mv blast/executables/igblast/release/internal_data ./ #將internal_data文件夾至於bin目錄下
# 下載optional_file(aux擴展名)文件
wget ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/optional_file/human_gl.aux
mkdir -p optional_file && mv human_gl.aux optional_file # 將aux文件置於optional_file文件夾下
3. 下載並配置IMGT資料庫
這裡是human的資料庫安裝,其他物種類似。IMGT資料庫的配置需要4步:
下載
IgBlast的README文件中註明可以在http://www.imgt.org/IMGT_vquest/share/textes/ 下載IMGT資料庫,而實際上這個頁面已經失效了。
正確的地址是http://www.imgt.org/download/V-QUEST/V-QUEST_reference_directory。
合併文件
將多個V基因文件合併成一個V基因文件,J做同樣處理,D只有一個,不需要合併。
修改序列名
使用NCBI提供的edit_imgt_file.pl將資料庫文件中的序列名稱從IMGT注釋修改為基因名稱。
edit_imgt_file.pl文件的地址為ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/edit_imgt_file.pl
創建blast資料庫
使用makeblastdb將V(D)J資料庫創建為blast資料庫,這個工具在igblast安裝包解壓後的ncbi-igblast-1.8.0文件夾下。
運行後就會產生18個資料庫文件,V、D、J各6個。
具體過程如下:
# 下載imgt資料庫文件
# 將下述地址目錄中的文件全部下載
http://www.imgt.org/download/V-QUEST/V-QUEST_reference_directory/Homo_sapiens/IG
# 將多個V、J文件分別整合為一個V、J文件
cat IGHJ.fasta IGKJ.fasta IGLJ.fasta>IGJ.fa
cat IGHV.fasta IGKV.fasta IGLV.fasta >IGV.fa
mv IGHD.fasta IGD.fa # 更改名稱,便於後續處理
rm *fasta
# 將下載的文件進行序列名修剪,只剩餘基因名
# 需要使用工具edit_imgt_file.pl
wget ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/edit_imgt_file.pl #下載
ls *.fa|grep IG|while read i; do ./edit_imgt_file.pl $i >${i%.*}.faq;done
rm IGJ.fa IGV.fa IGHD.fa
# 創建blast資料庫
ls *.faq|while read i; do j=${i%.*}; ./makeblastdb -parse_seqids -dbtype nucl -in $i -out human_gl_${j#*G};done
rm *.faq
Igblast使用有以下人源BCR序列,使用igblast比對工具查看其由哪一個V,D,J基因重排而成:
AGACGAGGGGGAAGACATTTGGGAAGGACTGACTCTCTGCAGAGACAGTGACCAGAGTCCCTTGGCCCCAGTAAGCAAACGGCGTAATCATATCTGCACAGTAATAGACGGCAGAGTCCTCAGATGTCAGGCTGCTGAGTTGCATGTAGGCTGTGTTGGAGGATGTATCTGCAGTGAATGTGGCCTTGCCCTTGAACTTCTCATTGTAGTTAGTACTACCACTTCCAGGTAAAATCTCTCCAATCCACTCAAGGCCATGTCCAGGCCTCTGCTTTACCCACTCTATCCAGTAGCTACTGA
1. 比對過程:
先將上述序列保存為BCRseq.fa文件,然後使用./igblastn進行比對即可。
比對命令為./igblastn -query BCRseq.fa -show_translation -outfmt 3。
igblastn命令有以下參數與注意事項:
由於已經將IGMT資料庫文件的文件名指定為了human_gl_V、human_gl_D、human_gl_J的標準形式,不需要再使用-germline_db_V -germline_db_D -germline_db_J用於指定V、D、J的資料庫文件。
使用optional_file(aux擴展名)可以找到v基因的編碼區開始位點、J基因類型以及CDR3結束位點。需要將optional_file文件放置於optional_file文件夾下,否則需要使用參數-auxiliary_data指定aux文件所在。
-organism 指定物種,默認是human
-ig_seqtype 指定TR代表進行TR比對,需要TR資料庫
-show_translation 顯示翻譯的蛋白質序列
-domain_system 可以指定kabat與imgt
-outfmt輸出格式,有三種格式3、4、7
2. 具體操作如下:
# 創建序列文件
vi BCRseq.fa # 複製序列
# 比對
./igblastn -query BCRseq.fa -show_translation -outfmt 3
3. 結果
默認每個基因會輸出3個最佳的比對序列,從圖示可以看出此序列是抗體的重鏈(有D基因),最可能的V、D、J基因為IGHV1-69*06、IGHD3-16*01、IGHJ4*03。
輸出結果中還有很多其他細節。
image-1參考資料
IgBlast Tools. https://www.ncbi.nlm.nih.gov/projects/igblast/
IgBLAST: an immunoglobulin variable domain sequence analysis tool. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3692102/#gkt382-B2
V(D)J recombination. https://en.wikipedia.org/wiki/V(D)J_recombination
還有更多文章,請移步公眾號閱讀
如果你生信基本技能已經入門,需要提高自己,請關註上面的生信技能樹,看我們是如何完善生信技能,成為一個生信全棧工程師。
如果你是初學者,請關注下面的生信菜鳥團,了解生信基礎名詞,概念,紮實的打好基礎,爭取早日入門。
生信菜鳥團公眾號二維碼