Igblast的安裝與使用

2021-02-11 生信菜鳥團

IgBlast是NCBI設計開發的一種專一的blast工具,特定用於比對抗體( immunoglobulin ,IG)或T細胞受體( T cell receptor,TR)序列。

IG和TR的結構類似,都是由2條輕鏈和2條重鏈構成,每條鏈可以分為可變區(variable domain)和恆定區(constant domain)。可變區還可以進一步分為骨架區(FR)和互補作用區(CDR)。

IG或TR識別抗原的關鍵在於可變區的高度可變性,這種可變性是由「基因重排」機制產生。

人類的抗體或TR序列主要有3個基因座位編碼:

IGH:The immunoglobulin heavy locus,位於染色體14,包含重鏈的染色體序列

IGK:The immunoglobulin kappa (κ) locus ,位於染色體2,包含部分輕鏈序列

IGL:The immunoglobulin lambda (λ) locus ,位於染色體22,包含剩餘的輕鏈序列

這3種類別的輕鏈和重鏈也有多種基因片段組成,每個片段有多種拷貝,這些拷貝之間的重排就形成了繁複多樣的IG和TR。

對於重鏈而言:包含2個恆定區基因序列 Cμ 和Cδ、 44 個V基因、27 D基因、 6 個J基因。

對於輕鏈:包含2個 恆定區基因序列 Cμ 和Cδ,以及多個V、J基因,但是沒有D基因。

IgBlast可以識別一個IG或TR序列的原始V、D、J基因,分析這三種基因的結合細節、找到FR和CDR的邊界。Blast程序也可以進行IG或TR比對,但是由於IG或TR序列的特殊性,如不同的基因特徵長度,D基因至多10bp而V基因可達290bp,因此一個IG或TR其實需要多種不同參數的Blast程序進行比對,最後手工合成比對結果,不但繁瑣而且易出錯,但是使用IgBlast就可以快速高效的完成序列比對。

Igblast的安裝

同Blast一樣,IgBlast也可以使用網頁工具https://www.ncbi.nlm.nih.gov/projects/igblast/,使用方法同Blast大同小異。

而這裡主要是說的本地化IgBlast的安裝,以human的IG序列比對所需要的Igblast安裝配置為例。

1. 下載並解壓igblast,並檢查文件的md5

mkdir igblast && cd igblast

# 下載安裝包

wget ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/1.8.0/ncbi-igblast-1.8.0-x64-linux.tar.gz

# 下載安裝包的md5

wget ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/1.8.0/ncbi-igblast-1.8.0-x64-linux.tar.gz.md5

# 檢查md5值

md5sum ncbi-igblast-1.8.0-x64-linux.tar.gz|diff - ncbi-igblast-1.8.0-x64-linux.tar.gz.md5

# 解壓即可

tar -xvzf ncbi-igblast-1.8.0-x64-linux.tar.gz

2. 下載所需要的optional_file文件及internal_data

IgBlast的安裝必須有V(D)J基因資料庫文件和 internal_data文件。V(D)J基因資料庫文件使用IMGT資料庫(見第3步)。

可選的文件是optional_file,optional_file是用於注釋V基因的類型及編碼區開始、結束位置等信息。

# 進入解壓後文件下的bin文件夾(ncbi-igblast-1.8.0/bin)

cd ncbi-igblast-1.8.0/bin

# 下載internal_data文件

wget -nH -m ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/internal_data/human/

mv blast/executables/igblast/release/internal_data ./ #將internal_data文件夾至於bin目錄下

# 下載optional_file(aux擴展名)文件

wget ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/optional_file/human_gl.aux

mkdir -p optional_file && mv human_gl.aux optional_file # 將aux文件置於optional_file文件夾下

3. 下載並配置IMGT資料庫

這裡是human的資料庫安裝,其他物種類似。IMGT資料庫的配置需要4步:

下載

IgBlast的README文件中註明可以在http://www.imgt.org/IMGT_vquest/share/textes/ 下載IMGT資料庫,而實際上這個頁面已經失效了。

正確的地址是http://www.imgt.org/download/V-QUEST/V-QUEST_reference_directory。

合併文件

將多個V基因文件合併成一個V基因文件,J做同樣處理,D只有一個,不需要合併。

修改序列名

使用NCBI提供的edit_imgt_file.pl將資料庫文件中的序列名稱從IMGT注釋修改為基因名稱。

edit_imgt_file.pl文件的地址為ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/edit_imgt_file.pl

創建blast資料庫

使用makeblastdb將V(D)J資料庫創建為blast資料庫,這個工具在igblast安裝包解壓後的ncbi-igblast-1.8.0文件夾下。

運行後就會產生18個資料庫文件,V、D、J各6個。

具體過程如下:

# 下載imgt資料庫文件

# 將下述地址目錄中的文件全部下載

http://www.imgt.org/download/V-QUEST/V-QUEST_reference_directory/Homo_sapiens/IG

# 將多個V、J文件分別整合為一個V、J文件

cat IGHJ.fasta IGKJ.fasta IGLJ.fasta>IGJ.fa

cat IGHV.fasta IGKV.fasta  IGLV.fasta >IGV.fa

mv IGHD.fasta IGD.fa # 更改名稱,便於後續處理

rm *fasta

# 將下載的文件進行序列名修剪,只剩餘基因名

# 需要使用工具edit_imgt_file.pl

wget ftp://ftp.ncbi.nih.gov/blast/executables/igblast/release/edit_imgt_file.pl #下載

ls *.fa|grep IG|while read i; do ./edit_imgt_file.pl $i >${i%.*}.faq;done

rm IGJ.fa IGV.fa IGHD.fa

# 創建blast資料庫

ls *.faq|while read i; do j=${i%.*}; ./makeblastdb -parse_seqids -dbtype nucl -in $i -out human_gl_${j#*G};done

rm *.faq

Igblast使用

有以下人源BCR序列,使用igblast比對工具查看其由哪一個V,D,J基因重排而成:

AGACGAGGGGGAAGACATTTGGGAAGGACTGACTCTCTGCAGAGACAGTGACCAGAGTCCCTTGGCCCCAGTAAGCAAACGGCGTAATCATATCTGCACAGTAATAGACGGCAGAGTCCTCAGATGTCAGGCTGCTGAGTTGCATGTAGGCTGTGTTGGAGGATGTATCTGCAGTGAATGTGGCCTTGCCCTTGAACTTCTCATTGTAGTTAGTACTACCACTTCCAGGTAAAATCTCTCCAATCCACTCAAGGCCATGTCCAGGCCTCTGCTTTACCCACTCTATCCAGTAGCTACTGA

1. 比對過程:

先將上述序列保存為BCRseq.fa文件,然後使用./igblastn進行比對即可。

比對命令為./igblastn -query BCRseq.fa -show_translation -outfmt 3。

igblastn命令有以下參數與注意事項:

由於已經將IGMT資料庫文件的文件名指定為了human_gl_V、human_gl_D、human_gl_J的標準形式,不需要再使用-germline_db_V -germline_db_D -germline_db_J用於指定V、D、J的資料庫文件。

使用optional_file(aux擴展名)可以找到v基因的編碼區開始位點、J基因類型以及CDR3結束位點。需要將optional_file文件放置於optional_file文件夾下,否則需要使用參數-auxiliary_data指定aux文件所在。

-organism 指定物種,默認是human

-ig_seqtype 指定TR代表進行TR比對,需要TR資料庫

-show_translation 顯示翻譯的蛋白質序列

-domain_system 可以指定kabat與imgt

-outfmt輸出格式,有三種格式3、4、7

2. 具體操作如下:

# 創建序列文件

vi BCRseq.fa # 複製序列

# 比對

./igblastn -query BCRseq.fa  -show_translation -outfmt 3

3. 結果

默認每個基因會輸出3個最佳的比對序列,從圖示可以看出此序列是抗體的重鏈(有D基因),最可能的V、D、J基因為IGHV1-69*06、IGHD3-16*01、IGHJ4*03。

輸出結果中還有很多其他細節。

image-1

參考資料

IgBlast Tools. https://www.ncbi.nlm.nih.gov/projects/igblast/

IgBLAST: an immunoglobulin variable domain sequence analysis tool. https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3692102/#gkt382-B2

V(D)J recombination. https://en.wikipedia.org/wiki/V(D)J_recombination

還有更多文章,請移步公眾號閱讀

生信技能樹公眾號二維碼

如果你生信基本技能已經入門,需要提高自己,請關註上面的生信技能樹,看我們是如何完善生信技能,成為一個生信全棧工程師。

如果你是初學者,請關注下面的生信菜鳥團,了解生信基礎名詞,概念,紮實的打好基礎,爭取早日入門。

生信菜鳥團公眾號二維碼

相關焦點

  • 非root權限的blast2go的安裝和使用(二)· blast2go的數據和軟體準備及使用
    數據和軟體準備1:blast所需資料庫以及NCBI-blast的安裝在進行blast2go注釋之前,需要先獲得blast的結果文件(也可加上interproscan的結果文件)。blast的安裝和使用可以參考本公眾號的《Biostar: 課程11、12:blast的安裝和使用》。
  • 如何搭建一個網頁版的BLAST伺服器
    系統安裝好之後,我們就可以開始安裝BLAST伺服器了,這類軟體有wwwblast、viroBLAST和Sequenceserver (http://www.sequenceserver.com)。前面我們我們已經介紹過viroBLAST的安裝及使用(本地網頁版blast),今天介紹Sequenceserver。
  • Ubuntu系統安裝使用Docker
    CentOS系統裡面沒有自帶aptapt是一個Ubuntu系統上一個軟體管理的工具,能夠幫助你自動安裝軟體但是如果直接安裝Docker的話不能直接安裝上最新的版本,所以需要先更新源,把docker的下載地址導入到apt的軟體安裝源裡面
  • 生信入門:序列比對之blast在線和本地使用
    主要內容1  背景2  在線blast3  本地blast    3.1  老版本blast    3.2  新版本blast背景序列比對(Sequenceblast作為一種序列相似性比對工具,是生物信息分析最常用的一款軟體,必須掌握。不管是做兩序列相似性的簡單比對,還是引物特異性、序列的來源等個性化分析,都會用到blast比對。許多看似高大上的基因分析,都可歸類於序列間的比較,因此blast是生信分析中基礎性的工具。
  • 生信攻略--比對軟體的安裝與使用
    最新版本為blast+2.6.0blast+包括若干的套件:blastn:核酸比核酸        blastx:核酸比蛋白blastp:蛋白比蛋白        tblastn:蛋白比核酸        makedb:數據建庫安裝:下載blast+:ftp://ftp.ncbi.nlm.nih.gov/blast/executables
  • blast啟發式算法概述
    blast的啟發式算法源於一種什麼樣的經驗呢?下面的視頻也許能給你一些啟發。        在學習blast啟發式算法之前, 我們首先了解一下使用exact local alignment算法到資料庫中查找特定序列的過程。
  • NCBI資料庫指南(二)_BLAST介紹part1
    1.5「幫助」選項;連結至BLAST ftp站點(ftp://ftp.ncbi.nlm.nih.gov/blast/或https://ftp.ncbi.nlm.nih.gov/bl/blast/)上的幫助文檔、教程、參考文獻和有用下載目錄的連結列表。
  • 拆解Megablast:聲控和無線通信最牛的防水智能音箱
    ,能以高達93dB的最大音量輸出360°環繞音效,支持60Hz~20kHz的頻率範圍,並使用2個25mm的高音喇叭、2個55mm的中音喇叭驅動器,還有2個85 x 50mm的被動輻射器用於低音喇叭。語音識別子系統使用多支麥克風,提供波束成形技術以及噪聲消除功能。這款有趣的音箱還附帶有一個可拆式D形環,可以作為掛鈎懸掛音箱,也可以拆下讓音箱安裝在腳架或獨立的無線充電座上。或者,如果以USB電源線與AC轉接器充電時,必須先將遮蓋USB充電埠的背蓋打開。
  • ig(綠鬣蜥)如何真正分辨公母
    這是一個ig 飼養者一個極度渴望知道的問題,周知置頂帖連接中有一篇相關帖,但那是僅憑股孔來斷定IG 的性別,這樣的辨別方式準確度不是理想的那麼高,試想:一隻發情的母亞成或成年ig 股孔一樣很明顯;還有同批中有些個體雌性發育過快股孔一樣顯而易見,那麼是不是就武斷的判別為雄性?
  • 如何用Primer-Blast設計和驗證引物
    理由:操作簡單,使用方便,不需要安裝程序,而且和NCBI資料庫已比對,不用擔心特異性問題。一、Primer-BLAST介紹  Primer-BLAST可以直接從Blast主頁(http://blast.ncbi.nlm.nih.gov/)找到,或是直接用下面的連結進入:http://www.ncbi.nlm.nih.gov/tools/primer-blast/, 這個工具整合了目前流行的Primer3軟體,再加上NCBI的Blast
  • conda安裝與使用
    anaconda是包含一些常用包的版本,miniconda則是精簡版可以根據自己的需要來安裝相應的軟體,一般安裝使用minicondaconda的安裝流程1.,這樣速度比較快2.安裝conda使用bash去運行腳本,以sh結尾的文件,除了bash 之外還可以使用 ./ 去運行chmod 777 Miniconda3-latest-Linux-x86_64.sh         #剛下載好的安裝包沒有可執行權限,所以需要先給權限
  • 工具 手把手教你用Primer-Blast設計和驗證引物,五星推薦!
    理由:操作簡單,使用方便,不需要安裝程序,而且和NCBI資料庫已比對,不用擔心特異性問題。Primer-BLAST可以直接從Blast主頁(http://blast.ncbi.nlm.nih.gov/)找到,或是直接用下面的連結進入:http://www.ncbi.nlm.nih.gov/tools/primer-blast/, 這個工具整合了目前流行的Primer3軟體,再加上NCBI的Blast進行引物特異性的驗證。
  • 學會使用虛擬環境
    完全沒有統一的開發平臺,因此,即使利用 bioconda 還是會出現一些問題,比如需要使用的軟體是基於 python2.7 版本,而安裝之後的 python 版本為 3.7。必須切換到 python 2.7才能使用,這個時候就可以使用 bioconda 創建的虛擬環境。      虛擬環境類似於一間一間小房子,軟體類似於每個房間裡的家庭。
  • VMware Blast Extreme協議的廣域網優化
    可以使用組策略統一配置或虛擬桌面內註冊表來單獨設置。(使用企業板組件Dynamic Environment Management也可進行統一配置,未來另寫文章單講,不在此過多贅述)如果想通過組策略來統一設置,首先要在進行組策略管理的伺服器上(一般是域控)導入Blast組策略文件vdm_blast.admx,這個文件可在官網下載文件 VMware-Horizon-Extras-Bundle-xxx.zip 中找到。組策略配置界面如下圖。
  • Golang robfig/cron 實現解析
    /cron是GO語言中一個定時執行註冊任務的package,  最近我在工程中使用到了它,由於它的實現優雅且簡單(主要是簡單),所以將源碼過了一遍,記錄和分享在此。    文檔:http://godoc.org/github.com/robfig/cron,repo: https://github.com/robfig/cron基本玩法Demo代碼如下,先用cron.New()初始化一個實例,然後調用AddFunc(spec string, cmd func
  • 從零開始學生信-orthofinder的安裝
    【說明】:由於沒有準備實例,本文只進行安裝和介紹。
  • 【香港IG時代】IG貼靚相可當飯食?網紅一張相價值高過你人工
    TVB視後胡定欣擁有一百萬追蹤者,而Sammi鄭秀文僅得30多萬(每張ig相值1萬3港幣),比容祖兒、Twins、謝安琪及楊千嬅還要少(每張ig相值3萬8至1萬6港幣)。參考Kantar TNS的調查,香港人使用Instagram比率在東南亞地區中位列第二,使用Snapchat比率更是全東南亞第一。
  • Primer-BLAST:NCBI 的引物設計和特異性檢驗工具 分析技能
    Primer-Blast 可以直接從 Blast 主頁( http://blast.ncbi.nlm.nih.gov/)找到,或是直接用下面的連結進入:http://www.ncbi.nlm.nih.gov/tools/primer-blast/這個工具整合了目前流行的 Primer
  • 科普 | Primer-BLAST:NCBI的引物設計和特異性檢驗工具
    看上面的圖,把「Allow primer to amplify mRNA splice variants」這個選項給勾上,出現的結果如下圖-C 所示,新的引物也可以擴增出 UNG1(註:我試了一下,不能得到預期的結果,可能參數沒設對)。Figure. Primer-BLAST results for UNG transcript variant 2.