R批量下載B細胞和T細胞受體VDJ序列文件

2021-02-20 生信交流平臺

    前面我們簡單的介紹過免疫組庫以及單細胞免疫組庫的應用。今天給大家介紹一個做免疫組庫數據分析很實用的資料庫IMGT,以及如何使用R從IMGT批量下載B細胞和T細胞受體VDJ序列文件。

一、IMGT簡介

    IMGT (http://www.imgt.org/)是免疫遺傳學(ImMunoGeneTics)的縮寫,專注於所有脊椎動物物種的免疫球蛋白、T細胞受體(T-cell Receptors,TCR)和主要組織相容性複合體(major histocompatibility complex,MHC)的整合資料庫。由Marie-Paule Lefranc、法國科學研究中心、法國蒙彼利埃第二大學發起並共同協調。IMGT包括兩個資料庫:LIGM-DB(面向免疫球蛋白和TCR)和MHC/HLA-DB。IMGT由專家注釋的序列和比對表組成。LIGM-DB包含了來自78種物種的超過19,000個免疫球蛋白和TCR序列。MHC/HLA-DB包含了I類和II類白血球抗原比對表。一個為免疫球蛋白、TCR和MHC序列比對而開發的IMGT工具DNAPLOT也是可用的。IMGT與EMBL資料庫緊密合作。IMGT的目標是建立一個對所有免疫遺傳學數據的通用訪問,包括序列、寡核苷酸引物、基因圖譜和免疫球蛋白、TCR和MHC分子的其他遺傳數據,並提供一個圖形化的用戶友好的數據訪問。IMGT將對醫學研究(自身免疫病、愛滋病、白血病,淋巴瘤)、治療方法(抗體工程學)、基因組多樣性和基因組進化研究具有重要影響。

二、TCR和BCR VDJ序列批量下載

1.獲取VDJ序列文件連結

我們這裡以TCR VDJ序列為例,下載地址為

http://www.imgt.org/download/V-QUEST/IMGT_V-QUEST_reference_directory/Homo_sapiens/TR/

    一共也就10個文件,手點一點也就五六分鐘。但是這不是小編的風格,小編是一個很「懶」的人,能用程序做的事情,絕不手動去做。從R如何提取,合併pdf文件這裡你就可以看出來。

    我們先觀察一下這10個文件的連結有沒有什麼規律,目測應該只有文件名字不一樣,前面的網址應該都是一樣的。查看網頁原始碼,果然是這樣的。這裡採用了相對路徑,因為都放在伺服器的同一個文件夾下面,所以這裡的href只顯示了文件名字。疫情地圖DIY—網頁背後的數據一文中就給大家展示過如何抓取網頁數據,怎麼看網頁原始碼。

這樣就很容易了

我們只需要獲取這10個文件的名字,然後跟前面網址

http://www.imgt.org/download/V-QUEST/IMGT_V-QUEST_reference_directory/Homo_sapiens/TR/

貼起來就可以用循環來下載文件了。

    那麼怎麼獲取這10個文件的名字呢?也很容易,前面我們講過通過剪貼板在R和Excel之間移動數據,那麼我們可以先把這個網頁上的內容貼到Excel表中,選取B列,copy,然後在通過scan函數讀到R中備用。

我們把這10個文件的名字讀到file變量中

2.下載TCR VDJ序列文件

#創建文件夾dir.create("TCR_seq")#循環下載10個文件for(TCR in file){  out=paste("TCR_seq/",TCR,sep="")  link=paste("http://www.imgt.org/download/V-QUEST/IMGT_V-QUEST_reference_directory/Homo_sapiens/TR/",TCR,sep="")  download.file(link,out)  #休息5秒鐘  Sys.sleep(5)}

一分鐘之後你會發現這10個fasta文件就躺在TCR_seq文件夾中了。

    其實前面我也簡單介紹過怎麼用R來獲取RNA相互作用神器——ENCORI資料庫中,miRNA的靶基因預測結果文件。

B細胞受體VDJ序列文件的下載連結如下,留給大家自己練習吧!

http://www.imgt.org/download/V-QUEST/IMGT_V-QUEST_reference_directory/Homo_sapiens/IG/

更多閱讀

1.免疫組庫

2.單細胞免疫組庫的應用

3.R如何提取,合併pdf文件

4.疫情地圖DIY—網頁背後的數據

5.通過剪貼板在R和Excel之間移動數據

6.RNA相互作用神器——ENCORI

相關焦點

  • 生物信息神奇網站系列(九):批量下載序列
    但是如果想下載來自多個物種的不同基因序列,例如給定一個基因列表list,如何下載到這些序列呢?這就需要用到Batchentrez。生物信息神奇網站系列(六):Omictools生物信息神奇網站系列(七):Mybiosoftware生物信息神奇網站系列(八):SCI-HUB九:批量下載序列Batchentrezhttps://www.ncbi.nlm.nih.gov/sites/batchentrez批量下載基因序列有多種方式
  • 使用BioNumerics軟體批量下載NCBI中基因序列
    使用BioNumerics軟體批量下載NCBI中基因序列大家可能曾經都被如何批量下載NCBI中的數據所困擾,在NCBI的網站上苦苦搜尋,但是無從下手。本文將介紹如何通過BioNumerics軟體實現基因序列的批量下載。
  • 10x單細胞免疫組庫VDJ數據分析就看它
    對於10x vdj的數據也可以使用VDJtools進行分析。具體分析步驟和結果見下文:對於linux而言,可以直接通過https://github.com/mikessh/vdjtools/releases/tag/1.2.1,進行下載。
  • 新技術實現B細胞受體序列的高通量測序
    新技術實現B細胞受體序列的高通量測序 作者:小柯機器人 發布時間:2019/11/29 14:51:29 近日,美國範德比爾特大學醫學中心Ivelin S.
  • NCBI教程|如何從NCBI批量下載序列並用MEGA畫進化樹
    後,利用序列的NC號或者GI號直接搜索下載即可。但是如果需要下載的序列過多(多至幾百條?幾千條?),這個時候就很麻煩了。其實,NCBI自帶的Batch Entrez 只需簡單的幾步就可以很快的實現序列的批量下載。你只需要按照如下的幾步進行就可以完成任務。
  • 教你無限制批量下載JGI-IMG基因組數據!
    IMG收錄了細菌、古菌、質粒、病毒以及少量真核生物基因組數據,其數據主要來源於NCBI的RefSeq資料庫,但是增添了更加詳細的注釋信息,例如CRISPR序列、信號肽、非編碼RNA、功能基因等。IMG基於COG、Pfam、TIGRfam、InterPro、GO和KEGG等資料庫產生基因家族的注釋信息。其主頁如下所示:
  • NCBI微生物基因組批量下載
    不要哭,今天小編就為大家提供幾個批量下載某物種或特定物種基因組並獲取基因組預測及注釋信息的方法。二、Batch Entrez微生物基因組批量下載:1、根據登錄號① 將登錄號整理成一個List文件② 登陸網址Batch Entrez(http://www.ncbi.nlm.nih.gov/sites/batchentrez),將準備好的登錄號文件(如下左圖
  • 凌波微課|NCBI數據批量下載,你會了嗎?
    哎,等等,這些分析都屬於比較基因組分析,需要首先選擇合適的參考物種基因組,可是一個一個查找下載太麻煩,有什麼辦法一鍵批量下載呢?本期凌波微課為大家介紹兩種數據批量查找和下載的方法,具體操作猛戳上方視頻哦~ Batch Entrez簡介網址:https://www.ncbi.nlm.nih.gov/sites/batchentrez?
  • Cell:B細胞受體高通量測序技術
    近日,美國範德比爾特大學醫學中心等科研機構的科研人員在Cell上發表了題為「High-Throughput Mapping of B Cell Receptor Sequences to Antigen Specificity」的文章,開發了一種B細胞受體高通量測序技術
  • 電腦技巧:如何批量刪除文件名中的空格?
    今天一大早就遇到一個新情況:需要用U盤給車載系統中下載一帶歌詞的mp3音樂,下載後才發現音樂可以正常播放但是歌詞並不能正常顯示。經過仔細對比才發現,每個音樂對應的歌詞文件名稱與mp3的名稱不一樣,在mp3文件名中都多了2個空格,所以才會出現歌詞不能被車載系統識別的問題。
  • B細胞活化和T細胞活化
    B細胞了,但只能引起B細胞分泌IgM,而且不能形成記憶B細胞;但如果是TD抗原的話,需要T細胞參與才能夠活化B細胞,B細胞吞噬能力較弱,但其表面Ig是高親和力的抗原受體,因此可通過受體介導的細胞內攝作用捕獲與處理抗原。
  • 2019-nCoV潛在的T細胞與B細胞抗原表位
    2019-nCoV出現之後,科學家們對於其疫苗的研發也在緊鑼密鼓的進行中。負責免疫的T細胞以及B細胞對於抗原的識別都依賴於抗原的抗原表位(Epitopes),因此對於2019-nCoV潛在的T細胞與B細胞的抗原表位進行研究,無疑將為開發更有效的疫苗並鑑定中和抗體(Neutralizing antibodies)提供有力的理論支撐。
  • 10X V(D)J測序 | T細胞與B細胞受體的比較以及重排過程
    本期文章將繼續為大家介紹淋巴細胞受體重組的過程,以及為什麼它們可以形成如此多樣性豐富的克隆型。T、B 淋巴細胞能夠對入侵的病原體(抗原)進行特異性的識別,從而發動免疫反應。抗原的識別依賴於B細胞表面受體(B cell receptor ,BCR)和T細胞表面受體(T cell receptor,TCR)。
  • 尼羅羅非魚IL-6受體(IL-6R)和糖蛋白130(Gp130)的分子功能研究
    Gp130)的分子功能研究,引用信息如下:白細胞介素6(IL-6)是一種多效性細胞因子,通過與配體特異性的IL-6受體(IL-6R)和共同的信號轉導受體(gp130)組成的受體系統發揮生物學功能。、LPS(40μg/mL)刺激後,頭腎單核/巨噬細胞(A、C)和淋巴細胞(B、D)中ONIL-6R和Ongp130mRNA的表達。
  • T細胞生物工廠發現,一舉抗擊疾病!
    資深作者Parijat Bhatnagar博士是位於加利福尼亞門洛帕克的SRI國際化學生物學中心細胞醫學主任,他和同事們設計了t細胞「生物工廠」來直接針對體內的細胞疾病,同時最小化對周圍健康細胞的損害,這項研究發表在《先進生物系統》上。
  • Science:在體外成功重建T細胞受體信號通路
    2016年4月13日/生物谷BIOON/--T細胞在抵抗感染的適應性免疫反應中發揮著至關重要的作用,是宿主免疫系統的關鍵組成部分。在MHC分子遞呈下,外源抗原接觸T細胞受體(TCR)從而啟動初始T細胞(naive T cell)激活,並且這種激活也需要諸如CD28之類的共刺激分子(co-stimulatory molecule)的參與。
  • 第二節 細胞因子及其受體的結構
    第二節 細胞因子及其受體的結構   一、細胞因子的分子結構   不同細胞因子之間的結構上有很大的差異,一般,多數細胞因子為小分子多肽,分子量不超過60kD,多由100個左右的胺基酸組成。不同細胞因子之間無明顯的胺基酸序列的同源性。
  • B細胞的免疫應答及免疫記憶
    在生理上缺乏這些B細胞的情況下,人們通常會發現對血液傳播的感染反應不佳。B-1細胞除了MZ和常規的(B-2)亞群外,細胞表面分子IgD、CD5、CD11b/CD18、CD23和CD 45在小鼠體內的差異表達也使我們得以鑑定另外兩種外周B細胞亞群,即B-1a和B-1b。
  • 關於發布《嵌合抗原受體修飾T細胞(CAR-T細胞)製劑製備質量管理...
    ,促進行業自律,我會組織協會相關分支機構、業內骨幹企業及專家參照《藥品生產質量管理規範》(GMP)等相關規定和指導原則,經過多次研討,起草了《嵌合抗原受體修飾T細胞(CAR-T細胞)製劑製備質量管理規範》。
  • ...研究組發文報導B細胞受體跨膜信號轉導和B淋巴細胞免疫活化新進展
    清華生命學院劉萬裡研究組發文報導B細胞受體跨膜信號轉導和B淋巴細胞免疫活化新進展清華新聞網12月1日電 11月28日,清華大學生命科學學院劉萬裡研究組在《細胞報導》(Cell Reports)期刊發表題為《磷脂醯肌醇4,5-二磷酸和磷脂醯肌醇3,4,5-三磷酸平衡以及胞質分裂作用因子2蛋白的招募和活化調控B細胞抗原受體微簇體成熟》(Growth