前面我們簡單的介紹過免疫組庫以及單細胞免疫組庫的應用。今天給大家介紹一個做免疫組庫數據分析很實用的資料庫IMGT,以及如何使用R從IMGT批量下載B細胞和T細胞受體VDJ序列文件。
一、IMGT簡介IMGT (http://www.imgt.org/)是免疫遺傳學(ImMunoGeneTics)的縮寫,專注於所有脊椎動物物種的免疫球蛋白、T細胞受體(T-cell Receptors,TCR)和主要組織相容性複合體(major histocompatibility complex,MHC)的整合資料庫。由Marie-Paule Lefranc、法國科學研究中心、法國蒙彼利埃第二大學發起並共同協調。IMGT包括兩個資料庫:LIGM-DB(面向免疫球蛋白和TCR)和MHC/HLA-DB。IMGT由專家注釋的序列和比對表組成。LIGM-DB包含了來自78種物種的超過19,000個免疫球蛋白和TCR序列。MHC/HLA-DB包含了I類和II類白血球抗原比對表。一個為免疫球蛋白、TCR和MHC序列比對而開發的IMGT工具DNAPLOT也是可用的。IMGT與EMBL資料庫緊密合作。IMGT的目標是建立一個對所有免疫遺傳學數據的通用訪問,包括序列、寡核苷酸引物、基因圖譜和免疫球蛋白、TCR和MHC分子的其他遺傳數據,並提供一個圖形化的用戶友好的數據訪問。IMGT將對醫學研究(自身免疫病、愛滋病、白血病,淋巴瘤)、治療方法(抗體工程學)、基因組多樣性和基因組進化研究具有重要影響。
二、TCR和BCR VDJ序列批量下載
1.獲取VDJ序列文件連結
我們這裡以TCR VDJ序列為例,下載地址為
http://www.imgt.org/download/V-QUEST/IMGT_V-QUEST_reference_directory/Homo_sapiens/TR/
一共也就10個文件,手點一點也就五六分鐘。但是這不是小編的風格,小編是一個很「懶」的人,能用程序做的事情,絕不手動去做。從R如何提取,合併pdf文件這裡你就可以看出來。
我們先觀察一下這10個文件的連結有沒有什麼規律,目測應該只有文件名字不一樣,前面的網址應該都是一樣的。查看網頁原始碼,果然是這樣的。這裡採用了相對路徑,因為都放在伺服器的同一個文件夾下面,所以這裡的href只顯示了文件名字。疫情地圖DIY—網頁背後的數據一文中就給大家展示過如何抓取網頁數據,怎麼看網頁原始碼。
這樣就很容易了
我們只需要獲取這10個文件的名字,然後跟前面網址
http://www.imgt.org/download/V-QUEST/IMGT_V-QUEST_reference_directory/Homo_sapiens/TR/
貼起來就可以用循環來下載文件了。
那麼怎麼獲取這10個文件的名字呢?也很容易,前面我們講過通過剪貼板在R和Excel之間移動數據,那麼我們可以先把這個網頁上的內容貼到Excel表中,選取B列,copy,然後在通過scan函數讀到R中備用。
我們把這10個文件的名字讀到file變量中
2.下載TCR VDJ序列文件
#創建文件夾dir.create("TCR_seq")#循環下載10個文件for(TCR in file){ out=paste("TCR_seq/",TCR,sep="") link=paste("http://www.imgt.org/download/V-QUEST/IMGT_V-QUEST_reference_directory/Homo_sapiens/TR/",TCR,sep="") download.file(link,out) #休息5秒鐘 Sys.sleep(5)}一分鐘之後你會發現這10個fasta文件就躺在TCR_seq文件夾中了。
其實前面我也簡單介紹過怎麼用R來獲取RNA相互作用神器——ENCORI資料庫中,miRNA的靶基因預測結果文件。
B細胞受體VDJ序列文件的下載連結如下,留給大家自己練習吧!
http://www.imgt.org/download/V-QUEST/IMGT_V-QUEST_reference_directory/Homo_sapiens/IG/
更多閱讀
1.免疫組庫
2.單細胞免疫組庫的應用
3.R如何提取,合併pdf文件
4.疫情地圖DIY—網頁背後的數據
5.通過剪貼板在R和Excel之間移動數據
6.RNA相互作用神器——ENCORI