隨著生物科技的迅速發展,每天都會有海量的生物學數據產生,如何有效的分析這些「生物學大數據」?生物信息學的應用變得尤為重要,在生物領域從基因測序,到基因編輯,再到基因療法的精準醫療,由生物科技引發的又一場變革正悄然而至。試問大家做好準備迎接它到來了嗎?
本次分享的主題為:如何快速獲取海量數據?我們就從物種的DNA或蛋白質序列說起,在我們的科學研究中下載序列是一件簡單不過的事情,無非就是聯網NCBI等主頁上,選擇資料庫後輸入AC號或GI號後直接下載。
如果是少量的序列數據,我們可以通過一個個ID去查找,複製,粘貼方式保存到本地文件中。
但是如何大批量下載數據呢?再通過複製、粘貼方法雖然很精確但是對於大批量的數據下載效率實在是太低了。是否可以直接下載資料庫準備好的序列文件?或者編寫程序腳本進行批量下載?
本次小鹿分享的是2種熱門物種(人和鼠)的無編程基礎的下載方式。(我們後面會分享「如何使用代碼批量下載生物學序列數據」)
物種 人
1.NCBI的GenBank資料庫
基因:MYH9
物種:人Homo sapiens
(1)用瀏覽器登錄NCBI資料庫官網:https://www.ncbi.nlm.nih.gov/
(2)資料庫選擇框:選擇Gene;在搜索框輸入:MYH9,可以添加Homo sapiens或者Human,這樣匹配更準確;
(3)點擊MYH9 - myosin heavy chain 9,選擇FASTA格式;
(4)點擊下載MYH9基因序列NCBI Reference Sequence: NC_000022.11,起個合適的文件名,推薦使用基因名或者資料庫登錄號;
(5)物種基因組和蛋白組序列的下載 選擇Genome子資料庫,同樣在搜索框輸入物種英文名或拉丁學名,例如,輸入human,我們查找人的基因組數據,如下所示: 點擊下載基因組或蛋白組FASTA序列,直接會彈出下載連結,選擇保存文件的位置即可開始下載; 還可以下載NCBI上的基因組注釋GFF文件(Ensembl資料庫也可以下載物種的GFF文件,後面會給大家講到) 物種 人和小鼠 2.Uniprot資料庫 樣例蛋白:P35579 物種:人Homo sapiens和小鼠Mus musculus (1)用瀏覽器登錄Uniprot資料庫官網:https://www.uniprot.org/ (2)搜索框輸入:P35579,點擊Search; (3)查看P35579蛋白的生物學信息:肌球蛋白9(Myosin-9); 可以看到該蛋白主要分布在細胞基質中,是細胞的動力蛋白; (4)下載序列數據,點擊FASTA; (5)下載物種蛋白質組序列文件(例如下載物種:小鼠mus musculus); 在Uniprot資料庫官網選擇Proteomes子庫,然後在搜索框輸入:mus musculus,選擇Organism ID為10090的小鼠; 點擊Protein Count: 55462,顯示小鼠蛋白Entry,可以根據需要定製自己需要的數據:例如,我們需要GeneID,點擊Columns進行個性化的定製; 如下所示: 點擊Download下載所需要的數據,選擇文件格式。如果我們需要的是表格數據,我們通常下載為Tab分割符(Tab-separated)的txt文件,因為Excel表格有最大行數的限制,如果超出最大行數會導致數據丟失; 如果是序列文件,我們選擇下載FASTA格式的文件; 物種 人 3.Ensembl(Ensembl Genome Browser)資料庫 物種:人Homo sapiens (1)使用瀏覽器登錄數據資料庫:https://asia.ensembl.org/index.html (2)選擇Human資料庫,如下所示: (3)選擇下載基因組序列,見下圖: (4)在Ensembl資料庫下載物種的GFF文件 前面我們講到了在NCBI資料庫中下載物種基因組注釋GFF文件,其實我們還可以在Ensembl資料庫中下載物種的注釋文件,而且在Ensembl中下載的GFF文件更加標準,使用起來更方便。 (5)直接連接到ensembl的FTP伺服器, 網址:ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/dna/ 選擇toplevel標籤的序列文件進行下載,如下所示: 小鹿後面還會分享「如何使用代碼批量下載生物學序列數據」哦,請關注鹿明生物,get最新分享熱文。 猜你還想看 ◆生信分析:你可以更美一些:SnapGene Viewer軟體序列可視化操作 ◆雲平臺:震驚!他花了3分鐘就完成了我三個周的工作! ◆雲平臺:歐易/鹿明雲 | 免費的聚類熱圖不試試嗎? ◆生信分析:這個R包不太冷系列——GOplot(功能富集繪圖) ◆生信分析:10行代碼讓你的相關性圖貌美如花 ◆生信分析:對話百年名畫--文章繪圖配色高級又簡單! ◆生信分析:只需3分鐘Get「代謝通路分析神器」 ◆生信分析:玩轉生信—火山圖中「億點細節」,你會打造嗎? ◆生信分析:【指南】Cytoscape之stringAPP蛋白互作分析詳解 ◆生信分析:【教程】組學研究,用python快速實現PCA分析和繪圖 ◆生信分析:組學研究,R語言實用技巧—熱圖,運用pheatmap包簡單易懂快速匯圖方法來襲~ ◆生信分析:【情人節】R語言—小提琴圖的浪漫邂逅 END 文章來源於鹿明生物