生物信息神奇網站系列(九):批量下載序列

2021-02-20 基因學苑

在《手把手教你生信分析平臺搭建專欄》中,我們介紹過利用Aspera快速下載生物數據,例如下載某個物種基因組數據。但是如果想下載來自多個物種的不同基因序列,例如給定一個基因列表list,如何下載到這些序列呢?這就需要用到Batchentrez。

專欄一:手把手教你生信分析平臺搭建專欄合集

專欄二:

生物信息神奇網站系列(一):R繪圖Gallery

生物信息神奇網站系列(二):Python繪圖Gallery

生物信息神奇網站系列(三):Seqanswers

生物信息神奇網站系列(四):Biostars

生物信息神奇網站系列(五):文件格式解析

生物信息神奇網站系列(六):Omictools

生物信息神奇網站系列(七):Mybiosoftware

生物信息神奇網站系列(八):SCI-HUB

九:批量下載序列Batchentrez

https://www.ncbi.nlm.nih.gov/sites/batchentrez

批量下載基因序列有多種方式,可以通過編程實現,也可以通過固定模塊例如bioperl,biopython等。如果不會編程,batchentrez就是最好的選擇了。Entrez是NCBI官方的數據檢索系統,Batch Entrez顯然就是批量檢索。越到這種問題,真的有人一條條序列下載,這樣不僅浪費時間,而且容易出錯。(我以前就是手工一條條序列下載)

1、首先登陸網站,首次使用請注意閱讀說明和注意事項。

2、網站的使用其實並不難,首先選擇要使用的資料庫,然後點擊選擇上傳ID文件,序列的ID可以是accession numbers或者identifiers。

3、這裡我們利用GI號,下載8個基因的序列,文件格式如圖所示。

4、資料庫需要選擇默認的,上傳文件,點擊Retrieve。

5、batchentrez會檢查文件中序列ID信息,並且會去除重複,返回檢索結果,這裡有5個檢索不到序列。

6、點擊圖中藍色連結,連結到新的頁面,選中要下載的序列,然後在Sent to中進行選擇,包括輸出文件內容和文件格式等。

7、點擊Create FIle,這樣序列就下載好了。


Tips:1,、注意輸入文件格式,ID只能使用accession numbers or identifiers。

2、選擇的資料庫要和輸入的序列ID相一致。

3、序列ID後面不要加空格,注意不同系統中換行符問題。

END 

(添加作者微信,備註好單位+姓名)


相關焦點

  • 生物信息神奇網站系列(十):生物資料庫集合
    生物軟體與生物資料庫是做生物信息兩大利器,前面我們介紹了生物軟體集合網站omictools與mybiosoftware。
  • 使用BioNumerics軟體批量下載NCBI中基因序列
    使用BioNumerics軟體批量下載NCBI中基因序列大家可能曾經都被如何批量下載NCBI中的數據所困擾,在NCBI的網站上苦苦搜尋,但是無從下手。本文將介紹如何通過BioNumerics軟體實現基因序列的批量下載。
  • 生物信息神奇網站系列(四):Biostars
    biostars其實是一個問答網站,與國外很多IT技術或者數據分析的熱門問答網站類似,例如stackoverflow,不過biostars是專注於生物信息類的問答
  • NCBI微生物基因組批量下載
    不要哭,今天小編就為大家提供幾個批量下載某物種或特定物種基因組並獲取基因組預測及注釋信息的方法。1、ftp://ftp.ncbi.nlm.nih.gov/genomes/GENOME_REPORTS主要是在分類學水平上對物種基因組信息以文件夾的形式歸類,最終基因組整理統計的基本信息展示在Browse網站(第二部分詳述)(1) ftp://ftp.ncbi.nlm.nih.gov/genomes/all/ (2) ftp://ftp.ncbi.nlm.nih.gov
  • 生物信息學相關網站
    研究領域主要涵蓋序列分析,蛋白質組學和基因組學等。該網站提供了資料庫,電子論壇,教育,新聞,軟體,招聘啟事等。該網站還提供了相關連結,包括歐洲分子生物學以色列國家網點,以色列國家基因組基礎設施實驗室以及國際生物信息學合作中心。
  • 教你無限制批量下載JGI-IMG基因組數據!
    IMG收錄了細菌、古菌、質粒、病毒以及少量真核生物基因組數據,其數據主要來源於NCBI的RefSeq資料庫,但是增添了更加詳細的注釋信息,例如CRISPR序列、信號肽、非編碼RNA、功能基因等。IMG基於COG、Pfam、TIGRfam、InterPro、GO和KEGG等資料庫產生基因家族的注釋信息。
  • NCBI教程|如何從NCBI批量下載序列並用MEGA畫進化樹
    後,利用序列的NC號或者GI號直接搜索下載即可。但是如果需要下載的序列過多(多至幾百條?幾千條?),這個時候就很麻煩了。其實,NCBI自帶的Batch Entrez 只需簡單的幾步就可以很快的實現序列的批量下載。你只需要按照如下的幾步進行就可以完成任務。
  • R批量下載B細胞和T細胞受體VDJ序列文件
    今天給大家介紹一個做免疫組庫數據分析很實用的資料庫IMGT,以及如何使用R從IMGT批量下載B細胞和T細胞受體VDJ序列文件。IMGT由專家注釋的序列和比對表組成。LIGM-DB包含了來自78種物種的超過19,000個免疫球蛋白和TCR序列。MHC/HLA-DB包含了I類和II類白血球抗原比對表。一個為免疫球蛋白、TCR和MHC序列比對而開發的IMGT工具DNAPLOT也是可用的。IMGT與EMBL資料庫緊密合作。
  • 凌波微課|NCBI數據批量下載,你會了嗎?
    NCBI批量下載數據實操經過分離、實驗室純化培養、基因組測序,小Young終於拿到了心心念念的菌株的基因組序列,迫不及待的要開展分析
  • 【乾貨】生物信息學基礎-如何向NCBI-GenBank提交基因序列
    生物信息學是當前生物醫學領域的熱門研究方向,其理論知識和方法學已經滲透到各個領域。
  • 全世界科研人都在用的網站,堪稱生物網站中的超級航母
    UCSC是一個非常龐大的類似於NCBI的航母式網站,裡面包含了非常多的信息,也有很多非常好用的小工具,無奈這個數據功能太強大,就像NCBI一樣,收錄的信息太多了,不是一兩次能說清楚的,所以今天總結一波小編自己使用這個網站的方法總結。
  • 【陪你學·生信】九、多序列比對-Multiple Sequence Alignment(MSA)
    聽上去都是生物研究中需要分析的基礎項。那麼怎麼做?就是將目標序列與資料庫中多條同源序列的相似部分擺放在同一欄,同一位置。有一些工具可以幫助我們進行多序列比對,但是最好再根據結構、進化、功能、序列相似性人工矯正一下比對結果。
  • 如何計算蛋白序列的長度、分子量、等電點等信息
    做基因家族等分析時,有時候我們想知道蛋白質的分子量、等電點信息以及序列長度等信息。今天,小編教大家如何獲取這些信息。
  • 除了Sci-Hub,還有這個免費文獻網站!連書都能下載!
    華東師範大學的朱國華教授曾說,「俄羅斯人開的網站http://gen.lib.rus.ec/為全世界讀書人帶來了功德無量的便利,我的絕大部分英文書是從該網站中下載得到,但願此網站萬世不倒。"下文轉發熊朝亮教授在科學網上對Library Genesis和Book系列的介紹。
  • Tech科普 | 生物信息學簡單介紹及在植物科學上的應用
    Genbank(基因序列資料庫,是所有公開可用DNA序列的注釋集合)TAIR(是一個Key/Value結構數據的解決方案,其功能是get、put、delete以及批量接口)NCBI(美國國家生物技術信息中心,維護GenBank核酸序列資料庫,提供數據分析和檢索資源
  • 啟動子序列提取-EPD真核生物啟動子資料庫!
    DNA/mRNA結構示意圖啟動子序列的查找在實際生信分析中,一般取轉錄組起始位置前1500-2000bp作為啟動子區域序列,擁有生信技能的人提取及批量提取某些基因啟動子序列簡直就是小菜一碟;但是對於生信小白來說就難上青天了
  • 9個免費下載英文文獻的網站!
    、人文、工程、生物、材料、醫學和人文科學等領域,所有論文免費下載。這個網站的一大好處就是可以直接在線預覽,不用下載就可以預覽標題、作者、摘要等等關鍵信息,節省非常多的時間。FindaRticles小曼覺得這是一個價值非常高的一個學術站點,操作方便,網站總收錄文獻1000多萬篇。
  • 一個神奇的論文檢索網站,整合了國內外資料庫,文獻下載超方便
    給大家推薦一個神奇而強大的論文檢索網站吧,尤其是在英文文獻這一塊,在國內是做得最好最到位的,不論是老手還是小白用起來非常的方便,可以節省大把的時間,提升科研效率。這個網站叫:掌橋科研一站式科研服務平臺(地址:zhangqiaokeyan.com/LZHH-2020042007)從上圖中可以看到他的核心是「一站式」服務,也意味著方便,快捷!文獻呢,中外文加起來有1.3億+篇,且月更新數量近500萬篇,可以說在數量這一塊是非常可觀的。
  • 生物信息學怎麼做2
    首先要明白一些基礎知識:    而在真核生物中,啟動子指的是對基因轉錄起始有重要作用的序列,不像原核生物那麼保守,並且啟動子的序列較多。這些序列有不同的功能,其中核心啟動子((core promot-er)負責與起始複合物結合,負責控制基因是否轉錄,包括TATA框和起始子;還有一些位於核心啟動子上遊的上遊調控元件(UREs)序列。
  • 曙光生物基因序列研究解決方案
    廣泛使用的基因序列比對和搜索軟體有Fasta ,Blast,以及多序列搜索工具Clustalw,Clustalx,這些基因組信息學軟體都已經在曙光伺服器上得到部署和應用,並有相應的成功案例。   曙光公司助力生物信息學的發展,可為基因組信息學研究提供系統的解決方案,包括相應的硬體平臺和軟體配置。