Nucleic Acids Reasearch 重磅推薦 | NCBI多個核心資料庫:核酸序列、PubMed等更新與使用指南!

2021-01-14 植物生物技術Pbj

近日,著名期刊Nucleic Acids Reasearch在線發表名為『Database resources of the National Center for Biotechnology Information』的文章,對NCBI的更新做了詳細的介紹。

文章概述了NCBI Entrez資料庫系統,然後總結了近年存在更新的資源。

Entrez是一個集成的資料庫檢索系統,可訪問35個不同的資料庫,這些資料庫包含總共27億條記錄。Entrez全局搜索頁面(www.ncbi.nlm.nih.gov/search/)提供了每個資料庫的Web門戶連結。Entrez支持使用簡單的布爾查詢進行文本搜索,下載各種格式的數據以及基於聲明關係在資料庫之間的連結記錄。LinkOut服務擴展了連結範圍,包括外部資源,例如特定生物體的基因組資料庫。在Entrez中檢索到的記錄可以以多種格式顯示,可以單獨或成批下載。並且提供了用於Entrez功能的應用程式編程接口(E-utilities),在eutils.ncbi.nlm.nih.gov上提供了詳細的文檔。

Fig1. 截至2019年9月4日,每個Entrez資料庫中記錄數量的年增長率。


NCBI從三個來源接收數據:研究人員直接提交的數據,與數據提供者和研究團隊達成的國內外合作或協議,以及內部策劃工作。例如,NCBI管理GenBank資料庫,並參與EMBL-EBI歐洲核苷酸檔案庫(ENA)和日本DNA資料庫(DDBJ)作為國際核苷酸序列資料庫的合作夥伴(INSDC)。

以下是涉及更新的部分:

PubMed Labs平臺(www.pubmed.gov/labs)已提供PubMed的更新版本。預計該新版本將在2020年初成為默認的PubMed界面。舊版本在新站點啟動後將繼續並行運行一段時間,並會根據用戶戶反饋對功能進行優先級排序和對齊,從而不斷驗證新界面。更新後的界面採用了移動優先的響應式布局。新的搜索結果將顯示摘要,以及與查詢的相關性從文章摘要中選擇的突出顯示的文本片段。這些摘要可幫助用戶確定文章是否對他們有用。界面的其他改進使用戶更容易發現相關內容

PubMed Central(PMC)。2018年11月,PubMed Central(PMC)開始在關聯數據框中匯總數據引用,數據可用性聲明和補充數據。PMC在具有一個或多個這些功能的文章上顯示此框。通過公開此內容,讀者可以更輕鬆地發現數據集,從而加快發現速度並提高閱讀水平。

書架(Bookshelf)。NCBI書架可免費在線訪問150多個提供商提供的7000多種生命科學和醫療保健書籍和文檔。在過去的一年中,書架通過索引出版物(www.nlm.nih)簡化了查找主要類型內容的過程,還增強了與其他NCBI資料庫資源的集成。

My Bibliography。我的書目是我的NCBI的一個組成部分,允許用戶創建在線發布的作品集。用戶可以直接從PubMed導入引文,也可以使用欄位模板手動添加引文。

Genome updates。NCBI最近提供了一種新的改進的搜索體驗,該體驗可以解釋普通的序列搜索類別的簡單語言。結果顯示在標準結果頁面頂部易於理解的新界面中,並突出顯示了大多數用戶可能最感興趣的數據和相關工具。新的搜索體驗可通過NCBI的多種資源獲得,包括核苷酸,蛋白質,基因,基因組,裝配體和「所有資料庫」搜索頁面。

Searching homologous genes。NCBI最近為用戶添加了一種新方法,以供用戶在NCBI RefSeq數據集中表示的生物體內和生物之間找到與進化相關的基因。這項新服務的目的是讓用戶輕鬆地從越來越多的帶注釋的真核參考基因組中訪問序列數據,以及同源基因集的可視化和分析工具,促進比較基因組學研究。通過輸入與分類組(例如哺乳動物DNAH9)組合的基因符號或在NCBI序列資料庫(核苷酸,蛋白質)的搜索框中從建議菜單(例如DNAH9直系同源物)中選擇「直系同源物」選項,可以找到這些基因集。

原核基因組注釋管道(PGAP),現在可以從GitHub公開提供給有興趣預測公共或私有細菌和古細菌基因組上的基因的用戶(github.com/ncbi/pgap)。該工具還分發了NCBI精選的用於原核注釋的數據集,例如代表同源簇的蛋白質,隱馬爾可夫模型(HMM)和其他注釋規則。提供一個multiFASTA文件和最少的元數據集(程序集特別表示的種類),PGAP將產生與內部NCBI管道生成的內容相符的注釋,並可以通過基因組提交門戶輕鬆提交給GenBank。

NCBI的參考序列(RefSeq)項目於2019年慶祝成立20周年。該數據集現在包括來自超過9.3萬個分類單元的超過2.06億個序列,分別有26%和15%的年增長率。真核生物數據集包含了960多個物種的基因組數據。其中,NCBI已使用真核基因組注釋管道注釋了562個基因組,包括RefSeq中的所有脊椎動物和大多數其他多細胞真核生物。這一通用的處理流程可提供高質量的一致注釋,以幫助跨物種研究,其中90%以上的注釋有RNA-seq數據的證據。

組裝(Assemby)。細菌基因組測序已經變得很便宜,於是被用來探索物種內的變異並監測病原體的傳播。NCBI進行了幾處更改,以適應少數致病細菌的基因組組裝數量激增的趨勢。NCBI還進行了一些改進,以方便查找和下載感興趣的基因組數據集。值得注意的是,已在源自同一二倍體個體的一對基因組組件的成員之間添加了連結。新的文件類型已添加到基因組FTP站點,包括帶有基因(GTF)注釋的文件。這些文件提供RefSeq序列的轉錄本與基因組比對的二進位比對圖(BAM)格式。

病毒基因組(Viral genomes)。NCBI使查找和使用病毒基因組序列數據變得更加容易。由於病毒序列是由多個組隨時間推移提交的,因此它們通常缺乏標準化的分離屬性。這會在其他可比較的數據之間存在不一致。

基因組工作平臺(Genome Workbench)。NCBI的Genome Workbench是一個桌面GUI軟體包,旨在處理和可視化複雜的分子生物學數據,例如序列注釋、變異和比對。除了支持流行的生物信息學數據格式(FASTA,GFF3,VCF和BAM)外,Genome Workbench還可以連接到諸如GenBank和RefSeq之類的NCBI數據源。Genome Workbench還與公共資料庫中找不到的用戶提供的數據完全兼容,並且在處理過程中,此類數據仍保留在用戶受信任的本地環境中。Genome Workbench使生物內容顯示於圖形中,用戶可以將其導出為PDF和SVG格式的高質量圖像,使其適合在出版物中使用。Genome Workbench是一個跨平臺軟體包,可在Windows,MacOS和Linux上運行。3.0.0版還與Google和Amazon雲環境兼容。

單核苷酸多態性資料庫(dbSNP)是人類基因組變異的存儲庫,包括常見和罕見的單核苷酸變異以及其他小規模變異以及頻率數據。

BLAST和Docker。NCBI已將BLAST +命令行工具作為Docker容器的一部分提供。將BLAST +包裝在容器中可以更輕鬆地安裝和維護這些程序。

NCBI在2019年發布了默認Web BLAST報告的更新,該報告現在具有出色的控制項,允許用戶按有機體、同一性百分比和期望值過濾結果。現在,在四個選項卡中顯示「說明」,「圖形摘要」,「路線」和「分類法」報告,使用戶可以輕鬆地在這些視圖之間切換。

引物-BLAST(Primer-Blast)。現在,Primer-BLAST網頁允許用戶強制Primer-BLAST,忽略某些脫靶匹配。此功能使Primer-BLAST在引物設計中具有更大的靈活性,從而為用戶提供更好的結果。

IgBLAST現在可以檢測具有超長D和N區的Ig重排,例如在人類抗HIV抗體中發現的那些重排。IgBLAST現在使用標準基因座名稱(例如IGH和TRB),而不是傳統名稱(例如VH和VB)。

PubChem(pubchem.ncbi.nlm.nih.gov)是NCBI的公共化學數據存儲庫。在過去的一年中,PubChem整合了來自70多個新數據源的化學信息。值得注意的是,得益於Thieme Chemistry的數據貢獻,PubChem在將近70萬種化學藥品與大約70萬篇科學論文之間增加了120萬條連結,重點是合成有機化學和藥用物質(go.usa.gov/xEDCA)。這些連結極大地擴展了與合成相關的化學信息的可發現性、可訪問性、互操作性和可重用性(FAIR)。PubChem在2019年發布了一個新的Web界面,包括重新設計的主頁和記錄摘要頁面,這些頁面可以更輕鬆,更快速地訪問化學信息(go.usa.gov/xEM4Y; go.usa.gov/xEuP7)。

原文連結:

https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkz899/5585551#164286260


植物生物技術Pbj 交流群


為了能更有效地幫助廣大的科研工作者獲取相關信息,植物生物技術Pbj特建立微信群,Plant Biotechnology Journal投稿以及文獻相關問題、公眾號發布內容及公眾號投稿問題都會集中在群內進行解答,同時鼓勵在群內交流學術、碰撞思維。為了保證群內良好的討論環境,請先添加小編微信,掃描二維碼添加,之後我們會及時邀請您進群。小提示:添加小編微信時及進群後請務必備註學校或單位+姓名,PI在結尾註明,我們會邀請您進入PI群


相關焦點

  • NCBI介紹
    MegaBLAST在NCBI基因組BLAST頁面下是默認的搜索工具,藉助它能對增長迅速的Trace Archives資料庫和標準BLAST使用的資料庫進行快速檢索。NCBI還為跨物種核酸序列快速搜索提供了Discontiguous MegaBLAST,它使用非重疊群欄位匹配算法(noncontiguous word match)來進行核酸比對。
  • 分分鐘搞定NCBI GenBank序列上傳
    基因組測序數據可以提交組裝結果和注釋信息到WGS資料庫,或者Complete Genomes,而基因組草圖draft只能提交到WGS資料庫。 Meta的測序分析數據,如16S/18S/ITS測序的OTU序列,提交到GenBank資料庫。轉錄組測序數據可以提交組裝結果到TSA資料庫。 表觀遺傳學等數據則需要提交到GEO資料庫。
  • 使用BioNumerics軟體批量下載NCBI中基因序列
    使用BioNumerics軟體批量下載NCBI中基因序列大家可能曾經都被如何批量下載NCBI中的數據所困擾,在NCBI的網站上苦苦搜尋,但是無從下手。本文將介紹如何通過BioNumerics軟體實現基因序列的批量下載。
  • 推薦2個核酸序列翻譯成胺基酸序列的小工具
    之前,生信交流群(群號:154447756)有小夥伴想比較突變後的核酸序列翻譯成蛋白序列與野生型相應序列的差異
  • UniProt 資料庫介紹
    UniProt 是目前資源最豐富、使用頻率最高的蛋白序列資料庫,今天,我們就介紹下 UniProt 資料庫及其使用。1、資料庫介紹UniProt (The Universal Protein Resource) 是信息最豐富、資源最廣的蛋白質序列資料庫,整合 Swiss-Prot、TrEMBL 和 PIR 三大資料庫的數據而成。
  • Biopython —— 你不知道的 NCBI 訪問方式
    利用這個庫,我們可以編寫腳本,讓程序自動搜索下載資料庫中的信息不用為搜索幾十上百個基因的相關文獻發愁,也不用再為尋找幾十個基因的序列、轉錄本信息等愁得焦頭爛額了Biopython 能幹嘛 ?DOCTYPE eInfoResult PUBLIC "-//NLM//DTD eInfoResult, 11 May 2002//EN" "http://www.ncbi.nlm.nih.gov/entrez/query/DTD/eInfo_020511.dtd"><eInfoResult><DbList>        <DbName
  • 如何使用 NCBI 查找基因序列、mRNA、Promoter | 實驗
    有不少人詢問如何查詢基因序列、如何進行引物設計、如何使用 BLAST 進行序列比對.其實這些問題在 NCBI 上都可以方便的找到答案
  • 國外臨床公開資料庫大盤點:未被挖掘的小眾非生信資料庫有哪些?
    官網最後一次更新是 2014 年,這個聯盟在 2016 年在 Lancet 主刊發了一篇成果(https://pubmed.ncbi.nlm.nih.gov/27045735/),想了解數據具體是什麼的可以去看這篇文章,這篇文章的通訊作者是聖地牙哥分校的 James F Sallis 教授。
  • 數據上傳NCBI三劍客之③—上傳菌種鑑定序列
    這些物種鑑定序列的通常是上傳到NCBI Genbank資料庫。前兩篇推文中,小編為各位小夥伴們介紹了測序原始數據上傳SRA資料庫和微生物基因組上傳NCBI,在本期小編繼續帶小夥伴們輕鬆學會將菌種鑑定序列上傳Genbank資料庫。
  • 凌波微課|菌種鑑定序列上傳NCBI,so easy!
    這些物種鑑定序列的通常是上傳到NCBI Genbank資料庫。本期凌波微課就手把手帶你輕鬆搞定菌種鑑定序列上傳Genbank資料庫。具體操作猛戳上方視頻~ 文  字  簡  要  版  如  下1、在菌鑑結果文件夾中,找到每個樣本的拼接序列,然後將需要上傳的樣本序列整理合併為一個fasta格式的序列(如下圖)。
  • 生物信息學資料庫大全
    http://www.ncbi.nlm.nih.gov/Web/Genbank/  ★ DNA Databank of Japan (DDBJ) ,日本核酸資料庫。  http://www.ddbj.nig.ac.jp/  ★ GSDB是由美國國家基因組資源中心(NCGR)維護的DNA序列關係資料庫(Genome Sequence DataBase)。
  • 【收藏版】生物信息學資料庫大全
    ★ INSD,國際核酸序列資料庫(International Nucleotide Sequence Databank)。http://www.ncbi.nlm.nih.gov/Web/Genbank/  ★ DNA Databank of Japan (DDBJ) ,日本核酸資料庫。  http://www.ddbj.nig.ac.jp/  ★ GSDB是由美國國家基因組資源中心(NCGR)維護的DNA序列關係資料庫(Genome Sequence DataBase)。
  • Nucleic Acids Res:利用新的引物資料庫快速檢測和識別RNA病毒
    引物是一段短的DNA序列,通常長18~22個核苷酸,作為DNA合成的一個起始點。然而,很少有在線資料庫收集了針對RNA病毒的高質量PCR引物,而已有的那些資料庫存在一些限制,從而降低了它們的有用性。這種新的DGIST參考資源,即MTPrimerV資料庫,含有可用於檢測1,818種病毒的152, 380, 247個PCR引物對,涵蓋7,144種基因編碼序列(gene-coding sequence, CDS)。
  • 諾如病毒核酸檢測及病毒基因序列分析
    〔方法〕利用分子生物學技術,通過糞便樣本的核酸(RNA)提取、聚合酶鏈反應(RT-PCR)、凝膠電泳分析以及基因序列測定、基因序列分析等過程,對造成群體腹瀉的病原種類進行確認。〔結果〕9份送檢的腹瀉病人糞便樣本中均檢測到諾如病毒特異性核酸片段。經基因序列分析,確認檢測到的諾如病毒基因型屬基因組Ⅰ(GⅠ)。確認造成馬爾他籍船舶「藍海探索」號暴發腹瀉病例的病原為諾如病毒。
  • NCBI教程|如何從NCBI批量下載序列並用MEGA畫進化樹
    後,利用序列的NC號或者GI號直接搜索下載即可。但是如果需要下載的序列過多(多至幾百條?幾千條?),這個時候就很麻煩了。其實,NCBI自帶的Batch Entrez 只需簡單的幾步就可以很快的實現序列的批量下載。你只需要按照如下的幾步進行就可以完成任務。
  • Nucleic Acids Res:發現兩種較小的新型Cas9核酸酶,有望更容易地...
    CRISPR-Cas是借用細菌的基因組編輯技術,它依賴於Cas核酸酶;這些酶在CRISPR RNA的引導下,可以降解目標基因序列---它們是「基因剪刀」中的刀片。在研究應用中,最受歡迎的Cas9核酸酶是釀膿鏈球菌(Streptococcus pyogenes)Cas9,即II-A型SpCas9。
  • NCBI微生物基因組批量下載
    1、ftp://ftp.ncbi.nlm.nih.gov/genomes/GENOME_REPORTS主要是在分類學水平上對物種基因組信息以文件夾的形式歸類,最終基因組整理統計的基本信息展示在Browse網站(第二部分詳述)(1) ftp://ftp.ncbi.nlm.nih.gov/genomes/all/ (2) ftp://ftp.ncbi.nlm.nih.gov
  • Igblast的安裝與使用
    對於重鏈而言:包含2個恆定區基因序列 Cμ 和Cδ、 44 個V基因、27 D基因、 6 個J基因。對於輕鏈:包含2個 恆定區基因序列 Cμ 和Cδ,以及多個V、J基因,但是沒有D基因。IgBlast可以識別一個IG或TR序列的原始V、D、J基因,分析這三種基因的結合細節、找到FR和CDR的邊界。
  • PubMed大改版,了解一下功能上有哪些改變
    PubMed是由美國國家生物技術信息中心(NCBI)維護的大規模生物醫學文獻資料庫,也是美國政府最受歡迎的網站之一,每天有200萬用戶使用。因此,每次PubMed改版,都會引起大量科研工作者的關注。2020年5月18日後NLM正式啟動了NEW PubMed。新的響應式設計加強了移動端體驗。
  • 序列比對及Blast的應用
    用一組BLAST程序聯配可以快速進行核酸和蛋白質序列庫的相似性檢索。採用BLAST的基本算法編成了若干各不同的程序,分別使用特定的序列庫和用於特定類型的輸入序列。BLASTN是在核苷酸序列庫搜索核苷酸序列。BLASTP是在蛋白質序列庫中搜索胺基酸序列。TBLASTN則可以在核酸序列庫中搜索胺基酸序列,此時序列庫在搜索之前要按所有6種讀框即時翻譯。