近日,著名期刊Nucleic Acids Reasearch在線發表名為『Database resources of the National Center for Biotechnology Information』的文章,對NCBI的更新做了詳細的介紹。
文章概述了NCBI Entrez資料庫系統,然後總結了近年存在更新的資源。
Entrez是一個集成的資料庫檢索系統,可訪問35個不同的資料庫,這些資料庫包含總共27億條記錄。Entrez全局搜索頁面(www.ncbi.nlm.nih.gov/search/)提供了每個資料庫的Web門戶連結。Entrez支持使用簡單的布爾查詢進行文本搜索,下載各種格式的數據以及基於聲明關係在資料庫之間的連結記錄。LinkOut服務擴展了連結範圍,包括外部資源,例如特定生物體的基因組資料庫。在Entrez中檢索到的記錄可以以多種格式顯示,可以單獨或成批下載。並且提供了用於Entrez功能的應用程式編程接口(E-utilities),在eutils.ncbi.nlm.nih.gov上提供了詳細的文檔。
Fig1. 截至2019年9月4日,每個Entrez資料庫中記錄數量的年增長率。
NCBI從三個來源接收數據:研究人員直接提交的數據,與數據提供者和研究團隊達成的國內外合作或協議,以及內部策劃工作。例如,NCBI管理GenBank資料庫,並參與EMBL-EBI歐洲核苷酸檔案庫(ENA)和日本DNA資料庫(DDBJ)作為國際核苷酸序列資料庫的合作夥伴(INSDC)。
以下是涉及更新的部分:
PubMed Labs平臺(www.pubmed.gov/labs)已提供PubMed的更新版本。預計該新版本將在2020年初成為默認的PubMed界面。舊版本在新站點啟動後將繼續並行運行一段時間,並會根據用戶戶反饋對功能進行優先級排序和對齊,從而不斷驗證新界面。更新後的界面採用了移動優先的響應式布局。新的搜索結果將顯示摘要,以及與查詢的相關性從文章摘要中選擇的突出顯示的文本片段。這些摘要可幫助用戶確定文章是否對他們有用。界面的其他改進使用戶更容易發現相關內容
PubMed Central(PMC)。2018年11月,PubMed Central(PMC)開始在關聯數據框中匯總數據引用,數據可用性聲明和補充數據。PMC在具有一個或多個這些功能的文章上顯示此框。通過公開此內容,讀者可以更輕鬆地發現數據集,從而加快發現速度並提高閱讀水平。
書架(Bookshelf)。NCBI書架可免費在線訪問150多個提供商提供的7000多種生命科學和醫療保健書籍和文檔。在過去的一年中,書架通過索引出版物(www.nlm.nih)簡化了查找主要類型內容的過程,還增強了與其他NCBI資料庫資源的集成。
My Bibliography。我的書目是我的NCBI的一個組成部分,允許用戶創建在線發布的作品集。用戶可以直接從PubMed導入引文,也可以使用欄位模板手動添加引文。
Genome updates。NCBI最近提供了一種新的改進的搜索體驗,該體驗可以解釋普通的序列搜索類別的簡單語言。結果顯示在標準結果頁面頂部易於理解的新界面中,並突出顯示了大多數用戶可能最感興趣的數據和相關工具。新的搜索體驗可通過NCBI的多種資源獲得,包括核苷酸,蛋白質,基因,基因組,裝配體和「所有資料庫」搜索頁面。
Searching homologous genes。NCBI最近為用戶添加了一種新方法,以供用戶在NCBI RefSeq數據集中表示的生物體內和生物之間找到與進化相關的基因。這項新服務的目的是讓用戶輕鬆地從越來越多的帶注釋的真核參考基因組中訪問序列數據,以及同源基因集的可視化和分析工具,促進比較基因組學研究。通過輸入與分類組(例如哺乳動物DNAH9)組合的基因符號或在NCBI序列資料庫(核苷酸,蛋白質)的搜索框中從建議菜單(例如DNAH9直系同源物)中選擇「直系同源物」選項,可以找到這些基因集。
原核基因組注釋管道(PGAP),現在可以從GitHub公開提供給有興趣預測公共或私有細菌和古細菌基因組上的基因的用戶(github.com/ncbi/pgap)。該工具還分發了NCBI精選的用於原核注釋的數據集,例如代表同源簇的蛋白質,隱馬爾可夫模型(HMM)和其他注釋規則。提供一個multiFASTA文件和最少的元數據集(程序集特別表示的種類),PGAP將產生與內部NCBI管道生成的內容相符的注釋,並可以通過基因組提交門戶輕鬆提交給GenBank。
NCBI的參考序列(RefSeq)項目於2019年慶祝成立20周年。該數據集現在包括來自超過9.3萬個分類單元的超過2.06億個序列,分別有26%和15%的年增長率。真核生物數據集包含了960多個物種的基因組數據。其中,NCBI已使用真核基因組注釋管道注釋了562個基因組,包括RefSeq中的所有脊椎動物和大多數其他多細胞真核生物。這一通用的處理流程可提供高質量的一致注釋,以幫助跨物種研究,其中90%以上的注釋有RNA-seq數據的證據。
組裝(Assemby)。細菌基因組測序已經變得很便宜,於是被用來探索物種內的變異並監測病原體的傳播。NCBI進行了幾處更改,以適應少數致病細菌的基因組組裝數量激增的趨勢。NCBI還進行了一些改進,以方便查找和下載感興趣的基因組數據集。值得注意的是,已在源自同一二倍體個體的一對基因組組件的成員之間添加了連結。新的文件類型已添加到基因組FTP站點,包括帶有基因(GTF)注釋的文件。這些文件提供RefSeq序列的轉錄本與基因組比對的二進位比對圖(BAM)格式。
病毒基因組(Viral genomes)。NCBI使查找和使用病毒基因組序列數據變得更加容易。由於病毒序列是由多個組隨時間推移提交的,因此它們通常缺乏標準化的分離屬性。這會在其他可比較的數據之間存在不一致。
基因組工作平臺(Genome Workbench)。NCBI的Genome Workbench是一個桌面GUI軟體包,旨在處理和可視化複雜的分子生物學數據,例如序列注釋、變異和比對。除了支持流行的生物信息學數據格式(FASTA,GFF3,VCF和BAM)外,Genome Workbench還可以連接到諸如GenBank和RefSeq之類的NCBI數據源。Genome Workbench還與公共資料庫中找不到的用戶提供的數據完全兼容,並且在處理過程中,此類數據仍保留在用戶受信任的本地環境中。Genome Workbench使生物內容顯示於圖形中,用戶可以將其導出為PDF和SVG格式的高質量圖像,使其適合在出版物中使用。Genome Workbench是一個跨平臺軟體包,可在Windows,MacOS和Linux上運行。3.0.0版還與Google和Amazon雲環境兼容。
單核苷酸多態性資料庫(dbSNP)是人類基因組變異的存儲庫,包括常見和罕見的單核苷酸變異以及其他小規模變異以及頻率數據。
BLAST和Docker。NCBI已將BLAST +命令行工具作為Docker容器的一部分提供。將BLAST +包裝在容器中可以更輕鬆地安裝和維護這些程序。
NCBI在2019年發布了默認Web BLAST報告的更新,該報告現在具有出色的控制項,允許用戶按有機體、同一性百分比和期望值過濾結果。現在,在四個選項卡中顯示「說明」,「圖形摘要」,「路線」和「分類法」報告,使用戶可以輕鬆地在這些視圖之間切換。
引物-BLAST(Primer-Blast)。現在,Primer-BLAST網頁允許用戶強制Primer-BLAST,忽略某些脫靶匹配。此功能使Primer-BLAST在引物設計中具有更大的靈活性,從而為用戶提供更好的結果。
IgBLAST現在可以檢測具有超長D和N區的Ig重排,例如在人類抗HIV抗體中發現的那些重排。IgBLAST現在使用標準基因座名稱(例如IGH和TRB),而不是傳統名稱(例如VH和VB)。
PubChem(pubchem.ncbi.nlm.nih.gov)是NCBI的公共化學數據存儲庫。在過去的一年中,PubChem整合了來自70多個新數據源的化學信息。值得注意的是,得益於Thieme Chemistry的數據貢獻,PubChem在將近70萬種化學藥品與大約70萬篇科學論文之間增加了120萬條連結,重點是合成有機化學和藥用物質(go.usa.gov/xEDCA)。這些連結極大地擴展了與合成相關的化學信息的可發現性、可訪問性、互操作性和可重用性(FAIR)。PubChem在2019年發布了一個新的Web界面,包括重新設計的主頁和記錄摘要頁面,這些頁面可以更輕鬆,更快速地訪問化學信息(go.usa.gov/xEM4Y; go.usa.gov/xEuP7)。
原文連結:
https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkz899/5585551#164286260
植物生物技術Pbj 交流群
為了能更有效地幫助廣大的科研工作者獲取相關信息,植物生物技術Pbj特建立微信群,Plant Biotechnology Journal投稿以及文獻相關問題、公眾號發布內容及公眾號投稿問題都會集中在群內進行解答,同時鼓勵在群內交流學術、碰撞思維。為了保證群內良好的討論環境,請先添加小編微信,掃描二維碼添加,之後我們會及時邀請您進群。小提示:添加小編微信時及進群後請務必備註學校或單位+姓名,PI在結尾註明,我們會邀請您進入PI群。