蛋白組學/代謝組學如何快速從主流資料庫中獲取人/小鼠數據?

2020-09-16 鹿明蛋白組代謝組

隨著生物科技的迅速發展,每天都會有海量的生物學數據產生,如何有效的分析這些「生物學大數據」?生物信息學的應用變得尤為重要,在生物領域從基因測序,到基因編輯,再到基因療法的精準醫療,由生物科技引發的又一場變革正悄然而至。試問大家做好準備迎接它到來了嗎?

本次分享的主題為:如何快速獲取海量數據?我們就從物種的DNA或蛋白質序列說起,在我們的科學研究中下載序列是一件簡單不過的事情,無非就是聯網NCBI等主頁上,選擇資料庫後輸入AC號或GI號後直接下載。

如果是少量的序列數據,我們可以通過一個個ID去查找,複製,粘貼方式保存到本地文件中。

但是如何大批量下載數據呢?再通過複製、粘貼方法雖然很精確但是對於大批量的數據下載效率實在是太低了。是否可以直接下載資料庫準備好的序列文件?或者編寫程序腳本進行批量下載?

本次小鹿分享的是2種熱門物種(人和鼠)的無編程基礎的下載方式。(我們後面會分享「如何使用代碼批量下載生物學序列數據」)


物種 人


1.NCBI的GenBank資料庫

基因:MYH9

物種:人Homo sapiens

(1)用瀏覽器登錄NCBI資料庫官網:https://www.ncbi.nlm.nih.gov/

(2)資料庫選擇框:選擇Gene;在搜索框輸入:MYH9,可以添加Homo sapiens或者Human,這樣匹配更準確;

(3)點擊MYH9 - myosin heavy chain 9,選擇FASTA格式;

(4)點擊下載MYH9基因序列NCBI Reference Sequence: NC_000022.11,起個合適的文件名,推薦使用基因名或者資料庫登錄號;

(5)物種基因組和蛋白組序列的下載

選擇Genome子資料庫,同樣在搜索框輸入物種英文名或拉丁學名,例如,輸入human,我們查找人的基因組數據,如下所示:

點擊下載基因組或蛋白組FASTA序列,直接會彈出下載連結,選擇保存文件的位置即可開始下載;

還可以下載NCBI上的基因組注釋GFF文件(Ensembl資料庫也可以下載物種的GFF文件,後面會給大家講到)


物種 人和小鼠



2.Uniprot資料庫


樣例蛋白:P35579

物種:人Homo sapiens和小鼠Mus musculus

(1)用瀏覽器登錄Uniprot資料庫官網:https://www.uniprot.org/

(2)搜索框輸入:P35579,點擊Search;

(3)查看P35579蛋白的生物學信息:肌球蛋白9(Myosin-9);

可以看到該蛋白主要分布在細胞基質中,是細胞的動力蛋白;

(4)下載序列數據,點擊FASTA;

(5)下載物種蛋白質組序列文件(例如下載物種:小鼠mus musculus);

在Uniprot資料庫官網選擇Proteomes子庫,然後在搜索框輸入:mus musculus,選擇Organism ID為10090的小鼠;

點擊Protein Count: 55462,顯示小鼠蛋白Entry,可以根據需要定製自己需要的數據:例如,我們需要GeneID,點擊Columns進行個性化的定製;

如下所示:

點擊Download下載所需要的數據,選擇文件格式。如果我們需要的是表格數據,我們通常下載為Tab分割符(Tab-separated)的txt文件,因為Excel表格有最大行數的限制,如果超出最大行數會導致數據丟失;

如果是序列文件,我們選擇下載FASTA格式的文件;


物種 人



3.Ensembl(Ensembl Genome Browser)資料庫


物種:人Homo sapiens

(1)使用瀏覽器登錄數據資料庫:https://asia.ensembl.org/index.html

(2)選擇Human資料庫,如下所示:

(3)選擇下載基因組序列,見下圖:

(4)在Ensembl資料庫下載物種的GFF文件

前面我們講到了在NCBI資料庫中下載物種基因組注釋GFF文件,其實我們還可以在Ensembl資料庫中下載物種的注釋文件,而且在Ensembl中下載的GFF文件更加標準,使用起來更方便。


(5)直接連接到ensembl的FTP伺服器,

網址:ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/dna/

選擇toplevel標籤的序列文件進行下載,如下所示:

小鹿後面還會分享「如何使用代碼批量下載生物學序列數據」哦,請關注鹿明生物,get最新分享熱文。

猜你還想看


◆生信分析:你可以更美一些:SnapGene Viewer軟體序列可視化操作

◆雲平臺:震驚!他花了3分鐘就完成了我三個周的工作!

◆雲平臺:歐易/鹿明雲 | 免費的聚類熱圖不試試嗎?

◆生信分析:這個R包不太冷系列——GOplot(功能富集繪圖)

◆生信分析:10行代碼讓你的相關性圖貌美如花

◆生信分析:對話百年名畫--文章繪圖配色高級又簡單!

◆生信分析:只需3分鐘Get「代謝通路分析神器」

◆生信分析:玩轉生信—火山圖中「億點細節」,你會打造嗎?

◆生信分析:【指南】Cytoscape之stringAPP蛋白互作分析詳解

◆生信分析:【教程】組學研究,用python快速實現PCA分析和繪圖

◆生信分析:組學研究,R語言實用技巧—熱圖,運用pheatmap包簡單易懂快速匯圖方法來襲~

◆生信分析:【情人節】R語言—小提琴圖的浪漫邂逅

END

文章來源於鹿明生物

相關焦點

  • 蛋白組學/代謝組學如何快速從主流資料庫中獲取人/小鼠數據?
    隨著生物科技的迅速發展,每天都會有海量的生物學數據產生,如何有效的分析這些「生物學大數據」?生物信息學的應用變得尤為重要,在生物領域從基因測序,到基因編輯,再到基因療法的精準醫療,由生物科技引發的又一場變革正悄然而至。試問大家做好準備迎接它到來了嗎?本次分享的主題為:如何快速獲取海量數據?
  • LC-MS代謝組學對阿爾茨海默病腸道微生物資料庫全面研究
    在本文中,作者通過集成化學同位素標記與液相色譜-質譜聯用技術(LC-MS代謝組學)重點對糞便樣本中含有羧基、羰基、胺基以及巰基的代謝物進行了系統性的分析研究,建立了小鼠糞便代謝組學資料庫。中文標題:使用同位素標記的方法全面地分析糞便樣本中的代謝物研究對象:雙轉基因小鼠糞便發表期刊:Analytical Chemistry影響因子:6.785運用生物技術:LC-MS代謝組學研究背景哺乳動物體內有多種代謝活躍的腸道菌群。宿主和腸道菌群之間的動態串擾對維持宿主體內平衡至關重要。哺乳動物體內有多種代謝活躍的腸道菌群。
  • 代謝組學——後基因組時代新熱點
    」系列專刊簡介:本系列專刊含蓋:專家話代謝、代謝組學實驗設計、數據解讀分析、資料庫介紹及使用流程等一系列乾貨內容;專刊系列將邀請代謝組學知名學者及一線技術人員對代謝組學發展和相關技術進行系統性的歸納總結
  • 如何從ENCODE資料庫中快速獲取組蛋白chip-Seq的可視化數據
    原標題:如何從ENCODE資料庫中快速獲取組蛋白chip-Seq的可視化數據 在我們平時的科研中,常常需要知道自己研究的基因組區段是否位於一些調控元件上,如enhancer,promoter或者特定蛋白結合位點(如TFBS)等。
  • 科學網—玉米多組學資料庫上線了
    該資料庫內嵌了基因組「瀏覽器」和「搜尋引擎」,從而實現了對相關組學生物大數據的高度集成、快速檢索和智能分析。 此前,我國玉米基礎研究取得了顯著成績,但在其研究材料和數據的共享平臺建設上有待加強。該資料庫的建立,不僅幫助用戶提升了對作物組學數據挖掘的時間效率,更實現了多維組學大數據之間的聯繫,在打通信息「孤島」上邁出有力一步。
  • 代謝組學:未來新方向
    墨爾本大學助理教授、該校的澳大利亞代謝組分站負責人Ute Roessner說,「今年我們有超過500名註冊參會人。而且代謝組學已經成為了每位研究者研究工具的一部分。現在,年輕的研究者定期開展代謝組學工作,作為他們博士工作的一部分。」   代謝組學最主要的挑戰根植於它的優點。
  • 聚焦代謝組學平臺建設 促進技術向應用轉化——訪清華大學代謝組學...
    清華大學代謝組學平臺為國家蛋白質科學研究(北京)設施清華大學蛋白質研究技術中心下設平臺之一。經過幾年的發展,該平臺擁有了完善的代謝產物及脂質物質的二級資料庫及常見內源性代謝物的信息採集與數據分析方法,可以提供準確的代謝組學和代謝流分析服務。
  • 3分鐘帶你看懂代謝組學研究中常用的「套路」
    但是懂行的人都知道,代謝組學的研究紛繁複雜、種類繁多,實驗得到的數據量也相當驚人。那麼如何在代謝組學的研究中理出頭緒呢?今天谷君整理了一些常用的「套路」,希望能夠給大家一些啟發。常用的代謝組學相關資料庫有人類代謝組資料庫(Human Metabolome Database, HMDB)、KEGG資料庫、Reactome資料庫 (http://www.reactome.org)等,一一介紹如下:人類代謝組資料庫(HMDB)是代謝組學熱門資料庫之一,包含人體內發現的小分子代謝物的詳細信息,包含不少於79,650
  • 2大尚方寶劍,雙平臺+雙自建資料庫助力醫學代謝組學研究
    但當你真正著手代謝組學時,才能體會什麼是無助!作為三大組學之一,代謝組學是分析難度最高、水最深的。為什麼呢?代謝組學中存在什麼問題呢?,資料庫包含3600+代謝物,其中涵蓋胺基酸、脂質、核苷酸、碳水化合物、維生素和輔助因子、激素等,包含代謝物結構、質譜數據等,旨在更專業的通過代謝組學解決生物學問題。
  • 首屆中國計算蛋白質組學研討會在京召開
    蛋白質組學的興起帶動了質譜技術的快速發展,而質譜技術的進步則拓寬了蛋白質組學研究問題的廣度。隨著蛋白質組學的興起,特別是質譜技術的快速發展,蛋白質組學研究中產生的數據規模越來越大。
  • Cell上的經典蛋白組學、磷酸化蛋白組學、WES多組學聯合分析文獻
    然而,隨著更多組學技術的出現和發展,如何充分利用高性價比的WES數據繼續保持高影響力的文章產出,已成為困擾很多研究者的問題。今天小鹿為大家整理了近期發表在Cell上的一篇極為經典的蛋白組學、磷酸化蛋白組學、WES相關的多組學聯合分析文獻,希望能助您打開思路,找到新的挖掘點。
  • 「蛋白組學研究」熱門DIA技術3篇文章總計IF:66分
    主要技術:PCT-SWATH/DIA中文標題:將組織活檢樣品快速質譜轉換為永久定量數字蛋白質組圖譜這篇文章中,作者用PCT-DIA技術方法將來自9個腎癌病人的18個組織切片分別轉化為(DIA)SWATH-MS多肽離子碎片譜圖,並從這些譜圖中對2000個蛋白樣本進行定性和定量分析。
  • 線粒體乙醯化:蛋白組學,sirtuins去乙醯化酶, 以及對代謝和疾病的影響
    最近的一項蛋白組學研究確定了蛋白乙醯化修飾的3000多個位點,並且認識到乙醯化修飾是各種醯基化修飾的中心,這些醯基化修飾存在於各種生命中,並且調節細胞的轉錄、代謝等過程。SIRT3~5調控的線粒體乙醯化修飾2006年首次報導了賴氨酸乙醯化的蛋白組學研究,結果發現細胞質和細胞核中有195種蛋白的388個乙醯化位點,而在195中蛋白中,僅有13種已知蛋白,更加有趣的是,超過一半的乙醯化位點和蛋白定位於線粒體。這項研究表明賴氨酸乙醯化也存在於線粒體中,構成了獨特的線粒體乙醯體調控的網絡框架。
  • 【代謝組學】核磁共振和質譜的優缺點—針對代謝組學研究
    核磁共振和質譜的技術比較1.核磁共振和質譜概述1.1 代謝組學技術概述代謝組學分析可分為靶向分析和非靶向分析。非靶向分析側重於樣本中代謝物總量(「指紋」)的代謝譜分析。 核磁共振通常用於代謝組學指紋圖譜研究。
  • 研究思路|微生物組+代謝組多組學應用案例解讀(第二期)
    今天為大家分享幾篇微生物組+代謝組多組學應用在腸道樣本中的文獻案例。案例1題目:飲食和運動在腸道微生物-宿主共代謝中的作用研究期刊:mSystemsIF:6.633發表時間:2020.12DOI號:10.1128/mSystems.00677-20研究方法:16S+宏基因組+靶標代謝組本文為了研究飲食和體育鍛鍊對新陳代謝和腸道微生物群的單獨和聯合影響,收集運動員和不經常運動的人的糞便和尿液樣本
  • iTRAQ蛋白質組學、GC-MS代謝組學對柑橘黃龍病影響果肉風味研究
    在患病水果中這三種酶的水平均低於健康對照組。相反,CaLas下調了許多與丙酮酸代謝相關的蛋白質。磷酸烯醇丙酮酸羧化酶和羧激酶的水平下降。丙酮酸脫氫酶複合物將糖酵解與TCA循環聯繫起來,其複合體中的相關蛋白在有症狀的水果中被下調。
  • 6篇16S rRNA基因測序+代謝組學聯合項目文章助力您快速發文
    編者按:16S rRNA基因測序是目前主要的高通量測序依賴的腸道微生物研究的方法之一,16S rRNA基因測序測序可以對腸道微生物中的所有菌種進行精確定量,可以回答「樣本當中有哪些微生物,他們具有哪些功能」。然而蛋白質組學和代謝組學等下遊組學研究可以回答「這些功能是否真的發生了,發生的程度是什麼樣的」。
  • MetaboAnalyst 代謝組學在線分析
    MetaboAnalyst 這個網絡工具自2009年誕生以來,已在代謝組學數據分析這片領域內牢牢紮根。便更好地應對了日益增加的用戶需求,它可用於代謝組學數據分析、注釋、整合其他組學數據。MetaboAnalyst 已遷至Google雲伺服器上。在2007年,約25%代謝組學研究使用過MetaboAnalyst 。
  • Nucleic Acids Res | 代謝組學數據預處理
    代謝組學(Metabolomics)以生物體內所有代謝產物為研究對象,定性定量地研究代謝物與機體生理或病理變化之間的關係。近年來,時間序列代謝組學(J Biol Chem. 292: 19556-64, 2017)和多類別代謝組學(Science. 363: 644-9, 2019)備受關注,因而對這些研究中的複雜組學數據的統計分析已經成為領域內極富挑戰的前沿方向。
  • 賽默飛Orbitrap超高分辨,代謝組學極致所見
    與此同時,代謝組學也面臨著多方面令人頭禿的難點和問題。非靶向代謝組學是生命科學研究Discovery階段最常用的切入手段,可無偏向性地對所有小分子代謝物同時進行檢測分析。但傳統的非靶向代謝組學存在無法定量、注釋物質及注釋信息不全等瓶頸,這些在一定程度上制約了科研工作者對代謝組學的研究。