一文解決蛋白質家族分析及進化樹構建

2021-02-14 生信自修室

背 景

  

基因家族的分類是以其編碼的蛋白質結構、功能及進化關係為基礎的。基因家族成員既可以是不同物種中具有進化相關性的基因(直系同源基因,orthologs),也可以是同一物種中具有相似生物學功能的同源基因(旁系同源基因,paralogs)。家族成員鑑定主要是利用同源基因(蛋白質)之間的序列相似性。那麼研究基因的進化是選擇DNA序列還是蛋白序列呢?一般情況如果序列的相似性≥70%,選擇DNA序列;當<70%時DNA或蛋白序列皆可。BLAST工具可以用來快速搜索相關序列進而進行同源序列的鑑別,然而BLAST是一種局部比對方法,從整體上講它找到的眾多相關序列之間可能關係很遠;而且BLAST並未在其分析中增加查詢序列中保守區域的權重,從局部來說其發現差異較大的同源基因(如特定物種的種內旁系同源基因)的能力也受到了限制。另一方面,Pfam、SMART、InterPro等資料庫則利用序列譜、隱馬爾可夫模型等方式記錄同源基因保守區域的序列特徵,它們都是從同源序列的多序列比對中總結出來的統計學模型,在遠源家族成員的鑑定中表現更為出色。因此利用序列特徵的統計學模型進行家族成員的鑑定是對BLAST方法的一個很好的補充。然而,序列中的保守區域一般不會覆蓋到序列整體,因此對於一些具有複雜結構的基因當使用只針對局部保守序列的統計學模型進行預測時往往產生的結果數量過多,序列之間的差異加大。如果要確認一組同源基因的功能相關性,還需要藉助系統發育分析的方法來幫助判斷。構建系統發育樹有三種主要的建樹方法,分別是距離法、最大節約法(maximumparsimony,MP)和最大似然法(maximum likelihood,ML)。最大似然法考察數據組中序列的多重比對結果,優化出擁有一定拓撲結構和樹枝長度的進化樹,這個進化樹能夠以最大的概率導致考察的多重比對結果;距離樹考察數據組中所有序列的兩兩比對結果,通過序列兩兩之間的差異決定進化樹的拓撲結構和樹枝長度,基於距離的方法有UPGMA、ME(Minimum Evolution,最小進化法)和NJ(Neighbor-Joining,鄰接法)等;最大節約法考察數據組中序列的多重比對結果,優化出的進化樹能夠利用最少的離散步驟去解釋多重比對中的鹼基差異。對於近緣序列,一般用MP,MP用到的假設最少;遠緣序列一般用NJ或者ML。本文將詳細闡述不同物種間的蛋白家族分析以及進化樹的構建

目 的

擬南芥MAPKK家族的蛋白質序列作為已知參照,找出玉米基因組中可能的 MAPKK家族成員,並進行亞家族的分類,確定序列之間的遠近關係

擬南芥MAPKK蛋白家族介紹:

Arabidopsis MAP Kinase Kinase family

https://molbio.mgh.harvard.edu/sheenweb/mapk_project.html

思 路

獲取參照基因家族(擬南芥MAPKK家族)的蛋白質序列,分析其序列特徵(Pfam Search)

下載玉米基因組蛋白質序列,提取其中包含參照家族序列特徵的序列(HMM search),對結果進行分析

在已獲得的序列集合中利用其他序列特徵進行篩選(psiblast phi_pattern),確定玉米中的 MAPKK

將玉米、擬南芥的MAPKK序列一起進行系統發育分析,確定序列之間的相互關係及亞家族分類

步 驟

1. 獲取擬南芥MAPKK家族的蛋白質序列,進行序列特徵分析

1) 進入TAIR網址(www.arabidopsis.org),從Browse-Gene Families中找到MAPKK基因家族,獲取 Genomic Locus ID

2) 進入TAIR網站,選擇Tools-Bulk data retrieval-sequences,利用Genomic Locus ID將相應序列以fasta格式進行下載,注意調整下載序列的類型為蛋白質序列(Araport11 protein sequences),選擇search against 為 Get one sequence per locus

將下載的fasta文件存為Ara_MAPKK.fasta,各個基因行標可改為以下形式:>ATMKK1_AT4G26070.2

Ara_MAPKK.fasta

3) 進入Pfam網站(https://pfam.xfam.org/),選擇SEARCH - Batch searchAra_MAPKK.fasta進行Pfam庫中的序列特徵分析。在Sequences file欄中上載入序列文件,Cut-off選擇Gathering threshold,填入Email address,點擊Submit進行分析

4) 將Email中的結果保存為Ara_MAPKK_Pfam.txt,在pfam網站通過Pfam ID查看此基因家族的序列特徵並在Curation & model處下載這一序列特徵的HMM ,存為 Pkinase.hmm

Ara_MAPKK_Pfam.txt

Pkinase.hmm

2. 玉米基因組蛋白質序列的獲取,特徵分析以及符合特徵條件的序列提取

1) 從maizegdb網站下載玉米的蛋白序列

2) 利用 Hmmer 工具中的 hmmsearch 命令對玉米基因組中的蛋白質序列進行Pkinase序列特徵(Pkinase.hmm)的鑑別,得到文件 Pkinase_Maize_HMM_domtblout

Hmmer連結:

進行Pkinase序列特徵鑑別

hmmsearch --domtblout Pkinase_Maize_HMM_domtblout \--cut_ga ../Pkinase.hmm ./Zea_mays.B73_RefGen_v4.pep.all.fa

Pkinase_Maize_HMM_domtblout

3) 從hmmsearch的結果中獲取非冗餘的基因ID(編碼蛋白可能會有多個區域符合Pkinase_hmm序列特徵),並根據這個ID_list從玉米全基因組蛋白質序列數據中提取相應的蛋白質序列,並以fasta格式保存提取的序列,命名文件為Pkinase_Maize_HMM_domtblout_out.fa

3. 用blast工具中的psiblast對上一步驟獲得的結果進行進一步過濾及提取


1) Pkinase.hmm這個序列特徵能夠把很多蛋白激酶超家族的成員找到,而MAPKK只是超家族中的一個很小的有其特定功能任務的一個小組。因此,我們需要繼續尋找MAPKK的其他序列特徵,並用這個序列特徵對獲得的結果進行進一步的限定。在TAIR - gene family對MAPKK家族的描述中,包含了另一個很小的序列特徵片段。我們把這個特徵片段保存到一個名為Ara_MAPKK_pattern.txt的文件中

Ara_MAPKK_pattern.txt

2) Blast系列比對工具中有一個psiblast,psiblast 有一個參數(-phi_pattern)就是在蛋白質序列比對的結果中利用特定的pattern特徵(Ara_MAPKK_pattern.txt)對獲得的結果進行匹配限定。分析的目標序列數據則要先利用makeblastdb命令進行格式化以便能夠讓blast 系列工具識別

blast工具連結:

https://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST

利用makeblastdb進行格式化

makeblastdb -in Pkinase_Maize_HMM_domtblout_out.fa  –dbtype prot

利用psiblast進行序列的進一步匹配限定,得到結果文件Pkinase_Maize_HMM_domtblout_VS_psiblast

psiblast -db Pkinase_Maize_HMM_domtblout_out.fa \-query Ara_MAPKK.fasta \-out Pkinase_Maize_HMM_domtblout_VS_psiblast -evalue 0.001  \-phi_pattern Ara_MAPKK_pattern.txt -outfmt 7

Pkinase_Maize_HMM_domtblout_VS_psiblast

3) 獲取psiblast結果文件中的目標基因ID(第二列),並根據這個ID_list從玉米基因組蛋白質序列文件中提取序列並存為fasta格式的序列文件maize_genelocus.fa


4. 家族成員之間的遠近關係分析

1) 利用MEGA-X軟體構建系統發育樹


MEGA是一個功能非常強大的分子進化遺傳分析軟體,可用於序列比對、進化樹的推斷、估計分子進化速度、驗證進化假說等。做系統發育樹先要做多序列比對,然後把多序列比對的結果提交給建樹軟體進行建樹,所以在用MEGA建樹時可以輸入一個已經比對好的多序列比對,也可以輸入一條原始序列,讓MEGA先來做多序列比對,再建樹。MEGA的使用比較簡單,但是參數選擇至關重要,方法如下:

File-Open A File-選擇擬南芥的原始蛋白Ara_MAPKK.fasta為例(如果是要進行物種間的比較需將兩者的蛋白序列合併為一個.fa文件),隨後系統會詢問你選擇Align還是analyze,若是原始序列選擇Align,若是進行過多序列比對的文件選擇analyze

因為我的序列是原始序列,首先選擇Align,接下來需進行多序列比對,選擇Alignment,MEGA提供了ClustalWMuscle兩種多序列比對方法,ClustalW的基本原理是首先做序列的兩兩比對,根據該兩兩比對計算兩兩距離矩陣,是一種經典的比對方法,使用範圍也比較廣泛。Muscle的功能則僅限於多序列比對,它的最大優勢是速度比ClustalW的速度快幾個數量級,我在這裡選擇Muscle,隨後會出現序列比對參數設置窗口(不知道怎麼改選擇默認參數即可),這就是序列比對的打分矩陣,之前已在序列比對一文說明,原文連結如下:

將多序列比對得到的結果保存為.meg文件用於後續建樹,選擇 DATA -Export Aligment - MEGA Format

從箭頭處打開.meg文件,得到一個 TA 文件

在建樹前要選擇一個最優的模型,提高建樹的精確度。如果想要快速建樹可以省去這一步,直接選擇默認的模型。選擇MODELS中的Find Best DNA/Protein Models(ML) ,軟體就會根據你的數據幫你計算尋找最適合的模型(選擇默認參數計算即可)。得到的結果中具有最低BIC分數(BayesianInformation Criterion)的模型被認為是最好地描述替代模式如JTT+G,但是MEGA提供的模型選擇有限,因此可在結果中找到BIC最低值對應的MEGA有的模型即可(JTT

2) 利用ggtree可視化樹結構


其實MEGA軟體也能夠美化構建好的進化樹,但是顏值還是不夠,R包ggtree是個更好的選擇。我將玉米maize_genelocus.fa與擬南芥Ara_MAPKK.fasta兩個蛋白序列合併進行如上方法是進化樹構建,輸出newick格式的樹,需要保存其bootstrap值以及branch length值

ggtree 畫圖

https://yulab-smu.github.io/treedata-book/chapter1.html
library(ggplot2)library(ggtree)setwd("C:/Users/fudiy/Desktop")tree <- read.tree("maize_Ara.nwk")pdf(file="file.pdf",width=10,height=6)p <- ggtree(tree) + geom_nodepoint(color="#b5e521", alpha=1/4, size=10)p + geom_tippoint(color="#FDAC4F", shape=8, size=3) + geom_tiplab(size=3, color="purple")dev.off()

ggtree的方法很多,可以慢慢學著畫 

相關焦點

  • 凌波微課|一節課讓你學會MEGA構建系統發育進化樹並美化(一)
    MEGA構建系統發育進化樹實操(一) MEGA(
  • MEGA幫您解決進化分析與DNA\蛋白質序列比對的苦惱
    一堆序列結果,該如何分析?要在文章中放個進化樹,不會畫怎麼辦?
  • 如何寫一篇家族分析文章(一)—家族分析文章的研讀
    首先,我們要先確定一下哪一類家族分析文章可以發高分,或者這類高分文章都有哪些套路,下面我們通過文獻查詢工具google學術搜索鏡像,以gene family為關鍵字,進行搜索:結果顯示,共2019年就有927片家族分析的文章新鮮出爐!
  • 手把手教你用 Fast Tree 快速構建序列進化樹
    對相似度很低的序列,鄰接法往往出現 Long-branch attraction(LBA,長枝吸引現象),嚴重幹擾進化樹的構建。對於各種方法構建分子進化樹的準確性,Hall 認為貝葉斯的方法最好,其次是最大似然法,然後是最大簡約法。其實如果序列的相似性較高,各種方法結果差別不大。最大似然法和鄰接法需要選擇模型。
  • 詳解進化樹
    系統發育分析中,最重要和最常見的內容為構建系統發育樹。
  • eLife | 利用進化信息預測蛋白質界面間殘基-殘基相互作用
    除了來自大腸桿菌分析的複合物外,作者還使用來自PDB結構3ip4的序列將GatCAB醯胺基轉移酶複合物納入基準集中。對於PDB序列長度比平均長度範圍長得多的情況,作者將覆蓋範圍過濾器修改為查詢的50%。然後使用clustal omega v1.2重新比對序列。查詢序列中不存在的殘基不納入後續分析中。
  • 昆明動物所等對樹鼩KLF基因家族全長及鋅指結構進行系統分析
    近日,中國科學院昆明動物研究所腫瘤生物學學科組將全部17種樹鼩KLF家族因子鑑定出來,並對基因家族全長以及鋅指結構域進行系統分析。相關成果在線發表在雜誌Oncotarget上,昆明動物所、昆明理工大學聯合培養碩士研究生邵明、葛廣哲及昆明理工大學碩士研究生劉文婧為論文的共同第一作者。
  • GraPhlAn:最美進化樹或層級分類樹學習筆記
    是一個可視化進化樹和基於分類等級繪製層級分類樹的工具。值越高顏色越深,當然需要結合設置顏色ring_colorring_color:每條環的顏色進化樹實戰使用材料我們使用已經做好的16s序列構建的進化樹(由Fastree生成,一般為rep_set.tree)對應OTU的豐度表格和注釋文件,分別為otu_table.txt和rep_seqs_tax.txt,有時可能兩者存於同一文件內
  • 進化樹作圖專題:進化樹的幾種分類
    本期承接上期進化樹作圖專題1的內容,和大家分享一下關於進化樹圖的幾種分類。 依據不同規則,樹的分類可以有很多種。由於本專題主要針對於作圖,所以這裡主要的原則就是——樹的外形。所謂「根」,就是一棵樹上的所有基因或物種的最近共同祖先(most recent common ancestor,MRCA)。
  • 跟著Nature microbiology學畫圖~R語言ggtree展示進化樹
    所以論文中實際的數據做的是聚類分析,而並不是進化樹。他這裡做聚類分析也能夠獲得每個節點對應的支持率。這個如何實現我暫時還不知道。為了模仿這個圖,下面的輸入數據我直接使用進化樹文件了,因為構建進化樹的時候能夠很方便的獲得節點的支持率信息。
  • 生物進化樹中蛋白質組熱穩定性圖譜
    此外,數據顯示蛋白質複合物的進化保守性可以通過其相似的蛋白熱穩定性體現出來,並證明了基因組改變可影響熱變性。呼吸鏈中的多個蛋白質在許多物種中都非常穩定,人類線粒體在46℃時接近正常呼吸。同時本文也提到細胞類型特異性會影響蛋白穩定性和藥物效果。
  • 第三章 分子進化與系統發生
    這些新發現意味著,有一些物種的進化是呈現樹狀的,而有一些卻不是,所以用達爾 文的進化枝條來連接物種似乎過於簡單了。3.3 系統發生樹研究分子進化所要構建的系統發生樹(Phylogenetic tree),也叫分子樹。
  • 科學家繪製單子葉植物家族樹—新聞—科學網
    科學家一直難以將種子僅含有一個胚胎葉的單子葉植物放到植物進化樹上。該進化樹對於理解全球8.5萬種單子葉植物的進化關係至關重要。單子葉植物包括像玉米和水稻一樣的主要作物、被牛吃掉的草、棕櫚樹以及諸如蘭花、百合花等一些全球最漂亮的花。 「在幾乎每一個單子葉植物家族中,你都能找到美麗且在經濟和生態上都很重要的成員。」
  • 使用ggtree實現進化樹的可視化和注釋
    進化樹看起來和層次聚類很像。有必要解釋一下兩者的一些區別。層次聚類的側重點在於分類,把距離近的聚在一起。而進化樹的構建雖然也可以說是一個聚類過程,但側重點在於推測進化關係和進化距離(evolutionary distance)。
  • 最新基因家族分析文獻解讀(8月26日接收)
    目前基因家族分析發文章可謂是空前火爆,也較為容易,最近小編收到很多電話諮詢,小編聽來聽去無非還是兩種問題比較多:一是對基因家族分析內容不是很了解
  • 蛋白質結構分析系列(一)
    蛋白質結構分析系列(一):初步認識寫在前面的從上次推文到現在過了很長一段時間。
  • 生物進化是「灌木」不是「樹」?
    達爾文的生物進化論一直是生物進化學的根基,100多年來人們對這一理念深信不疑。1月21日出版的英國《新科學家》雜誌卻載文稱,達爾文認為生物進化呈樹狀的理論是錯誤的。
  • 破譯油桐基因組,揭示油桐進化和油脂合成機制
    系統進化分析顯示(圖1),油桐與同科的麻風樹親緣關係最近,兩者的分化可追溯至3.455千萬年前,但油桐基因組遠大於麻風樹(318.53 Mb),比較基因組學分析揭示其主要原因是油桐基因組中含有大量的重複序列,約佔整個基因組的73.34%,而麻風樹只有49.8%。油桐基因組重複序列中,長末端重複反轉錄轉座子最多,約為50.77%。
  • 多物種純生信系統進化分析就能發TPJ?
    系統發育和域構型分析將RLK分為60多個亞家族,不同亞家族的拷貝數差異很大。迄今為止,RLKs的多樣性,分類和域結構已在植物中進行了廣泛的探索,其中大多數集中於單個物種或有限數量的物種。然而,關於RLKs在植物中的早期進化和多樣化仍然未知。研究方法文章的分析思路很簡單,分別是三大步驟:RLK基因的鑑定,RLK系統進化樹的構建和選擇壓力分析。1.
  • GraPhlAn教程中文版——超炫物種樹進化樹繪製
    本次使用的是進化樹,它和物種注釋層級文件一樣使用即可。關於進化樹的GraPhlAn實戰,請參閱我們之前的教程 GraPhlAn進化樹。本圖中的文字標籤,需要在樹中存在對應的枝節點標籤。這是一個典型的LEfSe分析的默認物種樹配色和樣式,詳見。菌株水平分析 PhyloPhlAn帶有分類注釋的高解析度微生物生命樹。比例表示總分支長度的標準化分數。