首先,我們要先確定一下哪一類家族分析文章可以發高分,或者這類高分文章都有哪些套路,下面我們通過文獻查詢工具google學術搜索鏡像,以gene family為關鍵字,進行搜索:
結果顯示,共2019年就有927片家族分析的文章新鮮出爐!
今天我們先解讀一篇發表在gene上的家族分析文章 Genome-wide identification and characterization of the Dof gene family in cassava (Manihot esculenta)—木薯中Dof基因家族的分析
1.Dof家族簡介
首先,讓我們先認識一下Dof轉錄因子家族。Dof轉錄因子具有一個Dof結構域,可以與DNA結合,對植物的生長發育中扮演重要的角色,而且對各種脅迫均有響應。在此家族中,Dof結構與高度保守,經常定位於氮端,由大約52個胺基酸構成,有一個C2C2鋅指結構域。對於特異性結合具有保守目標DNA的5′-T/AAAAG-3′ 核心序列以及與其他蛋白質,例如OBF(ocs元件結合因子)和TCP14(TCP轉錄因子14)相互作用來說,Dof在其中的作用非常重要。Dof蛋白液有一個二分核定位信號(NLS)與Dof結構域部分重疊,且在C端有一個轉錄激活結構域。
與N-端相比,Dof蛋白的C-端區域是高變的。自從第一個Dof蛋白從玉米中分離出來,它的同源類似物也接連從其他植物中分離。與在大部分藻類中的Dof蛋白成員相比,Dof家族蛋白在陸生植物中表現出來較高的分布廣泛性.例如,擬南芥中發現了36個此家族成員,水稻中30個,白楊41個,白菜中76個。基於進化分析,Dof蛋白被分為四個亞家族(A,B,C,D),且B,C,D亞家族能夠進一步分為一些groups。相比較而言,對木薯中此家族的研究知之甚少!
2.實驗方法及結果展示
介紹完這個家族,那麼我們就正式看一下這篇文章都做了哪些內容吧!
2.1數據和序列準備
首先,作者分別下載了水稻(RGAP7網站http://rice.plantbiology.msu.edu/)中30個和擬南芥(TAIR10網站http://www.arabidopsis.org/)中36個Dof基因(根據前人文獻)。然後將結果存到這樣的附表中。
下載木薯基因組數據(Phytozome v12 (https://phytozome.jgi.doe.gov/pz/portal.html),cassava AM560–2),其他的數據,例如核酸序列,ESTs序列以及RNA-seq數據均下載字NCBI。
2.2Dof家族基因的鑑定及人工校正
Dof結構域的pfam號為PF02701,從Pfam上獲得(http://pfam.sanger.ac.uk/),然後用HMMER3.0和TBLASTN進行搜索。E-value值小於1e-5的正向基因組序列在GeneMark.hmm(http://exon.biology.gatech.edu/GeneMark/)上進行驗證。
基因模型稍後進一步用cDNAs,ESTs和RNA-seq reads進行校正確認。Dof結構與是否出現,用SMART來驗證。
然後鑑定出來的結果,以表格的形式展示:
用BLASTN搜索之前報導的核酸或ESTs同源類似物。之前的RAN-seq數據也用於表達注釋,用MCScanX軟體獲得線性關係和WGD重複事件(定位在重複染色體上且在線性block中出現的重複基因)。當兩個基因在基因組中是連續的,考慮是串聯重複。
染色體定位以及線性關係,重複事件以下圖形式表現:
Ks和Ka用codeml和PAML軟體包計算。此外,BRH方法用於鑑定不同物種間的同源基因。
Ka/Ks的結果以如下形式呈現:
2.3 序列比對和進化分析
用MUSTCLE對鑑定的Dof蛋白序列進行多序列比對,然後用MEGA6.0構建進化樹,其中選用最大似然法(ML),用bootstrap方法重複1000次,用JTT替代模型,用Boxshade(http://www.ch.embnet.org/software/BOX_form.html)軟體對比對後的Dof結構與進行可視化。
MeDof基因的系統命名根據其在染色體上的位置來進行,通過CDS序列和基因序列用GSDS對其基因結構進行分析。
多序列比對的結果:
進化樹及分類的圖:
結合進化樹做了一個柱形圖:
2.4蛋白特性及保守的motif的分析
理論分子質量(MW),等電點(PI),和親水性平均值(GRAVY)用ProtParam(http://web.expasy.org/protparam/)計算。
亞細胞定位用CELLO(http://cello.life.nctu.edu.tw/)預測。
亞細胞定位結果圖:
Dof蛋白的保守motif用MEME (http://meme-suite.org/tools/meme)分析,
其中,最優參數如下:最大motif數為25;最大位點為2;每個motif的最優寬度為6到100個殘基。
MAST程序 (http://meme-suite.org/tools/mast)也用來在蛋白庫中搜索鑑定的motifs。
基因結構圖與motif圖的結合結果展示:
記得motif的基本信息列出來:
記得
2.5基因表達分析
不同組織的全部基因的表達模式是基於RNA-seq樣品(GEO接收號為GSE82279)。包括頂端分生組織(SAM),側芽,葉,中脈,葉柄,莖,纖維根,貯藏根,根頂端分生組織(RAM),脆性胚性愈傷組織(FEC)和體細胞組織胚性發育結構(OES)。使用Bowtie 2將過濾的讀數定位到Dof和其他蛋白質編碼基因的編碼序列(CDS),基因表達水平表示為FPKM。除非特定聲明,否則本研究中使用的工具是使用默認參數執行的。
不同組織表達量的熱圖:
大概,我們了解了這篇文章的基本結構,那麼接下來我們就這篇文章對草莓中Dof基因家族進行分析吧!
後面,會分解步驟以及各個軟體如何應用,敬請期待