基因家族專題(3):基因家族成員的鑑定

2021-03-01 生信菜鳥團

Data preparation

繼續上次的內容,下載好數據後就可以正式開始鑑定了。首先回顧一下,下載好的數據。

基因組序列信息,存儲基因組序列信息的.fasta文件。還有其蛋白質序列,也是以.fasta結尾的文件。一般來說注釋的比較好的基因組都會含有這些文件。

基因組基因結構注釋信息。儲存基因的intron,exon,CDS,gene等坐標信息的.gff3或.gtf文件。

所感興趣的基因家族隱馬可夫模型,hmm文件

-rw-r 1 hhu pawsey0149  9738306 Oct 25 12:24 Arabidopsis_thaliana.TAIR10.41.gff3.gz

-rw-r 1 hhu pawsey0149 14623390 Oct 25 12:23 Arabidopsis_thaliana.TAIR10.cds.all.fa.gz

-rw-r 1 hhu pawsey0149 36462703 Oct 25 12:23 Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz

-rw-r 1 hhu pawsey0149  9776319 Oct 25 12:22 Arabidopsis_thaliana.TAIR10.pep.all.fa.gz

-rw-r 1 hhu pawsey0149   118379 Oct 25 12:26 NBS-ARC.hmm

基因家族鑑定的工具hmmer

一般尋找基因家族,都可以通過保守結構域來預測,從而找到物種的某一基因家族,從而進行之後的分析。這裡就需要用到HMMER,來鑑定物種某一基因家族。

HMMER3.1下載地址:http://hmmer.org/download.html HMMER3.1 manual:http://eddylab.org/software/hmmer3/3.1b2/Userguide.pdf

hmmbuild/hmmsearch/hmmscan/hmmalign 這幾個功能是主要用於蛋白質結構與分析和注釋的hmmer中小工具

在鑑定基因家族時,常用到的工具是hmmsearch,裡面常用的算法有三種。一般我們使用--cut_tc算法對隱馬可夫模型進行搜索,tc算法是使用pfam提供的hmm文件中trusted cutoof的值進行篩選,相對比較可靠。

 --cut_ga : use profile's GA gathering cutoffs to set all thresholding

 --cut_nc : use profile's NC noise cutoffs to set all thresholding

 --cut_tc : use profile's TC trusted cutoffs to set all thresholding

具體實戰操作

下面會根據一篇經典文獻中的方法,對擬南芥進行NBS-LRR基因組的探索。首先,回顧一下文獻看看整體它的思路和方法。

Identification of NBS-LRR genes

Predicted proteins from the cassava genome were scanned using HMMER v3 [39] using the Hidden Markov Model (HMM) corresponding to the Pfam [40] NBS (NB-ARC) family (PF00931; http://pfam.sanger.ac.uk/). From the proteins obtained using the raw NBS HMM, a high-quality protein set (E-value < 1 × 10−20 and manual verification of an intact NBS domain) was aligned and used to construct a cassava-specific NBS HMM using hmmbuild from the HMMER v3 suite. This new cassava-specific HMM was used, and all proteins with an E-value lower than 0.01 were selected. NBS-LRR genes were further filtered based on manual curation and functional annotation against both the closest homolog from Arabidopsis and the UNIREF100 sequence database. Most of the proteins that were removed had at least a partial kinase domain, but no relationship to NBS-LRR genes; this result was expected because theNBS domain has smaller kinase subdomains

這副圖就是對應了該文章的基因家族鑑定思路,首先在全基因組的範圍內使用hmmersearch和NBS-ARC基因家族的隱馬可夫模型進行基因家族的進行初步搜索,接著把質量比較高的基因家族候選基因篩選出來E-value < 1 × 10−20, 然後使用clustalw2對高質量的序列進行多序列比對,多序列比對後,對這些置信的序列進行隱馬可夫模型的構建(使用hmmbuild),最後使用該新建的隱馬可夫模型,進一步篩選完整的NSB基因家族序列(需再次過濾,找到基因家族的成員數量一般比第一步初步篩選的多)。

把該流程用到我測試數據中:

##目標基因家族搜索

hmmsearch --cut_tc --domtblout NBS-ABC.out NBS-ARC.hmm Arabidopsis_thaliana.TAIR10.pep.all.fa

##簡單看看運算的初步輸出結果

head NBS-ABC.out

##output

#                                                                            --- full sequence --- ---- this domain ---   hmm coord   ali coord   env coord

# target name        accession   tlen query name           accession   qlen   E-value  score  bias   #  of  c-Evalue  i-Evalue  score  bias  from    to  from    to  from    to  acc description of target

#

AT1G61180.1          -            889 NB-ARC               PF00931.22   252   1.4e-90  304.3   0.6   1   1   2.2e-92   2.5e-90  303.5   0.6     1   251   156   397   156   398 0.99 pep chromosome:TAIR10:1:22551271:22554684:1 gene:AT1G61180 transcript:AT1G61180.1 gene_biotype:protein_coding transcript_biotype:protein_coding description:LRR and NB-ARC domains-containing disease resistance protein [Source:UniProtKB/TrEMBL;Acc:Q2V4G0]

AT1G61180.2          -            899 NB-ARC               PF00931.22   252   1.5e-90  304.2   0.6   1   1   2.2e-92   2.5e-90  303.5   0.6     1   251   156   397   156   398 0.99 pep chromosome:TAIR10:1:22551271:22554684:1 gene:AT1G61180 transcript:AT1G61180.2 gene_biotype:protein_coding transcript_biotype:protein_coding description:LRR and NB-ARC domains-containing disease resistance protein [Source:UniProtKB/TrEMBL;Acc:Q2V4G0]

###對其e-value進行篩選,篩選出高質量的NBS-LRR蛋白質序列。

grep -v "#" NBS-ABC.out|awk '($7 + 0) < 1E-20'|cut -f1 -d  " "|sort -u > NBS-ARC_qua_id.txt

~/biosoft/seqtk/seqtk subseq Arabidopsis_thaliana.TAIR10.pep.all.fa NBS-ARC_qua_id.txt >NBS-ARC_qua.fa

對篩選出來的序列,使用clustalw2進行多序列的比較

clustalw2

**************************************************************

******** CLUSTAL 2.1 Multiple Sequence Alignments  ********

**************************************************************

    1. Sequence Input From Disc

    2. Multiple Alignments

    3. Profile / Structure Alignments

    4. Phylogenetic trees

    S. Execute a system command

    H. HELP

    X. EXIT (leave program)

Your choice: 1

Sequences should all be in 1 file.

7 formats accepted:

NBRF/PIR, EMBL/SwissProt, Pearson (Fasta), GDE, Clustal, GCG/MSF,                  RSF.

Enter the name of the sequence file : NBS-ARC_qua.fa

**************************************************************

******** CLUSTAL 2.1 Multiple Sequence Alignments  ********

**************************************************************

    1. Sequence Input From Disc

    2. Multiple Alignments

    3. Profile / Structure Alignments

    4. Phylogenetic trees

    S. Execute a system command

    H. HELP

    X. EXIT (leave program)

Your choice: 1

Sequences should all be in 1 file.

7 formats accepted:

NBRF/PIR, EMBL/SwissProt, Pearson (Fasta), GDE, Clustal, GCG/MSF,                  RSF.

Enter the name of the sequence file : new_NBS.aln

對這些置信的序列進行隱馬可夫模型的構建(使用hmmbuild),構建更加準確地儘可能預測所有的基因家族成員。

hmmbuild NBS-ARC.second.out  NBS-ARC_qua.aln

hmmsearch --cut_tc --domtblout NBS-ARC.second.out NBS-ARC_qua.hmm ../Arabidopsis_thaliana.TAIR10.pep.all.fa

最後對再次對這些基因進行過濾與提取

grep -v "#" NBS-ABC.second.out|awk '($7 + 0) < 1E-103' | cut -f1 -d " "|sort -u >final.NBS.list

~/biosoft/seqtk/seqtk subseq Arabidopsis_thaliana.TAIR10.pep.all.fa final.NBS.list >final_NBS-ARC_qua.fa

BLAST-based method

除了使用隱馬可夫模型和hmmer搜索的方法外,使用同源比對blast的方法也是鑑定基因家族的其中一種方法。

首先我去了NCBI下載所有植物的存在於Ref-seq(一般認為是比較置信的植物基因序列)中的NBS序列

makeblastdb -in ref.nbs.plant.fa -dbtype prot

cat blastp.out |awk '$3>75' |cut -f1 |sort -u > blastp_result_id.list

最後我們還可將上述兩種方法重合的gene id,找出兩種方法共有的基因家族,這樣結果就比較置信了。

comm -12 blastp_result_id.list hmm_out_id.list > common.list

~/biosoft/seqtk/seqtk subseq Arabidopsis_thaliana.TAIR10.pep.all.fa common.list >final_searh_NBS-ARC_qua.fa

最後可以通過一些網上的保守結構域搜索網頁,進一步對所找出的結果進行驗證:

比如:NCBI CD-Search toolhttps://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi

Pfam的搜索:https://pfam.xfam.org/search#tabview=tab1

又或者:InterProScan sequence searchhttps://www.ebi.ac.uk/interpro/search/sequence-search

這些工具都可再次驗證所搜尋的蛋白質序列是不是含有基因家族對應的domain。在查看保守結構域後,如果該區域含有NBS所對應的保守結構域,例如LRR區域等,該蛋白質序列可以保留進行後續的分析。如果在該區域沒有找到對應的保守區域,為了分析的嚴謹性,需進行進一步的排查來確定是否要去掉該序列。這種情況一般分為兩種情況,第一種就是注釋無誤,該序列確實丟失了對應的保守結構域,需要去掉。第二種情況就是注釋有誤,該序列的結構域可能沒有被完整的保留下來,這種情況應該截取該序列的上下遊重新注釋分析。

星期三是我的專題日哦,如果你喜歡我的文章,請點一下文末的小贊給與我更多創作的動力,如果你想了解更多,歡迎點擊閱讀原文,查看更多我的筆記~

往期回顧:

基因家族專題(1):基礎知識與研究思路介紹

基因家族專題(2):數據下載與基因家族成員的鑑定

▼ 如果你生信基本技能已經入門,需要提高自己,請關注下面的生信技能樹,看我們是如何完善生信技能,成為一個生信全棧工程師。

▼ 如果你是初學者,請關注下面的生信菜鳥團,了解生信基礎名詞,概念,紮實的打好基礎,爭取早日入門。

相關焦點

  • 尹玉新團隊發現抗癌基因 PTEN 家族新成員 PTENβ
    尹玉新團隊發現抗癌基因 PTEN 家族新成員 PTENβ 來源:生命科學聯合中心   發布者:左麗媛   日期:2017-03-27   今日/總瀏覽:6/
  • 樹鼩KLF基因家族特點及進化分析
    導讀:昆明動物所腫瘤生物學學科組陳策實研究員團隊將全部17種樹鼩KLF家族因子鑑定出來,然後對基因家族全長以及鋅指結構域進行系統分析
  • 基因家族擴增與收縮分析
    基因家族擴增與收縮分析基因家族的擴張和收縮分析一般會使用orthoMCL進行同源基因識別,然後選擇直系同源基因進行物種樹構建
  • 茶樹HAK / KUP / KT家族鉀轉運蛋白基因家族
    在植物中,HAK / KUP / KT家族成員在K +的獲取和轉運,生長和發育以及對脅迫的響應中起著至關重要的作用。然而,這些基因在茶樹中的生物學功能仍然是個謎,尤其是它們在鉀離子吸收和脅迫反應中的作用。
  • Science:鑑定出一類保守的基因家族編碼質子選擇性離子通道
    儘管編碼讓質子離開細胞的離子通道的基因已被鑑定出,但是人們並不清楚是否需要一個或幾個基因來形成讓質子進入細胞的離子通道。如今,這項針對酸味的研究鑑定出編碼質子傳導離子通道的otopetrin基因家族。這個基因家族最初被認為在保持身體平衡中起著重要的作用:基因Otop1(編碼otopetrin 1蛋白)發生突變的小鼠不能夠讓它們自己保持直立。
  • 成骨細胞特異因子2基因家族的全基因組鑑定、分類及進化分析
    保守結構域:是指在生物進化中一個蛋白家族中具有不變或相同的結構域,具有重要的功能,不能被改變。結構域是蛋白質中由不同二級結構和超二級結構組合而成的獨立的穩定結構區域,是蛋白質功能單元。背景:目前,Fasciclin基因家族的保守結構、蛋白特性、系統發育關係尚無系統的研究。
  • 尋找曹操後裔:基因考古破解家族DNA密碼
    這個謎題如今有了生命科學方面的線索:曹操家族的男子有一個共同的密碼:O2*-M268。  這個基因密碼,如同曹操家族的圖騰、紋飾,烙印在每一個成員的DNA鏈條上。  這項新的發現源自於復旦大學歷史學和人類學聯合課題組三年來的研究成果:通過研究當代超千例曹姓後人DNA,發現9支後人的DNA中含有相同Y染色體基因突變點O2*-M268,再對比曹操叔祖父曹鼎的古DNA,確定該突變點為曹操家族DNA固有突變點。  11月11日,消息一經公布,課題組成員之一王傳超在微博上開起玩笑:「曹操他媽媽再也不用擔心曹操是韓國人了。」
  • 如何寫一篇家族分析文章(一)—家族分析文章的研讀
    與在大部分藻類中的Dof蛋白成員相比,Dof家族蛋白在陸生植物中表現出來較高的分布廣泛性.例如,擬南芥中發現了36個此家族成員,水稻中30個,白楊41個,白菜中76個。基於進化分析,Dof蛋白被分為四個亞家族(A,B,C,D),且B,C,D亞家族能夠進一步分為一些groups。相比較而言,對木薯中此家族的研究知之甚少!
  • 基因家族聚類之OrthoFinder
    做進化、基因家族分析、比較基因組使用OrthoFinder is simple to use and all you need to run it is a set of protein sequence files (one per species) in FASTA format.
  • 基因考古破解曹操家族DNA密碼 確定9支曹操後人
    這個謎題如今有了生命科學方面的線索:曹操家族的男子有一個共同的密碼:O2*-M268。這個基因密碼,如同曹操家族的圖騰、紋飾,烙印在每一個成員的DNA鏈條上。這項新的發現源自於復旦大學歷史學和人類學聯合課題組三年來的研究成果:通過研究當代超千例曹姓後人DNA,發現9支後人的DNA中含有相同Y染色體基因突變點O2*-M268,再對比曹操叔祖父曹鼎的古DNA,確定該突變點為曹操家族DNA固有突變點。11月11日,消息一經公布,課題組成員之一王傳超在微博上開起玩笑:「曹操他媽媽再也不用擔心曹操是韓國人了。」
  • 小麥SBP-box基因家族的全基因組鑑定,表徵和表達模式分析
    小麥SBP-box基因家族的全基因組鑑定,表徵和表達模式分析https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7560695/西北農林科技大學農學院 陳新宏團隊摘要
  • 基於基因家族的生信發文思路
    本次分享一下基因家族的生信發文思路,文章發表在Cancer Medicine上,影響因子:3.491,中科院分區:三區。作者分析了exostosin蛋白家族的兩個基因:EXT1和EXT2 ,主要進行表達水平的差異分析、功能分析、預後分析,最後發現只有EXT1可以成為具有預後價值的biomaker。
  • 醫學部基礎醫學院尹玉新團隊發現抗癌基因PTEN家族新成員PTENβ
    北京大學醫學部基礎醫學院系統生物醫學研究所尹玉新教授課題組最近取得研究突破,首次鑑定出抗癌基因PTEN家族的新亞型蛋白PTENβ。PTENβ定位於核仁,參與調控rDNA轉錄和核糖體生成,從而抑制腫瘤細胞生長。
  • 食肉目鼬科及基因家族相關進化研究獲進展
    近日來自中國科學院昆明動物研究所的張亞平院士課題組捷報頻傳,在食肉目鼬科分子系統學研究及基因家族相關性進化研究中取得突破性進展,兩項研究成果分別發表在著名雜誌
  • 小G蛋白家族新成員的分子機制研究取得進展
    在人類中,目前共發現超過150個家族成員。在果蠅、秀麗隱杆線蟲、釀酒酵母、粟酒裂殖酵母和植物中也都發現了家族中保守的同源物。RJL家族通常每個基因組僅呈現一個代表性的同源物。在人類中,目前共發現超過150個家族成員。在果蠅、秀麗隱杆線蟲、釀酒酵母、粟酒裂殖酵母和植物中也都發現了家族中保守的同源物。Ras癌基因蛋白是該家族的創始成員,基於序列和功能相似性的分析,主要分為六個分支:Ras,Rho,Rab,Ran,Arf和RJL。小G蛋白具有共同的生化機制,主要是作為分子二元分子開關發揮生物學功能。
  • 浙大系統地揭示水稻生長素受體TIR1/AFB家族基因的功能
    然而,關於該蛋白家族成員在擬南芥以外的物種中的多樣性功能卻知之甚少。該研究基於遺傳學、生理學和蛋白質相互作用等手段對水稻生長素共受體基因家族進行了系統分析。展示了TIR1/AFB家族成員在水稻生長發育及抗除草劑中的多樣性功能。對於如此重要的蛋白質家族,這是第一次在擬南芥以外的物種上發表系統詳細的研究成果。
  • 被忽視的家族史——簡單聊聊線粒體基因突變糖尿病
    今天教授看了這名患者的病歷,上面的家族史部分只記載了「其母親患糖尿病」這一點,她要求我們再次詳細詢問患者家族史。有助於疾病診斷的家族史為什麼教授專門問到該患者的家族史呢?原來根據這名患者的特點,需要排除線粒體基因突變糖尿病。那麼我們今天就來聊一聊這種特殊類型的糖尿病。
  • 成都生物所在禾本科植物α-澱粉酶基因家族研究方面取得進展
    α-澱粉酶是其中最重要的水解酶之一,在綠色植物基因組中包含由多個亞基因家族(AMYs)編碼的多種亞型,使植物在不同組織器官中能對不同澱粉類碳水化合物進行降解。  為更好理解禾本科植物AMY基因的潛在分化,中國科學院成都生物研究所餘懋群課題組博士研究生琚亮亮對從低等藻類到高等開花植物的78個物種基因組AMY基因進行了系統分析,將其劃分為6個亞家族,建議將其命名為AMY1-AMY6。其中,高等電點AMY1與低等電點AMY2是禾本科植物特有的兩個亞家族,共同起源於單一拷貝的AMY3結構位點,該位點可能來自植物界最古老的亞家族AMY4的複製。
  • ...癌症籠罩的家族」2名家族成員息肉惡化為直腸癌 專家:免疫治療...
    當前,亟待解決的是2名家族成員直腸癌術後治療費問題。31歲的符春意和六姨李秀梅因息肉惡化為直腸癌,先後住進了海南省腫瘤醫院的同一間病房,並做了全結直腸切除術,無法保肛。面對病魔的無情,家族親戚來探望,互相鼓勵要堅強,「一定會好起來的!」
  • 出生前已排除家族傳遞致癌基因突變 首例「無癌寶寶」在長沙誕生
    人民網長沙9月24日電 (記者 林洛頫 通訊員 董雷)今天中信湘雅生殖與遺傳專科醫院院長盧光琇教授發布消息,稱國內首例在胚胎階段就接受基因篩檢,排除家族中傳遞的癌症致病基因突變的嬰兒在長沙誕生,並稱其為「無癌寶寶」。