基因家族專題(3):基因家族成員的鑑定

2021-03-01 生信菜鳥團

Data preparation

繼續上次的內容，下載好數據後就可以正式開始鑑定了。首先回顧一下，下載好的數據。

基因組序列信息，存儲基因組序列信息的.fasta文件。還有其蛋白質序列，也是以.fasta結尾的文件。一般來說注釋的比較好的基因組都會含有這些文件。

基因組基因結構注釋信息。儲存基因的intron，exon，CDS,gene等坐標信息的.gff3或.gtf文件。

所感興趣的基因家族隱馬可夫模型，hmm文件

-rw-r 1 hhu pawsey0149 9738306 Oct 25 12:24 Arabidopsis_thaliana.TAIR10.41.gff3.gz

-rw-r 1 hhu pawsey0149 14623390 Oct 25 12:23 Arabidopsis_thaliana.TAIR10.cds.all.fa.gz

-rw-r 1 hhu pawsey0149 36462703 Oct 25 12:23 Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz

-rw-r 1 hhu pawsey0149 9776319 Oct 25 12:22 Arabidopsis_thaliana.TAIR10.pep.all.fa.gz

-rw-r 1 hhu pawsey0149 118379 Oct 25 12:26 NBS-ARC.hmm

基因家族鑑定的工具hmmer

一般尋找基因家族，都可以通過保守結構域來預測，從而找到物種的某一基因家族，從而進行之後的分析。這裡就需要用到HMMER，來鑑定物種某一基因家族。

HMMER3.1下載地址：http://hmmer.org/download.html HMMER3.1 manual：http://eddylab.org/software/hmmer3/3.1b2/Userguide.pdf

hmmbuild/hmmsearch/hmmscan/hmmalign 這幾個功能是主要用於蛋白質結構與分析和注釋的hmmer中小工具

在鑑定基因家族時，常用到的工具是hmmsearch，裡面常用的算法有三種。一般我們使用--cut_tc算法對隱馬可夫模型進行搜索，tc算法是使用pfam提供的hmm文件中trusted cutoof的值進行篩選，相對比較可靠。

--cut_ga : use profile's GA gathering cutoffs to set all thresholding

--cut_nc : use profile's NC noise cutoffs to set all thresholding

--cut_tc : use profile's TC trusted cutoffs to set all thresholding

具體實戰操作

下面會根據一篇經典文獻中的方法，對擬南芥進行NBS-LRR基因組的探索。首先，回顧一下文獻看看整體它的思路和方法。

Identification of NBS-LRR genes

Predicted proteins from the cassava genome were scanned using HMMER v3 [39] using the Hidden Markov Model (HMM) corresponding to the Pfam [40] NBS (NB-ARC) family (PF00931; http://pfam.sanger.ac.uk/). From the proteins obtained using the raw NBS HMM, a high-quality protein set (E-value < 1 × 10−20 and manual verification of an intact NBS domain) was aligned and used to construct a cassava-specific NBS HMM using hmmbuild from the HMMER v3 suite. This new cassava-specific HMM was used, and all proteins with an E-value lower than 0.01 were selected. NBS-LRR genes were further filtered based on manual curation and functional annotation against both the closest homolog from Arabidopsis and the UNIREF100 sequence database. Most of the proteins that were removed had at least a partial kinase domain, but no relationship to NBS-LRR genes; this result was expected because theNBS domain has smaller kinase subdomains

這副圖就是對應了該文章的基因家族鑑定思路，首先在全基因組的範圍內使用hmmersearch和NBS-ARC基因家族的隱馬可夫模型進行基因家族的進行初步搜索，接著把質量比較高的基因家族候選基因篩選出來E-value < 1 × 10−20，然後使用clustalw2對高質量的序列進行多序列比對，多序列比對後，對這些置信的序列進行隱馬可夫模型的構建（使用hmmbuild），最後使用該新建的隱馬可夫模型，進一步篩選完整的NSB基因家族序列（需再次過濾，找到基因家族的成員數量一般比第一步初步篩選的多）。

把該流程用到我測試數據中：

##目標基因家族搜索

hmmsearch --cut_tc --domtblout NBS-ABC.out NBS-ARC.hmm Arabidopsis_thaliana.TAIR10.pep.all.fa

##簡單看看運算的初步輸出結果

head NBS-ABC.out

##output

# --- full sequence --- ---- this domain --- hmm coord ali coord env coord

# target name accession tlen query name accession qlen E-value score bias # of c-Evalue i-Evalue score bias from to from to from to acc description of target

AT1G61180.1 - 889 NB-ARC PF00931.22 252 1.4e-90 304.3 0.6 1 1 2.2e-92 2.5e-90 303.5 0.6 1 251 156 397 156 398 0.99 pep chromosome:TAIR10:1:22551271:22554684:1 gene:AT1G61180 transcript:AT1G61180.1 gene_biotype:protein_coding transcript_biotype:protein_coding description:LRR and NB-ARC domains-containing disease resistance protein [Source:UniProtKB/TrEMBL;Acc:Q2V4G0]

AT1G61180.2 - 899 NB-ARC PF00931.22 252 1.5e-90 304.2 0.6 1 1 2.2e-92 2.5e-90 303.5 0.6 1 251 156 397 156 398 0.99 pep chromosome:TAIR10:1:22551271:22554684:1 gene:AT1G61180 transcript:AT1G61180.2 gene_biotype:protein_coding transcript_biotype:protein_coding description:LRR and NB-ARC domains-containing disease resistance protein [Source:UniProtKB/TrEMBL;Acc:Q2V4G0]

###對其e-value進行篩選，篩選出高質量的NBS-LRR蛋白質序列。

grep -v "#" NBS-ABC.out|awk '($7 + 0) < 1E-20'|cut -f1 -d " "|sort -u > NBS-ARC_qua_id.txt

~/biosoft/seqtk/seqtk subseq Arabidopsis_thaliana.TAIR10.pep.all.fa NBS-ARC_qua_id.txt >NBS-ARC_qua.fa

對篩選出來的序列,使用clustalw2進行多序列的比較

clustalw2

**************************************************************

******** CLUSTAL 2.1 Multiple Sequence Alignments ********

**************************************************************

1. Sequence Input From Disc

2. Multiple Alignments

3. Profile / Structure Alignments

4. Phylogenetic trees

S. Execute a system command

H. HELP

X. EXIT (leave program)

Your choice: 1

Sequences should all be in 1 file.

7 formats accepted:

NBRF/PIR, EMBL/SwissProt, Pearson (Fasta), GDE, Clustal, GCG/MSF, RSF.

Enter the name of the sequence file : NBS-ARC_qua.fa

**************************************************************

******** CLUSTAL 2.1 Multiple Sequence Alignments ********

**************************************************************

1. Sequence Input From Disc

2. Multiple Alignments

3. Profile / Structure Alignments

4. Phylogenetic trees

S. Execute a system command

H. HELP

X. EXIT (leave program)

Your choice: 1

Sequences should all be in 1 file.

7 formats accepted:

NBRF/PIR, EMBL/SwissProt, Pearson (Fasta), GDE, Clustal, GCG/MSF, RSF.

Enter the name of the sequence file : new_NBS.aln

對這些置信的序列進行隱馬可夫模型的構建（使用hmmbuild），構建更加準確地儘可能預測所有的基因家族成員。

hmmbuild NBS-ARC.second.out NBS-ARC_qua.aln

hmmsearch --cut_tc --domtblout NBS-ARC.second.out NBS-ARC_qua.hmm ../Arabidopsis_thaliana.TAIR10.pep.all.fa

最後對再次對這些基因進行過濾與提取

grep -v "#" NBS-ABC.second.out|awk '($7 + 0) < 1E-103' | cut -f1 -d " "|sort -u >final.NBS.list

~/biosoft/seqtk/seqtk subseq Arabidopsis_thaliana.TAIR10.pep.all.fa final.NBS.list >final_NBS-ARC_qua.fa

BLAST-based method

除了使用隱馬可夫模型和hmmer搜索的方法外，使用同源比對blast的方法也是鑑定基因家族的其中一種方法。

首先我去了NCBI下載所有植物的存在於Ref-seq（一般認為是比較置信的植物基因序列）中的NBS序列

makeblastdb -in ref.nbs.plant.fa -dbtype prot

cat blastp.out |awk '$3>75' |cut -f1 |sort -u > blastp_result_id.list

最後我們還可將上述兩種方法重合的gene id，找出兩種方法共有的基因家族，這樣結果就比較置信了。

comm -12 blastp_result_id.list hmm_out_id.list > common.list

~/biosoft/seqtk/seqtk subseq Arabidopsis_thaliana.TAIR10.pep.all.fa common.list >final_searh_NBS-ARC_qua.fa

最後可以通過一些網上的保守結構域搜索網頁，進一步對所找出的結果進行驗證：

比如：NCBI CD-Search toolhttps://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi

Pfam的搜索：https://pfam.xfam.org/search#tabview=tab1

又或者：InterProScan sequence searchhttps://www.ebi.ac.uk/interpro/search/sequence-search

這些工具都可再次驗證所搜尋的蛋白質序列是不是含有基因家族對應的domain。在查看保守結構域後，如果該區域含有NBS所對應的保守結構域，例如LRR區域等，該蛋白質序列可以保留進行後續的分析。如果在該區域沒有找到對應的保守區域，為了分析的嚴謹性，需進行進一步的排查來確定是否要去掉該序列。這種情況一般分為兩種情況，第一種就是注釋無誤，該序列確實丟失了對應的保守結構域，需要去掉。第二種情況就是注釋有誤，該序列的結構域可能沒有被完整的保留下來，這種情況應該截取該序列的上下遊重新注釋分析。

星期三是我的專題日哦，如果你喜歡我的文章，請點一下文末的小贊給與我更多創作的動力，如果你想了解更多，歡迎點擊閱讀原文，查看更多我的筆記~

往期回顧：

基因家族專題(1)：基礎知識與研究思路介紹

基因家族專題(2)：數據下載與基因家族成員的鑑定

▼ 如果你生信基本技能已經入門，需要提高自己，請關注下面的生信技能樹，看我們是如何完善生信技能，成為一個生信全棧工程師。

▼ 如果你是初學者，請關注下面的生信菜鳥團，了解生信基礎名詞，概念，紮實的打好基礎，爭取早日入門。

基因家族專題(3):基因家族成員的鑑定

相關焦點

尹玉新團隊發現抗癌基因 PTEN 家族新成員 PTENβ

樹鼩KLF基因家族特點及進化分析

基因家族擴增與收縮分析

茶樹HAK / KUP / KT家族鉀轉運蛋白基因家族

Science:鑑定出一類保守的基因家族編碼質子選擇性離子通道

成骨細胞特異因子2基因家族的全基因組鑑定、分類及進化分析

尋找曹操後裔:基因考古破解家族DNA密碼

如何寫一篇家族分析文章(一)—家族分析文章的研讀

基因家族聚類之OrthoFinder

基因考古破解曹操家族DNA密碼確定9支曹操後人

小麥SBP-box基因家族的全基因組鑑定，表徵和表達模式分析

基於基因家族的生信發文思路

醫學部基礎醫學院尹玉新團隊發現抗癌基因PTEN家族新成員PTENβ

食肉目鼬科及基因家族相關進化研究獲進展

小G蛋白家族新成員的分子機制研究取得進展

浙大系統地揭示水稻生長素受體TIR1/AFB家族基因的功能

被忽視的家族史——簡單聊聊線粒體基因突變糖尿病

成都生物所在禾本科植物α-澱粉酶基因家族研究方面取得進展

...癌症籠罩的家族」2名家族成員息肉惡化為直腸癌專家:免疫治療...

出生前已排除家族傳遞致癌基因突變首例「無癌寶寶」在長沙誕生

基因家族專題(3):基因家族成員的鑑定

相關焦點

尹玉新團隊發現抗癌基因 PTEN 家族新成員 PTENβ

樹鼩KLF基因家族特點及進化分析

基因家族擴增與收縮分析

茶樹HAK / KUP / KT家族鉀轉運蛋白基因家族

Science:鑑定出一類保守的基因家族編碼質子選擇性離子通道

成骨細胞特異因子2基因家族的全基因組鑑定、分類及進化分析

尋找曹操後裔:基因考古破解家族DNA密碼

如何寫一篇家族分析文章(一)—家族分析文章的研讀

基因家族聚類之OrthoFinder

基因考古破解曹操家族DNA密碼 確定9支曹操後人

小麥SBP-box基因家族的全基因組鑑定，表徵和表達模式分析

基於基因家族的生信發文思路

醫學部基礎醫學院尹玉新團隊發現抗癌基因PTEN家族新成員PTENβ

食肉目鼬科及基因家族相關進化研究獲進展

小G蛋白家族新成員的分子機制研究取得進展

浙大系統地揭示水稻生長素受體TIR1/AFB家族基因的功能

被忽視的家族史——簡單聊聊線粒體基因突變糖尿病

成都生物所在禾本科植物α-澱粉酶基因家族研究方面取得進展

...癌症籠罩的家族」2名家族成員息肉惡化為直腸癌 專家:免疫治療...

出生前已排除家族傳遞致癌基因突變 首例「無癌寶寶」在長沙誕生

基因考古破解曹操家族DNA密碼確定9支曹操後人

...癌症籠罩的家族」2名家族成員息肉惡化為直腸癌專家:免疫治療...

出生前已排除家族傳遞致癌基因突變首例「無癌寶寶」在長沙誕生