今天是生信星球陪你的第276天
大神一句話,菜鳥跑半年。我不是大神,但我可以縮短你走彎路的半年~
就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學點生信好不好~
這裡有豆豆和花花的學習歷程,從新手到進階,生信路上有你有我!
豆豆寫於19.2.11
這是幹啥的?做進化、基因家族分析、比較基因組使用
OrthoFinder is simple to use and all you need to run it is a set of protein sequence files (one per species) in FASTA format.
最新版的是version2,Emms, D.M. and Kelly, S. (2018) OrthoFinder2: fast and accurate phylogenomic orthology analysis from gene sequences. bioRxiv
OrthoFinderOrthologs: pairs of genes that descended from a single gene in the last common ancestor (LCA) of two species
Orthogroup:(extension of the concept of orthology)the group of genes descended from a single gene in the LCA of a group of species
【all the genes in an orthogroup started out with the same sequence and function】
Orthologues, Orthogroups & Paralogues使用安裝https://github.com/davidemms/OrthoFinder
需要python2環境
conda install -n orthofinder python=2 orthofinder
source activate orthofinder
軟體運行依賴於diamond或者mmseqs2、blast、mcl、fastme
參數設置orthofinder -f data \ #存放蛋白的fa數據
-S diamond \ #比對模式:diamond,blast,mmseqs,blast_gz
-M msa \ #基因樹推斷法:dendroblast,msa(推薦)
-T fasttree \ #建樹軟體:iqtree, fasttree, raxml(推薦),raxml
-t 5 #線程
可以用軟體自帶的參考數據測試:https://github.com/davidemms/OrthoFinder/tree/master/orthofinder/ExampleDataset
運次過程因為是小測試數據,因此運行的過程都可以監測:
1. Checking required programs are installed
2. Dividing up work for BLAST for parallel processing
3. Running diamond all-versus-all
4. Running OrthoFinder algorithm
5. Writing orthogroups to file
6. Analysing Orthogroups
7. Best outgroup(s) for species tree
8. Multiple potential species tree roots were identified, only one will be analyed.
9. Reconciling gene trees and species tree
10. Writing results files
結果生成這些文件,存放在Result目錄中
Orthogroups.GeneCount.csv
Orthogroups.txt Orthogroups_UnassignedGenes.csv
SingleCopyOrthogroups.txt
Statistics_PerSpecies.csv
Orthogroups.csv
Orthogroups_SpeciesOverlaps.csv
Orthologues_Feb11
Statistics_Overall.csv WorkingDirectory
其中Orthogroups.GeneCount.csv 中每一行代表一個基因家族,每一列表示每個物種的基因家族包含多少基因,比如OG0000000這個基因家族,在1物種中沒有,在2物種有1個基因,在3物種有8個基因
Orthogroups我們選出各個物種中基因數大於0的基因家族,首先看物種1
我們不要第一行,然後看物種1,也就是$2,選出大於0的,然後我們需要的是基因家族編號,也即是第一列
sed '1d' Orthogroups.GeneCount.csv |awk '$2 >0 {print $1}' >1.txt
同理可以看其他物種的,根據這個可以做韋恩圖(在線工具、R都可以),看看有哪些是共有的
點擊底部的「閱讀原文」,獲得更好的閱讀體驗哦😻
初學生信,很榮幸帶你邁出第一步。
我們是生信星球,一個不拽術語、通俗易懂的生信知識平臺。由於是2018年新號,竟然沒有留言功能。需要幫助或提出意見請後臺留言、聯繫微信或發送郵件到 jieandze1314@gmail.com ,每一條都會看到的哦~