基因家族聚類之OrthoFinder

2021-01-14 生信星球

今天是生信星球陪你的第276天

大神一句話，菜鳥跑半年。我不是大神，但我可以縮短你走彎路的半年~

就像歌兒唱的那樣，如果你不知道該往哪兒走，就留在這學點生信好不好~

這裡有豆豆和花花的學習歷程，從新手到進階，生信路上有你有我！

豆豆寫於19.2.11

這是幹啥的？

做進化、基因家族分析、比較基因組使用

OrthoFinder is simple to use and all you need to run it is a set of protein sequence files (one per species) in FASTA format.

最新版的是version2，Emms, D.M. and Kelly, S. (2018) OrthoFinder2: fast and accurate phylogenomic orthology analysis from gene sequences. bioRxiv

OrthoFinder

Orthologs： pairs of genes that descended from a single gene in the last common ancestor (LCA) of two species

Orthogroup：（extension of the concept of orthology）the group of genes descended from a single gene in the LCA of a group of species

【all the genes in an orthogroup started out with the same sequence and function】

Orthologues, Orthogroups & Paralogues使用安裝

https://github.com/davidemms/OrthoFinder

需要python2環境

conda install -n orthofinder python=2 orthofinder
source activate orthofinder

軟體運行依賴於diamond或者mmseqs2、blast、mcl、fastme

參數設置

orthofinder -f data \ #存放蛋白的fa數據
    -S diamond \ #比對模式：diamond，blast，mmseqs，blast_gz
    -M msa \ #基因樹推斷法：dendroblast，msa(推薦)
    -T fasttree \ #建樹軟體：iqtree, fasttree, raxml（推薦），raxml
    -t 5 #線程

可以用軟體自帶的參考數據測試：https://github.com/davidemms/OrthoFinder/tree/master/orthofinder/ExampleDataset

運次過程

因為是小測試數據，因此運行的過程都可以監測：

1. Checking required programs are installed
2. Dividing up work for BLAST for parallel processing
3. Running diamond all-versus-all
4. Running OrthoFinder algorithm
5. Writing orthogroups to file
6. Analysing Orthogroups
7. Best outgroup(s) for species tree
8. Multiple potential species tree roots were identified, only one will be analyed.
9. Reconciling gene trees and species tree
10. Writing results files

結果生成這些文件，存放在Result目錄中

Orthogroups.GeneCount.csv
Orthogroups.txt                  Orthogroups_UnassignedGenes.csv
SingleCopyOrthogroups.txt
Statistics_PerSpecies.csv
Orthogroups.csv
Orthogroups_SpeciesOverlaps.csv
Orthologues_Feb11
Statistics_Overall.csv     WorkingDirectory

其中Orthogroups.GeneCount.csv 中每一行代表一個基因家族，每一列表示每個物種的基因家族包含多少基因，比如OG0000000這個基因家族，在1物種中沒有，在2物種有1個基因，在3物種有8個基因

Orthogroups

我們選出各個物種中基因數大於0的基因家族，首先看物種1

我們不要第一行，然後看物種1，也就是$2，選出大於0的，然後我們需要的是基因家族編號，也即是第一列

sed '1d' Orthogroups.GeneCount.csv |awk '$2 >0 {print $1}' >1.txt

同理可以看其他物種的，根據這個可以做韋恩圖（在線工具、R都可以），看看有哪些是共有的

點擊底部的「閱讀原文」，獲得更好的閱讀體驗哦😻

初學生信，很榮幸帶你邁出第一步。

我們是生信星球，一個不拽術語、通俗易懂的生信知識平臺。由於是2018年新號，竟然沒有留言功能。需要幫助或提出意見請後臺留言、聯繫微信或發送郵件到 jieandze1314@gmail.com ，每一條都會看到的哦~

相關焦點

如何尋找同源基因---OrthoFinder

同時在OrthoFinder運行之後，不僅僅尋找了同源基因，它也構建了gene tree和species tree。OrthoFinder運行速度快的很大原因是使用了DIAMOND/MMseqs來進行蛋白比對。特別是DIAMOND，它可以得到和blast基本一致的結果的同時，比blast的運行速度快500x-20,000x。
使用OrthoFinder進行直系同源基因分析

而OrthoFinder則是2015年出現的軟體，目前已有400多引用。該軟體持續更新，安裝更加友好，因此我決定使用它來做直系同源基因的相關分析。OrthoFinder能做什麼？orthofinder -f ExampleData -S mmseqs# -f 指定文件夾# -S 指定序列搜索程序，有blast, mmseqs, blast_gz, diamond可用OrthoFinder的基本使用就是如此簡單，而且最終效果也基本符合需求。
尋找同源基因工具OrthoMCL與OrthoFinder的安裝與使用

而基因組範圍內的序列比對，可以了解不同物種核苷酸組成、同/共線性關係和基因順序異同，有助於理解基因分析定位、系統發育關係。其中，比較基因組學的重要一部分正是系統進化關係的研究，由此對基因家族分析，基於單拷貝基因的串聯比對分析構建系統進化樹是其中的一環。所以，下面簡單介紹基因家族分析的重要程序OrthoMCL和OrthoFinder。
OrthoFinder進行直系同源基因分析

尋找同源基因構建gene tree構建species treeOrthoFinder的分析過程OrthoFinder的分析過程分為如下幾步:BLAST all-vs-all搜索。OrthoFinder2在OrthoFinder的基礎上增加了物種系統發育樹的構建，流程如下為每個直系同源組構建基因系統發育樹使用STAG算法從無根基因樹上構建無根物種樹使用STRIDE
從零開始學生信-orthofinder的安裝

orthofinder的使用很簡單，可以先行查看help信息。【注意】：orthofinder由python2編寫，請在安裝或使用前將python3注釋掉。【下載】：conda install orthofinder # 用conda 2 進行安裝，一次安裝不成功者請重試（附帶軟體很多），提示更新conda時，請更新。
一個很實用分析orthofinder結果的工具

但是Orthofinder不能對每個group進行功能分析和數據統計分析，這裡筆者開發兩個工具，可以進行簡單的功能和數據分析。code 下載連結：https://gitlab.bioinformatics.unibe.ch/troder/orthofinder_tools/-/tree/masterhttps://github.com/davidemms/OrthoFinder/issues/4511.統計相同基因： orthogroup_to_gene_name.py
生信小工具:Orthofinder使用教程

Orthofinder介紹OrthoFinder是比較基因組學中的實用的，運行快速，準確的全面的工具。它的主要功能是，找到了正交群和直系同源物，推斷出所有正交群的根基因樹，並識別那些基因樹中的所有基因重複事件。它還為所分析的物種推斷出有根的物種樹，並將基因重複事件從基因樹比對到物種樹的分支中。另外，OrthoFinder還為比較基因組分析提供全面的統計數據。
基因家族擴增與收縮分析

，最後使用CAFE對聚類結果進行基因家族的擴張和收縮分析直系同源基因鑑定直系同源基因鑑定網上一般給出了兩個軟體，一個是orthoMCL，一個是orthofinder。orthoMCL雖然很長時間沒有進行過維護更新了，但大家進行基因家族擴張和收縮分析是依然經常性的使用，而orthofinder是16年出現的新軟體，本身使用和安裝起來更加方便，我也是比較推薦這個提取最長轉錄本進行mcl聚類之前，首先需要挑選每個基因最長的轉錄本形成一個fa文件，fa文件中是胺基酸序列，不是鹼基序列，這裡強調一下。
OrthoFinder: 進化直系同源工具

最近，Genome Biology 上發表論文介紹了 OrthoFinder 的新功能，側重講了 OrthoFinder 的進化推斷功能。
基因家族專題(3):基因家族成員的鑑定

hmmer一般尋找基因家族，都可以通過保守結構域來預測，從而找到物種的某一基因家族，從而進行之後的分析。這裡就需要用到HMMER，來鑑定物種某一基因家族。，首先在全基因組的範圍內使用hmmersearch和NBS-ARC基因家族的隱馬可夫模型進行基因家族的進行初步搜索，接著把質量比較高的基因家族候選基因篩選出來E-value < 1 × 10−20，然後使用clustalw2對高質量的序列進行多序列比對，多序列比對後，對這些置信的序列進行隱馬可夫模型的構建（使用hmmbuild），最後使用該新建的隱馬可夫模型，進一步篩選完整的NSB基因家族序列
新年成長禮2|細菌基因組分析常用軟體整理(含下載連結)

（往期內容查看公眾號獲取）想要學習細菌基因組分析的小夥伴趕緊看過來。細菌基因組分析最基礎、最核心的部分是獲得完整準確的組裝序列（包括染色體和質粒），其次進行組分分析，即通常所說的基因注釋、移動元件分析等，接下來可以根據研究目的選擇方法進行比較基因組研究，最後挖掘並關聯結果，解答科學問題，當然，過程中可能會涉及到實驗或其他組學方法。
功能富集分析、基因ID轉換、查找同源基因、SNP注釋一站式服務

個人覺得挺好看的呢~2、基因ID轉換該網站的基因ID轉換包括：1）60個物種基因ID的轉換；2）Ensembl, Refseq, Illumina, Entrezgene and Uniprot identifiers等不同資料庫來源基因ID的轉換；3）基因，蛋白質，晶片探針等ID轉換；進入網址：https
樹鼩KLF基因家族特點及進化分析

導讀：昆明動物所腫瘤生物學學科組陳策實研究員團隊將全部17種樹鼩KLF家族因子鑑定出來，然後對基因家族全長以及鋅指結構域進行系統分析
基於基因家族的生信發文思路

本次分享一下基因家族的生信發文思路，文章發表在Cancer Medicine上，影響因子：3.491，中科院分區：三區。作者分析了exostosin蛋白家族的兩個基因：EXT1和EXT2 ，主要進行表達水平的差異分析、功能分析、預後分析，最後發現只有EXT1可以成為具有預後價值的biomaker。
茶樹HAK / KUP / KT家族鉀轉運蛋白基因家族

在植物中，HAK / KUP / KT家族成員在K +的獲取和轉運，生長和發育以及對脅迫的響應中起著至關重要的作用。然而，這些基因在茶樹中的生物學功能仍然是個謎，尤其是它們在鉀離子吸收和脅迫反應中的作用。
家族基因引物設計

家族基因引物設計是一件很頭疼的事情，因為NCBI primer BLAST的資料庫不一定有你的。最直接的方法就是用bowtie將你的引物序列作為短reads比對到你的基因組上，確定引物的唯一性。
尋找曹操後裔:基因考古破解家族DNA密碼

11月11日，復旦大學歷史學和人類學聯合課題組公布三年的研究成果：通過研究當代超千例曹姓後人DNA，對比曹操叔祖父曹鼎的古DNA，確定Y染色體基因突變點O2*-M268為曹操家族DNA固有突變點。　　這一發現是中國首例破解的家族DNA基因突變點，研究者稱，不僅可以為曹操墓中遺骨身份提供參考，還可以為考古學測定年代的方法，提供DNA研究方向。
身高突破家族基因限制的五大NBA球員

身高是籃球世界之中最重要的天賦，而這一天賦非常受遺傳基因的影響。哪怕是在對身高要求最低的控衛位置上，在路人範圍之中已算高大挺拔的標準六英尺身高（1.83米）往往都會被視作是迷你控衛，往上走的分衛到中鋒位置就不用說了。從這個角度衡量的話，家族身高基因的限制其實早早已經否定了不少籃球少年的NBA夢想。
司馬懿家族兩次基因突變:大晉江山就這樣亡了

晉朝翻天覆地的變化與司馬懿家族的強大的基因不無關係，這種強大的基因總是在關鍵時刻變異，在兩個晉朝最英武的皇帝之後，就有兩個弱智來繼承江山，難道這是上天對司馬懿家族的懲罰？第一次基因變異是在晉武帝司馬炎和兒子晉惠帝司馬衷之間，司馬炎繼承父祖的基業，不負眾望，不僅取代了曹魏政權，還消滅了東吳割據，統一天下。

基因家族聚類之OrthoFinder

相關焦點

如何尋找同源基因---OrthoFinder

使用OrthoFinder進行直系同源基因分析

尋找同源基因工具OrthoMCL與OrthoFinder的安裝與使用

OrthoFinder進行直系同源基因分析

從零開始學生信-orthofinder的安裝

一個很實用分析orthofinder結果的工具

生信小工具:Orthofinder使用教程

基因家族擴增與收縮分析

OrthoFinder: 進化直系同源工具

基因家族專題(3):基因家族成員的鑑定

新年成長禮2|細菌基因組分析常用軟體整理(含下載連結)

功能富集分析、基因ID轉換、查找同源基因、SNP注釋一站式服務

樹鼩KLF基因家族特點及進化分析

基於基因家族的生信發文思路

茶樹HAK / KUP / KT家族鉀轉運蛋白基因家族

家族基因引物設計

尋找曹操後裔:基因考古破解家族DNA密碼

身高突破家族基因限制的五大NBA球員

司馬懿家族兩次基因突變:大晉江山就這樣亡了