如何快速查找物種間對應的同源基因

2021-01-20 生信媛

有時候，大家做實驗以小鼠為模型，但希望查看與之對應的人同源基因。像這種情況，我們可以不需要進行序列比對來查找，因為比較麻煩。使用公共數據可能更高效。

1.基於NCBI HomoloGene資料庫查找物種間對應的同源基因NCBI HomoloGene資料庫收集了部分已經完成基因組測序物種的同源基因數據。資料庫現包含21個物種，共44233組同源基因；

HomoloGene的數據是開放的：FTPhomologene.data存放著同源基因的對應關係

HID(HomoloGene group id)Taxonomy IDGene IDGene SymbolProtein giProtein accession3960634ACADM160961497NP_001104286.139598469356ACADM109008502XP_001101274.131009011364Acadm6680618NP_031408.1

每個物種都有一個對應的Taxonomy ID：

  10090 Mus musculus
  10116 Rattus norvegicus
  28985 Kluyveromyces lactis
  318829  Magnaporthe oryzae
  33169 Eremothecium gossypii
  3702  Arabidopsis thaliana
  4530  Oryza sativa
  4896  Schizosaccharomyces pombe
  4932  Saccharomyces cerevisiae
  5141  Neurospora crassa
  6239  Caenorhabditis elegans
  7165  Anopheles gambiae
  7227  Drosophila melanogaster
  7955  Danio rerio
  8364  Xenopus (Silurana) tropicalis
  9031  Gallus gallus
  9544  Macaca mulatta
  9598  Pan troglodytes
  9606  Homo sapiens
  9615  Canis lupus familiaris
  9913  Bos taurus   
單個基因直接檢索，如Acadm：
批量注釋某個物種的基因對應另一個物種的同源基因，可以使用R包homologene，它調用的是c中build68的數據；
  homologene(genes, inTax, outTax)
  
  genes：需要查找同源基因的基因列表
  inTax：輸入基因所屬物種
  outTax：查找的同源基因屬於那個物種
例子：
  genelist<-c("Acadm","Eno2","Acadvl")
  homologene(genelist, inTax = 10090, outTax = 9606)
    10090 9606 10090_ID 9606_ID
  1  Eno2 ENO2    13807    2026
  2   Mog  MOG    17441    4340
查看homologene使用的數據版本
  homologeneVersion
  [1] 68
基於InParanoid 8資料庫查找物種間對應的同源基因InParanoid 8提供的下載數據是Protein ID；構建g InParanoid 8 用到的InParanoid 4.1可以獲取的，InParanoid 4.1 standalone download 
這兒我們利用InParanoid 8提供的同源基因信息進行一個快速檢索。
根據自己研究的物種，從Downloads中下載數據；8.0_current；需要值得注意的是，人類與老鼠的同源基因文件InParanoid.H.sapiens-M.musculus.tgz 存放於H.sapiens/ ；在M.musculus/ 不會存在InParanoid.M.musculus-H.sapiens.tgz；其它類似，所以要根據物種名首字母排序去排名靠前的物種文件夾下去找同源基因集文件。
InParanoid.H.sapiens-M.musculus.tgz 下載後解壓：
這兒使用文件，格式如下：sqltable.H.sapiens-M.musculus
數據格式和前面的NCBI HomoloGene中的homologene.data差不多；使用R處理數據時，模仿了homologene包代碼；
homologene.R的代碼
  homologene = function(genes, inTax, outTax){
      genes <- unique(genes) #remove duplicates
      out = homologene::homologeneData %>% 
          dplyr::filter(Taxonomy %in% inTax & (Gene.Symbol %in% genes | Gene.ID %in% genes)) %>%
          dplyr::select(HID,Gene.Symbol,Gene.ID)
      names(out)[2] = inTax
      names(out)[3] = paste0(inTax,'_ID')
      
      out2 = homologene::homologeneData %>%  dplyr::filter(Taxonomy %in% outTax & HID %in% out$HID) %>%
        dplyr::select(HID,Gene.Symbol,Gene.ID)
      names(out2)[2] = outTax
      names(out2)[3] = paste0(outTax,'_ID')
      
      output = merge(out,out2) %>% dplyr::select(2,4,3,5)
  
      # preserve order with temporary column
      output$sortBy <- factor(output[,1], levels = genes)
      output <- dplyr::arrange(output, sortBy)
      output$sortBy <- NULL
      
      return(output)
  }
仿寫的函數InParanoid_homo()：
  Hs.Mm<-read.table("sqltable.H.sapiens-M.musculus",sep = "\t",fill = T)
  genes<-c("Q8WZ42","A2ASS6")
  trans<-InParanoid_homo(genes,Hs.Mm)
  
  InParanoid_homo = function(genes,database){
    colnames(database)<-c("Group","score","spieces","num","gene","Bootstrap")
    genes <- unique(genes)
    Spieces_name1<-database[1,]$spieces
    Spieces_name2<-database[2,]$spieces
    Spieces_1<-database %>% dplyr::filter(spieces %in% Spieces_name1)
    Spieces_2<-database %>% dplyr::filter(spieces %in% Spieces_name2)
    if(ANSWER <- readline(paste("Transfer",Spieces_name1,"to",Spieces_name2,"?","True/False: "))){
      genes_query<-Spieces_1 %>% dplyr::filter(gene %in% genes);head(genes_query)
      output = merge(genes_query,Spieces_2,by="Group")[,]
    }else if(ANSWER <- readline(paste("Transfer",Spieces_name2,"to",Spieces_name1,"?","True/False: "))){
      genes_query<-Spieces_2 %>% dplyr::filter(gene %in% genes);head(genes_query)
      output = merge(genes_query,Spieces_1,by="Group")[,]
    }else{
      cat("Nothing for you.")
    }
    return(output)
  }
參考：InParanoid 8: orthology analysis between 273 proteomes, mostly eukaryotic homologene reference manual

相關焦點

一種免費的開源可視化工具可以對同源基因進行深入比較

因此，許多人類基因與哺乳動物具有高度的同線性，從黑猩猩到小鼠。研究生物之間的同線性可以幫助我們確定遺傳區域如何通過進化發生變化，並且具有深遠的應用 - 包括更好地了解進化和我們如何形成，幫助研究人類健康，以及培育更好的作物。
功能富集分析、基因ID轉換、查找同源基因、SNP注釋一站式服務

個人覺得挺好看的呢~2、基因ID轉換該網站的基因ID轉換包括：1）60個物種基因ID的轉換；2）Ensembl, Refseq, Illumina, Entrezgene and Uniprot identifiers等不同資料庫來源基因ID的轉換；3）基因，蛋白質，晶片探針等ID轉換；進入網址：https
如何尋找同源基因---OrthoFinder

構建物種的系統發育樹，計算kaks值或者比較基因組學和進化的其他分析都少不了需要尋找同源基因。
biomaRt包實現不同物種之間同源基因轉換

【參考文章：生信中各種ID轉換】，這些轉換通常都是基於同一物種而言，但在基礎醫學研究中，很多實驗模型都是在動物上完成的，比如小鼠。假如我們研究某藥物的抗腫瘤效果，涉及到機制，最終都會往人上靠的，一般幾個基因，資料庫直接查一下就可以啦。但如果基因很多，人工查就不太現實，一般也是測序後的數據。所以在這裡我給大家介紹一下，不同物種之間的同源基因名稱轉換，這種轉換是基於物種間基因的同源性的。
中國農大提出同源基因推斷新策略，並構建小麥族同源基因資料庫

植物中許多物種已經從「一個物種，一個基因組」的時代進入了「一個物種，多個基因組」的「泛基因組時代」（pan-genomic era）。特別是如小麥、玉米和水稻等主要作物，在近緣種、亞種、個體水平都已經完成多個參考基因組的組裝和基因的注釋。在泛基因組時代，如何整合諸多的參考基因組信息並將這些寶貴的數據利用起來，是我們目前面臨的新挑戰。
一作解讀|Mol Plant中國農大小麥研究中心提出泛基因組時代同源基因推斷新策略並構建小麥族同源基因資料庫

通過融合序列相似性和基因共線性信息開發了適用於植物泛基因組時代同源基因推斷的新策略（GeneTribe），並構建了以小麥族物種為核心的「小麥族同源基因資料庫」(Triticeae-GeneTribe, http://wheat.cau.edu.cn/TGT/）。
同源重組基因敲除技術

2、基因敲除（knockout）是用含有一定已知序列的DNA片段與受體細胞基因組中序列相同或相近的基因發生同源重組,整合至受體細胞基因組中並得到表達的一種外源DNA導入技術。它是針對某個序列已知但功能未知的序列，改變生物的遺傳基因，令特定的基因功能喪失作用，從而使部分功能被屏蔽，並可進一步對生物體造成影響，進而推測出該基因的生物學功能。
PNAS發表小麥等異源多倍體物種部分同源重組事件重要進展

部分同源重組（homoeologous exchange, HE）特指異源多倍體中具有高序列相似度的部分同源染色體之間通過配對交叉（cross-over）而導致的大規模染色體片段交換的現象，影響著基因組的結構變化和基因表達。
如何使用 NCBI 查找基因序列、mRNA、Promoter | 實驗

有不少人詢問如何查詢基因序列、如何進行引物設計、如何使用 BLAST 進行序列比對.其實這些問題在 NCBI 上都可以方便的找到答案
HaMStR鑑定直系同源基因

直系同源的基因通常具有相似的生物學功能，所以我們在進行一個未知序列的功能的鑑定的時候，本質上是在找功能已知的同源基因。
查找qPCR 引物或許可以很簡單!

如果查文獻來查找qPCR 引物，恐怕要找掉頭咯~因為實在太多啦，動輒幾萬篇相關文章，恐怕你沒有選擇困難症也會給嚇出來。即便你選中了一篇，點進去複製再粘貼，效率也不高。若再碰上查到的文獻不準確，是不是扎心了？！那麼問題來了，如何既快速又準確的查找qPCR 引物呢？
用Excel計算DNA中基因的ATACG對應序列編號小技巧!

有個同學問，他表格中有一條DNA，其中一條的鹼基序列，如ATTAGACC....如何快速將它的另外一條序列計算出來呢？那首先我們要拿起初中生物學的關於基因的知識，兩個序列是一一對應的，對應關係是A-T，C-G，也就是說，ATTAGACC...
科學家如何操縱基因表達？| 基因的敲除和敲入

作為一個切割DNA的酶，Cas9是如何確定去切割DNA上的哪個基因呢？這就需要嚮導RNA（guide RNA），也叫gRNA。gRNA是一段單鏈的RNA序列，可以指導Cas9到達切割的位點。當基因發生雙鏈斷裂時，細胞需要對斷裂的基因進行及時修復，否則，基因雙鏈斷裂對細胞來說通常是致命的，會引起細胞凋亡。細胞如何修復斷開的基因呢？
【爾雲間】解析同源四倍體基因組的組裝

同源多倍體基因組一直以來是組裝界難以攻破的大boss，幸運的是，基於迄今可用的最佳技術（準確的CCS reads，Hi-C數據和allele-aware組裝算法），首次破譯了我國特有品種「新疆大葉」紫花苜蓿的四倍體基因組，成功地組裝出了所有等位基因染色體，該研究成果於2020年5月19日在Nature Communications期刊上發表。
如何查找並確定關注基因的SNP位點?

SNP研究是人類基因組計劃走向應用的重要步驟，這主要是因為SNP將提供一個強有力的工具，用於高危群體的發現、疾病相關基因的鑑定、藥物的設計和測試以及生物學的基礎研究等。經過近年檢測技術的發展，科研人員可以通過NGS或SNP晶片篩選與疾病關聯基因或區段，進而針對這個特定區段或基因上的SNP進行更為仔細研究，也有科研人員會通過已發表文章查詢到與其研究相關的基因，再通過對該基因的DNA序列變化分析遺傳機制，但如何查詢特定區段或基因上的有用SNP位點呢？
等位基因只存在於同源染色體上嗎?核基因在染色體的存在位置的幾個誤區

誤區1.同源染色體的相同位置只存在等位基因在遺傳學上,把控制相對性狀的基因叫做等位基因。一般位於同源染色體的相同位置。因此,很多學生就認為同源染色體的相同位置只存在等位基因,實際上同源染色體的相同位置上除了等位基因以外,還可以是相同的基因。
中國學者Science封面論文:甲蟲胸節上的角與翅膀系列同源

Moczek 團隊首次揭示，甲蟲前胸背部的角由翅膀的系列同源器官進化而來。這項研究對思考如何更好地定義進化新徵（evolutionary novelty）有著重要意義，於 11 月 22 日登上Science封面。
如何快速發展壯大，基因組用了這種高招

這兩套系統既是同源又男女有別，意味著它們需要執行的功能類似，但又不可能完全一樣。如果用同一個蛋白去在雌雄兩性中勉強實現這樣兩個類似功能，最後很可能是按下葫蘆浮起瓢，兩頭落不著好。那麼，在演化中，這樣兩套系統是如何逐步完善的呢？
科學好故事|進化生物的未解之謎:新基因從哪裡來?

孤兒基因是如何形成的？每種物種體內的大多數基因都能在其它至少一種物種身上找到。這些基因之間可能存在一些細微差別，但相似度極高，很容易看出它們之間存在關聯，並且這種關聯往往來自生物進化。隨機變異會使基因序列之間的區別逐漸加大，但這些同源基因仍然可以被歸於一類。
RNA為模板首次實現植物同源重組修復

這是在植物中首次成功利用RNA作為脫氧核糖核酸(DNA)同源重組修復模板。相關研究論文北京時間3月19日凌晨在線發表於國際學術期刊《自然生物技術》。　　論文通訊作者、作科所研究員夏蘭琴介紹，CRISPR/Cas基因組編輯技術自2012年被發明以來，已被廣泛應用於動物、植物和微生物等諸多物種的基因組編輯。

如何快速查找物種間對應的同源基因

相關焦點

一種免費的開源可視化工具 可以對同源基因進行深入比較

功能富集分析、基因ID轉換、查找同源基因、SNP注釋一站式服務

如何尋找同源基因---OrthoFinder

biomaRt包實現不同物種之間同源基因轉換

中國農大提出同源基因推斷新策略，並構建小麥族同源基因資料庫

一作解讀|Mol Plant中國農大小麥研究中心提出泛基因組時代同源基因推斷新策略並構建小麥族同源基因資料庫

同源重組基因敲除技術

PNAS發表小麥等異源多倍體物種部分同源重組事件重要進展

如何使用 NCBI 查找基因序列、mRNA、Promoter | 實驗

HaMStR鑑定直系同源基因

查找qPCR 引物或許可以很簡單!

用Excel計算DNA中基因的ATACG對應序列編號小技巧!

科學家如何操縱基因表達？| 基因的敲除和敲入

【爾雲間】解析同源四倍體基因組的組裝

如何查找並確定關注基因的SNP位點?

等位基因只存在於同源染色體上嗎?核基因在染色體的存在位置的幾個誤區

中國學者Science封面論文:甲蟲胸節上的角與翅膀系列同源

如何快速發展壯大，基因組用了這種高招

科學好故事|進化生物的未解之謎:新基因從哪裡來?

RNA為模板 首次實現植物同源重組修復

一種免費的開源可視化工具可以對同源基因進行深入比較

RNA為模板首次實現植物同源重組修復