biomaRt包實現不同物種之間同源基因轉換

2021-01-07 騰訊網

在之前,我介紹過生物學中常聽見的各種ID名稱【參考文章:常用生物信息 ID的介紹】,然後介紹了這些ID名稱之間的轉換。【參考文章:生信中各種ID轉換】,這些轉換通常都是基於同一物種而言,但在基礎醫學研究中,很多實驗模型都是在動物上完成的,比如小鼠。假如我們研究某藥物的抗腫瘤效果,涉及到機制,最終都會往人上靠的,一般幾個基因,資料庫直接查一下就可以啦。但如果基因很多,人工查就不太現實,一般也是測序後的數據。所以在這裡我給大家介紹一下,不同物種之間的同源基因名稱轉換,這種轉換是基於物種間基因的同源性的。同源基因是由一個共同祖先在不同物種中遺傳的基因。雖然同源基因在序列上是相似的,但相似的序列不一定是同源的。

可能常見的轉換是小鼠和人之間的轉換,因為小鼠的基因和人的基因的同源性

,約80%的小鼠蛋白質在人類基因組中具有嚴格的1:1種間同源體,其序列同一性通常介於70%~100%。當然跟人類親緣關係最近的物種是黑猩猩。

好了,我們正式介紹如何把小鼠的gene ID進行同源性映射到人的基因上去?

我們用到的R包是biomaRt包。bioMart包是一個連接bioMart資料庫的R語言接口,能通過這個軟體包自由連接到bioMart資料庫。可以進行各種基因轉換。

沒有安裝過的需要先安裝包。

使用biomaRt包的第一步是選擇要使用的BioMart 資料庫和數據集。使用useMart函數可以連接到指定的BioMart 資料庫和資料庫中的數據集。要知道哪些BioMart 資料庫是可用的,可以利用listMarts函數查看。

要知道在一個BioMart資料庫中哪些數據集是可用的,首先選擇使用useMart的BioMart資料庫,然後使用listDatasets函數在選定的BioMart,見listDatasets函數。

listDatasets()用於查詢當前資料庫所含的基因組注釋。比如查看人的和鼠的。

我們後面用到的是hsapiens_gene_ensembl這個數據集。還有小鼠的mmusculus_gene_ensembl數據集。

用useDataseq()函數選定資料庫中的基因組。

dataset就是要使用的數據集。可能的數據集的列表可以使用listDatasets函數檢索,也就是我們上面介紹的。mart是使用useMart函數創建的Mart對象。

用lsitFilters()函數查看可選擇的類型,選定要獲取的注釋類型,以及已知注釋的類型。

那麼我們怎進行同源基因轉換呢?按照開始說的,使用biomaRt包的第一步是選擇要使用的BioMart 資料庫和數據集。使用useMart函數可以連接到指定的BioMart 資料庫和資料庫中的數據集。所以第一步是構建mart對象。

也就是選擇資料庫ensembl,數據集是人的hsapiens_gene_ensembl或者小鼠的mmusculus_gene_ensembl。

getLDS函數是biomaRt查詢的主要功能,連接兩個數據集,並從這些連結的biomaRt數據集檢索信息。在Ensembl中,這轉化為同源映射。

我這裡有一串小鼠基因。mouse.gene

將其映射到人的基因上。

attributes:屬性參數:代表我們所要檢索的數據集的屬性參數,比如這裡我們用的是mgi_symbol,代表的就是小鼠的基因的symbol名字。可以使用listAttributes函數檢索可能的屬性列表。

filter:參數過濾器,應在查詢中使用的過濾器。這些過濾器將應用於主數據集。可以使用函數listFilters檢索可能的過濾器列表。

value:代表我們想要輸入的數據集,就是輸入我們構造的要查詢的向量。

mart :指的是輸入數據的mart對象,由於輸入數據是小鼠的基因,自然選擇的mart對象為小鼠。

attributesL:代表的是我們需要同源轉化的另外一個資料庫,這裡我們自然是由小鼠轉為人,選擇的就是需要連接到的人的Mart對象,在屬性參數裡面我們填寫了三個參數,分別是gene_symbol ,染色體位置,基因起始位點。

useMartL:參數是代表我們需要連結的Mart對象,這裡自然就是人的。

我們查看一下結果:

這樣我們就完成了轉換。可以看的出來,人的基因和小鼠的基因名稱就是大小寫的區別(大多數,不是全部)。

最後額外介紹一下用getBM()函數獲取注釋。給定一組過濾器和相應的值,它從連接到的BioMart資料庫中檢索用戶指定的屬性。

這也達到的注釋的目的。

更多功能,參考官方文檔。

參考:

http://www.bioconductor.org/packages/release/bioc/html/biomaRt.html

相關焦點

  • Gene ID 轉換工具
    拿TCGA的數據舉例,TCGA RNA-seq的數據比對的基因是ID是Ensembl資料庫的ID號,如果我們拿到這樣的ID號的話,有一些分析是進行不下去的,所以需要轉化為傳統意義上的Gene Symbol。基因ID轉換的工具很多,各個資料庫不同的還是在於背景資料庫的問題。有時候我們拿到的基因的ID是新的ID號,但是使用的的資料庫裡面的數據是舊的結果就導致很多ID沒辦法轉換為基因名。
  • 基因ID轉換工具比較
    這樣的ID號我們只能只能使用biomart來進行轉換,同樣的轉換的結果也不是很理想。至於說TCGA的ID號怎麼轉換最好,這個我們可以明天再講一下。為了評價三個資料庫的結果,所以我們就把有版本號的結果進行了拆分。拆成了ENSG類別的ID號來進行多資料庫評價。我們這裡選擇隨機的999個基因ID來進行評價。利用這999個ENSG ID號,我們在DAVID資料庫當中進行了轉換。
  • 如何快速查找物種間對應的同源基因
    1.基於NCBI HomoloGene資料庫查找物種間對應的同源基因NCBI HomoloGene資料庫收集了部分已經完成基因組測序物種的同源基因數據。資料庫現包含21個物種,共44233組同源基因;HomoloGene的數據是開放的:FTPhomologene.data存放著同源基因的對應關係HID(HomoloGene group id)Taxonomy IDGene IDGene SymbolProtein
  • 功能富集分析、基因ID轉換、查找同源基因、SNP注釋一站式服務
    個人覺得挺好看的呢~2、基因ID轉換該網站的基因ID轉換包括:1)60個物種基因ID的轉換;2)Ensembl, Refseq, Illumina, Entrezgene and Uniprot identifiers等不同資料庫來源基因ID的轉換;3)基因,蛋白質,晶片探針等ID轉換;進入網址:https
  • 中國農大提出同源基因推斷新策略,並構建小麥族同源基因資料庫
    GeneTribe工具用於同源關係的推斷,既考慮了複雜的基因組間的層級關係,也針對富集異源多倍體的小麥族物種的複雜的網狀進化關係進行了特殊設計;通過綜合共線性分數和序列相似性分數進行動態加權優化,並引入基因注釋質量等因素進行罰分質控,形成可動態適用於不同進化距離的基因組之間的同源基因推斷策略(圖1)。
  • HaMStR鑑定直系同源基因
    直系同源的基因通常具有相似的生物學功能,所以我們在進行一個未知序列的功能的鑑定的時候,本質上是在找功能已知的同源基因。
  • 尋找同源基因工具OrthoMCL與OrthoFinder的安裝與使用
    、表達機制和不同物種親緣關係的生物學研究。通過對不同親緣關係物種的基因組序列比較,能夠鑑定出編碼序列、非編碼序列及給定物種獨有的序列。而基因組範圍內的序列比對,可以了解不同物種核苷酸組成、同/共線性關係和基因順序異同,有助於理解基因分析定位、系統發育關係。其中,比較基因組學的重要一部分正是系統進化關係的研究,由此對基因家族分析,基於單拷貝基因的串聯比對分析構建系統進化樹是其中的一環。
  • RNA為模板 首次實現植物同源重組修復
    RNA為模板 首次實現植物同源重組修復 2019-03-20 05這是在植物中首次成功利用RNA作為脫氧核糖核酸(DNA)同源重組修復模板。相關研究論文北京時間3月19日凌晨在線發表於國際學術期刊《自然生物技術》。  論文通訊作者、作科所研究員夏蘭琴介紹,CRISPR/Cas基因組編輯技術自2012年被發明以來,已被廣泛應用於動物、植物和微生物等諸多物種的基因組編輯。
  • 一種免費的開源可視化工具 可以對同源基因進行深入比較
    一種免費的開源可視化工具 可以對同源基因進行深入比較 2018-10-26 14:39:13 來源:sciencedaily Aequatus是Earlham Institute(EI)開發的一種新型生物信息學工具,它有助於深入了解不同物種之間的同線信息
  • 一作解讀|Mol Plant中國農大小麥研究中心提出泛基因組時代同源基因推斷新策略並構建小麥族同源基因資料庫
    通過融合序列相似性和基因共線性信息開發了適用於植物泛基因組時代同源基因推斷的新策略(GeneTribe),並構建了以小麥族物種為核心的「小麥族同源基因資料庫」(Triticeae-GeneTribe, http://wheat.cau.edu.cn/TGT/)。
  • 如何尋找同源基因---OrthoFinder
    構建物種的系統發育樹,計算kaks值或者比較基因組學和進化的其他分析都少不了需要尋找同源基因。
  • 為什麼不同物種之間無法進行基因交流?聽完專家的解釋明白了
    生命的核心就是進化,簡單的生命在向複雜生命進化的道路上,會選擇不同的方向,而不同的方向會誕生不同的物種,最後形成了現在物種豐富的生命世界。而不同的物種誕生之後,它們之間就被大自然制定了一個非常嚴格的法則,那就是「生殖隔離」。
  • PNAS發表小麥等異源多倍體物種部分同源重組事件重要進展
    部分同源重組(homoeologous exchange, HE)特指異源多倍體中具有高序列相似度的部分同源染色體之間通過配對交叉(cross-over)而導致的大規模染色體片段交換的現象,影響著基因組的結構變化和基因表達。
  • 同源重組基因敲除技術
    首先拆詞講一下這兩個關鍵詞的意思:1、同源重組(Homologous Recombination) 是指發生在非姐妹染色單體(sisterchromatid) 之間或同一染色體上含有同源序列的DNA分子之間或分子之內的重新組合。
  • Nature:不同細胞和物種之間的基因表達差異塑造先天性免疫
    在一項新的研究中,來自英國威康基金會桑格研究所和歐洲分子生物學實驗室(EMBL)歐洲生物信息學研究所等研究機構的研究人員對六種哺乳動物物種中的25萬多個細胞的基因進行測序,證實了免疫反應中的基因如何在不同的細胞之間和不同的物種之間具有不同的活活性。
  • 小麥基因id轉換
    小麥基因id轉換 小麥中國春基因組有眾多版本,也有了眾多的基因id。不同研究之間使用的id不同,就不容易做比較。
  • 基因跳躍 物種之間「徵服戰」
    原標題:基因跳躍 物種之間「徵服戰」   看似無關聯的兩段基因 「千裡」之外也能相互調控   一些生物現在的狀態很可能是你我進化到某個階段的「鏡子」。   研究顯示,細胞器和細胞核之間的基因也會發生跳躍,跳躍可能是它們在進化中相互「徵服」的一種方式。王東說,相隔遙遠無關聯的基因可以進行調控,一段基因從A基因組跳躍到B基因組,可能會使得B基因組的某個基因沉默,也很可能是跳躍過去的這段基因被沉默了。這本質上是物種之間的「徵服戰」。   美國密西根大學的一項研究佐證了這一點。
  • 取代CRISPR-Cas9的基因編輯技術誕生 科學家實現一次編輯多個基因...
    目前應用最廣泛的DNA切割酶是Cas9,和其相關的基因編輯技術就是大名鼎鼎的CRISPR-Cas9或CRISPR/Cas9。雖說CRISPR-Cas9是當前基因編輯技術的絕對主流,但實際上還存在不少具有獨特性質的Cas酶。這次的CHyMErA就是結合了2種不同的DNA切割酶——Cas9和Cas12a——實現的。
  • 科學網—科學家以RNA為模板首次在植物中實現同源重組修復
    RNA/DNA雙重切割能力的基因編輯系統,獲得後代無轉基因成分的抗ALS抑制劑類除草劑水稻植株。該研究在植物中首次利用RNA作為同源重組修復模板,開闢了利用植物RNA作為同源供體模板進行同源修復的新思路。相關論文當地時間3月18日在線發表於《自然—生物技術》。 據介紹,基因組編輯首先在基因組靶向位置產生DNA雙鏈斷裂,這些產生的雙鏈斷裂可通過非同源末端連接或者同源重組修復途徑進行修復。
  • 不同物種之間也存在異性相吸嗎?
    地球生物的進化,隨著基因突變的積累在自然環境的選擇下出現生殖隔離,變成不同物種。不同物種之間存在生殖隔離這是一條無法打破的鐵律,這樣也保證了不同物種之間的生物多樣性。即使親緣關係較近的物種,也很少能在自然環境下發生交配,例如農村經常會讓馬和驢進行雜交,目的是為了得到騾子,它們雖然不可育但是可以幫助幹農活。