技術貼 | R語言:繪製基因組基因箭頭圖

2021-03-02 微生態

點擊藍字↑↑↑「微生態」,輕鬆關注不迷路

本文由阿童木根據實踐經驗而整理,希望對大家有幫助。

原創微文,歡迎轉發轉載。

舉例介紹如何用R語言gggenes函數包把基因預測得到的gff或gtf文件(含基因位置信息)中的基因類型、位置可視化到圖中。

注意:

R version >= 3.6

gggenes依賴的ggfittext需要R 3.6以上,導致我用R 3.4.1安裝gggenes失敗。後來改用R 3.6.1成功安裝。

 

Linux conda安裝R 3.6

conda install -c r r=3.6

一, 輸入數據

 

1. 基因組-基因-方向

library(ggplot2)
library(gggenes)
data(example_genes)
head(example_genes)

圖1

 

2 基因組-基因-亞基因


head(example_subgenes)

 圖2

一、畫基因箭頭圖

1 基礎繪圖

ggplot(example_genes, aes(xmin = start, xmax = end, y = molecule, fill = gene)) +
  geom_gene_arrow() +
  facet_wrap(~ molecule, scales = "free", ncol = 1) +
  scale_fill_brewer(palette = "Set3")

圖3

 

2. 去掉背景


 方法:theme_genes()

ggplot(example_genes, aes(xmin = start, xmax = end, y = molecule, fill = gene)) +
  geom_gene_arrow() +
  facet_wrap(~ molecule, scales = "free", ncol = 1) +
  scale_fill_brewer(palette = "Set3") +
  theme_genes()


圖4

3. 按geneE對齊

 

方法:make_alignment_dummies()

dummies <- make_alignment_dummies(
  example_genes,
  aes(xmin = start, xmax = end, y = molecule, id = gene),
  on = "genE"
)

ggplot(example_genes, aes(xmin = start, xmax = end, y = molecule, fill = gene)) +
  geom_gene_arrow() +
  geom_blank(data = dummies) +
  facet_wrap(~ molecule, scales = "free", ncol = 1) +
  scale_fill_brewer(palette = "Set3") +
  theme_genes()

圖5

 

4. 按設置箭頭形狀

方法:geom_gene_label()

ggplot(example_genes, aes(xmin = start, xmax = end, y =
                                            molecule, fill = gene, label = gene)) +
  geom_gene_arrow(arrowhead_height = unit(3, "mm"), arrowhead_width = unit(1, "mm")) +
  geom_gene_label(align = "left") +
  geom_blank(data = dummies) +
  facet_wrap(~ molecule, scales = "free", ncol = 1) +
  scale_fill_brewer(palette = "Set3") +
  theme_genes()


圖6

5. 控制箭頭方向


example_genes$direction <- ifelse(example_genes$strand == "forward", 1, -1)
ggplot(
  subset(example_genes, molecule == "Genome1"),
  aes(xmin = start, xmax = end, y = strand, fill = gene, forward = direction)
  ) +
  geom_gene_arrow() +
  theme_genes()

圖7

ggplot(example_genes, aes(xmin = start, xmax = end, y = molecule, fill = gene, forward = direction)) +
    geom_gene_arrow() +
    facet_wrap(~ molecule, scales = "free", ncol = 1) +
    scale_fill_brewer(palette = "Set3") +
theme_genes()

圖8

6. 標記亞基因位置

方法:geom_subgene_arrow()

ggplot(example_genes, aes(xmin = start, xmax = end, y = molecule)) +
  facet_wrap(~ molecule, scales = "free", ncol = 1) +
  geom_gene_arrow(fill = "white") +
  geom_subgene_arrow(data = example_subgenes,
    aes(xmin = start, xmax = end, y = molecule, fill = gene,
        xsubmin = from, xsubmax = to), color="black", alpha=.7) +
  theme_genes()

圖9

7. 標記某基因組中某基因的亞基因位置

方法:geom_subgene_label()

ggplot(subset(example_genes, molecule == "Genome4" & gene == "genA"),
       aes(xmin = start, xmax = end, y = strand)
  ) +
  geom_gene_arrow() +
  geom_gene_label(aes(label = gene)) +
  geom_subgene_arrow(
    data = subset(example_subgenes, molecule == "Genome4" & gene == "genA"),
    aes(xsubmin = from, xsubmax = to, fill = subgene)
  ) +
  geom_subgene_label(
    data = subset(example_subgenes, molecule == "Genome4" & gene == "genA"),
    aes(xsubmin = from, xsubmax = to, label = subgene),
    min.size = 0
  )

圖10

你可能還喜歡

1 技術貼 | 16S專題 | 簡單介紹如何用自己的筆記本處理高通量16S數據

2 技術貼 | 宏基因組專題 | 組裝工具盤點和比較

3 技術貼 | R語言菌群Alpha多樣性分析和繪圖

4 技術貼 | 宏轉錄組專題 | DDBJ資料庫:宏轉錄組測序數據下載

5 技術貼 | R語言pheatmap聚類分析和熱圖

微生態科研學術群期待與您交流更多微生態科研問題

(聯繫微生態老師即可申請入群)

了解更多菌群知識,請關注「微生態」。

相關焦點

  • 技術貼 | R語言:手把手教你畫upset集合圖
    導讀:venn可以分析不同數據集的交集,另外使用R語言UpSet函數包upset函數繪製集合圖可以更清晰的展示不同數據集的交集情況。圖1二、集合圖-基礎upset(fromList(input))技術貼 | R語言:ROC分析多樣性指數技術貼 | R語言:ggplot畫柱形圖、排序、著色技術貼 | R語言:手把手教你搞定ggplot柱形圖(一)技術貼 | R語言:手把手教你搞定
  • 技術貼 | R語言:組學關聯分析和pheatmap可視化
    舉例展示R語言組學關聯分析的方法。宏基因組數據以KO-樣品豐度表為例。代謝組數據以metabolite-樣品豐度表為例。基本方法是用R語言psych包corr.test函數進行兩組數據的相關分析,結果經格式化後用pheatmap可視化得熱圖。一、模擬輸入 1.
  • 《杜仲全基因組精細圖》繪製完成重大成果新聞發布會
    由中國林業科學院經濟林研究開發中心、中國社會科學院社會發展研究中心、國家林業局杜仲工程技術研究中心、社會科學文獻出版社共同主辦的《杜仲全基因組精細圖》繪製完成重大成果暨《中國杜仲圖志》新聞發布會現在開始。
  • 科學家繪製一種遺傳病的基因突變圖
    新華網華盛頓1月30日電(記者林小春)一個國際科研小組30日說,他們繪製出導致遺傳性痙攣性截癱的基因突變圖,向著開發這種疾病的療法邁出第一步。遺傳性痙攣性截癱(簡稱HSP)是一種罕見的家族遺傳神經系統退行性變性疾病,臨床表現為雙下肢痙攣性肌無力,可伴有癲癇、失明、痴呆、精神發育遲滯與肌萎縮等症狀。
  • 在線網站繪製基因結構圖!
    運用它能夠繪製清晰的基因結構,清晰明了地展示外顯子、內含子及UTR的位置。還可以聯合其他數據繪製進化樹-基因結構圖,展現基因結構與系統進化關係。打開這個工具,它的界面如下:---MetScape(上)1、轉錄組代謝組聯合分析利器---Metscape(下)2、強大軟體:ScienceSlides 最新版本(PPT生物模式圖繪圖軟體)3、48個實用的生信在線工具強烈推薦,不看是你的損失!
  • 中國農科院繪製油菜基因組轉錄全景圖,構建功能基因資料庫
    中國農科院繪製油菜基因組轉錄全景圖,構建功能基因資料庫 劉志偉 童超波 劉勝毅/科技日報 2020-07-31 07:45
  • Nat Comm|何川組構建基因組5hmC修飾的人體組織圖譜
    5hmC-Seal【4, 5】,繪製了19種人體組織的5hmC修飾圖譜,並發現相較於其他多種表觀修飾,5hmC更加富集在組織特異的基因和增強子上,為基於5hmC的液體活檢技術提供了理論支持。首先,作者收集了來自於10種主要器官系統的19種不同人體組織,利用5hmC-Seal技術進行了系統的5hmC圖譜繪製。相比較於黃金標準方法TAB-seq的結果有較高的一致性(Spearman r = 0.82),並且準確捕獲到了不同組織在HOXA基因簇上的5hmC差異。
  • R語言繪製條形圖
    作者:吳健 中國科學院大學 R語言、統計學愛好者,尤其擅長R語言和Arcgis在生態領域的應用分享個人公眾號:統計與程式語言
  • 生信分析系列 | 輕鬆利用Python繪製基因表達熱圖
    (閱讀本文需要簡單了解python中的函數、python模組的安裝與模組的調用)文末有驚喜,免費Python信息分析培訓班送給你哦
  • R語言 | R語言繪製抖動散點圖和蜂群圖
    語言自帶的一個小數據集,展示使用ggplot2包繪製兩種特殊的散點統計圖,抖動散點圖(jitter plot)和蜂群圖((beeswarm plot)。這兩種類型的散點圖在文獻中都很常見,例如生物學研究中常使用它們展示基因定量表達的信息。除了R語言作圖外,本文還比較了二者各自的特點,並在最後簡單列舉了它們與其它類型的統計圖如箱線圖、提琴圖等的區別和聯繫,以及適用場合。 multcomp包的cholesterol數據集,來自某項臨床研究,記錄了50個患者接受降膽固醇藥物治療後的療效。
  • 環球網:人類基因組計劃帶給我們的重要啟示
    圖:Human Genome at 20(來源/Science)人類基因組計劃(Human Genome Project, HGP)是一項規模宏大、跨國跨學科的科學探索工程。其旨在測定組成人類染色體的30億個鹼基對的核苷酸序列,從而繪製人類基因組圖譜,並辨識其載有的基因及其序列,達到破譯人類遺傳信息的最終目的。人類基因組計劃在研究人類過程中建立起來的策略、思想與技術,構成了生命科學領域新的學科——基因組學,也可以用於研究微生物、植物、動物。
  • Science:首次在體內繪製tRNA基因適應度景觀圖
    但是繪製詳細的適應度景觀圖是一個嚴峻的挑戰,而且迄今為止創建出的景觀圖相當粗糙。如今,在一項新的研究中,來自美國密西根大學的研究人員報導了一個基因的首個體內適應度景觀綜合圖---大約比之前的大100倍。論文通信作者、密西根大學生態學與進化生物學系教授Jianzhi "George" Zhang說,這些發現有望令進化生物學家、遺傳學家和分子生物學家感興趣。
  • 科學家利用大規模比較基因組學繪製A群鏈球菌候選疫苗圖譜
    近日,澳大利亞昆士蘭大學等科研人員在Nature Genetics上發表了題為「Atlas of group Astreptococcalvaccine candidates compiled using large-scale comparative genomics」的文章,利用大規模比較基因組學繪製
  • 【線上直播】轉錄組+基因家族,一次全搞定
    本期培訓內容涵蓋轉錄組方案設計、標準分析、個性化數據挖掘、文章思路、基因家族分析等,從取樣到文章數據整理,手把手帶你解讀測序公司分析結果、理清個性化分析方案思路、學會個性化分析工具。p.s:本期新增轉錄組數據一鍵分析內容,附贈代碼。
  • 育種技術的新寵——全基因組選擇
    幹預動植物物種繁衍後代的操作技術就是所謂的育種技術。今天我們談到的全基因組選擇,就是人類最新發明的育種技術中的一款新利器。 全基因組選擇可以簡單地理解為最新、最準確的育種技術,涉及育種晶片、大數據、高性能計算等,是育種技術裡新一代的「高、精、尖」技術。如果把育種技術帶來的遺傳改良速度與交通工具類比,則古代的「相畜」和傳統育種技術相當於「馬車」和「蒸汽機車」,而全基因組選擇則是「高鐵」的速度。
  • 中外科學家Nature發布基因組測序重大成果
    這一鮭魚基因組圖譜達到了與人類基因組一樣的質量。為了能夠利用現代基因技術來進一步發展鮭魚養殖,充分了解鮭魚的全基因組至關重要。當前具有一些最佳性狀的鮭魚不一定能夠最好地適應環境改變、新型飼料及應對新疾病。以IPN病毒為例,這一疾病打擊了很多的鮭魚養殖場。導致了高達90%的受汙染鮭魚死亡,造成了巨大的經濟損失。
  • 作物基因組學研究進展
    中國農業科學院發文量為31篇,排名第1;其次是華中農業大學和中國科學院,論文數量各為22篇;南京農業大學發文19篇,排名第3(圖1)。2、基因組學研究態勢分析農作物基因組學研究的空前發展正推動著農業的第二次「綠色革命」。全基因組的剖析,可以提供每個農業生物物種或品種全基因組的遺傳信息。
  • R語言繪製密度提琴圖
    然後就找方法,怎麼在提琴圖中,加入漸變色。當然最好是R,最好是ggplot2。然後試了半天,關鍵詞用了個遍,比方說「gradient violin」、「density violin」、「histogram violin」、「heatmap violin」之類的,毛線都沒看到.唯一找到一個比較像的示例,本已喜出望外,然後發現它只是按分位數為提琴圖上色,我的心情嘞.
  • 中國熱帶農業科學院成功繪製香蕉B基因組精細圖譜
    新華社海口7月16日電(記者劉詩豪 陳凱姿)記者16日獲悉,中國熱帶農業科學院聯合11家單位,繪製了雙單倍體香蕉野生種Pisang Klutuk Wulung(BB基因組)的精細基因組圖譜,揭示了香蕉A、B基因組的分化,二倍化進程中A、B基因組的特點、多倍體香蕉A、B亞基因組之間同源交換與重組規律等重要科學問題,為香蕉遺傳改良奠定了重要基礎
  • 技術貼│R語言13種相關矩陣圖
    >第3種:帶係數的橢圓圖橢圓越扁,表示相關係數的絕對值較大;橢圓越圓,表示相關係數的絕對值較小;橢圓長軸的方向表示相關係數的正負:右上-左下方向對應正值,左上-右下方向對應負值:>install.packages("corrgram")library(corrgram)第6種:添加斜線藍色和從左下指向右上的斜槓表示兩個變量呈正相關,紅色和從左上指向右下的斜槓表示變量呈負相關。