非常有意思的數據可視化案例 ,原文提出的問題是 學術論文中的作者數量有逐年增加的趨勢 ;於是利用R語言裡的 rplos 包抓取了 Plos 系列的6本期刊的2006年至2013年的每篇論文裡的作者數量 進行可視化展示
原文連結是https://benjaminlmoore.wordpress.com/2014/04/06/author-inflation-in-academic-literature/
完整的代碼連結
https://github.com/blmoore/blogR
原始代碼中抓取數據的部分好像不能用了,我稍微改動了一下,選取了2006年到2020年的數據,獲取數據的代碼這裡就不放了,如果需要本文的示例數據可以知己在文末留言
數據已經存儲到了文件裡 首先是讀取數據library(readr)
df<-read_tsv("author_number.tsv")
head(df)
image.png期刊分別是table(df$journal)
image.png作圖代碼ibrary(ggplot2)
ggplot(df, aes(x=year, y=auth_num, col=journal, fill=journal)) +
stat_summary(fun.data="mean_cl_boot", geom="ribbon",
#width=.2,
alpha=I(.5)) +
stat_summary(fun="mean", geom="line") +
labs(x="Year", y="Mean number of authors per paper") +
theme_bw() +
theme(legend.position="top") +
scale_fill_brewer(type="qual", palette=2,
guide=guide_legend(direction="vertical",
label.position="bottom",
title=NULL,
ncol=6,
label.hjust=0.5)) +
scale_color_brewer(type="qual", palette=2, guide="none")+
facet_wrap(~journal,ncol=23)
image.png根據上圖確實可以看出學術期刊的作者數量確實是有增加的趨勢的
這裡新學到的知識點是使用stat_summary()函數添加置信區間,之前自己也實現過這個圖,但是需要提前算好置信區間和平均值,比如之前的推文 R語言ggplot2畫帶有置信區間的折線圖和分組求均值遇到的一個問題,如果換成 stat_summary() 這個函數以後就方便很多
好了,今天的內容就到這裡了
大家如果需要推文的示例數據和代碼的話可以直接在公眾號 後臺回復 20210426
歡迎大家關注我的公眾號
小明的數據分析筆記本
小明的數據分析筆記本 公眾號 主要分享:
1、R語言和python做數據分析和數據可視化的簡單小例子;
2、園藝植物相關轉錄組學、基因組學、群體遺傳學文獻閱讀筆記;
3、生物信息學入門學習資料及自己的學習筆記!