本節作者:劉永鑫 中國科學院遺傳與發育生物學研究所
版本1.0.3,更新日期:2020年8月27日
本項目永久地址:https://github.com/YongxinLiu/MicrobiomeStatPlot ,本節目錄 121WinMacSoft,包含R markdown(*.Rmd)、Word(*.docx)文檔、測試數據和結果圖表,歡迎廣大同行幫忙審核校對、並提修改意見。提交反饋的三種方式:1. 公眾號文章下方留言;2. 下載Word文檔使用審閱模式修改和批註後,發送至微信(meta-genomics)或郵件(metagenome@126.com);3. 在Github中的Rmd文檔直接修改並提交Issue。審稿人請在創作者登記表 https://www.kdocs.cn/l/c7CGfv9Xc 中記錄個人信息、時間和貢獻,以免專著發表時遺漏。
背景知識個人電腦基本要求
最好16G內存,可以使用更多需要大內存的軟體,如PICRUSt2。
圖. Win10中查看系統信息
常用軟體列表
軟體安裝以下教程中提及的數十個在微生物組分析中常用的軟體,推薦按照教程中說明自行下載最新版軟體並安裝。
對於Windows用戶,可以從
https://github.com/YongxinLiu/MicrobiomeStatPlot/blob/master/Data/BigDataDownlaodList.md 中通過百度雲連結批量下載我測試過程中預下載的軟體包。
谷歌Chrome瀏覽器——遠程訪問RStudio server或其它網頁工具兼容性最好的瀏覽器。微軟在Windows 10中最新版中Edge也更新為Chrome內核,兼容性也不錯。
網址:https://www.google.cn/chrome/。
在線安裝適合你作業系統的最新版(Google網站訪問可能需要科學上網),可選使用360或電腦官家快速安裝最新版。
測試軟體版本:Windows 64位版 84.0.4147.89
2. Git for windows命令行(僅限Windows)本軟體是為Windows用戶提供軟體項目代碼版本管理和備用的工具,同時提供在Windows下運行部分Linux代碼的命令行環境,可配合Rstudio使用,高效搭建擴增子分析流程,輕鬆實現Windows下擴增子數據的分析和可視化。
官網:http://gitforwindows.org/
點擊Download下載最新版,按默認參數安裝即可。
測試軟體版本:Windows 64位版 2.28.0
3. R語言R語言是目前生物學、經濟學等領域最流行的統計分析語言。基本可以完成微生物組領域的全部統計、分析和可視化,而且完全開源免費,支持Windows/Mac/Linux三大主流作業系統。
官網:https://www.r-project.org/
下載最新版:Download CRAN - China Tsinghua - Download R for Windows 或 Mac —— base —— Download R 4.x.x
測試軟體版本:Windows 64位版 4.0.2
雙擊安裝程序,建議語言選擇英文安裝。注意:安裝選擇組件步可去掉32-bit,節約空間並減少RStudio打開選擇版本。
常見問題:中文用戶名導致亂碼及無法使用
如果您碰到如下錯誤,是因為用戶名中存在中文,導致亂碼不能識別,請新建一個用戶,名字為純英文,重新安裝以上工具。
Win10下新建用戶操作方法:
Win10開始 —— 設置 —— 帳號 —— 家庭和其它人員 —— 我沒有… —— 添加一個… —— 輸入用戶名和密碼 —— 下一步 —— 按提示操作至完成
下載頁面:https://www.rstudio.com/products/rstudio/download/#download
選擇適合自己系統的版本(Win/Mac),下載安裝程序的最新版。
測試軟體版本:Windows RStudio-1.3.1056
右鍵使用管理員身份安裝。完成後打開時,會選擇R版本(如下圖)
圖. RStudio首次啟動選擇R版本
系統允許下建議選第一項 -
「使用系統默認R64位版本」,
點擊OK,默認為使用安裝的最新版。
圖. RStudio亂碼解決方法:Tools菜單 —— Global Options選項 —— Code —— Saving —— Change —— 切換編碼為 UTF-8 —— OK
常見問題:
Windowns 10下不顯示文件擴展名問題
圖. 設置Windows顯示擴展名的方法。
人們常用文件擴展名決定文件類型,如程序一般為.exe
Linux Shell腳本為.sh,R語言的腳本為.R,R Markdown為.Rmd
只有擴展名正確,RStudio才能正確選擇合適的環境運行
Windows資源管理器中「查看」 - 勾選「文件擴展名」,方便修改正確識別代碼文件。
圖. RStudio中打開終端(Terminal)的方法:若未看到Terminal或不小心關掉了Terminal,可按下方操作打開。Tools —— Terminal —— New Terminal (快捷鍵Alt+Shift+R)。
5. R包安裝開源軟體存在大量包相互依賴問題,比如你安裝一個包,可能其依賴上百個包,初次安裝下載時間非常長,而且有些包沒有二進此版,需要源碼安裝還需要額外的工具,如Rtools軟體環境的支持才能實現編譯安裝。
我們把預安裝好幾百個常用R包打包發布,大家可以下載解壓 即可使用,縮短安裝時間,提高成功率。
R包合輯下載:https://github.com/YongxinLiu/MicrobiomeStatPlot/blob/master/Data/BigDataDownlaodList.md 。提供了Windows 10和Mac系統最新版常用R包的百度雲下載連結。
4.0.zip包含了幾百個常用R包,Win10下解壓至」我的文檔/R/win-library」目錄,替換其中的4.0目錄即可調用,省去了下載安裝過程。
如果找不到R包安裝位置,可以在RStudio中查看:首先啟動RStudio,菜單Tools —— Install Packages (或右側 Install按扭) 查看」Install to Library:」處默認R包安裝目錄(如下圖),即安裝包位置。
因為R包默認是安裝到我的文檔/R/win-library目錄,如果C盤空間不足,可以查閱相關方法遷移「我的文檔」至其他盤即可。
將壓縮包4.0.zip複製到上述win-library目錄, 選中4.0.zip,右鍵選擇解壓縮至當前文件夾, 如提示文件替換,可選擇全部選是。
注意:一定要有win-library目錄中解壓,不要在4.0目錄中解壓。如在4.0目錄下解壓出現「4.0/4.0」雙層嵌套目錄將導致安裝無效。
Mac用戶的壓縮包下載至Downloads目錄並解壓,會出現library文件夾,運行如下命令複製到指定安裝位置:不同版本系統位置可能不同,請在RStudio中按上述方法查看目錄位置。
cp -r ~/Downloads/library/* /Library/Frameworks/R.framework/Versions/4.0/Resources/library/
安裝後測試:替換之後,重新啟動Rstudio,在左下角 > 後面輸入 library(ggplot2)測試,如顯示下圖則代表安裝成功(如下圖)。
如果出現 Error in library(「ggplot2」) : 不存在叫『ggplot2』這個名字的程輯包,則說明包未安裝成功。可能是前面操作解壓覆蓋沒有成功,如位置不正確,可人為檢查並修改。
如果是自己需要用的新包,不存在於提供的壓縮包中,則需後面的方式重頭安裝。
R包常用CRAN、Biocondoctor、Github三個網站來源安裝。
最常用使用RStudio中的包管理頁面安裝:
選擇右下角 Packages選項卡,
點擊Install;
輸入包名,會有提示,可供選擇;
點擊Install安裝。
代碼層面的安裝R包的三種方法,請在RStudio中使用。
安裝CRAN包,如devtools為包的名字,可替換為其他自己需要的包名。註:devtools包用於安裝github來源R包。
# 直接安裝
if (!requireNamespace("devtools", quietly = TRUE))
install.packages("devtools")
# 指定鏡像安裝,通常可加速,有時不可用
site= "https://mirrors.tuna.tsinghua.edu.cn/CRAN"
if (!requireNamespace("devtools", quietly = TRUE))
install.packages("devtools", repo=site)
安裝Bioconductor包的新方法。註:edgeR是最流行的測序數據差異比較R包。
# 檢查BiocManager包是否存在,不存在則安裝
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
if (!requireNamespace("edgeR", quietly = TRUE))
BiocManager::install("edgeR")
安裝Github的R包,包名由用戶名和包名兩部分組成。以我編寫的amplicon包為例,保存於github中的microbiota用戶下,提供了擴增子分析常用統計分析和繪圖樣式的函數。
if (!requireNamespace("devtools", quietly = TRUE))
library(devtools)
if (!requireNamespace("amplicon", quietly = TRUE))
devtools::install_github("microbiota/amplicon")
更多代碼層面的安裝和常見問題將在R語言基礎章節詳細介紹。
6. 伺服器通訊——Xshell 和 FileZilla圖. Xshell多窗口同屏界面。左側為登陸伺服器的狀態;右側為運行駭客帝國屏保(cmatrix)。Xshell免費版最多支持最多4格同屏。
Xshell是Windows系統下用於登錄伺服器的終端,Mac用戶可直接使用系統自帶的Terminal即可。訪問 https://www.netsarang.com/zh/free-for-home-school/ 填寫姓名、郵箱獲取學校/家庭版免費下載連結。
Xshell無法正常運行用戶備選PuTTY http://www.putty.be/ 。
圖. Xshell首次使用配置方法。
圖. FileZilla主界面。上方可快速訪問伺服器,左側為本地文件列表,右側為伺服器文件列表。
FileZilla可以斷點續傳進行上傳、下載,上傳數據至NCBI。下載連結 https://filezilla-project.org/download.php?type=client 。無法正常運行此軟體備選WinSCP https://winscp.net/eng/download.php 或 Xftp (可與Xshell同時下載)
圖. FileZilla快速訪問伺服器示例。需添加主機IP位址、用戶名和密碼。可調置斷點續傳。
訪問 http://www.drive5.com/usearch/download.html
選擇接受許可協議,版本必須選擇v10.0
系統根據自己電腦選擇Windows/Mac,可多選
填寫郵箱 ,提交收到連結,下載後改名為usearch.exe。記得此文件位置,或放到此定位置,如程序均保存至 C:\public\win目錄中,方便添加環境變量($PATH)後直接使用。
圖. Windows永久添加環境變量的方法。在資源管理器中,此電腦 —— 屬性 —— 高級系統設置 —— 環境變量 —— Path —— 編輯 —— 新建 —— C:\public\win —— 確定 —— 確定 —— 確定
https://github.com/torognes/vsearch 主頁中找最新下載連結,如 vsearch-2.15.0-win-x86_64.zip
下載後解壓其中的 vsearch.exe 至 C:\public\win 目錄
STAMP是一款分析微生物分類和功能譜的軟體,最新版本2.1.3, Downloads部分可下載適合自己Windows/Linux/MacOS版本的軟體。
Examples處提供了示例分析結果,以及演示數據實例。
STAMP可以現實不同平臺下兼容,實現Beta多樣性散點圖、物種豐度 柱狀圖、箱線圖,以及Post-hoc圖展示差異菌。還可以繪製帶誤差線柱 狀圖、誤差線和柱分離組合圖、相關散點圖、密度柱狀圖、p值柱狀圖 等分析和繪圖。
http://kiwi.cs.dal.ca/Software/STAMP 下載系統對應版本
圖. STAMP分析常用結果示例。
9. 網絡分析和可視化CytoscapeCytoscape是一款圖形化顯示網絡軟體,生物學中常用於分析轉錄因子與基因或蛋白與蛋白之間互作關係、GO和KEGG富集分析。
軟體下載地址:http://www.cytoscape.org
沒安裝過Java運行環境的用戶,先安裝jdk-11.0.7_windows-x64_bin.exe
再下載安裝程序Cytoscape_3_8_0_windows_64bit.exe
按默認參數完成安裝即可
Cytoscape使用視頻教程:https://ke.qq.com/course/261290
10. 圖片美化和排版Adobe IllustratorAdobe Illustrator,簡稱」AI」,是一款非常好的矢量圖形處理工具、圖片排版工具。
是Adobe公司開發的一款收費軟體,大家可以在官網下載試用版,或購買授權。
使用視頻教程:https://ke.qq.com/course/261607
其它推薦的跨平臺工具https://eternallybored.org/misc/wget/
https://github.com/shenwei356/csvtk
https://github.com/shenwei356/seqkit
如下載windows版,均放在 C:/public/win 目錄下方便搭建分析流程使用。
應用現在你的電腦就是一臺生物數據分析工作站,幾乎可以滿足擴增子分析的全部需求。
如果想使用QIIME 2、LEfSe等工具,還可以安裝Linux子系統,詳見:
具體軟體的使用,將會在接下來的章節中結合具體需求,針對性進行學習,以節約大家的寶貴時間。
責編:劉永鑫 中科院遺傳發育所
版本更新歷史
1.0.0,2020/8/25,劉永鑫,軟體簡介和流程
1.0.1,2020/8/26,劉永鑫,流程校對,添加配圖
1.0.2,2020/8/27,吳翔宇 寧波大學,全文校對,添加配圖
1.0.3,2020/8/27,劉永鑫,終審,排版並發布
10000+:菌群分析 寶寶與貓狗 梅毒狂想曲 提DNA發Nature Cell專刊 腸道指揮大腦
系列教程:微生物組入門 Biostar 微生物組 宏基因組
專業技能:學術圖表 高分文章 生信寶典 不可或缺的人
一文讀懂:宏基因組 寄生蟲益處 進化樹
必備技能:提問 搜索 Endnote
文獻閱讀 熱心腸 SemanticScholar Geenmedical
擴增子分析:圖表解讀 分析流程 統計繪圖
16S功能預測 PICRUSt FAPROTAX Bugbase Tax4Fun
在線工具:16S預測培養基 生信繪圖
科研經驗:雲筆記 雲協作 公眾號
編程模板: Shell R Perl
生物科普: 腸道細菌 人體上的生命 生命大躍進 細胞暗戰 人體奧秘
寫在後面為鼓勵讀者交流、快速解決科研困難,我們建立了「宏基因組」專業討論群,目前己有國內外5000+ 一線科研人員加入。參與討論,獲得專業解答,歡迎分享此文至朋友圈,並掃碼加主編好友帶你入群,務必備註「姓名-單位-研究方向-職稱/年級」。PI請明示身份,另有海內外微生物相關PI群供大佬合作交流。技術問題尋求幫助,首先閱讀《如何優雅的提問》學習解決問題思路,仍未解決群內討論,問題不私聊,幫助同行。
學習16S擴增子、宏基因組科研思路和分析實戰,關注「宏基因組」
點擊閱讀原文,跳轉最新文章目錄閱讀