RNASeq實戰練習-軟體安裝及數據下載

2022-01-10 小小白的jotter
RNASeq實戰練習-軟體安裝及數據下載軟體安裝

新建 rnaseq 分析環境

conda env list
conda create -n rnaseq -y

安裝軟體

# 激活rnaseq分析環境
conda activate rnaseq

# 安裝所需的軟體
conda install -c biobuilds sra-tools -y
conda install -c hcc aspera-cli -y
conda install -c bioconda gffread -y
conda install -c bioconda trim-galore -y
conda install -c bird fastqc -y
conda install -c bioconda multiqc -y
conda install -c bioconda hisat2 -y
conda install -c bioconda samtools -y
conda install -c bioconda subread -y

有時候用 conda 直接搜索搜索不到,可以百度 conda 軟體名查找安裝方式

image-20210812140243741轉錄組數據下載

實戰使用數據NCBI登錄號:PRJNA480638。

慘痛教訓,剛開始不懂做練習的時候最好用別人已經做過沒有問題的數據,不然中間有哪一步出問題根本不知道是自己參數設置不對,還是下載的數據有問題。。。

下載方式一:sra數據下載

NCBI搜索登錄號:PRJNA480638,勾選搜索結果,下載包含轉錄組數據下載地址的 excel 文件

image-20210729132012168

打開下載的 excel 文件找到下載文件路徑在 Windows 中下載

image-20210729132358193

winscp 將 SRA 數據上傳到伺服器 /home/jiamj/analysis/raw 目錄下

image-20210730100951072

fastq-dump 將 sra 文件轉換為 fastq 格式

轉錄組(三):了解 fastq 測序數據:https://www.cnblogs.com/fhn7/articles/12355025.html

#確認是否在rnaseq分析環境中,否則激活
conda activate rnaseq

# 進入到存放文件的目錄
cd /home/jiamj/analysis/raw

批量將sra文件轉換為fastq格式
for i in 39 40 41 42 43 44 
do
fastq-dump --gzip --split-3 -O /home/jiamj/analysis/raw SRR75089${i}.1
done

下載方式二:aspera下載數據(使用)

後續分析用的是該方式下載的數據。

ENA 資料庫:https://www.ebi.ac.uk/ena/browser/home

ENA 資料庫輸入 PRJNA480638 搜索

image-20210729160707100

輸入登錄號查找,選擇自己想要的信息。可以看物種分組和文件大小

image-20210729161423432

點擊 TSV 下載,filereport_read_run_PRJNA480638_tsv.txt

image-20210729161954989

將 fastq_aspera 整理成下面的文件,命名為 aspera_download.txt

image-20210729171223341

winSCP 將這 aspera_download.txt 上傳到伺服器 /home/jiamj/analysis/rnadata 目錄下

Aspera下載安裝使用 https://www.jianshu.com/p/fed19a8821eb

Aspera工具安裝與使用https://www.jianshu.com/p/a6ac81456c01

# 先看看 rnaseq 環境激活沒有,沒有激活就激活分析環境
# conda activate rnaseq 
# 查看是否安裝成功
ascp -h
# 查找密鑰
which ascp

image-20210729173258753

把bin及bin後面的內容換成etc/asperaweb_id_dsa.openssh即為密鑰地址

/home/jiamj/miniconda3/envs/rnaseq/etc/asperaweb_id_dsa.openssh

參數說明-l最大傳輸速率-i密鑰地址,/home/jiamj/miniconda3/envs/rnaseq/etc/asperaweb_id_dsa.openssh,用conda安裝可以看上面操作-P提供SSH port,一般是33001-QEnable fair transfer policy-k斷點續傳,一般設置為1-T取消加密

批量下載

ascp -k 1 -QT -l 100m -P33001 -i /home/jiamj/miniconda3/envs/rnaseq/etc/asperaweb_id_dsa.openssh --mode recv --host fasp.sra.ebi.ac.uk --user era-fasp --file-list aspera_download.txt . 
# .表示當前文件夾

數據完整性檢驗

windows 將 filereport_read_run_PRJNA480638_tsv.txt 中的 fastq_md5 整理出來記為 md5.txt

image-20210729175527689

將這個文件上傳到伺服器 /home/jiamj/analysis/rnadata 目錄

用md5sum -c md5.txt進行數據檢查的時候會報錯,因為在 Windows 系統下編輯的文件,換行符回車的格式為 』\r\n』,在 linux 系統下,回車的格式為 』\n』,在 Windows 下編輯的文本文件在上傳至 linux 伺服器時,回車 』\r\n』 就顯示成 ^M+』\n』

問題解決_md5sum檢驗提示沒有該文件 https://blog.csdn.net/mudong0052/article/details/108931285

sed 's/\r//g' md5.txt | md5sum -c -

image-20210730100902652參考基因組下載

ensembl plant 資料庫,點擊進去擬南芥的連結

image-20210702161500551

點進上圖紅框,右鍵複製所要下載文件的地址連結地址

# 在analysis目錄下創建一個ref文件夾存放參考基因組文件
mkdir ref

#進入ref目錄下
cd ref

#下載
wget -c ftp://ftp.ensemblgenomes.org/pub/plants/release-51/fasta/arabidopsis_thaliana/dna/Arabidopsis_thaliana.TAIR10.dna.toplevel.fa.gz
wget -c ftp://ftp.ensemblgenomes.org/pub/plants/release-51/gff3/arabidopsis_thaliana/Arabidopsis_thaliana.TAIR10.51.gff3.gz

# 解壓縮
gunzip *.gz

image-20210812141412669

相關焦點

  • 一個RNAseq完整數據分析腳本
    PLoS One. 2014 JunrnaseqGene案例全文:http://www.bioconductor.org/packages/release/workflows/vignettes/rnaseqGene/inst/doc/rnaseqGene.html準備工作 準備工作主要分成三部分,需要自行安裝生物軟體,下載對應的參考序列以及gtf文件,以及安裝
  • Linux基礎:軟體安裝技巧--conda
    #三:北外鏡像頻道conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/free/conda config --add channels https://mirrors.bfsu.edu.cn/anaconda/pkgs/main/conda config --add channels
  • 新司機帶你學RNA-Seq數據分析
    同時我這裡就不再贅述RNA-seq的具體原理,有需要了解的請移步:一個簡略的RNA-seq演示至於軟體的安裝到官網下載,解壓後將bin/添加進路徑即可,這裡不再做講解。註:所有操作皆在LINUX&R上完成,默認基本處理軟體已經安裝本體介紹
  • RNA-seq數據深度分析—motif的鑑定
    收錄於話題 #RNA-seq隨著測序技術的飛速發展,RNA-seq在現在的我們實驗設計中,為了驗證基因表達水平,以及關聯基因的表達變化,越來越成為一個重要的part。通常來講,RNA-seq的差異基因表達分析按照前面已經寫過的流程進行。RNA-seq數據分析-reads mapping,RNA-seq數據分析-edgeR。
  • R語言與RNAseq
    前期在表達分析中主要使用兩類表達數據:晶片數據,如GEO中不同數據集;RNAseq數據,如TCGA中的
  • RSEM:RNA-seq數據的一站式分析
    RNA-seq的目的就是確定樣本中基因的表達量,通過基因表達定量,可以比較同一個樣本中各個基因表達的高低,也可以鑑定在不同樣本間表達有差異的基因等。不管後續的分析目的是什麼,RNA-seq數據分析都必須先進行基因表達定量。最常用的RNA-seq表達定量的技術思路是先將測序得到的reads比對到參考基因組,然後再根據比對結果,結合參考基因組的注釋文件,得到每個基因的表達量。
  • RNA seq第十七講 | 全面而詳細!RNA-seq 數據分析最佳實戰
    在此分析過程中可以只進行RNA-seq分析也可以聯合其他組學一起分析。不同的RNA-seq分析有不同的轉錄組定量,均一化以及差異表達分析,並且質控可確保結果的可重複性和可靠性。圖一為Illumina sequencing實驗設計、分析流程圖。簡單羅列一些數據及圖例來說明這些分析中潛在的不足。
  • SPSS 24 官方中文版軟體安裝實戰教程及下載
    SPSS為IBM公司推出的一系列用於統計學分析運算、數據挖掘、預測分析和決策支持任務的軟體產品及相關服務的總稱,有Windows和Mac OS X等版本。在簡單了解SPSS之後,我們就進入今天的主題SPSS 24軟體的實戰安裝操作。
  • Origin 2017 官方中文版軟體安裝實戰教程及下載
    Origin為OriginLab公司出品的較流行的專業函數繪圖軟體,是公認的簡單易學、操作靈活、功能強大的軟體,既可以滿足一般用戶的製圖需要,也可以滿足高級用戶數據分析、函數擬合的需要。Origin自1991年問世以來,由於其操作簡便,功能開放,很快就成為國際流行的分析軟體之一,是公認的快速、靈活、易學的工程製圖軟體。
  • R與Rstudio軟體的下載安裝教學-視頻
    醫藥加學習班-R與Rstudio軟體的下載安裝教學要點預覽第10期醫藥加|R語言數據分析實戰技術網絡學習班
  • RNA-seq數據分析最佳實踐調查
    每個RNA-seq實驗場景都可能具有用於轉錄本定量,標準化和最終差異表達分析的不同最佳方法。此外,應在分析的不同階段適當地進行質量控制檢查,以確保結果的可重複性和可靠性。我們的重點是概述RNA-seq數據的生物信息學分析的當前標準和資源。我們的目的不是提供資源或軟體工具的詳盡彙編,也不是指出最佳的分析渠道。相反,我們旨在為RNA-seq數據分析提供評論指南。
  • ChIP-seq數據比對注意事項
    面臨的挑戰有:基因組很大(比如人類的有30億鹼基對,也就是60億鹼基)測序的reads數量很多(30M就是三千萬條reads)測序read和基因組之間並非嚴絲合縫,中間肯定有不匹配的鹼基(可能是測序錯誤,也有可能是就是和參考基因組不同,存在變異位點),那麼到底存在幾個mismatch才算匹配成功呢?
  • 超能餅乾|SnapATAC分析單細胞ATAC-seq數據(三)
    簡介在本教程中,我們將對PBMC的兩個scATAC-seq數據集(5K和10K)和一個scRNA-seq數據集進行整合分析。這三個數據集均來自10X genomics測序平臺產生的數據,可以直接在10x官網下載使用。
  • SketchUp Pro 2015 官方中文版軟體安裝實戰教程及下載
    簡單了解SketchUp之後,我們將進入今天的主題SketchUp Pro 2015的軟體安裝操作。在安裝SketchUP Pro 2015之前,你需要具備一樣東西:SketchUp Pro 2015軟體安裝包(64位) (需要下載連結的情私我)接下我將以64位的安裝為例,為大家一步一步進行SketchUp Pro 2015的軟體安裝實戰操作,大家看好咯!
  • 生信攻略--比對軟體的安裝與使用
    軟體:最常用的序列比對軟體,利用局部比對的方式進行序列和序列之間的同源性比較,一般用於基因注釋。最新版本為blast+2.6.0blast+包括若干的套件:blastn:核酸比核酸        blastx:核酸比蛋白blastp:蛋白比蛋白        tblastn:蛋白比核酸        makedb:數據建庫安裝:下載blast+:ftp://ftp.ncbi.nlm.nih.gov/blast/executables
  • 史上最全 | 39個RNAseq分析工具與對比
    這是一篇在NC上發表的使用RNAseq工具對比的一篇文獻,解讀這篇文獻對我們使用RNAseq發文提供了思路。下面小編具體解說一下。文獻摘要:RNA-sequencing(RNA-seq)是一個重要的轉錄組學研究技術,數百款分析工具目前已經開發出來。儘管最近相關研究評估了最新的可用的RNAseq工具,但他們沒有全面綜合的評估RNAseq分析的工作流。
  • 學徒跟著B站ATAC-seq視頻5天完成流程
    來源自簡書第1篇:ATAC-seq的背景介紹以及與ChIP-Seq的異同優勢 實驗設計 實戰流程 注意一些黑名單(微衛星序列,重複序列),去除掉不要當做peaks1.數據下載 通過SRP055881 下載原始數據,獲得sraruntable與accession list,找到樣本對應的信息(例如樣本名,分組等)
  • ChIP-seq基礎入門傳送門
    如果你是Windows,那麼安裝必須安裝 git,notepad++,everything,還有虛擬機,在虛擬機裡面安裝linux,最好是ubuntu。如果本身就是mac或者linux,那麼很簡單了,安裝好wget,brew吧需要安裝的各種ChIP-seq軟體包括 sratoolkit,fastqc,bowtie2,samtools,htseq-count,bedtools,macs2,HOMER,R,Rstudio軟體安裝的代碼,在生信技能樹公眾號後臺回復老司機即可拿到。
  • 易侕軟體(EmpowerStats)下載安裝說明
    ),一套針對流行病學研究數據的簡單實用的數據分析與數據管理系統軟體。第二步:下載安裝文件官網免費下載:http://www.empowerstats.com/cn/download.html點擊易侕統計軟體2.0版,需要選擇32位或64位,如下圖所示。
  • RNA-seq提交到GEO資料庫背後的故事!
    如果沒有帳號,自行註冊即可數據提交網址如下:https://www.ncbi.nlm.nih.gov/geo/info/submission.htmlRNA-seq數據提交我們選擇第二個:Submit high-throughput sequencing