lncRNA-seq數據分析之新lncRNA鑑定和注釋視頻課程眾籌

2021-03-02 生信技能樹

前面我系統性的總結了:lncRNA的一些基礎知識 ,和lncRNA晶片的一般分析流程 ,還有LncRNA-seq的一般分析流程 ,裡面提到了一個目前非常小眾的分析方向,就是新lncRNA鑑定和注釋,因為大部分人研究的物種的human或者mouse,已經被分析的很透徹了,encode計劃等資源非常豐富,很少需要鑑定新的lncRNA。

不過對於其它物種,貓狗豬,甚至其它你叫不出來名字的昆蟲,魚類,這個分析策略還是蠻常見的。比如發表在Front. Genet., 18 March 2019 | https://doi.org/10.3389/fgene.2019.00196的文章Transcriptome Analysis Suggests the Roles of Long Intergenic Non-coding RNAs in the Growth Performance of Weaned Piglets就是重新下載一個公共數據,然後進行新lncRNA鑑定和注釋,分析部分主要是分成兩個大塊,首先是hisat2+stringtie流程,然後是組裝好的gtf文件的後,細緻的進行新lncRNA鑑定和注釋。LncRNA-seq數據分析的兩個部分

分析流程如下:

新lncRNA鑑定和注釋圖解流程前面的hisat2+stringtie流程流程很簡單

就是參考:豬狗的參考基因組構建索引,還有使用ebi資料庫直接下載fastq測序數據  ,做好準備工作,然後使用conda安裝一些軟體,建立好目錄

conda create -n lncRNA
conda activate lncRNA
conda install -y -c  bioconda hisat2 stringtie samtools fastp   gffcompare
# conda search gffcompare
mkdir 0.qc 1.raw_fq 2.clean_fq 3.hisat2_bams 4.stringtie_gtfs 5.lncRNA

流程基本上3個軟體,銜接一些即可

conda activate lncRNA
index=/home/jmzeng/reference/genome/pig/pig_hisat2
gtf=/home/jmzeng/reference/genome/pig/Sus_scrofa.Sscrofa11.1.99.chr.gtf

fastp -i 1.raw_fq/${id}_1.fastq.gz \
                    -o 2.clean_fq/${id}_1.fastp.fq.gz \
                    -I 1.raw_fq/${id}_2.fastq.gz \
                    -O 2.clean_fq/${id}_2.fastp.fq.gz \
                    -l 36 -q 20 --compression=6 \
                    -R ${id} -h ${id}.html
fq1=2.clean_fq/${id}_1.fastp.fq.gz
fq2=2.clean_fq/${id}_2.fastp.fq.gz
hisat2 -p 4 -x $index -1  $fq1 -2  $fq2 | \
samtools sort -@ 4  -o 3.hisat2_bams/$sample.bam -

stringtie -p 4 -G $gtf \
            -o 4.stringtie_gtfs/$sample.gtf  \
            -l  $sample 3.hisat2_bams/$sample.bam                 

當然,你需要自己去搜索理解軟體的參數啦。

後面的新lncRNA鑑定和注釋還是蠻耗費時間的

而且不同物種的新lncRNA鑑定和注釋細節還不一樣,不同的gtf文件版本可以對比印證。

我們研發的步驟是:

新lncRNA鑑定和注釋的具體步驟

完整課程思維導圖在:https://mubu.com/doc/ISk-Ev1tg

課程錄製需要一些反饋和動力,所以採取眾籌模式,吸納部分真正有興趣的朋友進入微信群參與討論哈。(畢竟新lncRNA鑑定和注釋是一個小眾方向,大部分朋友就是看個熱鬧)

還是老規矩,18.8元進群,一個簡單的門檻,隔絕那些營銷號!同時,我們也會在群裡共享一些lncRNA相關資料,僅此而已,考慮清楚哦! 

長按識別二維碼

添加微信

支付18.8元入學習群

煩請備註姓名學校單位信息

眾籌模式

再次強調,你完全無需參與眾籌,視頻會完全免費共享在B站!!!

只不過是B站這個途徑不方便共享這些學習素材,所以大家統一添加我們的加群小助手二維碼然後進入微信群,我們錄製視頻過程會選擇性跟大家互動,整理好資料後騰訊微雲發送給群裡的朋友!

(注意,不是答疑,不是售後,也不講解Linux和R基礎知識),你需要自己跟著我們生信技能樹的系統性基礎入門視頻學習背景知識!

首先是LINUX學習第1階段:把linux系統玩得跟Windows或者MacOS那樣的桌面作業系統一樣順暢,主要目的就是去可視化,熟悉黑白命令行界面,可以僅僅以鍵盤交互模式完成常規文件夾及文件管理工作。第2階段:做到文本文件的表格化處理,類似於以鍵盤交互模式完成Excel表格的排序、計數、篩選、去冗餘,查找,切割,替換,合併,補齊,熟練掌握awk,sed,grep這文本處理的三駕馬車。第3階段:元字符,通配符及shell中的各種擴展,從此linux操作不在神秘!第4階段:高級目錄管理:軟硬連結,絕對路徑和相對路徑,環境變量第6階段:軟體安裝及conda管理,讓linux系統實用性放飛自我然後是R學習文末友情宣傳
強烈建議你推薦給身邊的博士後以及年輕生物學PI,多一點數據認知,讓他們的科研上一個臺階:

不點讚也不打賞,為什麼呢?

相關焦點

  • lncRNA必知必會的資料庫資源大全
    最近有粉絲來信表示我的免費視頻課程《LncRNA-seq數據》非常的「簡陋」,就是在用一個lncRNA晶片和一個lncRNA測序的數據來演示如何獲得表達矩陣,以及後續的各種圖表代碼操作。完全沒有生物學背景,並不是一個系統的課程,僅僅是技能展現。
  • circRNA和lncRNA的翻譯機制及其產物功能
    已經在果蠅,小鼠和人成肌細胞以及不同的癌症如神經膠質瘤、肝細胞癌和結腸癌中鑑定出幾種可翻譯的circRNA和lncRNA。circRNA是通過內部核糖體進位點(IRES)或N6-甲基腺苷(m6A)來啟動翻譯。在本文中,作者回顧了circRNA和lncRNA翻譯的機制和產物功能。此外,介紹可用於識別和驗證這些生物活性蛋白/肽在生理和癌症狀態下功能的研究方法和工具。
  • lncRNA的一些基礎知識
    也可以繼續看其它,再比如:   Functional Classification and Experimental Dissection of Long Noncoding RNAsLncRNA調控分析 LncRNA順式(cis)調控基因分析Antisense長鏈非編碼RNA,至少其中相當多的一部分,能夠順式調節鄰近蛋白編碼基因的轉錄,精密控制這些發育多樣性基因位點的時空表達,並參與到與之相關的發育和其它生物學過程
  • RNA seq第十七講 | 全面而詳細!RNA-seq 數據分析最佳實戰
    背景:研究材料基因組信息已知,通過將RNA-seq獲得的序列比對到基因組上獲得轉錄信息;研究材料無基因組信息則從頭拼接reads為contigs後將reads比對到轉錄組。基因組注釋已知,基於注釋基因組進行轉錄組分析或發挖掘新的轉錄組及其調控通路。
  • RNA-seq數據分析最佳實踐調查
    對於可以使用RNA-seq的各種不同應用和分析方案,沒有最佳的方法。科學家根據所研究的生物及其研究目標計劃實驗並採用不同的分析策略。例如,如果一個基因組序列可用於所研究的生物,則應該可以通過將RNA-seq讀圖映射到基因組上來鑑定轉錄本。相比之下,對於沒有測序基因組的生物,通過首先將新讀物組裝到重疊群中,然後將這些重疊群映射到轉錄組上來實現量化。
  • 探究蛋白質和lncRNA的互作
    有關於蛋白質和RNA的互作,許多的互作中的蛋白質或者RNA和疾病狀態相關,其中就涉及到了很多的lncRNA。有關於lncRNA功能信息的缺失,進一步有關於和行使功能的lncRNA具體特異的序列的缺失,阻止了我們對lncRNA和細胞過程聯繫的認知。
  • 乾貨分享丨一文詳解常規RNA-seq與3'mRNAseq優勢與局限
    隨著下一代測序技術的革新,RNA-seq技術也得到了不斷發展,其應用領域也得到了不斷拓展,例如空間轉錄學(spatialomics)等。加上近年來長讀長測序和直接RNA-seq(direct RNA-seq)技術的應用以及數據分析計算工具的進一步整合,RNA-seq技術的創新使人們對RNA生物學有了更全面的理解。
  • RNA-seq測序基本知識
    上次已經描述了RNA-seq的測序平臺(最全RNA-seq測序平臺簡介,不好意思遺漏國之重器BGI-seq測序平臺,在此更正),並且已經提出了一些典型的應用
  • TCGA計劃的ATAC-seq數據發布
    與TCGA其他的多組學數據,鑑定腫瘤特異的DNA調控元件,如遠端增強子具有更強的組織特異性,根據增強子元件聚類鑑定到新的腫瘤亞型;通過TF足跡分析找到了關鍵的TF, 然後通過預測TF和DNA的相互作用模式以及基因的表達識別不同的TF活性;基因表達和染色質可及性的關聯分析預測到大量遠端增強子與啟動子間的相互作用,包括一些重要的致癌基因和腫瘤免疫治療的靶點,如MYC,SRC,
  • 非編碼RNA之lncRNA最新研究進展(第3期)
    與之相一致的是,SNHG7在結直腸癌細胞系中的表達水平也顯著高於正常的結腸細胞。研究結果進一步表明,SNHG7的過表達能夠促進結直腸癌細胞的增殖,遷移和侵襲,而在缺少SNHG7的情況下癌細胞的侵襲和存活能力受到顯著抑制。
  • 華中農大趙凌團隊揭示lncRNA EDAL抑制病毒新機制
    本研究作者利用狂犬病毒作為研究模型,在感染神經元細胞系N2a細胞後通過RNA-seq的技術手段找到了大量差異表達的lncRNA,並通過表達lncRNA抑制病毒的篩選實驗發現狂犬病毒誘導產生的一種全新的lncRNA EDAL能夠顯著抑制狂犬病毒的增殖,進一步研究發現EDAL能夠顯著抑制多種嗜神經病毒,包括水皰性口炎病毒(VSV)、森林腦炎病毒(SFV)和單純皰疹病毒(HSV-1)等。
  • lncRNA的這個機制一般只出高分文章
    當遇到lncRNA和miRNA表達一致的情況,也許你離高分文章已經不遠了,一起看看人家是怎麼發29分文章的。
  • 【The Plant Cell 】玉米轉錄因子的RNA-seq和CHIP-seq聯合分析
    本研究採用RNA-seq和CHIP-seq分別從整個轉錄水平和全基因組水平研究Opaque2突變型玉米的表達情況並搜索O2在全基因組水平的DNA位點情況,聯合兩者分析可以揭示差異基因是否為O2所調控。研究思路: 1)取材: Opaque2突變型(實驗組)和野生型(對照組)純合玉米授粉15天後的胚乳,每種3個生物學重複2)建庫測序:RNA-seq和CHIP-seq 平臺:Illumina HiSeq 2500
  • RNA-seq的十年(上),每人必讀!值得收藏!
    前言RNA-seq技術出現於十年之前,自其誕生之日起,RNA-seq就成了研究分子生物學的普遍工具,這項技術幾乎構成了我們對基因組功能的認知基礎 。RNA-seq中最常用的分析方法就是找出差異基因表達(Differential gene expression, DGE)。從最早的出版期刊開始,DGE分析的基本階段就未發生實質性的改變。
  • | RNA-seq的十年(上)
    前言RNA-seq技術出現於十年之前,自其誕生之日起,RNA-seq就成了研究分子生物學的普遍工具,這項技術幾乎構成了我們對基因組功能的認知基礎 。RNA-seq中最常用的分析方法就是找出差異基因表達(Differential gene expression, DGE)。從最早的出版期刊開始,DGE分析的基本階段就未發生實質性的改變。
  • 九月學徒ChIP-seq學習成果展(6萬字總結)(下篇)
    學徒第4周是ChIP-seq數據分析實戰訓練,講義大綱文末的閱讀原文,配套視頻在B站:九月學徒已經結業,表現還不錯,學了幾個NGS組學數據處理加上部分單細胞,隨機安排的文獻數據處理圖表復現也完成的還不賴,昨天在生信技能樹的WGCNA代碼就是他寫的;重複一篇WGCNA分析的文章(代碼版)因為公眾號排版真的是力氣活
  • 果子的R語言數據挖掘課程設計及複習
    在北京的課程是我第三次次真正意義上單獨完成的培訓課程,我一個人講了兩天一夜。這是強度最大的一次。總共講了接近20小時。最終錄製了30個視頻供學員複習。感謝各位的配合和支持,好幾次我們現場debug,大家沒有起鬨,而是提供各種方案,最終我們實現了偷任何圖的技能。
  • 人類血液樣本RNA-seq研究現狀
    在法醫鑑定工作中經常會使用到幹血斑樣本,不過今天和大家重點分享的不常用血液樣本其實是這兩種,抗凝血細胞和促凝血凝塊。這也是我本科畢業課題的一部分,我們將抗凝血中除血漿外剩下的部分稱為抗凝血細胞,將促凝血中除血清外剩下的部分稱為促凝血凝塊。我們希望探究清楚在轉錄組學研究中,全血、抗凝沉澱和促凝血凝塊這三種血液樣本是否具有可比性?
  • 數據挖掘系列主題(3)|那些年不能錯過的全轉錄組挖掘套路之lncRNA入手篇!
    所以今天就跟著小編一起走進全網最經典的全轉錄組數據挖掘思路之從lncRNA入手分析篇吧! 說起最近轉錄組分析思路什麼最火,那必然是全轉錄組了吧。近年來,大家也逐漸意識到單一的mRNA或ncRNA研究已無法完全滿足科研需求,需要結合多種RNA信息進行整合分析,進而探索潛在的調控網絡機制。
  • 靈長類動物大腦發育及老化過程中lncRNA的動態變化特徵和調控解析
    大腦是生物體內結構和功能最複雜的器官,具有精巧和完善的信息處理系統。大腦的正常發育是其執行功能的基石,受到遺傳和包括長鏈非編碼RNA(long noncoding RNA, lncRNA)在內的一系列表觀遺傳等多種因素的調控。