C-Myc 與RNA-seq分析

2021-03-04 絲蘇氨酸

從未寫過專業相關的小文章,尤其還要有意思的,還是挺不容易的。說到主題,RNA-seq, 一個2008年出現的技術,基於solexa測序,完成轉錄本(可以mRNA,也可以是non-coding RNA等)定量。這個技術相較於以往所用的microarray優勢明顯,可以不依賴參考基因組,還可以發現新的轉錄本等,成本也在隨著測序成本的降低而在降低,而且隨著單細胞轉錄組的測序發展,更極大的加深了我們對體內生物學過程的理解。不看題目,可能有人要猜測我要鼓動大家花很多錢去測序,然後砸出文章,但我其實也只是才開始學習這些東西,忽悠大家去測序的能力應該沒有各大測序公司的銷售厲害。Okay,扯的有點遠,大家看題目,我除了寫了RNA-seq,還寫了C-Myc,這可是一個非常有名的基因,做癌症生物學的人知道它與增殖信號相關,做幹細胞的人知道這是yamanaka在製作小鼠iPS所選用的四個轉錄因子之一,這個基因被研究的也很早,目前依舊火熱中。生物學中,轉錄因子的功能是作為反式作用因子結合到順式作用元件從而調控轉錄的過程,但C-Myc的功能到了2012年,才有了很好的了解,它的功能中非常重要的一點是其不同於一般的轉錄因子,它是作為一個universal amplifier,調控絕大數的基因轉錄。如果沒太了解過2012年相關cell paper的人可能有疑問,我說說RNA-seq的優勢,說說C-Myc如何在生物學中起作用,但這兩點似乎沒有太大的聯繫,除了C-Myc是調控轉錄,RNA-seq是分析轉錄表達量的問題。Okay,它們的聯繫就在於轉錄調控與轉錄定量。


RNA-seq自2008年發明以來,大家更多的關注點在於其能不依賴於參考序列,幾乎無門檻、快速(也不快,建庫加測序加分析費時費事)的分析轉錄情況,但不幸的是其樣品間的比較方法一直沿用的還是microarray的分析方法。不做數據分析的同學可能並不知道,這套方法是有假設在前的,即假設絕大部分基因都不變化,變化的相關基因並不影響總體的基因分布。這種假說的提出意義重大,因為實驗過程中(包括microarray)都避免不了系統誤差(我們做qPCR,以內參做normalization也是在避免系統誤差),初期的microarray,以螢光的intensity進行定量,同一個樣品即使使用cy3與cy5的晶片都具有明顯的系統誤差,連技術學重複樣品之間的variation十分巨大,更別談不同樣品之間,根本無法得出任何可信有用的信息。有人可能會問為什麼不選用qPCR的方法,選擇1個點來做normalization,其實放大點看,這其實就是我們這個假說的應用。有了這個假說開發了多種方法,包括總體回歸,中位數法,上四分位數,分位數法等,應用的R分析包也有很多如DEseq等。這裡講一種非常適合多組樣品比較的方法—分位數法(quantile),形象過程的如Fig1,就是得到分布,按表達量排序,取行平均值,再按基因順序排序,從而得到比較不同樣品間各個基因標準化後的表達量,這種方法從2003年左右到RNA-seq發明後屢試不爽,也就成了大家較為通用的一種方法。可這樣的方法遇到我們的C-Myc基因,可就出了大問題,看Fig2,當我們的樣品不滿足方法假設,即樣品的總體的表達量level有差異,quantile等方法會將這種差異作為系統誤差給消除,分析不出樣品之間真正的差異,甚至錯誤的認為某些基因是下調基因。故事說到這裡似乎沒說完,應對C-Myc的性質,有解決方法,在12年的3篇cell paper中(2篇article,1篇review,與Fig2的參考文獻同一期),較完美的解決了這個問題,有興趣的同學可自行閱讀。而發現C-Myc作為universal amplifier這種性質影響還是很大的,最近有nature paper針對癌細胞過表達C-Myc從而上調幾乎所有的轉錄本的特性,利用降低RNA spliceosome的活性,阻止其轉錄出的RNA成熟,從而限制癌症細胞的增殖。

最後再說點題外的,現代生物學發展迅猛,我們被各式各樣的新手段以及新手段展現的新現象所驚豔,期盼著自己在科研這條路上做出些神奇的東西,但新手段也罷,舊手段也罷,如果不能針對問題根本設計出對應的解題思路,再多的花哨都只是空架子,希望大家共勉,認真觀察自己觀察到的現象,而只是工作性質的拿到一些自己所希冀的東西,忽略了data中給出的重大提示。

長按圖片識別二維碼,更多精彩盡在「絲蘇氨酸」

相關焦點

  • 超能餅乾|SnapATAC分析單細胞ATAC-seq數據(三)
    簡介在本教程中,我們將對PBMC的兩個scATAC-seq數據集(5K和10K)和一個scRNA-seq數據集進行整合分析。這三個數據集均來自10X genomics測序平臺產生的數據,可以直接在10x官網下載使用。
  • 如何做GO和KEGG富集分析(GSEA)?
    我們做完RNA-seq差異基因表達分析後,一個頭疼的問題就是如何完成GO和KEGG的富集分析。
  • 研究探討RNA-seq數據分析方法
    然而,測序之後的數據分析才是真正的挑戰。在RNA-seq之後,還需要一些強大的計算工具,才能繪製出完整的轉錄組圖譜。在這一期的《自然—方法學》(Nature Methods)上,來自MIT和哈佛Broad研究院的研究人員發表了一篇綜述,介紹了轉錄組注釋和定量的計算方法。
  • RNA-seq 檢測變異之 GATK 最佳實踐流程
    RNA-seq 序列比對對 RNA-seq 產出的數據進行變異檢測分析,與常規重測序的主要區別就在序列比對這一步,因為 RNA-seq 的數據是來自轉錄本的
  • RNA-seq的標準化方法的不完全整理
    在RNA-seq標準化這個領域也是如此,目前用的最多也就是, RPKM/FPKM, TPM,但是注意,有些時候一個方法出現的多,單純是因為公司沒有修改他們的分析流程。為了方便理解,假設目前你在一次測序中(即剔除批次效應)檢測了一個物種的3個樣本,A,B,C,這個物種有三個基因G1,G2,G3, 基因長度分別為100, 500, 1000.
  • RNA-seq的3的差異分析R包你選擇哪個
    在2010-2015年間,RNA-seq本身就是跟現在的單細胞差不多的當紅炸子雞的地位,無數的軟體工具,網頁資料庫,測評文章湧現出來。
  • Chip-seq分析:HOMER尋找motif
    參考:生信技能樹激活chipseq環境HOMER 是一套用於Motif查找和二代數據分析的工具
  • 解讀單細胞RNA-seq技術
    但是現在,時代已經變了,新的單細胞RNA-seq方法,可以分析大量的細胞及它們的命運。我們都參加過大型生日派對:在擁擠的房間裡,與許多人聊天、吃飯和慶祝。但是,試想你並不知道壽星是誰,只是像一個局外者看待這個派對。你可能會覺得整個事件看起來與其他的生日派對沒有什麼不同。然而,派對上的每個人都在壽星的生活故事裡擔當獨特的角色。
  • 計算差異表達分析方法(rna-seq)
    比較了11種RNA-seq數據的差異表達分析方法。
  • The Scientist:從晶片到RNA-seq的轉型之路
    不過隨著測序成本的直線下降,RNA測序(RNA-seq)成為了越來越受歡迎的轉錄組分析方法。DNA晶片上排列著大量的核酸探針,可以代表生物的整個基因組或部分基因組,比如外顯子、miRNA、單核苷酸多態性SNP等等。用晶片分析基因表達需要抽提RNA,將其反轉錄為cDNA,然後進行螢光標記。晶片上各點的信號強弱,代表了該探針目的基因的表達量。
  • 非編碼RNA研究園地 | 一種大環肽與腫瘤發生的自然通訊
    該肽主要與rna結合蛋白(包括m6A)相互作用。m6A一個閱讀器IGF2BP1,因此被命名為「RNA結合調節肽」(RBRP)。利用NCBI工具的ORF Finder程序進一步分析了這384個核糖體結合的INcRNA的編碼潛力。
  • 單細胞轉錄組+蛋白組+bulk RNAseq!多組學繪製全面肺衰老圖譜
    組學技術:scRNA-seq、mass spectrometry-based proteomics、bulk RNA-seq材料:scRNA-seq:3月齡小鼠(n=8)和24月齡小鼠(n=7);mass spectrometry-based
  • 單細胞轉錄組+蛋白組+bulk RNAseq!多組學繪製全面肺衰老圖譜
    通過使用高變基因對所有細胞進行無監督聚類,最終分成36個細胞群分別對應30種細胞類型,包括所有已知的上皮細胞、間充質細胞和白細胞系(圖1b,c)。這項分析證實了轉錄噪聲會隨著年齡的增長而增加(圖2c,d),這與之前關於人類胰腺或小鼠CD4+T細胞的報導一致。
  • 環狀RNA(circRNA)資料庫大匯總,快來看看有沒有你需要的!
    CIRCpedia v2 是一個更新的綜合資料庫,包含來自 6 個不同物種的 180 多個 RNA-seq 數據集共 262782 條的 circRNA 注釋。此外,更新後的資料庫包含了人類和小鼠之間環狀 rna 的保守性分析。
  • non-coding RNA databases匯總
    21世紀初期,通過對人類和小鼠基因組分析發現,98%的序列被劃分到「junk「 DNA之列,除被注釋的mRNA之外,大多收轉錄本似乎是不能encode蛋白質的,而這些轉錄本便是ncRNA, ncRNA因此也正式進入科學家的視野。隨著測序技術的發展與計算生物學的興起,使得人們對RNA領域的理解越來越深入,ncRNA領域也越發火熱。ncRNA參與了大多數生物學過程,調節生理,發育甚至疾病。
  • QB期刊 |RNA-seq數據計算方法大匯總
    為了回答各種生物問題,十年來不同領域的研究者已為第二代RNA-seq數據分析提出了超過2000種計算與分析方法。該綜述文章從四個層面(樣本,基因,轉錄本,和外顯子)對RNA-seq數據的分析方法進行了總結,旨在歸納看似不同的方法背後共通的統計假設和模型。
  • ChIP-Seq數據挖掘系列-3: Motif 分析(3) - 利用ChIP-Seq結果在基因組區域中尋找富集的Motifs
    HOMER 一般選取基因TSS +/- 50kb區域分成設定大小;然後計算這些背景序列GC/CpG% 儲存起來用於後續分析。4.5 隨機選擇背景區域用於尋找motif因為HOMER 使用一個不同的motif 尋找算法,它需要使用背景序列區域作為對照。
  • ...屠強研究組開發Decode-seq方法顯著提高差異表達基因分析的準確性
    鑑定差異表達基因是許多生物醫學研究項目的基礎步驟,利用轉錄組進行差異表達(Differential Expression, DE)分析是目前最主流的方法,得到了廣泛應用。例如,兩個常用於轉錄組DE分析的算法 edgeR 和 DESeq2 已經被引用了超過上萬次。
  • Nature重磅綜述 |關於RNA-seq,你想知道的都在這
    (Nature重磅綜述|關於RNA-seq你想知道的全在這)、ChIP-seq分析 (ChIP-seq基本分析流程)、單細胞測序分析 (重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程 (原理、代碼和評述))、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫學設計實驗GEO數據分析 (step-by-step) - Limma差異分析、火山圖、功能富集)等內容。
  • 從數據分析到結論產生,談談scATAC-seq
    開放染色質區域的全基因組圖譜可以通過它們與特徵相關序列變異型的聯繫來促進順式和反式調節元件的功能分析。目前,高通量測序分析轉座酶可及染色質(ATAC-seq)被認為是全基因組可及染色質的最易獲得和最具成本效益的策略。還開發了單細胞ATAC-seq(scATAC-seq)技術來研究包含異質細胞群體的組織樣本中細胞特異性染色質的可及性。