從未寫過專業相關的小文章,尤其還要有意思的,還是挺不容易的。說到主題,RNA-seq, 一個2008年出現的技術,基於solexa測序,完成轉錄本(可以mRNA,也可以是non-coding RNA等)定量。這個技術相較於以往所用的microarray優勢明顯,可以不依賴參考基因組,還可以發現新的轉錄本等,成本也在隨著測序成本的降低而在降低,而且隨著單細胞轉錄組的測序發展,更極大的加深了我們對體內生物學過程的理解。不看題目,可能有人要猜測我要鼓動大家花很多錢去測序,然後砸出文章,但我其實也只是才開始學習這些東西,忽悠大家去測序的能力應該沒有各大測序公司的銷售厲害。Okay,扯的有點遠,大家看題目,我除了寫了RNA-seq,還寫了C-Myc,這可是一個非常有名的基因,做癌症生物學的人知道它與增殖信號相關,做幹細胞的人知道這是yamanaka在製作小鼠iPS所選用的四個轉錄因子之一,這個基因被研究的也很早,目前依舊火熱中。生物學中,轉錄因子的功能是作為反式作用因子結合到順式作用元件從而調控轉錄的過程,但C-Myc的功能到了2012年,才有了很好的了解,它的功能中非常重要的一點是其不同於一般的轉錄因子,它是作為一個universal amplifier,調控絕大數的基因轉錄。如果沒太了解過2012年相關cell paper的人可能有疑問,我說說RNA-seq的優勢,說說C-Myc如何在生物學中起作用,但這兩點似乎沒有太大的聯繫,除了C-Myc是調控轉錄,RNA-seq是分析轉錄表達量的問題。Okay,它們的聯繫就在於轉錄調控與轉錄定量。
RNA-seq自2008年發明以來,大家更多的關注點在於其能不依賴於參考序列,幾乎無門檻、快速(也不快,建庫加測序加分析費時費事)的分析轉錄情況,但不幸的是其樣品間的比較方法一直沿用的還是microarray的分析方法。不做數據分析的同學可能並不知道,這套方法是有假設在前的,即假設絕大部分基因都不變化,變化的相關基因並不影響總體的基因分布。這種假說的提出意義重大,因為實驗過程中(包括microarray)都避免不了系統誤差(我們做qPCR,以內參做normalization也是在避免系統誤差),初期的microarray,以螢光的intensity進行定量,同一個樣品即使使用cy3與cy5的晶片都具有明顯的系統誤差,連技術學重複樣品之間的variation十分巨大,更別談不同樣品之間,根本無法得出任何可信有用的信息。有人可能會問為什麼不選用qPCR的方法,選擇1個點來做normalization,其實放大點看,這其實就是我們這個假說的應用。有了這個假說開發了多種方法,包括總體回歸,中位數法,上四分位數,分位數法等,應用的R分析包也有很多如DEseq等。這裡講一種非常適合多組樣品比較的方法—分位數法(quantile),形象過程的如Fig1,就是得到分布,按表達量排序,取行平均值,再按基因順序排序,從而得到比較不同樣品間各個基因標準化後的表達量,這種方法從2003年左右到RNA-seq發明後屢試不爽,也就成了大家較為通用的一種方法。可這樣的方法遇到我們的C-Myc基因,可就出了大問題,看Fig2,當我們的樣品不滿足方法假設,即樣品的總體的表達量level有差異,quantile等方法會將這種差異作為系統誤差給消除,分析不出樣品之間真正的差異,甚至錯誤的認為某些基因是下調基因。故事說到這裡似乎沒說完,應對C-Myc的性質,有解決方法,在12年的3篇cell paper中(2篇article,1篇review,與Fig2的參考文獻同一期),較完美的解決了這個問題,有興趣的同學可自行閱讀。而發現C-Myc作為universal amplifier這種性質影響還是很大的,最近有nature paper針對癌細胞過表達C-Myc從而上調幾乎所有的轉錄本的特性,利用降低RNA spliceosome的活性,阻止其轉錄出的RNA成熟,從而限制癌症細胞的增殖。
最後再說點題外的,現代生物學發展迅猛,我們被各式各樣的新手段以及新手段展現的新現象所驚豔,期盼著自己在科研這條路上做出些神奇的東西,但新手段也罷,舊手段也罷,如果不能針對問題根本設計出對應的解題思路,再多的花哨都只是空架子,希望大家共勉,認真觀察自己觀察到的現象,而只是工作性質的拿到一些自己所希冀的東西,忽略了data中給出的重大提示。
長按圖片識別二維碼,更多精彩盡在「絲蘇氨酸」