幫朋友轉發一篇內容,具體內容可以通過文章底部QQ群聯繫作者本人。
還講轉錄組
目前轉錄組的定量和差異分析,網絡上、培訓課上資料都非常多,方法也比較固定,但是目前我們分析碰到的最常見問題,就是同樣的數據,用不同的軟體找到的差異基因差異很大,並且很多時候找不到我們想研究的功能基因,同時很多基因在不同樣品間的表達並不穩定。因為傳統的分析方法和原理有著天生的局限性,沒能充分地發揮轉錄組測序數據的潛力。所以對於很多生信老鳥和菜鳥來說,轉錄組的定量和差異分析,還點玄學的感覺。
我們這裡介紹一種新的定量方法(RNADX),它在qPCR的原理上進行了升級,能大大地提高轉錄組定量的準確性,特別適合高雜合的昆蟲、海洋生物和林木,並且能在已發表的數據中找到一些新的差異基因。
RNADX
這是一套改進的RNA高通量測序實驗和分析方法,它通過表達穩定的外參基因來對其他基因進行定量,能大大提高樣品間基因定量的穩定性,同時qPCR的驗證率也有20%以上的提高。
基因定量
基因的定量,就是基因在特定時期的表達水平。那麼怎麼定義基因的表達水平呢?在回答這個問題之前,我先問1個初中的物理問題:怎麼定義一個物體的重量呢?性感男神如花跟我比,哪個更重?
為了解決這個問題,國際上制定了1千克的標準品,然後又以這個標準品的重量為基準,製造了很多重量與標準品相同的砝碼,送給了不同的國家機構,然後這些機構,就以標準品為基礎,製造了2千克,5千克,100千克等砝碼,用來測量物體的重量。假如目前如花測量的體重是90千克,我本人測量的體重是65千克,那麼如花就比我重25千克,體重是我的1.38倍。
那麼回到剛才的問題,我們怎麼定義基因的表達水平呢?那麼我們也要找一個標準基因,用來衡量其他基因的表達。我們管這個標準基因叫內參基因,理論上它在各時期表達都要很穩定。在我們的實驗室裡,大家用一種叫qPCR的方法,將基因和內參基因做比較,得到的差異倍數,作為這個基因的表達水平。示意圖如下:
傳統的qPCR方法,會用一些表達穩定的內參基因(referencegene)作為標準,用其他基因的表達與標準內參作比較,得到基因的表達,如下圖所示:
高通量測序
因為上述的qPCR實驗方法太費人力,所以現在很多實驗室採用測序的方法來測量基因的表達。但是測序方法跟我們的qPCR方法不一樣,怎麼定義基因的表達,目前國際上還一直爭論不休,一直提出新的統計方法(RPKM,FPKM, TPM,CPM等),讓人眼花撩亂,但是這些基因表達的統計方法,是基於一個這樣的概念:基因的表達在整體表達中佔的比重,示意圖如下:
尷尬的困境
我們做的轉錄組定量,是想要知道在不同的實驗環境下,哪些基因的表達產生了變化。但是當我們拿到測序結果後,用不同的軟體和統計模型,總會發現它們找到差異基因差別還是挺大的,跟我們的qPCR實驗吻合度也不高,只有30%-50%。
為什麼高通量測序和傳統的qPCR定量,這兩種方法的結果差別會這麼大呢?因為有些的基因,在不同的實驗條件下,表達水平相差特別大,大到能影響整體。比如村裡來了一位姓馬的鄉村教師傑克,而且他還把他的所有錢都帶過來了,村裡的總資產被大大拉高了,其他村民資產佔的比例就降低了。以下我們舉個極端的例子,就能一目了然的知道問題所在了:
走出困境
從上面的例子可以看出,只要我們的不同樣品間,有表達穩定的內參基因,所有基因與這個內參基因比較,不就能得到準確的定量結果嗎?老哥也在科研路上混了10來年,有這個想法的牛人應該不計其數,如果可行,國際上應該有文章發表才對,但是為什麼現在主流的高通量方法,還是用基因的表達比例來計算呢?因為所謂的內參基因,在某些期期表達也不穩定,甚至不表達。
即然內參不靠譜,能不能加入表達穩定的外參序列作為標準基因?如果你想到這方面,說明你跟我一樣,開始步入U秀的行列了,目前國際上還真的有這種標準品,叫ERCC Spike-In,它目前是被用到表達譜晶片上,用來校正基因的表達。
在高通量測序上,目前是被用來評價實驗的一致性。那麼為什麼很少聽到有人用它來校正基因的表達呢?主要是因為要用它來作為內參,它就必須是非常精確的標準品,每mL的水裡,要有多少個外參序列,都是非常研格限制的,所以這個標準品很貴。另外就是在做實驗的時候,要同時嚴格地控制RNA量和標準品量的比例,對實驗人員要求也非常高。作為一名曾經放蕩不羈愛自由的科學工作者,開了公司接了些轉錄組項目,得想辦法克服這些問題,不能砸了招牌,沒有條件,就要創造條件。在這個過程中,我也深深體會到中國科研人員的無奈和公司的機智。
首先要解決標準品昂貴的問題,它除了實驗技術要求高之外,最大的問題是很多公司不願意投入研發,因為現在高通量轉錄組基本沒有利潤,如果客戶分析結果不好,還可以讓客戶再測一次,多收一份錢,雖然很大可能結果還是一樣不好。可能是本人的運氣比較好吧,杭州的一家試劑公司,叫開泰生物,投入了不少人力,幫我們設計併合成了標準品。
然後就要解決實驗操作問題,因為不同批次的樣品,不可能每次加內參的比例都一樣,存在人為誤差,即然實驗解決不了,我們就從算法上解決,我們可以通過樣品基因表達的整體差異倍數,來糾正標準品的誤差,從而做到精準定量。在這裡,非常感謝在美國的宋教授和他的團隊,幫我們開發了一個叫RNADX的軟體(等文章發表後我們會把它放到github上)。
方法介紹
我們在建庫的時候,加入了表達穩定的人工外參序列,然後進行高通量測序。在測序完成後,將不同的基因與外參序進行比較,得到相對定量,如下圖所示:
A. RNA建庫,將去除核糖體RNA後的RNA文庫,加入1%的人工外參序列。
B. 基因定量,把所有的基因與外參序列進行比較,得到基因的相對定量,找到差異基因。
效果評估
為了評估我們的算法準確度,我們用了植物基因組,動物基因組,還有糖尿病小鼠來做評估,評估指標如下:
相關係數
我們使用corrplot這個R包來對樣品的相關性進行計算,樣品間的相關係數越高,說明樣品間的基因表達相似度越高,找到的差異基因越精確。通常情況下,組內的相關係數要比組間的相關係數高,組內的相關係數最好大於0.9,組間大於0.7。
•動物樣品
這是一組雌雄個體RNA的數據比較,我們可以看出用了RNADX的定量,能大幅提升組間樣品相關性,平均從0.5提成到0.7。在FPKM組內相關性很好的情況下,RNADX算法也能提升一點。
• 植物樣品
我們只對這株植物的根、莖、葉、花蕾、果實進行測序,我們的RNADX方法,都比FPKM的方法樣品間的相關係數要高出不少,大概能有10%的提升。
qPCR驗證
目前來說qPCR是基因定量的精標準,所以我們挑了小鼠的基因來進行驗證,拿RNADX的結果和目前文獻裡最常用的方法來進行比較。
• 小鼠轉錄組
因為哺乳動物的RNA相關係數相對都很高,我們直接用qPCR的方法,來驗證我們數據的準確度。綠色的是qPCR的結果,作為標準。紅色是RNADX的結果,灰色則是我們大部分文獻裡用的edgeR包做的差異分析。
我們挑選了qPCR表達為上升趨勢的基因,來驗證不同的定量方法,RNADX方法中,只有一個基因差異倍數小於1,其他的差異倍數都大於1,為上升趨勢。而edgeR這個軟體,3個基因被過濾掉了,並且1個基因的pvalue>0.05,差異倍數也不明顯。
定量比較
為了顯示RNADX的方法比FPKM優秀,我們挑了兩個FPKM值非常不穩定的基因,再看看RNADX的表達,表格如下:
上表中我們可以看出FPKM的表達,誤差比較大,而且很多樣品的表達為0,而RNADX的數字穩定得多。
為了直觀地展示,我們對上表作了個圖,如下所示:
PS:為什麼FPKM很多樣品表達為0,而RNADX的表達不為0,那是因為我們使用hisat2比對軟體和stringtie來計算FPKM,而我們的RNADX方法則有自己的比對處理模塊,使得比對結果更加真實。
提供服務
1.外參試劑,用戶可以在構建文庫的時候,根據逆轉錄cDNA的濃度進行1:99比例添加。
2.實驗外包,用戶可以把提好的RNA或者樣品送寄來我們公司,我們對樣品進行建庫和測序。
3.數據分析,我們提供基因定量,新轉錄本構建,功能注釋,差異分析,可變剪切分析,並提供一份結題報告。
4. 算法源碼,因為我們正在對這個方法進行文章撰寫,暫時就不提供源碼了,但是可以提供一個收費的可視化的平臺。
常見問題
1. 我們幹嗎要用這個新方法?
我們這個方法的目標群體是對數據準確度有追求,並且已經有想研究的基因的科研人員,因為他們要研究的基因就鎖定在一個小範圍內,需要的定量結果要經得起考驗。
2. 我們已前測了好多轉錄組數據了,但是沒有加外參,可以用這個方法進行分析嗎?
應該可以,但是有些樣品的內參基因表達不穩定,會被過濾掉。
我們的軟體會自動在樣品間查到內參基因,用內參基因來對樣品進行歸一化。但是有些樣品的內參基因表達不穩定,我們的軟體會自動過濾掉這些樣品,這些樣品就沒法用來分析了。樣品越多,它們的共有內參基因就越少,根據我們的經驗,9個樣品以內,這個算法的效果還是可以的。
3. 目前有些公司,推出了「絕對定量」轉錄組,就是每條RNA加了分子標籤(UMI),RNADX方法跟它比怎麼樣?我們要解決的問題是基因定量,也就是數據歸一化的問題。加了UMI的轉錄組可以解決實驗上某些RNA分子擴增過量造成的問題,但是如果分析人員最後還是用傳統方法或者軟體來定量分析,那所謂的「絕對定量」轉錄組,也只是某些公司的噱頭,起的只有錦上添花的作用。
4. 你們提供的服務收費嗎?
嗯,收費。因為外參測劑合成的成本比較高,另外操作要求非常高,所以收費會比較高。
5. 你們把分析原理寫出來,不怕別人抄襲嗎?
這個加內參或外參的分析方法,在十幾年前就有人發表過文章了,現在還有ERCC的外參試劑賣。只是算法和實驗沒有相結合。另外很多事情看上去是挺簡單的,但是做起來可沒那麼簡單。別拿你的業餘愛好跟我們這些靠技術吃飯的人來比較。
6. 你們的評估效果看上去很不錯,是不是吹牛呀?
沒有吹牛,有時候太過優秀也會招人嫉恨。
7. 你們文章沒發表前,我們用了你們的方法,在文章裡怎麼提你們的技術?
我們會提供一個可視化的galaxy平臺在github上公布,不過需要付費使用。
收費標準
市場指導價:外參:800+提取:150+建庫:500+測序:360+分析:500=2310。
具體價格可聯繫當地銷售。
產品比較
優惠方案
本次是我們第一次進行正式推廣,在2020年5月1日前,我們有以下優惠政策。
1. 分析效果不能優於傳統方法(評價指標為相關係數,表達異常值的數量),我們承擔一半費用。
2. 我們提供舊數據分析服務,最高可打7折,效果不能優於傳統方法則不收費。
3. 轉發本文章,併集齊10個贊,進行朋友圈截圖,可再打9.5折。
4. 15個樣品實驗+分析,送ipad mini。
聯繫我們
我們提供了以下QQ群,裡面有幾位資深分析人員(平均每人在Nature子刊上發表過10篇以上論文),看心情為你解答轉錄組或者人生問題(申請時備註:單位+研究方向,本群除了群主,其他人嚴禁發廣告)。
另外本公司目前招聘NGS的信息分析人員和產品經理,有意向的可以加群後私信群主。
各地區代理商
持續更新中,有意向公司請聯繫群主:
• 杭州開泰生物
• 武漢大眾源生
參考文獻
[1]Evaluation of the External RNAControls Consortium (ERCC) reference material using a modified Latin squaredesign.
[2]Measurement of mRNA abundance usingRNA-seq data: RPKM measure is inconsistent among samples.