自從 GeoMxDSP 的空間全轉錄組產品問世以來,已經有包括麻省理工,哈佛大學等多個知名研究所在新冠病毒和胰腺癌等領域率先發表了突破性發現。亦有很多感興趣的老師和同學向小編提出了疑問:
我可以通過 GeoMxDSP 的空間轉錄組產品在樣本上原位檢測多少個基因?
是否只需要檢測到高表達水平的基因就足夠下遊的分子機制分析?
首先我們先了解一個概念,就是 FragmentsPer Kilobase of exon model per Million mapped fragments(FPKM),即每千個鹼基的轉錄每百萬映射讀取的片段,它代表的是單一基因或者轉錄本相對於所有基因中的表現總量均一化後相對表達量。FPKM 越高,該基因的表達水平就越高,反之亦然。
一般來說,維持細胞基礎結構和功能的基因如 β-actin 等屬於高表達基因,因此也常常作為基因表達實驗如 qPCR 的內參基因。不同細胞類型根據其功能,亦會有獨特的高水平表達基因,如 T 細胞中的 CD3,巨噬細胞中的 CD68 等,這些高表達基因往往會用來作為細胞分型的特異性標記物。
基於大塊組織分析的 RNA 測序和 qPCR 由於無法分辨不同細胞群體,某些低比例細胞亞群的基因表達信號往往會因為在總樣品中含量過低導致代表性不足而無法被發現。
以由美國國家癌症研究所(NationalCancer Institute,NCI)和國家人類基因組研究所(NationalHuman Genome Research Institute,NHGRI)主導的癌症基因組圖譜資料庫(TheCancer Genome Atlas,TCGA)為基準,基因的表達水平可以分為高,中,低和未檢測(FPKM
圖片來源 (NanoString Technologies)
根據排序空間的偶數部分確定前 3 個 bin,以便每個 bin 代表數據集相同的平均計數。雖然基於 Poly (A) 抓捕的全轉錄組檢測方法看似可以提供相對全面的結果,但是如果捕獲效率和檢測靈敏度不夠高的話,則大部分重要生物學信號可能都會被丟失。
假如我們把上圖的基因數目總結成以下表格,就可以看到高表達的基因在全部兩萬多個基因總數中只佔不到 3%。而中度表達的基因數目稍為超過 10%,而接近 90% 的基因表達量屬於低表達範圍。
圖片來源 (NanoString Technologies)
我們在進行數據分析時只考慮高表達量的基因是否就已經足夠呢?那麼讓我們來通過高通量測序中最常用的 KEGG 資料庫來舉個例子。在下圖中,我們在 KEGG 富集分析中只考慮了高表達量的信號通路,紅色標記部分顯示為有重要統計學意義的信號通路。
圖片來源 (NanoString Technologies)
在只考慮高表達水平基因的情況下,我們可以看到部分信號通路已經可以被辨識。然而當我們在 KEGG 富集分析中同時考慮高表達和中度表達水平的基因時,有重要統計學意義的信號通路明顯增加了很多。
圖片來源 (NanoString Technologies)
而在同時考慮高,中,低表達水平基因的情況下,KEGG 富集分析則顯示覆蓋了更多的信號通路。由此可以看到,在高通量基因表達分析中,轉錄本的捕獲效率和下遊檢測的靈敏度會直接影響到下遊生物學意義的分析。而在空間轉錄組分析中,這個重要性則由於空間原位信息的加入會被進一步放大,同時檢測難度也進一步增加。
在空間轉錄組分析中,研究人員往往會對不同組織又或者不同細胞群落之間的基因差異表達感興趣,比如腫瘤又或者神經細胞和受病毒感染的細胞等。
假如在不同區域中檢測到的基因數目由於檢測方法靈敏度限制而偏向於只能測量到高表達的基因,那麼在下遊的 KEGG 生物通路,分子機制研究和新生物標記物發現時,就可能錯過很多潛在的重要信號通路。
圖片來源 (NanoString Technologies)
今天的空間轉錄組小課堂就到這裡為止,希望大家對空間轉錄組研究中基因檢測靈敏度對於下遊數據分析的重要性有更深入的了解,只有在選擇空間轉錄組學研究工具更注重數據的靈敏度,才能實現到更多通過組織快或者單細胞測序無法實現的生高解析度生物學研究。
如果您想了解更多如何使用空間轉錄組在轉化醫學和臨床研究中作出突破性發現,一定不能錯過 12 月 18 日的中華空間轉錄組峰會。來自美國哈佛大學,中山大學和新加坡國立大學的知名專家將現場授課,機會難得。
GeoMx空間全轉錄組
GeoMx空間全轉錄組 (Whole Transcriptome Atlas ,WTA) 可在單張石蠟包埋(FFPE)組織切片或者新鮮冷凍組織切片上實現原位檢測人類全轉錄組表達量分析,共計 18,000 多個蛋白編碼基因。