這些軟體讓單細胞測序分析越來越Easy

2020-11-30 搜狐網

原標題:這些軟體讓單細胞測序分析越來越Easy

作者:Jeffrey M. Perkel

編譯:麥子

轉載請註明:解螺旋·臨床醫生科研成長平臺

單細胞生物學成了時下熱門話題,這其中最前沿的便是單細胞RNA測序(scRNA-Seq)。

傳統的「大量細胞(bulk)」RNA測序法是一次處理成千上萬個細胞,然後抹平它們之間的差異。但世上沒有兩個相同的細胞,而scRNA-seq可以找出造成各細胞差異的那些微妙改變。它甚至能定義全新的細胞類型。

比如說來自博大研究所的Aviv Regev和她的同事們,在運用scRNA-seq檢測了約2400個免疫系統細胞後,發現一些樹突細胞能刺激T細胞活化。

A.-C. Villani et al. Science 356, eaah4573; 2017.

最近Regev接受了Nature的專訪,說疫苗刺激了這些細胞則有潛力激發免疫系統,預防癌症。

這些發現是來之不易的。操縱單個細胞比操縱千軍萬馬難多了,又由於每個細胞只能得到一小丟丟RNA,所以誤差必須控制得很小。還有個問題就是處理其生成的磅礴數據——不僅僅是因為工具反直覺。

一個典型的RNA-seq數據的分析方法,是要辛辛苦苦在Unix作業系統上輸入命令行。數據文件從一個軟體包流轉到另一個包,每個包執行一個步驟:比對,質控,識別變異,等等。

這個過程很複雜。但要是大量細胞測序呢,至少每個步驟用哪種算法,以及如何運用,都是有業內共識的。於是就形成了「流水線」,哪怕不是即插即用,至少對非專業人士來說也是溫順馴服的。英國癌症研究所的計算生物學家Aaron Lun說,要分析基因表達的差異,大量細胞RNA-seq的問題早就解決了。

scRNA-seq就不是這樣,研究者們還在研究他們拿到數據後可以做些什麼,以及哪種算法最有用。

但也湧現了一批網絡在線資源和工具,能夠使scRNA-seq的數據分析更容易。在GitHub的一個叫「Awesome Single Cell」的頁面上,整理了70多種工具和資源,涵蓋分析過程的每一個步驟。華盛頓大學的生物學家Cole Trapnell說,這個領域已經孵化出了一個計算生物學工具的小產業村。

https://github.com/seandavi/awesome-single-cell

單細胞分析工具的發展史

夏威夷大學的生物信息學家lana Garmire在去年發表的一篇綜述中列舉了scRNA-seq數據分析的基本步驟和48種工具。

O. B. Poirion et al. Front. Genet. 7, 163; 2016.

她說,雖然每個實驗都是獨特的,但大多數分析流水線還是依據一樣的步驟來清洗、篩選測序數據,找出是哪個轉錄本在表達,還要校正擴增造成的差異。研究者們會繼續跑一個或多個後續分析,來檢測亞組和其他功能。

威斯康星大學的生物統計學家Christina Kendziorski說,在許多情況下,大量細胞RNA-seq所用的工具對scRNA-seq也還適用。但數據上的根本差異意味著,這並不是永遠都行得通。Lun說,有一點值得注意,單細胞數據的噪點更多。處理這一小丟丟RNA,擴增和捕獲時失之毫釐,便會在細胞之間謬以千裡,日復一日,最後玩的就不是生物了。

所以研究者們必須警惕「批處理效應」,不是同一天處理的細胞看起來很有個性,可能只是純粹的技術原因造成的,還有那些「漏網之魚」——在細胞中明明表達了的基因,測序數據中卻沒有撈到。

雪梨張任謙心臟研究所的生物信息學家Joshua Ho說,還有一個挑戰是規模。一個典型的大量細胞RNA-seq實驗通常收納少數樣本,但scRNA-seq則一來就是好幾千。原來那些處理幾十個樣本的工具塞給它十倍百倍的數據量,處理速度就成了龜爬。

哪怕是像怎麼製備細胞才算好這樣看起來很簡單的問題,放到scRNA-seq領域也會變複雜。Lun的工作流程是先假設大多數細胞都有近似等量的RNA豐度。他說,「可是這個假設未必就是真的。」比如,初始T細胞,尚未被抗原激活時相對靜態,它的mRNA相對其他免疫細胞就比較少,在分析時可能就會被移除,因為程序認為沒有足夠的RNA可以處理。

也許最重要的一點是,用scRNA-seq做研究的人,問的問題都跟做大量細胞RNA分析的不一樣。大量細胞分析一般研究兩種或以上的幹預方法中,基因表達有什麼不同。但跟單細胞玩耍的研究者的目標則是鑑定新的細胞類型或狀態,或重建細胞發育通路。Lun說,「因為目標不一樣,則必然要用到不同的工具來分析數據。」

比如單細胞分析的一個常見方法就是降維處理。這是將數據簡單化,以便鑑別相似的細胞。如英國劍橋的威康信託桑格研究所的計算生物學家Martin Hemberg所說,在scRNA-seq數據中,每個細胞都是由2萬個基因表達值組成的表單(list)。降維算法,如主成分分析(PCA)和t分布隨機鄰域嵌入(t-SNE),可以有效把數據變成二維或三維圖形,使相似細胞的聚類特徵更明顯。

另一個常用的方法是偽時間分析法(pseudo-time analysis)。2014年Trapnell開發了第一個運行這個算法的工具,叫Monocle。他說這個軟體是運用機器學習,從一個scRNA-seq實驗推測細胞分化過程中伴隨的有基因表達改變的序列,就像從競走比賽的航拍照片推測比賽路線。

其他工具則用於檢測亞組(比如波士頓哈佛大學醫學院的Peter Kharchenko開發的Pagoda),還有空間定位,即利用組織中基因表達分布的數據,了解每個轉錄組都在組織的哪些地方出沒。紐約基因組中心的Rahul Satija是Regev的博士後,他就為此開發了一個叫Seurat的R語言包。他說Seurat是利用數據把細胞在三維空間中定位為一個點,這就是它的名字Seurat的由來,那些數據畫成的點看起來像一幅點彩派畫作。

左:畫家Seurat的作品 | 右:R包Seurat的作品(Nature Biotechnology. 2015; 33, 495–502.)

儘管這些工具都是為某個特定目的開發的,但通常也都包含多種功能。就說Seurat吧,除了上述的空間定位,還配備了細胞亞組分析的功能,那是Regev的組用來鑑定新的免疫細胞類型所需要的。

大多數scRNA-seq工具都是Unix程序或R語言包,但相對來說還是很少有生物學家喜歡使用這些開發環境,加州大學聖地牙哥分校的生物信息學家Gene Yeo說,就算喜歡,也可能沒時間下載並配置好運行所需的一切。

於是有人開發了一些開袋即食型(原諒吃貨小編想不到更貼切的形容詞)工具。另外還有一些端對端的作圖工具,包括FlowJo的SeqGeq商業程序包,還有一組開源的網頁工具:Garmire組開發的Granatum(拉丁文:石榴),還有瑞士聯邦理工學院的生物工程師Bart Deplancke實驗室的ASAP(the Automated Single-cell Analysis Pipeline)。

http://garmiregroup.org/granatum/code

ASAP和Granatum都是用網頁瀏覽器來呈現相對簡單、互動的工作流程,讓研究者們能用圖形方式來探索自己的數據。用戶上傳數據,軟體就依流程一步步運行。

還是ASAP畫風最正 | https://asap.epfl.ch/

對ASAP來說,就是帶著數據過一遍預處理、可視化、聚類、差異基因表達分析;Granatum還包括偽時間分析,並整合了蛋白質相互作用數據。

Garmire和Deplancke都說,ASAP和Granatum的設計是為了讓研究者和計算生物學家能夠好好合作。夏威夷大學的博士生、Granatum的開發組組長Xun Zhu說,研究者們曾經以為生物信息學家是有魔力的生靈,拿到數據魔杖一揮就能生成結果。現在他們也可以參與進來,調整一下參數就行,這很好。

工具雖好,還要謹慎選擇

這些工具當然也不是各種情況下都完美。比如一個擅長鑑定細胞類型的工具,用來做偽時間分析可能就笨手笨腳。再說了,最合適的方法也是由每個數據集來決定的,加州大學伯克利分校的生物統計學家Sandrine Dudoit說,這些方法和參數的調整要能解釋不同的變量,比如測序長度。

但英國癌症研究所的John Marioni說,不要一切都指望流水線。「就像衛星導航讓你往河裡開車,你還真開進去啊?」

新手尤其要謹慎。生物信息學工具幾乎總是能給你找到一個答案,問題是,這個答案真的有意義嗎?Dudoit的建議是做些探索性分析,再核查一下你選的那個算法所基於的假設是否能說明問題。

Satija說,有些分析任務還是面臨很多挑戰的,包括比較不同實驗條件下或不同有機體之間的數據集,還有整合不同組學的數據。他還表示,Seurat正在計劃中的更新版本就要解決第一個問題。

但現在也已經有足夠多的工具讓研究者們使用了。Kendziorski建議感興趣的人自己多多挖掘。每一個新工具都能揭開生物學的一層面紗,只要你留意科學進展,明辨是非。

原文:

http://www.nature.com/news/single-cell-sequencing-made-simple-1.22233

福利:19.9元購買權益。(原價99元)

如果想看全部的文獻精讀課,可以掃下面的二維碼購買課程錄播(課程有效期至2018年12月31日),想怎麼看就怎麼看。返回搜狐,查看更多

責任編輯:

相關焦點

  • 新軟體讓單細胞測序更簡單—新聞—科學網
    其中,最前沿的領域當屬單細胞RNA測序(scRNA-seq)了。 常規RNA測序方法能一次性加工測序成千上萬個細胞,並給出平均差異。但沒有兩個細胞是完全一樣的,而新型的scRNA-seq方法就能揭示細胞中產生每種特異性的微小改變,甚至這種技術還能闡明完整的新細胞類型。
  • 單細胞基因測序市場分析
    一、單細胞基因測序行業:剛啟程,面臨引爆點  BCC Research的一項分析報告指出,2014年全球單細胞分析(Single-cell Analysis)的市場達5.4億美金,預測將從2015年的6.3億美金增長到2020年的16億美金,複合增長率達21%。
  • 精於數據處理:自動化單細胞分析軟體——CeleScope
    你是否還在為單細胞數據分析而發愁?是否還在為重新學習各種分析軟體而苦惱?今天給大家介紹一個單細胞數據分析軟體——CeleScope™,簡單易上手,結果準確可靠,讓你的研究更進一步!CeleScope™是一系列用於分析新格元GEXSCOPE®單細胞測序數據的生物信息流程。可從二代測序下機的原始fastq數據開始處理,包含數據拆分、比對、定量、生成表達矩陣、分群等功能。
  • 希望組正式推出納米孔單細胞全長轉錄組測序分析服務
    單細胞RNA測序(scRNA-Seq)是分析細胞間異質性的一項關鍵技術,但是基於短讀長的單細胞測序缺乏識別全長轉錄本的能力,不能開展更深入的細胞間異質性研究,例如可變剪接、基因融合事件等。因此,結合了長讀長測序技術的單細胞全長轉錄組備受矚目。
  • 「單細胞測序」技術發展迅速,實現產業化還要多久?
    國內單細胞蛋白分析的代表企業為宸安生物、普羅亭,其中,宸安生物專注單細胞質譜流式診斷設備、試劑和軟體開發,普羅亭致力於以單細胞蛋白層面研究為核心的檢測服務。無論是基因層面,還是蛋白層面,單細胞分析技術已然成熟,但囿於成本並未廣泛應用於市場上,更多的是為科研提供服務。動脈網整理了全球單細胞行業的目前發展狀況,以及單細胞技術在贏來大規模應用之前面臨的挑戰與機遇。
  • 單細胞測序技術原理
    單細胞測序技術自2009年問世,2013年被Nature Methods評為年度技術以來,越來越多地被應用在科研領域。 2015年以來,10X Genomics、Drop-seq、Micro-well、Split-seq等技術的出現,徹底降低了單細胞測序的成本門檻。
  • 【綜述】盤點單細胞測序研究——續篇
    2009 年問世,2013 年被 Nature Methods 評為年度技術以來,越來越多地被應用在基礎科研和臨床研究等方面。為此,他們開發了一種測序方法,可同時分析單個細胞中的拷貝數變異,甲基化和基因表達-該方法將單細胞測序數據與來自染色體構象,表觀遺傳數據和腫瘤細胞其他特徵的信息結合在一起。
  • 【盤點】單細胞測序研究進展一覽
    因此科學家們必須先對單細胞內的微量核酸分子進行擴增,而且必須保證儘可能少地出現技術誤差,以便開展後續的測序及其他研究。最近,來自史丹福大學的研究者就在PNAS上發表文章介紹了人類腦細胞的單細胞轉錄組測序研究成果,這些結果為構建人類大腦的細胞圖譜奠定了基礎,而且研究結果還將有助於我們確定神經元、膠質細胞和血管細胞的特定標誌物,並將其與其他信息相關聯,以便完全闡明人類大腦的細胞複雜性。
  • 肝上皮細胞的單細胞測序分析結果出爐
    肝上皮細胞的單細胞測序分析結果出爐 作者:小柯機器人 發布時間:2019/7/29 16:36:51 近日,美國波士頓兒童醫院 的Fernando D.
  • Science:利用單細胞RNA測序分析黑色素瘤
    在此之前,科學家們大多數進行「大體積(bulk)」腫瘤測序,特別是為了研究整塊腫瘤組織,利用RNA測序(RNA-seq)或DNA測序(DNA-seq)分析癌症基因組或轉錄組。尤其是對RNA-seq而言,對整塊腫瘤組織進行分析受到限制,這是因為人們研究的是腫瘤細胞、免疫細胞、成纖維細胞和巨噬細胞的混合物---所有的這些細胞混合在一起,它們可能會或可能不會導致癌症惡化和耐藥性。 這些不同的細胞具有非常不同的基因表達模式,因而在這種典型的「大體積」測序過程中,它們的表達模式基本上受到平均化,而且它們全部混合在一起,人們也不能夠分析單個細胞。
  • 單細胞測序技術「遍地開花」 精準醫療「如虎添翼」!
    作者:Carrie單細胞測序技術基因測序在體外診斷市場中的重要性日益突出。其中,單細胞測序技術自2009年問世,2013年被Nature Methods評為年度技術以來,越來越多地被應用在科研領域。
  • 單細胞RNA測序簡介
    一、單細胞RNA測序的來源從早期的科學研究開始,我們就知道,體內的每一個細胞都有完全相同的遺傳信息。因此,體內細胞的多樣性來自於基因表達,每個細胞必須表達一組基因,並抑制另一組基因以使其正常工作。但是我們很難精確定位哪個基因(或一組基因)對每個細胞至關重要。
  • 如何讓單細胞測序變得如此簡單?
    2017年7月20日 訊 /生物谷BIOON/ --單細胞生物學研究一直是當今的熱門話題,而且最前沿的領域就是單細胞RNA測序了(scRNA-seq)。當然了,這些發現都是來之不易的,相比大量細胞而言,研究人員很難對單個細胞進行操作,因為每一種細胞僅會產生少量的RNA,對於研究者而言沒有犯錯的餘地;另外一個問題就是如何對大量的數據進行分析,最重要的是,研究者使用的工具可能是並不直觀的。
  • 2018單細胞測序應用領域突破性成果盤點
    ,它越來越多被應用在科研領域。Cell:以色列研究團隊使用單細胞轉錄組測序揭示黑色素瘤腫瘤浸潤T細胞的轉錄組異質性和分化途徑  2018年12月,以色列Ido Amit實驗室李漢傑博士等通過對25名黑色素瘤患者腫瘤中免疫細胞的單細胞轉錄組測序和單細胞TCR測序分析,繪製黑色素瘤詳盡的免疫細胞圖譜。
  • 《Genome Biology》:當circular RNA遇到單細胞測序……
    circular RNA(circRNA)是一類來源於RNA轉錄本,以環狀形式廣泛存在的具有調控功能的非編碼RNA。
  • 免費領取 | 單細胞轉錄組測序,市面罕見的單細胞技術書籍
    前陣子,小編發現了一篇單細胞測序的文章,看到之後震驚了!文章的主要內容只有這些:細胞培養、單細胞製備、單細胞測序、質量控制、技術驗證,而且只獲得了單細胞測序數據就結束了據統計,單細胞測序相關文章的單月平均影響因子達到了20.4!由此可見其影響之大,而單細胞轉錄組測序的文章已經發表很多了,現在再不應用就趕不上熱度了! 為響應熱潮,滿足同學們的需求,解螺旋和聯川生物一起給大家送出這本《單細胞轉錄組測序》實體書。
  • 單細胞測序揭開「作物遺傳分析和產量基因挖掘」新篇章
    然而重要調控基因的遺傳分析常受制於基因的冗餘性和多效性。為突破這一瓶頸,來自美國冷泉港實驗室的David Jackson 課題組及多個合作團隊的研究者們利用玉米這一糧食農作物作為研究對象,聚焦花序器官早期發育這一決定性階段,運用時下先進的單細胞轉錄組測序 (scRNA-seq) 技術, 構建單細胞水平基因共表達網絡並準確預測基因冗餘,進而整合特異性細胞群體染色質開放數據,鑑定關鍵轉錄因子調控位點,最終結合全基因組關聯分析挖掘產量性狀相關基因。
  • 單細胞測序技術「遍地開花」,精準醫療「如虎添翼」!
    乾貨 | 靠譜 | 實用   基因測序在體外診斷市場中的重要性日益突出。其中,單細胞測序技術自2009年問世,2013年被Nature Methods評為年度技術以來,越來越多地被應用在科研領域。通過全基因組或轉錄組擴增,進行高通量測序,能夠揭示單個細胞的基因結構和基因表達狀態,反映細胞間的異質性。 相比於群體細胞測序,更適用於解決少量特殊樣本的研究、異質性群體的分析及同時或互斥發生的基因組變化的查找等問題。單細胞測序技術在腫瘤、發育生物學、神經科學等領域有重要應用,是現今生命科學研究的焦點。
  • 單細胞全基因組測序——求同存異,追本溯源
    此外,對於不易培養的臨床稀有樣品,例如腫瘤循環細胞、早期發育的胚胎細胞等,其量不足以進行基因組的分析,也給基因分析造成了難題。單細胞全基因組測序技術的應運而生解決了用組織樣本測序難以解決的細胞異質性難題,為解析單個細胞的行為、機制及其與機體的關係等提供了新方法。這種方法能夠得到單個細胞30億鹼基的全基因組序列信息,並且可以對逐個細胞進行序列比較,真正做到求同存異,追本溯源。
  • 什麼是高通量單細胞RNA測序技術?
    該五篇文章幾乎都是同時發表,表明該領域的競爭激烈,同時也說明了單細胞測序技術在植物研究應用中已經成熟,期待未來更多的植物組織細胞的測序,為解決植物如何從胚發育成全株提供更多的信息! 什麼是高通量單細胞RNA測序技術?