使用maSigPro進行時間序列數據的差異分析

2020-10-18 生信修煉手冊

對於轉錄組的差異分析而言,case/control的實驗設計是最為常見,也最為基礎的一種,有很多的R包可以處理這種類型的數據分析。在很多時候,還會有非常複雜的實驗設計,比如時間序列, 時間序列與不同實驗條件同時存在等情況,對於這種類型的差異分析而言,最常見的分析策略就是回歸分析,將基因的表達量看做因變量,將時間和實驗條件等因素看自變量,通過回歸分析來構建一個合適的模型。

maSigPro是一個用於分析時間序列數據的R包,不僅支持只有時間序列的實驗設計,也支持時間序列和分組同時存在的複雜設計,網址如下

https://www.bioconductor.org/packages/release/bioc/html/maSigPro.html

這個R包首先基於多元線性回歸模型來擬合時間,實驗條件等因素和基因表達量之間的關係,然後運用逐步回歸法尋找最佳的自變量組合,具體步驟示意如下

通過5個函數即可實現整個分析流程。

1. makeDesignMatrix

在分析之前,我們需要提供基因的表達量和樣本對應的時間序列,實驗分組這兩種信息。對於表達量而言,需要提供歸一化之後的表達量,每一行是一個基因,每一列代表一個樣本,這種格式在很多軟體中都有介紹,這裡就不展開了,對於樣本的分組信息,格式如下

sampleTimeReplicateControlCase
sample1

相關焦點

  • 時間序列分析(三):平穩時間序列分析之數據準備
    平穩時間序列是時間序列中一類重要的時間序列,對於該時間序列,有一套非常成熟的平穩序列建模方法,這也是本節中將重點介紹的部分。對於非平穩序列,可以通過差分、提取確定性成分等方法,將轉化成平穩序列,再運用平穩序列建模方法進行建模。在實際操作中,由於樣本數據的匱乏,要根據樣本數據要找到生成樣本的真實隨機過程基本是不太可能的。
  • 使用Mfuzz包做時間序列分析
    既然是講解時間序列分析,那麼就不得不提一下Mfuzz包了,恰好生信技能樹創始人jimmy的200篇生物信息學文獻閱讀活動分享過的一篇文章就有這個(2018年的文獻列表在:https://zhuanlan.zhihu.com/c_1024966446748618752)該文獻題目:Dynamic
  • 如何使用XGBoost模型進行時間序列預測
    完成本教程後,你將了解:XGBoost是對分類和回歸問題的梯度提升集成算法的實現時間序列數據集可以通過滑窗表示轉換成監督學習。如何使用XGBoost模型對時間序列預測進行擬合,評估以及預測讓我們開始吧教程總覽本教程分為三部分。
  • 使用Pandas的resample函數處理時間序列數據的技巧
    時間序列數據在數據科學項目中很常見。 通常,可能會對將時序數據重新採樣到要分析數據的頻率或從數據中汲取更多見解的頻率感興趣。在本文中,我們將介紹一些使用Pandas resample()函數對時間序列數據進行重採樣的示例。 我們將介紹以下常見問題,並應幫助您開始使用時序數據操作。
  • 時間序列平穩性檢驗 - CSDN
    時間序列數據的平穩性對於我們採用什麼樣的分析方式、選擇什麼樣的模型有著至關重要的影響。我們想一下,假如一個時間序列的波動趨勢從來沒有穩定過,那麼它每個時期的波動對於之後一段時期的影響都是無法預測的,因為它隨時可能「變臉」。
  • 生物學的機器學習:使用K-Means和PCA進行基因組序列分析 COVID-19...
    在本文中,我將……提供RNA序列的簡單解釋使用K-Means創建基因組信息集群使用PCA可視化集群…並對我們執行的每個程序進行分析來獲取經驗。DNA轉換為RNA再轉換為蛋白質的過程使用包括測序儀器和專用標籤等專用設備,可以揭示特定片段的DNA序列。從中獲得的信息將用於進一步的分析和比較,以使研究人員能夠識別基因的變化過程,並將基因與疾病和表型以及潛在的藥物靶細胞關聯起來。
  • 特徵工程自動化 時間序列的數據是關鍵
    【IT168 資訊】今天介紹一個通用框架,用於開發時間序列模型,生成特徵並對數據進行預處理,並探索使這一過程自動化的潛力,以便將先進的機器學習算法應用於幾乎所有的時間序列問題。目前大多數機器學習算法都不具有時間意識,不容易應用於時間序列和預測問題。
  • 在Apache Kudu上對時間序列工作負載進行基準測試
    時間序列作為對快速數據的快速分析自2015年開放原始碼發布Apache Kudu以來,它自稱是用於對快速數據進行快速分析的存儲。其常規任務包含許多不同的工作負載,但是增長最快的用例之一是時間序列分析。時間序列有幾個關鍵要求:高性能流式攝取– 時序工作負載越來越需要以高採樣率從成千上萬的數據源中攝取數據。
  • Python中的時間序列數據可視化的完整指南
    時間序列數據在許多不同的行業中都非常重要。它在研究、金融行業、製藥、社交媒體、網絡服務等領域尤為重要。對時間序列數據的分析也變得越來越重要。在分析中有什麼比一些好的可視化效果更好呢?沒有一些視覺效果,任何類型的數據分析都是不完整的。因為一個好的情節比20頁的報告更能讓你理解。因此,本文是關於時間序列數據可視化的。
  • python時間序列:日期和時間數據
    前言時間序列(time series)數據都是一種重要的結構化數據形式。時間序列數據的意義取決於具體應用場景,主要有一下幾種:時間戳(timestamp),特定的時刻。固定時期(period),如2007年1月或2010年全年。時間間隔(interval),由起始和結束時間戳表示。
  • 小白學數據 除了大姨媽周期時間序列分析還有什麼用
    你知不知道,這張圖其實就是一個時間序列圖,你看圖預測未來幾個月女票的大姨媽時間就叫做時間序列分析…… 咳咳,言歸正傳,時間序列分析是一種廣泛應用的數據處理統計方法,除了計算大姨媽周期,在實際很生活還有很多應用,小白今天就來帶大家探探究竟。 小白問:時間序列分析就是分析時間的麼?
  • python時間序列分析之_用pandas中的rolling函數計算時間窗口數據
    上篇文章中,我們講解了如何對時間數據進行重採樣及重採樣中降採樣和升採樣的概覽和使用方法,通過重採樣我們可以得到任何想要頻率的數據,但是這些數據也是一個時點的數據,那麼就存在這樣一個問題:時點的數據波動較大,某一點的數據不能很好的表現它本身的特性,於是我們就想,能否用一個區間的的數據去表現呢,這樣數據的準確性是不是更好一些呢?
  • 商業數據分析中如何進行差異分析
    1.商業場景 在商業分析中,經常需要通過排名展示出最熱賣的產品或產品子類。使用簡單的排名分析無法展示出產品品類(或子類)之間的銷售額差異。例如,銷售額排名第一的書架類產品與銷售額排名第三的椅子類產品的銷售額相差多少?解決此類問題需要分析產品品類之間的銷售額差異。
  • 使用DESeq2進行兩組間的差異分析
    DESeq2 接受raw count的定量表格,然後根據樣本分組進行差異分析,具體步驟如下1.,有兩點需要注意,第一個就是根據表達量對基因進行過濾,通常是過濾低表達量的基因,這一步是可選的,閾值可以自己定義;另外一個就是指定哪一組作為control組,在計算log2FD時 ,需要明確control組,默認會字符串順序對分組的名字進行排序,排在前面的作為control組,這種默認行為選出的control可能與我們的實驗設計不同,所以必須明確指定control組。
  • Pandas處理時間序列數據的20個關鍵知識點
    時間序列數據有許多定義,它們以不同的方式表示相同的含義。一個簡單的定義是時間序列數據包括附加到順序時間點的數據點。時間序列數據的來源是周期性的測量或觀測。許多行業都存在時間序列數據。考慮以下數據格式:pd.to_datetime(df)0 2020-04-13 1 2020-05-16 2 2019-04-11 dtype: datetime64[ns]7.時間戳之外的時間表示在現實生活中,我們幾乎總是使用連續的時間序列數據,而不是單獨的日期。而且,Pandas處理順序時間序列數據非常簡單。
  • 數據統計方法:確定性時間序列的分析法
    時間序列分析是一種動態數據處理的統計方法。該方法基於隨機過程理論和數理統計學方法,研究隨機數據序列所遵從的統計變化規律,以用於解決實際問題。隨機因素(I):是時間序列中除去長期趨勢、季節變動和循環波動之後的隨機波動。不規則波動通常總是夾雜在時間序列中,致使時間序列產生一種波浪形或震蕩式的變動。時間序列的分類時間序列可以分為平穩序列和非平穩序列。
  • 【論文精選】廣靈驢HSL基因克隆、序列分析與差異表達
    摘    要:試驗旨在對廣靈驢的激素敏感脂酶(hormone sensitive lipase,HSL)基因進行克隆和序列分析,並對HSL基因在廣靈驢不同組織中的差異表達水平進行分析。使用RT-PCR法擴增並克隆廣靈驢HSL基因CDS區部分序列,將序列拼接後得到HSL基因完整的CDS區全長序列,並對序列進行一系列生物信息學分析,通過實時螢光定量PCR檢測HSL基因mRNA在廣靈驢的心臟、肝臟、脾臟、肺臟、腎臟、背最長肌和皮下脂肪7個組織中的表達情況。
  • R語言教程:使用Phyloseq包進行微生物群落多樣性分析
    本教程適用於分析來源於Mothur或QIIME等其它所有pipeline工具聚類後形成的OUT 和物種分類表。    教程中使用的樣本為採自伊利湖西部盆地的三個不同位置,採樣時間在2014年5月至11月之間,目的為使用16s擴增子測序分析細菌群落情況。特別是了解微胞藻屬引起的藻華如何影響細菌群落變化。
  • 使用Plotly創建帶有回歸趨勢線的時間序列可視化圖表數據
    如果您只需要一個簡單的時間序列,例如下面所示的時間序列,那麼也許就足夠了。 但是,在同一x軸(時間)上具有兩個或更多數據計數的Plotly呢?大多數時候,我都會使用Plotly的graphobjects庫,因為裡面包含了很多Express不可用的功能。 例如,使用graphobjects,我可以生成混合子圖,並且重要的是,可以覆蓋多種類型的數據(例如時間序列)。  在使用px之前,我們將px對象分配給了fig(如上所示),然後使用fig.show()顯示了fig。
  • 使用LSTM深度學習模型進行溫度的時間序列單步和多步預測
    本文的目的是提供代碼示例,並解釋使用python和TensorFlow建模時間序列數據的思路。本文展示了如何進行多步預測並在模型中使用多個特徵。本文的簡單版本是,使用過去48小時的數據和對未來1小時的預測(一步),我獲得了溫度誤差的平均絕對誤差0.48(中值0.34)度。