beta 值和 M 值: 衡量樣本甲基化水平的金標準

2021-02-14 生信修煉手冊

在甲基化晶片中,一次檢測的是很多細胞的甲基化狀態。對於某個CpG 位點來說,有些細胞的這個位點是甲基化的,而另外的細胞是非甲基化的。

對於探針的甲基化水平,最常見的定量方式包括beta 值和M 值兩種。

beta 值

計算公式為

M / (M + U + offset)

U 代表非甲基化信號強度,M 代表甲基化的信號強度, offset 是偏移量。 offset 是為了防止分母為0的情況出現。beta值實際上是甲基化信號強度的百分比。

在minfi中,使用getBeta函數計算探針的beta 值

> head(getMeth(mSet)[1, 1:3])           5640269011_R01C01 5640269011_R01C02 5640269011_R02C01cg00050873              5284               137               214> head(getUnmeth(mSet)[, 1:3])           5640269011_R01C01 5640269011_R01C02 5640269011_R02C01cg00050873              6645               148               246> head(getBeta(mSet)[, 1:3])           5640269011_R01C01 5640269011_R01C02 5640269011_R02C01cg00050873       0.442954145         0.4807018         0.4652174

探針cg00050873在樣本5640269011_R01C01中的甲基化信號強度為 5284,非甲基化信號強度為 6645, 5284 /(5284 + 6645) 正好就是beta值。

從這裡也可以看出,minfi中的getBeta 函數默認的offset 值為0。在GenomeStudio軟體中,計算beta值時offset = 100。 在minfi中,如果想要和GenomeStudio軟體的beta值保持一致,需要設置getBeta的offset 參數,比如 getBeta(mSet, offset = 100)。

M值

計算公式為

log2 (M / U)

U 代表甲基化信號強度,M 代表非甲基化的信號強度

在minfi中,使用getM函數計算探針的M 值

> head(getM(mSet)[1, 1:3])           5640269011_R01C01 5640269011_R01C02 5640269011_R02C01cg00050873        -0.3306387       -0.11142128        -0.2010475

探針cg00050873在樣本5640269011_R01C01中的甲基化信號強度為 5284,非甲基化信號強度為 6645, log2 (5284 / 6645) 正好就是M值。

beta 值是最常用的甲基化水平的定量方式,主要用於差異分析,而M值適用於樣本間的特徵比較,比如基於M值的矩陣,通過MDS的方法來分析樣本間的關係。

相關焦點

  • 回歸分析beta值的標準 - CSDN
    5# sungmoo總結兩位老師的解答,問題得以解決,舉例如下(附do文件及結果):reg y x1-x6 與 reg y x1-x6,beta  結果回歸係數一樣,但前者沒有顯示標準回歸係數,並且後者的標準係數也沒有辦法貯存在變量或matrix中,這是我比較關心的但通過將數據標準化後,reg y x1-x6與reg y x1-x6
  • 甲基化晶片數據的一些質控指標
    前面我們介紹了一些背景知識,主要是理解什麼是DNA甲基化,為什麼要檢測它,以及晶片和測序兩個方向的DNA甲基化檢測技術。具體介紹在:甲基化的一些基礎知識,也了解了甲基化晶片的一般分析流程 。然後下載了自己感興趣的項目的每個樣本的idat原始文件,也可以簡單通過minfi包或者champ處理它們拿到一個對象。
  • 【統計】p值和FDR
    假如:TP (True  Positive,真陽性) 指在陽性的實驗樣本上檢測出的結果顯示為陽性。TN (True  Negative,真陰性) 指在陰性的實驗樣本上檢測出的結果顯示為陰性。FP (False Positive,假陽性) 指在陰性的實驗樣本上檢測出的結果顯示為陽性。
  • 樣本值的評估?均值和方差
    數學中的樣本一般都是用數值代表個體的某個特徵。每次抽樣獲得的樣本值都具有偶然性,對同一個體多次抽樣的數值也會有差異,那麼如何對所獲得的樣本值進行評估呢?對一次抽樣獲得的所有樣本值,我們可以用均值來評估個體某個特徵的大小,用方差來評估此次抽樣樣本值的波動性。
  • CG03-投資項目的風險及風險的衡量方法:預期值、標準差、方差、變異係數
    :單一變量衡量:期望值、方差、標準差、變異係數變量之間:協方差、相關係數、貝塔係數期望值 :反應預計收益的平均化,不能直接用來衡量風險。也稱預期值、均值。 期望值 = 以概率為權重的加權平均標準差:當預期值相同時,標準差越大,風險越大標準差 = 方差開平方公式匯總:
  • 驚爆| 只要是樣本研究 p值不能少【連載5】
    點擊查看 【引言】北京大學統計學專家姚晨老師認為:只要是樣本研究,p值不能少(詳見本文【微點評】),山西大學統計學專家仇麗霞老師從「質性研究」和「量性研究」角度分析認為「目前,p值是抽樣研究結論推斷的『唯一』標準(詳見本文【微點評】)。看來我國醫學統計專家的意見比較統一。
  • 甲基化晶片數據的差異分析
    我不是大神,但我可以縮短你走彎路的半年~   就像歌兒唱的那樣,如果你不知道該往哪兒走,就留在這學點生信好不好~   這裡有豆豆和花花的學習歷程,從新手到進階,生信路上有你有我!花花寫於2020-5-1,去年今天籤了勞動合同,正式工作一周年啦~紀念一下。感謝曾老闆!
  • f值 mse p值 ssr 線性回歸 - CSDN
    回歸分析--多元回歸介紹一下多元回歸分析中的統計量總觀測值 總自變量 自由度:回歸自由度 ,殘差自由度  SST總平方和                  SSR回歸平方和
  • t值_t值相對應的p值表 - CSDN
    許多統計研究者要和戈斯特見面,都必須像間諜電影般地秘密安排見面地點和時間。工藝下的麥田的樣本均值  ,採樣了5株。不同的標準差對應的正態分布圖像不同:圖像的跨度由標準差  決定:因此,看起來不能單純依靠  ,或許除以樣本標準差  可以消除跨度的影響:因為A工藝的  我們不清楚,但是我們假設AB同分布,所以直接使用了樣本標準差 。當然,樣本數  也會影響結果。
  • ph值和orp的關係
    ph值   pH值(即:氫離子濃度指數,potentialofhydrogen)是衡量水體酸鹼度的一個值,亦稱氫離子濃度指數、酸鹼值,是溶液中氫離子活度的一種標度,也就是通常意義上溶液酸鹼程度的衡量標準。
  • 002衡量系統偏離的算法:方差,標準差與變異係數
    在實際應用中,除了需要觀察一組數據平均值水平外,還需要了解觀察值之間的偏離情況或集中位置等。衡量算法有幾種:也叫全距,一組數據中的最大值與最小值的差值。優點是可以快速簡單的觀察數據的總體離散程度,但是,①粗略。一旦數據量變大,很難準確判斷中間數據的分布情況。②不穩定。如果把兩邊離散的數據去掉一定比例,則會趨於穩定。
  • 從HQI和p值了解手持拉曼的識別與驗證技術
    如今,可攜式設備的發展已為製藥行業的質量控制、質量保證和製造帶來了全新的技術革命,使原材料識別和驗證方式發生了巨大變化。可攜式設備的性能已顯著提高,並在某些情況下,其數據質量不亞於實驗室儀器。拉曼光譜法是快速識別未知樣品的重要方法之一,而在手持式拉曼光譜儀中,用作光譜數據分析的兩種最常見的數學表示形式為Hit Quality Index(HQI)和p-values(p值)。其中HQI是未知樣品匹配的首選方法,而p值最適合驗證已知樣品的身份。我們以Mira P來說明。
  • 一文學會DNA甲基化-450K分析
    接著我們需要跟樣本分組,這裡我是按照GM和WG分組比較:去除低質量樣本keep <- colMeans(detP) < 0.01rgSet <- rgSet[,keep]rgSet從檢測p值中去除低質量樣本
  • 亞閾值數字標準單元庫設計
    摘要:基於對0.18 μm標準CMOS工藝的研究,本文設計了一套完備的電源電壓為0.4 V的亞閾值數字標準單元庫。設計流程包括工藝研究與方案設計、單元設計與物理實現、庫文件的提取以及單元庫驗證。提出了傳統溝道寬度調節與溝長偏置相結合的尺寸調整策略,有效增強PMOS管驅動並減小漏電流,提升庫單元穩定性。
  • 基於DNA甲基化的分子亞型構建發5+分
    文章背景本文研究的疾病是結腸腺癌(Colon Adenocarcinoma,COAD),分析的數據是TCGA-COAD隊列的甲基化晶片數據,RNA-seq數據以及臨床數據。作者想要通過對COAD組織甲基化晶片的分析,根據樣本的甲基化水平將其區分為不同的分子亞型;並且基於COAD患者癌組織甲基化水平建立預後預測模型,以改善對COAD預後的評估。
  • 尋找無中微子雙beta衰變
    這種巨大的差別意味著中微子質量的起源與所有其他費米子不同,涉及超出標準模型的物理。多數由標準模型推廣出來的理論都認為中微子是馬約拉納(Majorana)粒子。就是說,它們是本身的反粒子。如果中微子是馬約拉納粒子,那麼就違反了輕子數守恆,輕子數是賦予所有輕子的量子數,對於電子和中微子是 1,而它們的反粒子是-1。
  • P值之死
    由於擔心實驗結果陷入再現性爭論,莫兄和他的導師決定重複實驗,但是,在添加了新的數據之後,P值變成了0.59,這連0.05的顯著性水平都沒有達到!為什麼P值沒有達到人們的期望?它的問題到底在哪?現在和數說君一起來梳理一下P值和假設檢驗的歷史,並從中尋找答案吧。
  • 美國統計協會關於統計顯著性和p值的說明
    如果計算出P值的潛在假設(替代性假設)成⽴,那麼P值越⼩,統計結果與零假設的不兼容程度越⾼。這⼀不兼容性可以⽤來質疑或⽀撐零假設或潛在假設(替代性假設)。(2)P值不是用來衡量假設成立的可能性或者數據是偶然概率下產⽣的可能性的。
  • p 值是什麼?數據科學家用最簡單的方式告訴你
    換句話說,我們需要提出聲明(零假設),並用樣本數據來檢驗聲明是否有效。如果聲明是無效的,就選擇備擇假設。就這麼簡單。而要知道聲明是否有效,就要用 p 值來衡量證據的強度,從而了解到它是否有統計顯著性。如果證據支持備擇假設,那就拒絕零假設並接受備擇假設。後面的章節中會解釋這些內容。
  • 被Nature科學家封殺的P值,到底有什麼意義?
    (註: α 顯著性水平,是接受或拒絕原假設的概率分界點,如果p<α,就認為在1-α的置信水平下,樣本觀測值與總體假設值之間的差異是顯著的,從而不能接受原假設,即拒絕原假設。換句話說,我們首先要建立原假設,然後用樣本數據檢驗原假設是否成立。如果不成立,那我們就接受備擇假設。就這麼簡單。為了判斷原假設是否成立,我們需要用P值來衡量它的統計顯著性。如果數據更傾向於支持備擇假設,那我們就拒絕原假設,接受備擇假設。這將在後面的部分中進一步解釋。