002衡量系統偏離的算法:方差,標準差與變異係數

2021-02-24 分子生物學手記

已申請原創,商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。

在實際應用中,除了需要觀察一組數據平均值水平外,還需要了解觀察值之間的偏離情況或集中位置等。衡量算法有幾種:

也叫全距,一組數據中的最大值與最小值的差值。優點是可以快速簡單的觀察數據的總體離散程度,但是,①粗略。一旦數據量變大,很難準確判斷中間數據的分布情況。②不穩定。如果把兩邊離散的數據去掉一定比例,則會趨於穩定。

公式:R=最大值-最小值

     這種方法把一組觀察值排序,分成四個數目相等的部分。具體算法是:

1、一組數據按照個數分為4組:①組25%,②組25%,③組25%,④組25%。

2、去掉①組和④組,取中間②組+③組的50%,觀察值的數據範圍。

公式:Q=Q75-Q25

要觀察一組數據的偏離情況,也可以計算每個觀察值偏離平均值的平均差距(Σ,音:西格瑪)。為了避免正負抵消,取差值絕對值,然後取平均值。公式如下:

絕對值數學上較難處理,於是取平方計算,既避免正負抵消,又優化計算。即方差(variance)。方差越大,偏離越大。公式如下:

分母n-1稱為自由度,(df,degree of free)。S2表示樣本方差(總體方差用σ2表示)。

    查了一些相關資料及推導公式,借用幾個易於理解的理念,進行如下解說:

①樣本方差:S2,你測量的群組的方差,通過你的群組測量(或者多個群組測量),來了解總體情況。

②總體方差:σ2,你選擇的群組整體的真實方差,是真值,是理論值。

③無偏估計:在多次測量時,多次取樣測量的平均值接近所估計的總體測量真值。在計算樣本方差時,希望它是總體方差的一個無偏估計,即樣本方差=總體方差,S2=σ2。

再舉個例子,便於理解樣本和總體這兩個概念:比如我們的研究對象是老鼠,樣本測量可以指你多次生物學重複實驗中的1組老鼠(1-n只),隨著抽樣的無限增多(n組老鼠),理論上測量值會等於地球上全部老鼠的測量值,當然你希望你的樣本測量結果等同於地球上全部老鼠的測量結果,即取樣值等於真值。——這個故事間接的說明,為什麼生物學重複越多,實驗結果越有統計學意義。

綜上再來解釋,簡單來說,如果用n計算,則對樣本方差不是無偏估計,通過公式推倒,S2≤σ2,要想是無偏估計就要進行校正,嘗試用n-1進行校正計算公式可以得到S2=σ2。

    在統計分析中,為了方便,通常將方差取平方根,還原成與原始觀察值單位相同的變異度量。公式為:

標準差可以直接用於代數計算。標準差與均數結合,能夠完整的概括一個正態分布。

兩組數據的均數相差不大、單位相同時,標準差的大小可以直接比較兩個樣本的變異程度。但是在需要對均數相差較大或者單位不同的幾組觀察值的變異程度進行比較,這時使用標準差就不再合適,則可以用變異係數(CV,coefficient of variation)。變異係數可以消除單位和(或)平均數不同對兩個或多個資料變異程度比較的影響。

簡單理解,標準差有單位,不能橫向比較(身高cm偏離大還是體重kg偏離大)變異係數沒單位(都是%),所以可以橫向比較。

內容整理自醫學統計學及網絡。

相關焦點

  • CG03-投資項目的風險及風險的衡量方法:預期值、標準差、方差、變異係數
    :單一變量衡量:期望值、方差、標準差、變異係數變量之間:協方差、相關係數、貝塔係數期望值 :反應預計收益的平均化,不能直接用來衡量風險。方差:衡量離散程度,當期望值相同時,方差越大,風險越大    ①先求差②再求方③最後算平均
  • 方差的計算公式 方差和標準差公式等
    方差的計算公式,方差和標準差公式,方差,平方差,標準差的公式如下若x1,x2,x3......xn的平均數為M,則方差公式可表示為:
  • 方差的計算公式 平方差及方差和標準差公式
    方差的計算公式   方差和標準差公式 方差,平方差,標準差的公式如下若x1,x2,x3......xn的平均數為M,則方差公式可表示為:
  • 變異係數(CV)是什麼意思?
    或者數據量綱的不同,直接使用標準差來進行比較不合適,此時就應當消除測量尺度和量綱的影響,而變異係數可以做到這一點,它是原始數據標準差與原始數據平均數的比。變異係數(CV)沒有量綱,這樣就可以進行客觀比較了。事實上,可以認為變異係數和極差、標準差和方差一樣,都是反映數據離散程度的絕對值。其數據大小不僅受變量值離散程度的影響,而且還受變量值平均水平大小的影響。
  • 方差、標準差、正態分布、超幾何分布、卡方檢驗、t檢驗基礎概念
    方差方差是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。方差是衡量源數據和期望值相差的度量值.
  • 方差與標準差:衡量數據的離散程度
    方差和標準差是統計和概率中重要參數科學家發現了現實中很多情況,如果只用平均值沒有任何參考意義,甚至會誤導決策的判斷,歷史上由羅納德
  • 方差及其性質(一)
    方差是在概率論和數理統計中衡量隨機變量或一組數據時離散程度的度量。
  • 標準差的計算公式是什麼?
    標準差公式是一種數學公式。標準差也被稱為標準偏差,或者實驗標準差,公式如下所示:兩種證券形成的資產組合的標準差=(W12σ12+W22σ22+2W1W2ρ1,2σ1σ2)開方,當相關係數ρ1,2=1時,資產組合的標準差σP=W1σ1+W2σ2;當相關係數ρ1,2=-1時,資產組合的標準差σP=W1σ1-W2σ2。
  • 回歸係數顯著性t檢驗_多元線性回歸方程及回歸係數的顯著性檢驗...
    】:是表示個體間變異大小的指標,反映了整個樣本對樣本平均數的離散程度,是數據精密度的衡量指標。2、標準誤差(Standard error)【反映的是均值的波動情況】:指在抽樣試驗(或重複的等精度測量)中,常用到樣本平均數的標準差;反映樣本平均數對總體平均數的變異程度,從而反映抽樣誤差的大小,是量度結果精密度的指標。
  • 協方差(covariance)與相關係數(2)
    相關係數的計算公式:從上面的公式中可以看出:相關係數的計算公式中包括x與y的協方差、x的方差和y的方差。故計算x與y的協方差是計算相關係數的基礎。分母的作用是將協方差的結果調整至[-1,1],故相關係數不受數據scale的影響。
  • ML/DL重要基礎概念:偏差和方差
    0x01 偏差和方差的定義 偏差和方差的定義如下:偏差(bias):偏差衡量了模型的預測值與實際值之間的偏離關係。例如某模型的準確度為96%,則說明是低偏差;反之,如果準確度只有70%,則說明是高偏差。
  • 使用R計算方差與標準差
    概述描述樣本值的離散程度,最常用的指標是方差和標準差,它們與前面所說的全距(極差)只使用了兩個極值情況不同,它們利用了樣本的全部信息去描述數據取值的分散性。計算方差的公式方差是各樣本相對均值的偏差平方和的平均。
  • 回歸標準差的計算公式 - CSDN
    (2)標準差標準差項列出了係數估計的標準差.估計係數的協方差矩陣是由以下公式計算得到的:,,可以通過選擇View/Covariance Matrix項來察看整個協方差矩陣。(3)t-統計量t統計量是由係數估計值和標準差之間的比率來計算,它是用來檢驗係數為零的假設的。
  • 19考研管理類聯考初數:方差與標準差 數據的圖表表示
    今天我們就來介紹一下,在管綜數學的考試中數據分析中的一類題目:方差與標準差和數據的圖表表示。方差與標準差這部分每年大概都會考一道題,只要記住方差和標準差的公式,這部分題還是比較簡單的。那我們就一起來看一下方差與標準差:首先先來複習一個知識點平均值:我們在記住公式的同時,還要明白方差與標準差的意義,方差與標準差均能夠反映一組數據偏離平均值的程度,是反映一組數據整體波動的大小的特徵量。
  • MSSQL函數-STDEV標準偏差和STDEVP標準差
    StDev函數是算出查詢結果中指定欄位所有值的標準偏差,它是用來衡量數據偏離算術平均值的程序,標準偏差越小,這些值偏離平均值就越少,反之偏離越大。此函數不計算文本值和邏輯值(如TRUE和FALSE)。它反映了數據相對於平均值的離散程度。
  • LBS推薦系統的設計方法
    推薦系統的數學基礎 推薦系同的數學基礎是距離,和相關係數。距離和相關係數的本質都是相似度。距離用來表示兩個(組)散亂數據間的相似度;而相關係數用來表示兩組近似線性的數據的相似度。相似度計算是各種數據挖掘算法的主要數學基礎。比如:聚類算法中往往是利用數據間的彼此距離或者相關係數進行計算的。
  • 皮爾森相關係數的計算
    只有了解了r的算法,你才能真正理解「為什麼它能衡量變量間的相關性」,你才能真正駕馭它。先來兩個散點圖,左圖中x和y不相關,右圖中x和y高度正相關,差別在哪?讓我們在左右兩圖各畫一個「田」字,「田」字中心的坐標是(x的平均值,y的平均值):
  • 協方差與相關係數
    協方差協方差這個玩意兒,好多同學仍舊是一頭霧水,而後面再加上相關係數更是讓人一臉懵逼,今天我們就來認認真真研究下。在此之前呢,我們來看一下方差。方差總該知道是啥吧?假設有這麼兩個集合:[0,8,12,20]和[8,9,11,12]兩個集合呢,均值都是10,但顯然兩者的差別還是蠻大的,我們通過計算方差即可得出二者的差異:第一個集合表現的比較動蕩(不是放蕩),第二個集合表現比較平穩,方差就是衡量這個的。好啦,既然有了方差,問題又來了。假設你統計了兩組樣本:
  • 皮爾森和斯皮爾曼相關係數
    >之前我們介紹了如何使用相關係數來衡量變量之間的相關性大小,但其實統計學中有三大相關係數,它們的計算方式不盡相同,適用於不同的場景。之前介紹的相關係數其實是皮爾森簡單相關係數,用協方差除以標準差的方式來計算,它計算簡單,應用廣泛,適用于衡量變量之間的線性關係。