直觀、形象、動態,一文了解無處不在的標準差

2020-12-03 機器之心Pro

選自 Fahd Alhazmi's Blog

作者:Fahd Alhazmi

機器之心編譯

參與:魔王、杜偉

本文將對標準差這一概念提供直觀的視覺解釋。

本文作者為紐約市立大學在讀博士生 Fahd Alhazmi,專注於神經科學、人工智慧和人類行為研究。

統計學中最核心的概念之一是:標準差及其與其他統計量(如方差和均值)之間的關係。入門課程中老師常告訴學生「記住公式就行」,但這並非解釋概念的最佳方式。本文將對標準差這一概念提供直觀的視覺解釋。

假設你有一個成績單,在本案例中這即是現實測量(real-world measurements)。我們想將這些測量中的信息「壓縮」為一組量,以便後續對比不同班級的成績或不同年份的成績等。鑑於認知能力有限,我們不想挨個查看分數,來找出平均分更高的班級。這時就需要總結數字,描述統計學就派上用場了。

總結數字的方式有兩種:量化其相似性或差異(difference)。

量化數字的相似性即「集中趨勢量數」(measures of central tendency),包括平均數、中位數和眾數;量化數字的差異即「差異量數」(measures of variability),包括方差和標準差。標準差揭示一組數字中彼此之間的差異,以及數字與平均值之間的差異。

舉例而言,假設你收集了一些學生分數(出於簡潔性考慮,我們假設這些分數是總體)。

我們首先在簡單的散點圖中繪製這些數字:

繪製完成後,計算差異的第一步是找出這些數字的中心,即平均值。

視覺上,我們可以繪製一條線來表示平均分數。

接下來我們要計算每個點和平均值之間的距離,並對得到的數值求平方。記住,我們的目標是計算數字之間的差異,以及數字與平均值之間的差異。我們可以用數學或視圖的方式完成該操作:

從上圖中我們可以看到,「求平方」只不過是畫了一個方框而已。這裡有兩點需要注意:我們無法計算所有差異的總和。因為一些差異是正值,一些是負值,求和會使正負抵消得到 0。為此,我們對差異取平方(稍後我會解釋為什麼取平方而不是其他運算,如取絕對值)。

現在,我們來計算差異平方的總和(即平方和):

通過計算平方和,我們高效計算出這些分數的總變異(即差異)。理解變異(variability)與差異(difference)之間的關係是理解多個統計估計和推斷檢驗的關鍵。上圖中平方和 67.5 表示,如果我們將所有方框堆在一個巨大的正方形中,則大正方形的面積等於 67.5 points^2,points 指分數的單位。任意測量集的總變異都是正方形的面積。

方差

現在我們得到了總變異(即大正方形的面積),但我們真正想要的是平均變異(mean variability)。要想求得平均變異,我們只需要用總面積除以方框的數量:

出於實用目的考慮,你或許想除以 N1,而不是 N,這樣你就可以嘗試基於一個樣本而不是總體來估計平均變異。但是,這裡假設我們已經具備總體(total population)。重點在於,你想計算所有小方框的均方值。這就是「方差」,即平均變異,或者差異平方的平均值(mean squared difference)。

標準差

我們為什麼不用方差來表示分數的差異呢?唯一的問題是,我們無法對比方差和原始分數,因為方差是「平方」值,即它是面積而非長度。其單位是 points^2,與原始分數的單位 points 不同。那麼如何甩掉平方呢?開平方根啊!

最後,我們終於得到了標準差:變異的平方根,即 2.91points。

這就是標準差的核心理念。本文對標準差概念的基礎直觀解釋可以幫助大家更容易地理解,為什麼在處理 z 分數(z-score)、正態分布、標準誤差和方差分析時要使用標準差的單位。

此外,如果你用標準差公式中的擬合線 Y 替代平均值,則你在處理的是基礎回歸項,如均方誤差(不開根號的話)、均方根誤差(開根號,但是和擬合線相關)。相關和回歸公式均可使用不同量的平方和(或總變異區域)來寫。分割平方和是理解機器學習中的泛化線性模型和偏差-方差權衡的關鍵概念。

簡而言之:標準差無處不在。

絕對值的問題

你可能會疑惑,為什麼對差異求平方而不是取絕對值呢。沒有什麼能夠真正阻止你使用差異的平均絕對值。平均絕對值給所有差異提供的是相同的權重,而差異平方為距離平均值較遠的數字提供更多權重。這或許是你想要的。但是,大部分數學理論利用差異平方(其原因不在本文討論範圍內,如可微分)。

不過,我會用一個容易理解的反例來回答這個問題。假設有兩個均值相同的分數集合:x_1 和 x_2:

從這些數字中,你可以輕鬆觀察到 x_1 的變異和數值分散性比 x_2 低。我們來計算兩個集合差異的平均絕對值(二者的平均值都為 6):

哦,結果並不好!兩個集合的變異值相同,儘管我們能夠看到 x_1 的數字差異要比 x_2 低。現在,我們使用差異平方計算,得到:

在差異平方的作用下,我們得到了想要的結果:當數字越分散時,標準差越大。

原文連結:http://falhazmi.com/blog/a-visual-interpretation-of-the-standard-deviation/

相關焦點

  • 直觀、形象——靜電場之用動態幾何畫板描繪點電荷電勢分布
    今天想給大家介紹一款數學軟體——GeoGebra(簡稱GGB),一款結合幾何、代數、概率統計與微積分等的動態數學軟體,它融合了代數與幾何兩大學科,既可以通過滑鼠點擊繪製出點、向量、切線、球面、曲面等圖形,也可以直接輸入方程和點坐標,精確繪製圖形,做到了圖形與代數方程的同步變化,實現了真正的動態演示。高中物理,概念規律多,有些物理過程複雜又不直觀,思想方法也是抽象。
  • 一文了解頻譜分析儀和網絡分析儀的區別
    打開APP 一文了解頻譜分析儀和網絡分析儀的區別 工程師之餘 發表於 2018-11-07 10:47:16 頻率掃描到FFT的優點是:寬頻率範圍,低DANL,大動態範圍等。 FFT相對於頻率掃描的優點是:實時測量 當然,一些掃頻譜儀還具有FFT功能,如PSA,通用頻譜分析儀,後端接收信號的AD採集,然後由DSP處理,可以實現VSA(矢量信號分析儀)的功能,例如ESA + 89601A。
  • 標準差的計算公式是什麼?
    標準差公式是一種數學公式。標準差也被稱為標準偏差,或者實驗標準差,公式如下所示:兩種證券形成的資產組合的標準差=(W12σ12+W22σ22+2W1W2ρ1,2σ1σ2)開方,當相關係數ρ1,2=1時,資產組合的標準差σP=W1σ1+W2σ2;當相關係數ρ1,2=-1時,資產組合的標準差σP=W1σ1-W2σ2。
  • 用什麼方法計算平均值標準差?
    一、描述性分析描述性分析用於描述定量數據的整體情況,例如研究消費者對於某商品的購買意願情況,可用到描述性分析對樣本的年齡、收入、消費水平等各指標進行初步分析,以了解掌握消費者總體的特徵情況。二、描述分析應用場景通過描述性分析計算數據的集中性特徵(平均值)和波動性特徵(標準差值),以了解數據的基本情況。因此在研究中經常是首先進行描述性分析,再次基礎之上再進行深入的分析。描述性分析還可用於查看數據是否有異常情況(最小值或最大值查看),比如數據中出現-2,-3等異常情況。
  • 標準差的含義——離均值的平均距離
    一說起期望值,可能有的人會很陌生;但一說起平均數,可能大部分人都了解。其實求期望和求平均之間還是有那麼一些關係的。期望我們先來舉個例子,讓你對期望有直觀的理解。假設我有1個不均勻的六面體,每個面標了一個數字,分別是1、2、3、4、5、6。如果我將此六面體向上拋出,那麼落地時向上一面的概率如下表所示:顯然,上述的概率之和為1。
  • 一文知道寬帶GSPS ADC中的無雜散動態範圍是多少
    一文知道寬帶GSPS ADC中的無雜散動態範圍是多少 工程師陳翠 發表於 2018-07-10 01:52:00 在為高性能系統選擇寬帶模數轉換器(ADC)時,需要考慮多種模擬輸入參數
  • 一文了解扭力傳感器的應用及分類
    1984 年,Sasada 等人提出了改進方案,為了獲得較寬的動態範圍和較好的線性度,採用了具有特定形狀的磁場各向異性的三角形或平行四邊形磁片。1992 年王榮等人為改善「角度依存性」問題,採用在轉軸的表面粘貼一層特製的軟磁合金薄帶的方法,研製了逆磁致伸縮扭矩傳感器。
  • 方差的計算公式 方差和標準差公式等
    方差的計算公式,方差和標準差公式,方差,平方差,標準差的公式如下若x1,x2,x3......xn的平均數為M,則方差公式可表示為:
  • 諧振電路:RL電路RC電路LC電路最形象直觀的解釋
    諧振電路在無線電技術,測量技術等有著廣泛的應用,它主要的特點就是有很強的選頻能力,今天我們就從最形象直觀的原理出發來了解它的本質特性。以上就是RL電路RC電路LC電路形象直觀的本質原理。希望對廣大讀者有所幫助。
  • 一文了解我國水中餘氯測定標準及方法分析
    一文了解我國水中餘氯測定標準及方法分析北極星環境監測網訊:引言:近日,生態環境部印發了《應對新型冠狀病毒感染肺炎疫情應急監測方案》(以下簡稱《方案》)。《方案》明確了疫情防控期間生態環境應急監測工作的重點。
  • 標準差與標準誤的區別
    對於標準差與標準誤的區別,很多書上這樣表達:標準差表示數據的離散程度,標準誤表示抽樣誤差的大小。這樣的解釋可能對於許多人來說等於沒有解釋。其實這兩者的區別可以採用數據分布表達方式描述如下:如果樣本服從均值為μ,標準差為δ的正態分布,即X~N(μ, δ2),那麼樣本均值服從均值為0,標準差為δ2/n的正態分布,即~ N(μ,δ2/n)。這裡δ為標準差,δ/n1/2為標準誤。明白了吧,用統計學的方法解釋起來就是這麼簡單。
  • 標準誤和標準差,傻傻分不清?
    在之前的推送中,我們已經了解了正態分布、標準分數及其應用,以及中心極限定理。
  • 標準差還是標準誤?
    之前後臺小夥伴留言詢問標準差和標準誤的區別,說是看公式一陣眩暈,分不清楚。其實,科班出生的同學,也是挺容易搞混的。
  • 通過牛頓萬有引力更直觀了解市場!
    我相信這個是最好理解額的,我們都打個人,我們手打別人一巴掌,我們的手反而還痛,就是這個道理!因為有一個大小相等,方向相反的作用力! 萬有引力定律 除了這三條運動定律,牛頓爵士還發現了一條關於力的新定律,叫萬有引力定律。
  • 方差的計算公式 平方差及方差和標準差公式
    方差的計算公式   方差和標準差公式 方差,平方差,標準差的公式如下若x1,x2,x3......xn的平均數為M,則方差公式可表示為:
  • 離散程度的度量:異眾比率、四分位差和標準差
    此外,由於中位數處於數據的中間位置,因此,四分位差的大小在一定程度上說明了中位數對一組數據的代表程度。此外,極差也可以用于衡量中位數的代表性。極差,是一組數據的最大值與最小值之差,也稱全距。極差是最簡單的描述數據離散程度的測度值,計算簡單,易於理解。是老百姓最容易直觀感受到的「差」。
  • 標準差和標準誤差,你懂嗎?
    對於等精度測量來說,還有一種更好的表示誤差的方法,就是標準誤差。  標準誤差定義為各測量值誤差的平方和的平均值的平方根,故又稱為均方誤差。  設n個測量值的誤差為ε1、ε2……εn,則這組測量值的標準誤差σ等於:
  • 讓3-10歲孩子直觀了解天氣、氣候等自然現象,我推薦這6本書
    文 | 維尼媽媽沐瀅最近開始把重點轉向科普書了!因為維尼總是問「為啥」、「為啥」,問得我腦袋疼!不過她對科普類的書感興趣程度真的不如故事繪本和故事橋梁書。這本翻翻書就更加直觀了,它是以遊戲互動的方式讓孩子了解天氣中風雨雷電的形成和變化。並且從天氣變化上升至氣候變遷,讓孩子對地球氣候有一個整體的了解很認識。
  • 你用對「均值和標準差(SD)」和「均值和標準誤(SEM)了嗎」
    用「均值和標準差(SD)」還是「均值和標準誤(SEM)?
  • 105個建築工程測量視頻動畫演示,直觀形象易懂
    105個建築工程測量視頻動畫演示,直觀形象易懂在工程測量中,無論是系統的工程測量、還是大面積測繪等,都少不了需要運用測量技術,因此,工程測量在工程項目都有著舉足輕重的地位。通過應用工程測量技術,能有效地幫助工程設計和管理人員掌握該項目工程建設的難度,從而達到提高工程質量和確保工程順利實施的目的.