正態分布基本概念及Excel實現

2021-01-14 機械小眾



正態分布(也稱為高斯分布)是統計中最常用的連續分布。正態分布在統計中至關重要,主要有以下三個原因:


正態分布由圖經典鐘形表示。在正態分布中,您可以計算值以一定範圍或間隔出現的概率。但是,由於將連續變量的概率測量為曲線下的面積,因此來自連續分布(例如正態分布)的特定值的確切概率為零。例如,時間(以秒為單位)被測量並且不計數。因此,您可以確定網絡瀏覽器上視頻下載時間在7到10秒之間的概率,或者下載時間在8到9秒之間的概率,或者下載時間在7.99到90秒之間的概率。8.01秒。但是,下載時間恰好為8秒的概率為零。



實際上,許多變量的分布與正態分布的理論性質非常相似。表中的數據代表最近一天裝滿10.000升1升瓶中的軟飲料量。感興趣的連續變量,即軟飲料的填充量,可以通過正態分布來近似。10,000瓶中的軟飲料量的測量值在1.05至1.055升之間,並圍繞該組對稱分布,形成鐘形圖案。圖顯示了相對頻率直方圖和多邊形,用於填充10,000個瓶子的數量分布。

對於這些數據,正態分布的前三個理論特性得到了近似滿足。但是,第四範圍不是無限的。裝滿瓶子的數量不能為零或小於0,也不能裝滿超出其容量的瓶子。從表中可以看到,每10,000個裝滿的瓶子中只有48個預期含有1.08

升或更高,並且相等的數字預計少於1.025升。


符號f(X)用於表示概率密度函數。正態分布的概率密度函數在公式中給出。



e =用2.71828近似的數學常數

π=用3.14159近似的數學常數

μ =平均值

σ =標準偏差

X =連續變量的任何值,其中-∞ < X <∞


儘管公式看起來很複雜,但由於e和是數學常數,所以隨機變量X的概率僅取決於正態分布的兩個參數-平均值μ和標準偏差σ。每次指定μ和σ的特定值時,都會生成不同的正態概率分布。圖說明了這一原理。

標記為A和B的分布具有相同的平均值(μ),但具有不同的標準偏差。分布A和C的標準偏差(σ)相同,但均值不同。分布B和C對於μ和σ具有不同的值。


所示的轉換公式將正態分布變量X轉換為標準化正態變量Z。應用此公式可讓您在正態概率表中查找值,並避免了公式(1)可能需要的繁瑣而複雜的計算。


轉換公式將計算出一個Z值,該值表示標準值單位中的x值與平均值u的差。變量X具有平均值u和標準偏差σ,而標準化變量Z始終具有平均值u = 0和標準偏差σ = 1。


然後,您可以使用表(累積標準化正態分布)來確定概率。例如,過去的數據表明下載視頻的時間是正態分布的,平均時間為7秒,標準差為σ = 2秒。從圖中可以看到,

每個度量X都有一個對應的標準化度量Z,它是根據公式(2)(轉換公式)計算得出的。因此,9秒的下載時間等於平均數之上的1個標準單位(1個標準偏差),因為1秒的下載時間等於-3個標準化單位(3個標準差)低於均值,因為在上圖中,標準偏差是測量單位。換句話說,9秒的時間比7秒的平均時間高2秒(1個標準差)或更慢。同樣,1秒的時間比平均時間低6秒(3個標準差)或更快。為進一步說明轉換公式,假設另一個網站對於正態分布的視頻具有下載時間,平均時間為= 4秒,標準偏差 = 1秒。下圖顯示了這種分布。

將這些結果與MyTVLab網站的結果進行比較,您會發現5秒的下載時間比平均下載時間高出1個標準差,因為

1秒的時間比平均下載時間低3個標準偏差,因為

計算出Z值後,您可以使用累積標準化正態分布中的值表(查找正態概率。假設您想查找MyTVLab網站的下載時間少於9秒。假設平均u = 7秒,標準偏差σ = 2秒,則將X = 9轉換為標準單位。導致Z值為+1.00


使用此值,您可以使用表查找法線下的累積面積,該面積小於Z = +1.00(在其左側)。要讀取小於Z = +1.00的曲線下的概率或面積,請向下掃描表中的Z列,直到在1.0的Zrow中找到感興趣的Z值(十分之一)。接下來,閱讀該行,直到與包含Z值的第100位的列相交為止。因此,在表的主體中,Z = 1.00的概率對應於行Z = 1.0與列Z = .00的交集。下表顯示了該交集。


在交叉點處列出的概率為0.8413,這意味著下載時間少於9秒的可能性為84.13%。下圖以圖形方式顯示了這種可能性。

但是,對於其他網站,您看到5秒的時間比4秒的平均時間高1個標準化單位。因此,下載時間少於5秒的概率也為0.8413。下圖顯示,不管正態分布變量的均值u和標準偏差σ如何,公式(2)都可以將X值轉換為Z值。


示例1

求P(X> 9)


MyTVLab網站的視頻下載時間超過9秒的概率是多少?


解:下載時間少於9秒的概率為0.8413。因此,下載時間將超過9秒的概率是1-0.8413 = 0.1587。下圖說明了此結果。


例2,

求P(X <7 or X> 9)

MyTVLab網站的視頻下載時間少於7秒或超過9秒的概率是多少?



解:要找到此概率,您可以分別計算下載時間小於7秒的概率和下載時間大於9秒的概率,然後將這兩個概率相加。下圖說明了此結果。

因為平均值是7秒,並且平均值等於正態分布中的中值,所以50%的下載時間在7秒以下。從例1中,您知道下載時間大於9秒的概率為0.1587。因此,下載時間低於7秒或超過9秒(P(X <7或X> 9))的概率為0.5000 + 0.1587 = 0.6587。


例3,

求P(5 <X <9)


MyTVLab網站的視頻下載時間在5到9秒之間(即P(5 <X <9))的概率是多少?


解:在下圖中,您可以看到感興趣的區域位於兩個值5和9之間。



例3的結果使您可以聲明,對於任何正態分布,這些值的68.26%將落在平均值的±1標準偏差之內。從下圖中,您可以看到95.44%的值將落在平均值的±2標準偏差之內。因此,95.44%的下載時間在3到11秒之間。



從下圖中可以看到,該值的99.73%在平均值的上下3個標準偏差之內。


從而。99.73%的下載時間在1到13秒之間。因此,不太可能(0.0027,或10,000中只有27)下載時間太快或太慢,以至於不到1秒或超過13秒。通常,您可以使用6σ(即均值以下3個標準偏差到均值以上3個標準偏差)作為正態分布數據範圍的實際近似值。

約68.26%的值落在平均值的±1標準偏差內

約95.44%的值落在平均值的±2標準偏差內

約99.73%的值落在平均值的±3標準偏差內



示例1至3要求您使用正態分布表在正態曲線下查找與特定X值相對應的面積。對於其他情況,您可能需要執行相反的操作:查找對應於特定區域的X值。通常,您可以使用公式來查找X值。

要找到與已知概率相關的特定值,請按照下列步驟操作:•繪製正態曲線,然後將平均值和X的值放在X和Z刻度上。



示例4

求出X值為0.10的累積概率。


MyTVLab視頻的最快10%下載完成之前需要多少時間(以秒為單位)?

解:由於預計10%的視頻將在X秒內下載,因此法線下小於該值的面積為0.1000。搜索麵積或概率為0.1000。最接近的結果是0.1003,如表所示

在正態分布線下找到對應於特定累積面積(0.10)的Z值


從該區域到表格的頁邊空白,您發現與特定的Z行(-1.2)和Z列(.08)相對應的Z值為1.28(見圖)。


找到Z後,即可使用公式確定X值。

替換u = 7、σ= 2和Z = -1.28,


X = u + Zσ

X = 7 +(-1.28)(2)= 4.44秒


因此,下載時間的10%為4.44秒或更短。


例5,查找包含95%下載時間的X值。

圍繞平均值對稱分布的X的下限值和上限值是多少,包括MyTVLab網站上視頻的95%的下載時間?

解:首先,您需要找到X的較低值(稱為XL)。然後,找到X的上限值(稱為Xu),因為95%的值在XL和Xu之間,並且XL和XU與平均值均等距離,所以2.5%的值在XL之下(參見圖)。

儘管X未知,但是您可以找到相應的Z值,因為曲線下的面積小於該Z的值為0.0250。使用表搜索概率0.0250。

從表格的正文到表格的頁邊距,您看到與特定的Z行(-1.9)和Z列(.06)相對應的Z值為-1.96。

找到Z後,最後一步是使用公式,如下所示:

您使用類似的過程來查找X。由於僅2.5%的視頻下載時間長於Xu秒,因此97.5%的視頻下載時間短於Xu秒。從正態分布的對稱性中,您會發現所需的Z值(如圖所示)為+1.96(因為Z位於標準化均值0的右側)。您還可以從表中提取此Z值。您可以看到曲線下的面積小於Z值+1.96,即為0.975。


因此,95%的下載時間在3.08到10.92秒之間。


您可以使用Excel來計算1個正態概率,而不是在表中查找累積概率。圖顯示了一個工作表,該工作表計算正常概率並找到與示例1至5類似的問題的X值。


相關焦點

  • 教學研討|2.4 正態分布
    ▍來源:網絡 研討素材一一、教學目標1、了解正態分布的意義2、掌握正態分布曲線的主要性質及正態分布的簡單應用3、利用正態分布的性質、特點解決高考中關於正態分布的問題二、學情分析學生整體基礎薄弱,不過全班大部分學生能跟上現有進度,上課發言積極,個別同學表現的比較出色三、重點難點重點:1.正態分布曲線的特點;2.正態分布曲線所表示的意義
  • 正態分布的常用數據 - CSDN
    #尋找真知派#如上一篇文章所述,樣本所屬總體服從正態分布是數據分析和數據挖掘等數據處理的重要前提。如果我們採集的樣本並不能確認其總體是否服從正態分布,那麼數據處理的結果就是不可靠的。因此,對樣本數據進行正態分布檢驗十分必要。
  • 思維模型17 - Normal distribution | 正態分布
    正態分布正態分布又稱高斯分布,是一個常見的連續概率分布,它的樣子類似於寺廟裡的大鐘,因此人們又經常稱之為鐘形曲線。正態分布曲線的樣子就像下圖,說名字可能不清楚,但很多同學一看到圖就恍然大悟,原來這就是正態分布啊。
  • 方差、標準差、正態分布、超幾何分布、卡方檢驗、t檢驗基礎概念
    幾個非常常見的統計學概念,簡單粗暴的基礎概念,初步理解。方差方差是在概率論和統計方差衡量隨機變量或一組數據時離散程度的度量。概率論中方差用來度量隨機變量和其數學期望(即均值)之間的偏離程度。統計中的方差(樣本方差)是每個樣本值與全體樣本值的平均數之差的平方值的平均數。在許多實際問題中,研究方差即偏離程度有著重要意義。方差是衡量源數據和期望值相差的度量值.
  • 如何使用標準正態分布表?
    正態分布這個概念在統計學中很常見,在做與正態分布有關計算的時候經常會用到標準正態分布表。
  • 相關知識考點:標準正態分布
    1概率密度函數  當μ=0,σ=1時,稱X服從標準正態分布,記作X~N(0,1)。  服從標準正態分布的隨機變量記為U,它的概率密度函數記為。  若X~N(μ,σ2),則~N(0,1)。  實際中很少有一個質量特性(隨機變量)的均值恰好為0,方差與標準差恰好為1.一些質量特性的不合格品率均要通過標準正態分布才能算得,這一點將在後面敘述。  2標準正態分布表  標準正態分布函數表,它可用來計算形如「」的隨機事件發生的概率,記為。  正態分布N(0,1)的分位數。
  • 關於正態分布和貝塔分布的案例介紹
    打開APP 關於正態分布和貝塔分布的案例介紹 賈恩東 發表於 2020-10-12 11:25:57 本文通過案例介紹了正態分布和貝塔分布的概念。
  • 一文搞懂「正態分布」所有重要知識點
    連續型隨機變量研究區間概率了解了正態分布的基本思想,我們來看看實際應用中我們需要掌握的要點。首先,正態分布屬於「連續型隨機變量分布」的一類。我們知道,對於連續型隨機變量,我們不關注「點概率」,只關注「區間概率」,這是什麼意思?
  • 什麼是正態分布?知道它有什麼用?
    什麼是正態分布?正態分布(Normal Distribution),也被稱為高斯分布,代表著概率的分布情況,是統計學中的一個重要概念。當一組觀察數據或樣本涉及到「平均」和「偏差」時,它們出現的頻率往往會被描繪成下面這條曲線:圖自百度百科圖中橫軸代表著樣本數值,縱軸則是某一樣本數值對應的出現概率,其中這條曲線即正態分布曲線。
  • 如果數據分布是非正態的怎麼辦?用切比雪夫不等式呀!
    正態分布/超自然分布你覺得這是個玩笑?讓我告訴你,這不是笑料。這是嚇人的,真正的萬聖節精神!如果我們無法假設我們的大部分數據(商業、社會、經濟或科學根源) 至少近似「正態」(即它們是由一個高斯過程或多個這樣的過程的總和產生的),那麼我們就完蛋了!
  • 第五章 正態分布與正常值範圍估計--第一節 正態分布及其性質
    第五章 正態分布與正常值範圍估計 第一節 正態分布及其性質   一群變量值可能用平均數描述集中的位置,用變異指標描述離散情況,而頻數表則把變量值的分布描繪得更具體。為了直觀還可把頻數表畫成直方圖。如第四章中曾將7歲男童坐高的頻數分布繪成圖4.1。
  • 徹底理解正態分布——強大的數學分析工具
    每個試圖進入強大的數據科學世界的人都會遇到正態分布。在這篇文章中,我將以一種非常清晰的方式解釋它到底是什麼,我們如何解釋它,以及為什麼它作為一個每個數據科學家都必須意識到的概念具有巨大的重要性。什麼是正態分布?
  • 正態分布及其應用
    ,最終趨向於圖3「中間高,兩邊低」的「鍾型」曲線,我們將這條曲線稱為正態分布密度曲線,簡稱正態曲線。對比圖4中的兩條正態曲線,我們可以看出虛線對應的平均值更大。圖 4圖5中兩條正態曲線的平均值相同,但是形狀不同,實線的正態曲線更加「矮胖」,而虛線的正態曲線更加
  • 光明時評:要求學生考試分數正態分布的管理不在正態
    正態分布原本就是一個理想的數學模型,只能基於事實生成,而不能用它來要求事實改變之後符合正態分布。它要求的樣本是隨機抽樣的,而大學裡一個班的學生已經經過多次篩選考試和相同課程教學過程,已經不屬隨機抽樣。正常情況下,大多數班級的分數都會呈現非正態分布,他們的考試成績符合正態分布的實際可能性較小。
  • 正態分布圖形的編輯
    分布密度=正態分布概率函數,分布密度=正態分布函數,最後一個參數給到0,=NORM.DIST(A7,$B$1,$B$2,FALSE)選擇0通俗的含義是,我們給到圖形中的高度.這個時候,你可以選擇分布密度的整個系列,插入一個堆積面積圖,則會得到:然後我們需要在這個面積圖的基礎之上,再給它一個面積堆積,達到自由切換的效果,而上圖藍色的部分則是基於我們的基本數據給出來的底層正態模型,自己切換或者變化的面積也必須要在這個藍色的面積範圍以內.
  • 幾種分布概述(正態分布/卡方分布/F分布/T分布)
    其概率密度函數為正態分布的期望值μ決定了其位置,其標準差σ決定了分布的幅度。我們通常所說的標準正態分布是μ = 0,σ = 1的正態分布。當μ=0,σ=1時,正態分布就成為標準正態分布N(0,1)。概率密度函數為:
  • 數據正態分布的意義 - CSDN
    什麼是正態分布關於什麼是正態分布,早在中學時老師就講過了。通俗來講,就是當我們把數據繪製成頻率直方圖,所構成曲線的波峰位於中間,兩邊對稱,並且隨著往兩側延伸逐漸呈下降趨勢,這樣的曲線就可以說是符合數學上的正態分布。由於任何特徵的頻率總和都為100%或1,所以該曲線和橫軸之間部分的面積也為100%或1,這是正態分布的幾何意義。
  • 為什么正態分布如此常見?
    正態分布的英文名為:Normal Distribution,臺灣翻譯為常態分布,可見一斑。可是為什麼這麼常見呢?每個人都相信它(正態分布):實驗工作者認為它是一個數學定理,數學研究者認為他是一個經驗公式。
  • 正態分布 線性回歸 - CSDN
    採用最小二乘法進行線性回歸時,需要滿足特定的條件:正態性:一定範圍內,給定任意x值,對應的y均服從正態分布獨立:即誤差項間不存在相關,一般時間序列數據會存在自相關線性:因變量和自變量有線性關係同方差性:即模型誤差項的方差相等。
  • R與生物專題 | 第六講 R-數據正態分布檢驗
    在「R與生物統計專題」中,我們會從介紹R的基本知識展開到生物統計原理及其在R中的實現。