正態分布(也稱為高斯分布)是統計中最常用的連續分布。正態分布在統計中至關重要,主要有以下三個原因:
正態分布由圖經典鐘形表示。在正態分布中,您可以計算值以一定範圍或間隔出現的概率。但是,由於將連續變量的概率測量為曲線下的面積,因此來自連續分布(例如正態分布)的特定值的確切概率為零。例如,時間(以秒為單位)被測量並且不計數。因此,您可以確定網絡瀏覽器上視頻下載時間在7到10秒之間的概率,或者下載時間在8到9秒之間的概率,或者下載時間在7.99到90秒之間的概率。8.01秒。但是,下載時間恰好為8秒的概率為零。
實際上,許多變量的分布與正態分布的理論性質非常相似。表中的數據代表最近一天裝滿10.000升1升瓶中的軟飲料量。感興趣的連續變量,即軟飲料的填充量,可以通過正態分布來近似。10,000瓶中的軟飲料量的測量值在1.05至1.055升之間,並圍繞該組對稱分布,形成鐘形圖案。圖顯示了相對頻率直方圖和多邊形,用於填充10,000個瓶子的數量分布。
對於這些數據,正態分布的前三個理論特性得到了近似滿足。但是,第四範圍不是無限的。裝滿瓶子的數量不能為零或小於0,也不能裝滿超出其容量的瓶子。從表中可以看到,每10,000個裝滿的瓶子中只有48個預期含有1.08
升或更高,並且相等的數字預計少於1.025升。
符號f(X)用於表示概率密度函數。正態分布的概率密度函數在公式中給出。
e =用2.71828近似的數學常數
π=用3.14159近似的數學常數
μ =平均值
σ =標準偏差
X =連續變量的任何值,其中-∞ < X <∞
儘管公式看起來很複雜,但由於e和是數學常數,所以隨機變量X的概率僅取決於正態分布的兩個參數-平均值μ和標準偏差σ。每次指定μ和σ的特定值時,都會生成不同的正態概率分布。圖說明了這一原理。
標記為A和B的分布具有相同的平均值(μ),但具有不同的標準偏差。分布A和C的標準偏差(σ)相同,但均值不同。分布B和C對於μ和σ具有不同的值。
所示的轉換公式將正態分布變量X轉換為標準化正態變量Z。應用此公式可讓您在正態概率表中查找值,並避免了公式(1)可能需要的繁瑣而複雜的計算。
轉換公式將計算出一個Z值,該值表示標準值單位中的x值與平均值u的差。變量X具有平均值u和標準偏差σ,而標準化變量Z始終具有平均值u = 0和標準偏差σ = 1。
然後,您可以使用表(累積標準化正態分布)來確定概率。例如,過去的數據表明下載視頻的時間是正態分布的,平均時間為7秒,標準差為σ = 2秒。從圖中可以看到,
每個度量X都有一個對應的標準化度量Z,它是根據公式(2)(轉換公式)計算得出的。因此,9秒的下載時間等於平均數之上的1個標準單位(1個標準偏差),因為1秒的下載時間等於-3個標準化單位(3個標準差)低於均值,因為在上圖中,標準偏差是測量單位。換句話說,9秒的時間比7秒的平均時間高2秒(1個標準差)或更慢。同樣,1秒的時間比平均時間低6秒(3個標準差)或更快。為進一步說明轉換公式,假設另一個網站對於正態分布的視頻具有下載時間,平均時間為= 4秒,標準偏差 = 1秒。下圖顯示了這種分布。
將這些結果與MyTVLab網站的結果進行比較,您會發現5秒的下載時間比平均下載時間高出1個標準差,因為
1秒的時間比平均下載時間低3個標準偏差,因為
計算出Z值後,您可以使用累積標準化正態分布中的值表(查找正態概率。假設您想查找MyTVLab網站的下載時間少於9秒。假設平均u = 7秒,標準偏差σ = 2秒,則將X = 9轉換為標準單位。導致Z值為+1.00
使用此值,您可以使用表查找法線下的累積面積,該面積小於Z = +1.00(在其左側)。要讀取小於Z = +1.00的曲線下的概率或面積,請向下掃描表中的Z列,直到在1.0的Zrow中找到感興趣的Z值(十分之一)。接下來,閱讀該行,直到與包含Z值的第100位的列相交為止。因此,在表的主體中,Z = 1.00的概率對應於行Z = 1.0與列Z = .00的交集。下表顯示了該交集。
在交叉點處列出的概率為0.8413,這意味著下載時間少於9秒的可能性為84.13%。下圖以圖形方式顯示了這種可能性。
但是,對於其他網站,您看到5秒的時間比4秒的平均時間高1個標準化單位。因此,下載時間少於5秒的概率也為0.8413。下圖顯示,不管正態分布變量的均值u和標準偏差σ如何,公式(2)都可以將X值轉換為Z值。
示例1
求P(X> 9)
MyTVLab網站的視頻下載時間超過9秒的概率是多少?
解:下載時間少於9秒的概率為0.8413。因此,下載時間將超過9秒的概率是1-0.8413 = 0.1587。下圖說明了此結果。
例2,
求P(X <7 or X> 9)
MyTVLab網站的視頻下載時間少於7秒或超過9秒的概率是多少?
解:要找到此概率,您可以分別計算下載時間小於7秒的概率和下載時間大於9秒的概率,然後將這兩個概率相加。下圖說明了此結果。
因為平均值是7秒,並且平均值等於正態分布中的中值,所以50%的下載時間在7秒以下。從例1中,您知道下載時間大於9秒的概率為0.1587。因此,下載時間低於7秒或超過9秒(P(X <7或X> 9))的概率為0.5000 + 0.1587 = 0.6587。
例3,
求P(5 <X <9)
MyTVLab網站的視頻下載時間在5到9秒之間(即P(5 <X <9))的概率是多少?
解:在下圖中,您可以看到感興趣的區域位於兩個值5和9之間。
例3的結果使您可以聲明,對於任何正態分布,這些值的68.26%將落在平均值的±1標準偏差之內。從下圖中,您可以看到95.44%的值將落在平均值的±2標準偏差之內。因此,95.44%的下載時間在3到11秒之間。
從下圖中可以看到,該值的99.73%在平均值的上下3個標準偏差之內。
從而。99.73%的下載時間在1到13秒之間。因此,不太可能(0.0027,或10,000中只有27)下載時間太快或太慢,以至於不到1秒或超過13秒。通常,您可以使用6σ(即均值以下3個標準偏差到均值以上3個標準偏差)作為正態分布數據範圍的實際近似值。
約68.26%的值落在平均值的±1標準偏差內
約95.44%的值落在平均值的±2標準偏差內
約99.73%的值落在平均值的±3標準偏差內
示例1至3要求您使用正態分布表在正態曲線下查找與特定X值相對應的面積。對於其他情況,您可能需要執行相反的操作:查找對應於特定區域的X值。通常,您可以使用公式來查找X值。
要找到與已知概率相關的特定值,請按照下列步驟操作:•繪製正態曲線,然後將平均值和X的值放在X和Z刻度上。
示例4
求出X值為0.10的累積概率。
MyTVLab視頻的最快10%下載完成之前需要多少時間(以秒為單位)?
解:由於預計10%的視頻將在X秒內下載,因此法線下小於該值的面積為0.1000。搜索麵積或概率為0.1000。最接近的結果是0.1003,如表所示
在正態分布線下找到對應於特定累積面積(0.10)的Z值
從該區域到表格的頁邊空白,您發現與特定的Z行(-1.2)和Z列(.08)相對應的Z值為1.28(見圖)。
找到Z後,即可使用公式確定X值。
替換u = 7、σ= 2和Z = -1.28,
X = u + Zσ
X = 7 +(-1.28)(2)= 4.44秒
因此,下載時間的10%為4.44秒或更短。
例5,查找包含95%下載時間的X值。
圍繞平均值對稱分布的X的下限值和上限值是多少,包括MyTVLab網站上視頻的95%的下載時間?
解:首先,您需要找到X的較低值(稱為XL)。然後,找到X的上限值(稱為Xu),因為95%的值在XL和Xu之間,並且XL和XU與平均值均等距離,所以2.5%的值在XL之下(參見圖)。
儘管X未知,但是您可以找到相應的Z值,因為曲線下的面積小於該Z的值為0.0250。使用表搜索概率0.0250。
從表格的正文到表格的頁邊距,您看到與特定的Z行(-1.9)和Z列(.06)相對應的Z值為-1.96。
找到Z後,最後一步是使用公式,如下所示:
您使用類似的過程來查找X。由於僅2.5%的視頻下載時間長於Xu秒,因此97.5%的視頻下載時間短於Xu秒。從正態分布的對稱性中,您會發現所需的Z值(如圖所示)為+1.96(因為Z位於標準化均值0的右側)。您還可以從表中提取此Z值。您可以看到曲線下的面積小於Z值+1.96,即為0.975。
因此,95%的下載時間在3.08到10.92秒之間。
您可以使用Excel來計算1個正態概率,而不是在表中查找累積概率。圖顯示了一個工作表,該工作表計算正常概率並找到與示例1至5類似的問題的X值。