正態分布及其應用

2020-12-07 新華網客戶端

隨著計算機的廣泛使用和人工智慧時代的來臨,數據量也越來越龐大。如何處理這些數據?如何從數據中發現規律,提煉有價值的信息?這些都是非常重要的問題。為此,很多人開始從事這些問題的研究工作,他們被稱為數據挖掘工程師。現在,讓我們一起來探索數據挖掘中的奧妙。

舉一個身邊的例子。我們先觀察某中學男生的身高數據,從中指出身高最高和最矮的同學,或者算出他們身高的平均值。之後,如果我們想要知道男生身高數據的分布情況,比如1.7米至1.75米之間,有多少人,佔所有男生的比例是多少,我們應該怎麼做?如圖1所示,我們可以畫出頻率分布直方圖,將身高最小值至最大值這一區間等分成若干組,統計每一組男生的人數和頻率。然後,在平面直角坐標系中,用橫坐標代表身高,縱坐標是每個小組的頻率除以相應的組距,並繪製出相應的矩形,每個矩形的面積就是該小組的頻率。

 

圖 1

從身高的頻率分布直方圖中我們可以看到,數據大致呈現「中間高,兩邊低」的特點。在十六七歲的男生中,超過1.85米和低於1.5米的人數都非常少,而大部分人的身高均集中在1.6米至1.75米之間。因此,雖然每個人的身高具有隨機性,但同一年齡同一性別的人群身高分布是有規律的。

這種規律性只在身高數據中體現,還是在自然界中普遍存在呢?英國生物統計學家法蘭西斯·高爾頓做了一個實驗。他在一塊木板上畫了一塊等腰三角形,並在三角形區域內釘上n+1層釘子。第1層釘2個釘子,第2層釘3個釘子,下面每一層都比上一層增加一個釘子,上一層的每個釘子都在下一層兩個釘子的中間位置。之後,在第n+1層的下面,放入n+2個球槽。

建成後,高爾頓從頂端逐個扔下小球,這些小球在下落過程中與眾多釘子發生碰撞,每次碰撞都會使得小球隨機向左或向右下落。隨著小球個數的增加,掉入各個球槽內的小球的個數會越來越多,堆積的高度也會不斷增加。最終,如圖2所示,各球槽將呈現出「中間高,兩邊低」的分布,與我們的身高數據分布非常相似。

圖 2

並且,如果進一步增加釘子的層數和小球個數,球槽中小球分布形成的曲線就會越來越光滑,最終趨向於圖3「中間高,兩邊低」的「鍾型」曲線,我們將這條曲線稱為正態分布密度曲線,簡稱正態曲線。

圖 3

我們通過觀察這條曲線可以發現,正態曲線是單峰的,有一條對稱軸。對稱軸所在的位置正是數據的平均值,用字母μ表示,例如我們的平均身高等。對比圖4中的兩條正態曲線,我們可以看出虛線對應的平均值更大。

圖 4

圖5中兩條正態曲線的平均值相同,但是形狀不同,實線的正態曲線更加「矮胖」,而虛線的正態曲線更加「高瘦」,我們用另一個希臘字母σ(σ>0)來刻畫這種「矮胖」或「高瘦」的程度。假設這兩條曲線分別代表了兩個班學生成績的分布情況。兩個班的平均成績相差較小,但虛線對應的班級學生成績更集中於平均成績附近,它的σ小,而實線對應的班級學生成績相對分散,它的σ大,可能出現兩極分化的情況。所以,σ反映了數據的離散程度,它代表了數據的標準差。知道了μ和σ這兩個參數,我們就能畫出正態曲線。

圖 5

我們也可以從另一個角度理解σ。正態曲線與直線χ=a,χ=b和x軸所圍成的圖像面積代表了數據在區間(a,b)所佔的比例。假設工廠生產某種零件,要求孔徑為10mm,但實際生產中會有誤差。如果孔徑的分布近似服從平均值為10mm,標準差為0.1mm的正態分布。那麼如圖7所示,孔徑落在9.9到10.1這一範圍的比例應該是0.683,這是數據分布的主體。孔徑落在9.3到10.3這一範圍的比例應該是0.997,落在該區間之外的機率非常小。如果出現比較多的產品超出了這一範圍,那麼我們可以懷疑生產過程出現了問題,這稱為「3σ原則」。在生產過程中,我們可以應用這一原則進行產品質量檢測。

圖 6

圖 7

圖 7

圖 7

正態分布在統計中是非常常用的分布,例如在醫學上,可以應用正態分布估計人體的某些生理指標,比如白細胞數的正常值範圍,白細胞數在正常人群中近似服從正態分布。我們可以制定一個上限和下限,比如95%的人在正常範圍之內,而超出這一範圍的人,我們就認為需要對其進行特殊關注。

本作品為「科普中國-科學原理一點通」原創,轉載時務請註明出處。

作者: 趙存宇   [責任編輯: 鍾豔平]

相關焦點

  • 第五章 正態分布與正常值範圍估計--第一節 正態分布及其性質
    第五章 正態分布與正常值範圍估計 第一節 正態分布及其性質   一群變量值可能用平均數描述集中的位置,用變異指標描述離散情況,而頻數表則把變量值的分布描繪得更具體。為了直觀還可把頻數表畫成直方圖。如第四章中曾將7歲男童坐高的頻數分布繪成圖4.1。
  • 怎樣用通俗易懂的文字解釋正態分布及其意義?
    0.0 神說,要有正態分布,於是就有了正態分布。*0.1 神看正態分布是好的,就讓隨機誤差都隨了正態分布。學過基礎統計學的同學大都對正態分布非常熟悉,但是很難用通俗的語言解釋什麼是正態分布,主要原因是正態分布需要有一個前置知識【中心極限定理】。如果誤差可以看成許多微小量的疊加,則根據中心極限定理[1],隨機誤差理所當然是正態分布[2]。
  • 幾種分布概述(正態分布/卡方分布/F分布/T分布)
    其概率密度函數為正態分布的期望值μ決定了其位置,其標準差σ決定了分布的幅度。我們通常所說的標準正態分布是μ = 0,σ = 1的正態分布。當μ=0,σ=1時,正態分布就成為標準正態分布N(0,1)。概率密度函數為:
  • 教學研討|2.4 正態分布
    ▍來源:網絡 研討素材一一、教學目標1、了解正態分布的意義2、掌握正態分布曲線的主要性質及正態分布的簡單應用3、利用正態分布的性質、特點解決高考中關於正態分布的問題二、學情分析學生整體基礎薄弱,不過全班大部分學生能跟上現有進度,上課發言積極,個別同學表現的比較出色三、重點難點重點:1.正態分布曲線的特點;2.正態分布曲線所表示的意義
  • 關於正態分布和貝塔分布的案例介紹
    打開APP 關於正態分布和貝塔分布的案例介紹 賈恩東 發表於 2020-10-12 11:25:57 正態分布 正態分布,是一種非常常見的連續概率分布,其也叫做常態分布(normal distribution),或者根據其前期的研究貢獻者之一高斯的名字來稱呼,高斯分布(Gaussian distribution)。正態分布是自然科學與行為科學中的定量現象的一個方便模型。
  • 偏度與峰度的正態性分布判斷
  • 如何使用標準正態分布表?
    正態分布這個概念在統計學中很常見,在做與正態分布有關計算的時候經常會用到標準正態分布表。
  • 正態分布的常用數據 - CSDN
    #尋找真知派#如上一篇文章所述,樣本所屬總體服從正態分布是數據分析和數據挖掘等數據處理的重要前提。如果我們採集的樣本並不能確認其總體是否服從正態分布,那麼數據處理的結果就是不可靠的。因此,對樣本數據進行正態分布檢驗十分必要。
  • 高中數學中二項分布與正態分布知道是什麼嗎?會計算相關問題嗎?
    二、相互獨立事件的概率相互獨立的兩個事件互不影響,符合:三、二項分布及其應用二項分布的簡單應用是求n次獨立重複試驗中事件A恰好發生k次的概率;即其均值和方差的求解既可以利用定義,也可以直接代入上述公式.
  • 數據正態分布的意義 - CSDN
    什麼是正態分布關於什麼是正態分布,早在中學時老師就講過了。通俗來講,就是當我們把數據繪製成頻率直方圖,所構成曲線的波峰位於中間,兩邊對稱,並且隨著往兩側延伸逐漸呈下降趨勢,這樣的曲線就可以說是符合數學上的正態分布。由於任何特徵的頻率總和都為100%或1,所以該曲線和橫軸之間部分的面積也為100%或1,這是正態分布的幾何意義。
  • 標準正態分布函數數值表怎麼查?
    最近在整理數據時,忽然想到數理統計的其中一種分布,相信作為質量人一定不陌生,我們常常提到數據的分布是否服從正態分布,這是對一組連續數據分布一種描述
  • 正態分布基本概念及Excel實現
    正態分布在統計中至關重要,主要有以下三個原因:正態分布由圖經典鐘形表示。在正態分布中,您可以計算值以一定範圍或間隔出現的概率。但是,由於將連續變量的概率測量為曲線下的面積,因此來自連續分布(例如正態分布)的特定值的確切概率為零。例如,時間(以秒為單位)被測量並且不計數。
  • 為什么正態分布如此常見?
    正態分布的英文名為:Normal Distribution,臺灣翻譯為常態分布,可見一斑。可是為什麼這麼常見呢?每個人都相信它(正態分布):實驗工作者認為它是一個數學定理,數學研究者認為他是一個經驗公式。
  • 從正態分布到冪率分布
    《連結》和《爆發》提到過,世界由兩個法則構成,一個是高斯法則,也就是正態分布。另一個是冪律法則,可以理解為二八法則,比如20%的人口佔據了80%的社會財富。 我們的世界中絕大部分事物它們發生情況的分布是正態分布(Normal distribution),即在某些情況下發生的可能性是很大的(紅色很高的山峰)。
  • 高考數學:次壓軸題新題型——概率之正態分布型!2019重點題型!
    高考數學:次壓軸題新題型——概率之正態分布型!2019重點題型!正態分布的應用,如隨機變量在某一區間取值的概率,一般以解答題的形式出現.解題時注意對相關概念的理解和相關公式的應用.1.正態曲線及其特點我們把函數x∈(-∞,+∞)(其中μ是樣本均值,σ是樣本標準差)的圖象稱為正態分布密度曲線,簡稱正態曲線.
  • 第三節 正態分布和醫學正常值範圍的估計
    為了應用方便,常將式(18.16)進行變量變換—u變換(即u=(X-μ)/σ),u變換後,μ=0,σ=1,使原來的正態分布變換為標準正態分布(standard normal distribution)亦稱u分布,如圖18-2。
  • 相關知識考點:標準正態分布
    1概率密度函數  當μ=0,σ=1時,稱X服從標準正態分布,記作X~N(0,1)。  服從標準正態分布的隨機變量記為U,它的概率密度函數記為。  若X~N(μ,σ2),則~N(0,1)。  實際中很少有一個質量特性(隨機變量)的均值恰好為0,方差與標準差恰好為1.一些質量特性的不合格品率均要通過標準正態分布才能算得,這一點將在後面敘述。  2標準正態分布表  標準正態分布函數表,它可用來計算形如「」的隨機事件發生的概率,記為。  正態分布N(0,1)的分位數。
  • 正態分布圖形的編輯
    分布密度=正態分布概率函數,分布密度=正態分布函數,最後一個參數給到0,=NORM.DIST(A7,$B$1,$B$2,FALSE)選擇0通俗的含義是,我們給到圖形中的高度.這個時候,你可以選擇分布密度的整個系列,插入一個堆積面積圖,則會得到:然後我們需要在這個面積圖的基礎之上,再給它一個面積堆積,達到自由切換的效果,而上圖藍色的部分則是基於我們的基本數據給出來的底層正態模型,自己切換或者變化的面積也必須要在這個藍色的面積範圍以內.
  • 一文搞懂「正態分布」所有重要知識點
    連續型隨機變量研究區間概率了解了正態分布的基本思想,我們來看看實際應用中我們需要掌握的要點。首先,正態分布屬於「連續型隨機變量分布」的一類。我們知道,對於連續型隨機變量,我們不關注「點概率」,只關注「區間概率」,這是什麼意思?
  • 如果數據分布是非正態的怎麼辦?用切比雪夫不等式呀!
    正態分布/超自然分布你覺得這是個玩笑?讓我告訴你,這不是笑料。這是嚇人的,真正的萬聖節精神!如果我們無法假設我們的大部分數據(商業、社會、經濟或科學根源) 至少近似「正態」(即它們是由一個高斯過程或多個這樣的過程的總和產生的),那麼我們就完蛋了!