統計學——常用統計量以及統計三大分布

2020-12-05 你要飛得更高

統計學中最重要的提取信息的方式就是對原始數據進行一定的運算,得出某些代表性的數字,以反映數據某些方面的特徵,這種數字稱為統計量。用統計學語言表述就是:統計量是樣本的函數,它不依賴於任何未知參數。

常用統計量

① 樣本均值

它反映出總體X數學期望的信息。樣本均值是最常用的統計量。

② 樣本方差

它反映的是總體X方差的信息。樣本方差和樣本標準差也是最常用的統計量。

③ 樣本變異係數

變異係數

樣本變異係數反映出變異係數的信息。變異係數反映出隨機變量在以它的均值為單位時取值的離散程度。此統計量消除了均值不同對不同總體的離散程度的影響,常用來刻畫均值不同時不同總體的離散程度

④ 樣本k階矩

反映出總體k階矩的信息。顯然,k=1時就是樣本均值。

⑤ 樣本k階中心矩

反映出總體k階矩的信息。顯然,k=2時就是樣本方差。

⑥ 樣本偏度

反映出總體偏度的信息。偏度反映了隨機變量密度函數曲線在眾數(密度函數在這一點達到最大值)兩邊的偏斜性。如果

,則偏度為0。

⑦ 樣本峰度

它反映出總體峰度的信息。峰度反映了密度函數曲線在眾數附近的「峰」的尖峭程度。如果滿足

,則峰度為0。

統計三大分布

精確的抽樣分布大多是在正態總體情況下得到的。在正態總體條件下,主要有卡方分布,t分布,F分布,常稱為統計三大分布。

χ2分布

χ2分布即卡方分布。若隨機變量X,X,… , Xn相互獨立,且數學期望為0,方差為1(即服從標準正態分布),則隨機變量X

稱為服從自由度為n的卡方分布。

卡方分布的示意圖

由圖中可以看出,當自由度足夠大時,卡方分布的概率密度曲線趨於對稱。當n—> +∞ 時,卡方分布的極限分布是正態分布。

卡方分布的數學期望為:

卡方分布的方差為:

χ2分布具有可加性,即若

獨立,則

t分布

t分布也稱為學生氏分布。設隨機變量X ~ N(0,1),Y~χ2(n),且X與Y獨立,則

其分布稱為t分布,記為t(n),其中n為自由度。

t分布的示意圖

由上圖可以看出:

t分布的密度函數曲線與標準正態分布N(0,1)的密度函數曲線非常相似,都是單峰偶函數。t(n)的密度函數的兩側尾部要比N(0,1)的兩側尾部要粗一些。t(n)的方差比N(0,1)的方差要大一些。自由度為1 的分布稱為柯西分布,隨著自由度n的增加,t分布的密度函數越來越接近標準正態分布的密度函數。一般當n≥30時,t分布與標準正態分布就非常接近。

當n≥2時,t分布的數學期望:E(t) = 0 當n≥3時,t分布的方差:D(t) = n/(n-2)F分布

F分布有著廣泛的應用,在方差分析、回歸方程的顯著性檢驗中有著重要的地位。

設隨機變量Y與Z相互獨立,且Y和Z分別服從自由度為m和n的χ2分布,隨機變量X有如下表達式:

則稱X服從第一自由度為m,第二自由度為n的F分布,記為F(m, n),簡記為X ~ F(m, n)。

F分布的密度函數的圖形如圖

隨機變量X服從F(m, n)分布,則數學期望和方差分別為:

中心極限定理

中心極限定理:設從均值為μ,方差為σ(有限)的任意一個總體中抽取樣本量為n的樣本,當n充分大時,樣本均值x的抽樣分布近似服從均值為μ,方差為σ/n 的正態分布。

我們常把證明其極限分布為正態分布的定理統稱為中心極限定理。中心極限定理要求n必須充分大,究竟要多大才算充分大呢?這和總體的分布形狀有關。總體離正態越遠,要求n越大。

推薦:統計學入門級-描述性統計理論

相關焦點

  • 統計學之描述性統計 | Descriptive Statistics
    「統計學就像比基尼,你所看到的就是真實顯露的,但隱藏起來的才是至關重要的」——無名氏統計是有一些枯燥,但同時也可以很有趣,不是麼?我們知道統計學包括描述性統計和推論統計,而今天的主題是描述性統計的介紹。什麼是描述性統計呢?
  • 數據的分布形態:偏態係數與峰態係數
    統計學說到底了集中趨勢和離散程度是數據分布的兩個重要特徵,尤其是均值和標準差。對於正態分布,只要知道了均值和標準差,就可以確定其分布。但對於未知的分布,要想全面了解數據分布的特點,我們不僅要掌握數據的集中趨勢和離散程度,還需要知道數據分布的形狀是否對稱、偏斜的程度以及分布的扁平程度等,統稱為分布的形態。偏態和峰態就是對分布形態的測度。
  • 徵服統計學01|什麼是統計分布?
    ❝之前讀書期間學的概率統計什麼的都忘得七七八八了,工作中也常在用,一直想系統再學習下,苦於無好的教材,最近發現了一個有趣的統計學課程(「 StatQuest!」 )現在決定站在巨人的肩膀上系統梳理一遍統計學基礎知識,希望能學到最後~~~。 StatQuest!
  • 正態分布的常用數據 - CSDN
    scipy.stats.normaltest(X)該函數輸出兩個結果,第一個為檢驗統計量,第二個為p值。如果p值大於0.05(常用顯著水平)即可認定總體服從正態分布。使用偏度和峰度擬合優度檢驗的還有Jarque–Bera檢驗法。其統計量為
  • 湖南工商大學432統計學2020年初試考試大綱
    2020年碩士研究生入學考試自命題考試大綱 考試科目代碼:[432] 考試科目名稱:統計學 適應專業:應用統計專業學位碩士 一、試卷結構 1、試捲成績及考試時間
  • 統計學最常用的「數據分析方法」清單(一)|信度|卡方|施測|統計量|...
    一、描述統計  描述統計是通過圖表或數學方法,對數據資料進行整理、分析,並對數據的分布狀態、數字特徵和隨機變量之間關係進行估計和描述的方法。描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。  1. 集中趨勢分析  集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。
  • 統計學筆記|最大似然估計以及似然比檢驗
    當我們知道數據服從正態分布,且同時知道分布中的均值和標準差,我們便可計算每個值發生的可能性。而如果我們不知道分布中的均值和標準差,但是可以觀測到已經發生的一些值,我們便可通過構建統計量去計算分布中的均值和標準差。    將觀測值x與要估計的參數θ之間構造一個函數,這個函數就是似然函數:L(θ|x),似然函數L(θ|x)在數值上等於每一個x取值的概率乘積。
  • 【乾貨】統計學×數據分析|信度|卡方|施測|統計量|正態分布_網易...
    描述統計分為集中趨勢分析和離中趨勢分析和相關分析三大部分。  集中趨勢分析  集中趨勢分析主要靠平均數、中數、眾數等統計指標來表示數據的集中趨勢。 例如被試的平均成績多少? 是正偏分布還是負偏分布?  離中趨勢分析  離中趨勢分析主要靠全距、四分差、平均差、方差(協方差: 用來度量兩個隨機變量關係的統計量)、標準差等統計指標來研究數據的離中趨勢。 例如,我們想知道兩個教學班的語文成績中,哪個班級內的成績分布更分散,就可以用兩個班級的四分差或百分點來比較。  相關分析  相關分析探討數據之間是否具有統計學上的關聯性。
  • 統計知識不容忽視:數據科學家必須了解的統計學
    這些統計學概念有助於我們更好地理解不同模塊和各種技術,它們是數據科學、機器學習和人工智慧領域很多概念的基礎。1.集中趨勢度量集中趨勢的一個度量是找到一組數據中間位置的數值,用它來描述這一組數值。常用的三種度量數值是:· 均值是數據總值的平均數。
  • Python+統計學 | 探索常用的數據分析統計分布
    蒙特卡洛方法的名字來源也頗為有趣,相傳另一位發明者烏拉姆的叔叔經常在摩洛哥的蒙特卡洛賭場輸錢,賭博是一場概率的遊戲,故而以概率為基礎的統計模擬方法就以這一賭城命名了。使用統計模擬,首先要產生隨機數,在Python中,numpy.random 模塊提供了豐富的隨機數生成函數。
  • 生物統計學-數理統計對生命的詮釋
    這個專業非常Interdisciplinary ,跟統計、生物信息、計算機(尤其是 data mining)等關係很密切。「生統學什麼?在美國的專業設置以及課程設置是怎樣的?Inference-統計推斷Modern Regression Analysis-現代回歸分析Statistical Computing-統計計算Stochastic Processes-隨機過程Multivariable Calculus-多元微積分Theoretical and applied statistics-理論和應用統計學One statistical system R(SAS)-一門統計學軟體比如
  • 卡方分布與卡方檢驗
    -distribution)是概率統計裡常用的一種概率分布,也是統計推斷裡應用最廣泛的概率分布之一,在假設檢驗與置信區間的計算中經常能見到卡方分布的身影。我們先來看看卡方分布的定義: 若k個獨立的隨機變量Z1,Z2,⋯,Zk,且符合標準正態分布N(0,1),則這k個隨機變量的平方和
  • 醫學科研論文中常見的統計學問題
    統計學在醫學科研工作中發揮著重要的作用,統計學方法種類繁多,各自的適用範圍以及所需的前提條件又不盡相同,容易發生誤用,導致論文質量不高,甚至結論錯誤而引起誤導。表現為論文中只有假設檢驗的結論,未註明檢驗方法、現有樣本算得的檢驗統計量、檢驗水準、採用的是雙側檢驗還是單側檢驗、P值的確切範圍。這樣讀者就無法得出論文中統計學方法選擇是否合理,無法核對結果是否準確。在論文寫作時,不但要註明選用的是什麼統計學方法,而且要儘可能詳細、具體。六、錯誤理解假設檢驗中P值的含義。
  • 乾貨匯總:統計學及統計軟體學習資源(0520)
    本公眾號編寫的書籍及配套文件下載國內首部MedCalc工具書:《MedCalc統計分析方法及應用》,回復「MedCalc」《Minitab 統計分析方法及應用(第2 版)》,回復「Minitab17」《SPSS常用統計分析教程
  • 統計學常用概念|T檢驗、F檢驗、卡方檢驗、P值、自由度
    F值和t值就是這些統計檢定值,與它們相對應的概率分布,就是F分布和t分布。統計顯著性(sig)就是出現目前樣本這結果的機率。2,統計學意義(P值或sig值) 結果的統計學意義是結果真實程度(能夠代表總體)的一種估計方法。
  • AP統計沒煩惱:解析最經典的三種概率分布|統計概率
    今天我們來科普一下在概率論當中非常典型的三種概率分布:分別叫做伯努利分布、二項分布以及正態分布。通過這三種分布的關係來跟大家分析一下考試好壞到底何天賦有何關係。這三種分布同樣也會出現在AP統計的考試當中,但是作為科普文,今天只重點討論三種分布之間的關係,而不會涉及到過多的計算和證明。(此文章可放心食用)伯努利分布我們先來從伯努利實驗談起。
  • 數據分析必備——統計學入門基礎知識
    ——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。
  • 常見數據分布-機器學習與數據分析常用術語(三)
    5.HypergeometricDistribution(超幾何分布)超幾何分布是統計學上一種離散概率分布。它描述了由有限個物件中抽出n個物件,成功抽出指定種類的物件的次數(不歸還)。7.UniformDistribution(均勻分布)在概率論和統計學中,均勻分布也叫矩形分布,它是對稱概率分布,在相同長度間隔的分布概率是等可能的。
  • 中山大學《醫學統計學》中英文雙語公開課
    模塊一 《衛生統計學》理論課(中文授課)第1講緒論第2講定量變量的統計描述第3講定性變量的統計描述第4講常用概率分布第5講參數估計基礎第6講假設檢驗基礎第7講方差分析基礎第8講卡方檢驗第9講基於秩次的非參數檢驗第10講兩變量關聯性分析
  • 2008年1月浙江省自學考試心理統計真題
    A.0.133 B.0.183C.1.58 D.3.586.統計學中最常見,應用最廣的一種分布是(   )A.概率分布 B.t分布C.正態分布 D.F分布7.如果相互關聯的兩變量的變化方向一致(同時增大或同時減小),這表明兩變量之間有(   )A.完全相關 B.負相關C.正相關 D