統計學入門級-描述性統計理論

2020-12-04 你要飛得更高

最近加入一個數據挖掘學習小組,熱心的群主制定了一個詳細的每周學習計劃,分為統計學和機器學習兩大知識點。學習完要提交作業,以文章輸出或者其它方式都行,現在開始第一周的統計學相關知識輸出啦,先上一張思維導圖。前面部分以文字為主,涉及到的數學公式放在最後。

01

一、集中趨勢

集中趨勢反映各數據向其中心值靠攏或聚集的程度。

㈠ 眾數

數據集合中出現次數最多的變量值被稱為眾數。眾數可能有一個,也可能有多個。如果所有數據出現的次數都一樣,那麼這組數據沒有眾數。高斯分布(正態分布)中,眾數位於峰值,和平均數、中位數相同。一般情況下,只有在數據量比較大的情況下,眾數才有意義。㈡ 中位數

將一組數據按大小順序排列後,處於中間位置上的變量值就是中位數。計算中位數有兩種情況,根據數據個數而定。中位數是一個位置代表值,同樣不受極端值的影響。

㈢ 分位數

也許大家都比較熟悉十分位數,百分位數,但對於四分位數就沒那麼了解了吧。四分位數是一組數據排序後處於25%(下四分位數)和75%(上四分位數)位置上的值。

箱線圖就是利用數據中的五個統計量:最小值、上四分位數、中位數、下四分位數與最大值來描述數據的一種圖。額,箱線圖經常應用在識別檢測異常值方面。

㈣ 平均數

平均數也稱為均值,是一組數據相加後除以數據個數得到的結果。它是集中趨勢的最主要測度值。對未經分組數據計算的平均數稱為簡單平均數,也就是常說的平均數。每年都會看到說哪個城市的平均薪資出爐了,大PK之類的,不看不知道,一看就扎心!

對分組數據計算的平均數稱為加權平均數幾何平均數n個變量值乘積的n次方根,主要用於計算平均比率。

對於具有單峰分布的大多數數據而言,眾數、中位數和平均數之間具有以下的關係:

如果數據是對稱分布,眾數=中位數=平均數如果數據是左偏分布,說明數據存在極小值,必然拉動平均數向極小值一方靠。而眾數和中位數是位置代表值,不受極值的影響,所以平均數< 中位數< 眾數如果數據是右偏分布,說明數據存在極大值,必然拉動平均數向極大值一方靠,則眾數< 中位數 < 平均數

均值、中位數、眾數優缺點:

02

二、離散程度

離散程度反映各數據遠離其中心值的趨勢。

㈠ 數值型數據

① 極差

極差:一組數據的最大值和最小值之差,也稱全距,用R表示。極差容易受極端值的影響,不能反映出中間數據的分散情況。

② 平均差

平均差也稱平均絕對離差平均偏差,它是各變量值與其平均數離差絕對值的平均數。平均差以平均數為中心,反映了每個數據與平均數的平均差異程度。為了避免離差之和等於零而無法計算平均差這個問題,因此採取了絕對值,以離差的絕對值來表示總離差。

③ 方差

方差是各變量值與其平均數離差平方的平均數。

④ 標準差

標準差是方差的平方根。

★ 注意 ★

方差和標準差能較好地反映出數據的離散程度,是應用最廣的離散程度的測度值。樣本方差是用樣本數據個數減1後去除離差平方和,其中樣本數據個數減1,即n-1稱為自由度與方差不同的是,標準差是有量綱的,它與變量值的計量單位相同,其實際意義比方差清楚。因此,在對實際問題進行分析時會更多地使用標準差。㈡ 順序數據

四分位差

四分位差 IQR(四分位距):是上四分位數和下四分位數之差。它反映了中間50%的數據的離散程度,其數值越小,說明中間的數據越集中,反之則越分散。同樣不受極值的影響。

㈢ 分類數據

異眾比率

異眾比率指非眾數組的頻數佔總頻數的比例。主要用于衡量眾數對一組數據的代表程度。異眾比率越大說明眾數的代表性越差,越小說明眾數的代表性越好。

㈣ 相對離散程度

離散係數

離散係數又稱變異係數, 它是一組數據的標準差與其相應的平均數之比。離散係數主要用於比較不同樣本數據的離散程度。離散係數大,說明數據的離散程度越大,離散係數小,說明數據的離散程度也小。

03

三、分布的形狀

㈠ 偏態係數

偏態是對數據分布對稱性的測度。測度偏態的統計量是偏態係數,用SK表示。SK的值越大,表示偏斜的程度越大。

如果一組數據的分布是對稱的,離差三次方(具體公式看後面的圖)後正負離差可以相互抵消,則SK等於0。如果分布是非對稱的,偏態係數有正有負。SK為正值時,表示正離差值較大,判斷為正偏或右偏。SK為負值時,表示負離差值較大,判斷為負偏或左偏。

㈡ 峰態係數

峰態是對數據分布平峰或尖峰程度的測度。測度峰態的統計量是峰態係數,用K表示。峰態通常是相對於標準正態分布而言的:

如果一組數據服從標準正態分布,則峰態係數的值為0;如果峰態係數的值明顯不等於0,則表明分布比正態分布更平或更尖,稱為平峰分布或尖峰分布。K大於0時為尖峰分布,數據分布更集中;小於0時為扁平分布,數據的分布越分散相關的數學公式如下:(手寫一遍,加深記憶,哈哈...)

方差、離散係數、偏態係數和峰態係數:

自認為是自己寫得很用心的一篇文章啦,嘻嘻!總體來說,上述知識也算消化了大半了,比較不熟悉的是後面的偏態係數和峰態係數,有待後面繼續深入探索。下周開始結合Python進行描述性統計實踐。在看的小夥伴們如果覺得對你有用的話點個在看,發現有不對的地方歡迎留言指正,謝謝~

相關焦點

  • 統計學之描述性統計 | Descriptive Statistics
    「統計學就像比基尼,你所看到的就是真實顯露的,但隱藏起來的才是至關重要的」——無名氏統計是有一些枯燥,但同時也可以很有趣,不是麼?我們知道統計學包括描述性統計和推論統計,而今天的主題是描述性統計的介紹。什麼是描述性統計呢?
  • 《中華醫學統計百科全書. 描述性統計分冊》
    描述性統計分冊》 作者 總主編:徐天和   分冊主編:田考聰書號 ISBN 978-7-5037- 6468-4開本 16開裝幀 平裝出版時間 2012年4月定價 38元內容簡介:    《中華醫學統計百科全書》是一部醫學統計參考工具書
  • 統計學——常用統計量以及統計三大分布
    統計學中最重要的提取信息的方式就是對原始數據進行一定的運算,得出某些代表性的數字,以反映數據某些方面的特徵,這種數字稱為統計量。用統計學語言表述就是:統計量是樣本的函數,它不依賴於任何未知參數。常用統計量① 樣本均值它反映出總體X數學期望的信息。樣本均值是最常用的統計量。② 樣本方差 它反映的是總體X方差的信息。樣本方差和樣本標準差也是最常用的統計量。
  • 小白快速上手數據分析模型10 | 描述性統計案例
    ○輸入:單列或者多列定量數據○輸出:對總體的各項統計指標(欄位)進行整體描述分析,包括樣本量、最大值、最小值等統計量描述性統計(又稱敘述統計)用於對調查總體所有變量的有關數據進行統計性描述。 ○ 集中趨勢中的主要統計指標有:中位數和幾何均數、算術均數(均數)等○ 離散趨勢中的主要統計指標有:分位數區間、方差、標準差、變異係數(CV)等○ 偏度和峰度可用於判斷數據正態性情況。
  • 統計學公開課大盤點
    在接觸了一些統計學公開課後,發現網絡上還有很多的免費的在線統計學課程可以用來學習和複習相關的知識點,只是缺乏一些整理和匯總。所以決定在這裡做一些系統的課程資源整理和匯總。 1、Udacity的「Introduction to Statistics(統計學導論課程)」 入門級課程,強烈推薦。
  • 數據分析必備——統計學入門基礎知識 - 人人都是產品經理
    編輯導語:不論在什麼崗位,都要懂得本崗位的基礎知識,打牢基礎後面才能穩步發展;數據分析也是如此,數據分析必須要掌握統計學的基礎知識;本文是作者分享的關於統計學入門基礎的知識,我們一起來學習一下吧。要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!
  • 數據分析必備——統計學入門基礎知識
    ——數據說·夢想季 導讀:要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。
  • 機器學習數學基礎:數理統計與描述性統計
    統計量與抽樣分布數理統計的任務是採集和處理帶有隨機影響的數據,或者說收集樣本並對之進行加工,以此對所研究的問題作出一定的結論,這一過程稱為統計推斷。從樣本中提取有用的信息來研究總體的分布及各種特徵數就是構造統計量的過程, 因此,統計量是樣本的某種函數。
  • 機器學習最佳統計書籍推薦
    然而,很不幸,許多計算機科學和軟體工程的必修課程中,並沒有並統計學。而統計學也是一門很注重理論,必須遵循以自下而上的,理論為先的學習路線,往往給人感覺就是找不著"北"。本文中,蟲蟲給你推薦一些關於數據統計的最佳入門書籍,讓你通過這些世界著名的教材幫你找到應用數據統計"北",從而打下一個很好的統計學基礎。
  • 統計學的實質是什麼?--寫給所有將要或者正在學習統計學的朋友們
    ,通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計現代統計學誕生於19世紀末20世紀初,奠基人Karl.Pearson與其前輩們一起,將統計學方法用來描述事物客觀現象。更準確來說,他們在大規模群體的基礎上,用一種數學的參數(比如均數、標準差)描述事物的狀態。隨後,另外一位取得卓越成就的現代生物統計學大師Fisher認為,統計學可用小樣本的信息來推斷真實世界的事物特徵。
  • 統計學速成班:谷歌首席決策工程師的一分鐘入門指南
    頻率學派統計學(也被稱為古典統計學)大多出現在日常生活中或者像STAT101這種統計學入門課程中,因此本文也對這類經典的理論進行介紹。假設是對現實世界的一種「可能的」描述。為了得到上面問題的答案,我們可以查看兩個統計參數,P值和置信區間。P值理論是統計學中重要的一部分。
  • 範劍青摘取統計學桂冠 獨創精確統計法「非參數建模」
    歲以下的統計學最傑出的學者,有國際統計學界「諾貝爾」獎之稱。     現為香港中文大學教授、統計系主任的範劍青,是以獨創精確統計法「非參數建模」在許多領域有著廣泛應用而得獎的。     範劍青首創的「非參數建模」理論的基本思想,是讓數據本身透過電腦自動尋找一個統計模型來描述和刻畫。該模型能尋找最精確的非線性系統來預報未來和描述變量之間的內在關係。這就完全避免了傳統的參數模型帶來的人為偏差,而且也節省了許多人力。
  • 生物統計學-數理統計對生命的詮釋
    Inference-統計推斷Modern Regression Analysis-現代回歸分析Statistical Computing-統計計算Stochastic Processes-隨機過程Multivariable Calculus-多元微積分Theoretical and applied statistics-理論和應用統計學One statistical system R(SAS)-一門統計學軟體比如
  • 描述性統計分析指標介紹
    描述性統計分析對調查總體所有變量的有關數據進行統計性描述,主要包括數據的頻數分析、集中趨勢分析、離散程度分析、分布以及一些基本的統計圖形。下面介紹一些常用統計描述指標。一、分類變量的常用描述指標頻數:在一組依大小順序排列的測量值中,當按一定的組距將其分組時出現在各組內的測量值的數目,分類變量的頻數即落在各類別中的數據個數。
  • 帶你一文了解描述性統計分析
    一般做數據分析的時候,對數據的探索性分析是第一步,均值等集中趨勢的指標是最常用的,像大眾點評的評分,不就是由消費者的評分的平均數所得麼~豆瓣評分,人均工資,人均消費,人均GDP等等,都是些簡單的描述性統計;結婚率,離婚率,男女佔比,各類佔比,都是描述性統計中簡單的頻數分析而已。
  • 醫學論文稿件中常見的統計描述問題
    統計學在醫學科學研究中佔有重要地位,統計學內容豐富且不斷發展,如未充分了解,容易導致在科研過程中普遍誤用。下面,達晉編譯對國內外醫學論文中常見的統計描述問題進行歸納:一、統計圖表問題。在對研究資料或研究結果進行描述時,統計表和統計圖是呈現數據特徵和分析結果的重要工具。製作統計表時要求層次清楚、主次分明、符合邏輯。醫學論文中的統計表經常存在以下問題:1.主謂顛倒:統計表的標目由橫標目(主語)和縱標目(謂語)構成,主語(被研究的事物)一般置於表的左側,謂語(說明主語的各項指標)一般置於表的右側,醫學論文中經常會發生主謂安排不合理或重複的情況。
  • 概率論從入門到放棄?布朗學霸火到宕機的作品,讓統計「看得見」
    即使是這樣的聰明人,也曾經飽受統計學摧殘。儘管並不是數學系的學生,但統計學仍然是Daniel Kunin的課程。「我當時想往生物化學領域發展,但覺得要學習計算機編程」。Daniel Kunin在大一選了學校裡Caroline Klivans教授的統計學入門。
  • 數據分析入門學習指南,零基礎小白都能輕鬆看懂
    DT時代,數據正在呈指數級增長。Excel對十萬條以內的數據處理起來沒有問題,但是往小處說,但凡產品有一點規模,數據都是百萬起。這時候就需要學習資料庫。會在招聘條件中,越來越多的產品和運營崗位,將會SQL作為優先的加分項。SQL是數據分析的核心技能之一,從Excel到SQL是數據處理效率的一大進步。
  • 數據的基石丨美國統計學專業排名一覽
    舉個例子,今年的美國大選熱鬧吧,在大選之前,無論是川普的川粉,還是拜登的擁躉,都堅定地認為自己這一方會取得勝利,支持性論據就是——民調,而支撐民調結論準確性的基石就是統計學。 正是市場加大了對數據方面人才的需求,統計學也是近年來非常熱門的申請專業之一。
  • 19個數學和統計學公開課推薦
    內容目錄:初級數學水平/統計學數據科學數學技巧描述統計學入門推論統計學入門概率和數據入門無處不在的數學:有限數學應用概率:基礎概念&離散隨機變量數學生物統計學訓練營 1線性代數應用 第一部分數學思維入門中級數學水平/統計學貝葉斯統計學:從概念到數據分析博弈論 1博弈論 2 :高級應用數據科學的高級線性模型 1:最小二乘數據科學的高級線性模型