作者 | CDA數據分析師 來源 | CDA數據科學研究院
從事數據分析工作,統計基礎不可或缺。今天小編就來給大家好好梳理一下關於一名合格數據分析師所要掌握的統計基礎都有哪些,旨在為大家查缺補漏,讓大家的數據分析之路走得更紮實穩靠。
統計的基本任務是對經濟社會發展情況進行統計調查、統計分析,提供統計資料和統計諮詢意見、實行統計監督。統計的信息、諮詢和監督三大職能,是相互作用、相互促進、相輔相成和密切聯繫的。信息職能是統計最基本的職能,是保證諮詢和監督職能得以有效發揮的前提。諮詢和監督職能是在信息職能基礎上的拓展和深化,是在充分發揮信息資源作用的基礎上,對統計整體效能的提高。
按照所採用的計量尺度的不同,可以將統計數據分為分類數據、順序數據和數值型數據。
分類數據是只能歸於某一類別的非數字型數據,它是對事物進行分類的結果,數據表現為類別,是用文字來表述的。
順序數據是只能歸於某一有序類別的非數字型數據。順序數據雖然也是類別,但這些類別是有序的。
數值型數據是按數字尺度測量的觀測值,其結果表現為具體的數值。現實中所處理的大多數數據都是數值型數據。
分類數據和順序數據說明的是事物的品質特徵,通常是用文字來表述的,其結果均表現為類別,因而也可統稱為定性數據或稱品質數據;數值型數據說明的是現象的數量特徵,通常是用數值來表現的,因此也可以稱為定量數據或數量數據。
本文主要介紹了一名合格的數據分析師所應具備的統計基礎——統計描述。數據分析的前提就是要學會觀察數據,了解數據,統計描述包括對數據的圖表描述和統計量描述,它能讓我們對數據有一個直觀的認識,比如數據是否完整、是否存在異常、服從什麼分布、存在什麼規律等,為數據預處理和數據分析做準備。
內容框架
一. 圖表描述
1. 分類數據描述
(1) 頻數分布表——單變量分布表
主要用於計數和匯總一個分類變量的數據,通過它可以使頻數、比例等一目了然,從而為進一步分析做準備。
(2) 頻數分布表——雙變量列聯表
主要用於計數和匯總兩個分類變量的數據,通過它可以使兩個變量交叉分類的頻數、比例等一目了然,從而為進一步分析做準備。
(3) 條形圖
它可以用來展示各類別的絕對值和數據的分布特徵。它通過相同寬度條形的長短來表示各類別的數值大小。
(4) 帕累託圖
它可以用來比較各類別的頻數大小。它是按各類別數據出現的頻數多少排序後繪製的條形圖,通過對條形圖的排序,容易看出哪類數據出現得多,哪類數據出現的少。
(5) 餅圖
它可以用來展示一個樣本的結構。它通過一個圓來表示總的數值大小,用圓內各扇形的角度來表示各類別的數值大小。
(6) 環形圖
它可以顯示多個樣本各部分所佔的相應比例,從而用來比較多個樣本的結構。它是把餅圖疊在一起,挖去中間的部分;圖中每一個環都表示一個樣本,樣本中的每一部分數據則用環中的一段表示。
2. 順序數據描述
(1) 頻數分布表——累計頻數分布表
主要用於計數和匯總順序變量的數據,通過它可以使頻數、比例、累積頻數、累積頻率等一目了然,從而為進一步分析做準備。
(2) 累計頻數分布圖
主要是用於展示順序變量的累積頻數分布情況。它是將各類別按級別大小進行升序或降序排列在橫坐標上,用縱坐標表示各類別的頻率,然後用折線繪製出累積頻率。
3. 數值型數據描述
(1) 頻數分布表——分組表
主要是用於計數和匯總數值型分組數據。通過它可以使分組後的頻數、比例等一目了然,從而為進一步分析做準備。
用於展示數據分布特徵的圖形主要有以下幾種:
(2) 直方圖
它可以用來展示分組數據的分布特徵。它用矩形的面積來表示頻數分布,在矩形的高度表示每一組的頻數或頻率,寬度則表示各組的組距。
直方圖與條形圖的區別與聯繫:
區別:條形圖主要用來展示分類數據,其高度表示各類別頻數的多少,其寬度是固定的;直方圖則主要是用於展示數值型分組數據,是用面積表示頻數分布,矩形的高度表示每一組的頻數或頻率,寬度則表示各組的組距,因此其高度和寬度均有意義。且由於分組數據具有連續性,直方圖的各矩形通常是連續排列的,而條形圖則是分開排列的。
聯繫:二者都用來展示數據的分布情況;在平面直角坐標系中,二者的橫軸都表示分組,縱軸都可表示頻數或頻率大小。
(3) 莖葉圖
它不僅可以用來反映數據的分布特徵,還可以保留原始數據的信息,更適用於觀察少量數據的分布。它由「莖」和「葉」兩部分構成。繪製時,首先將一個數值分成兩部分,通常是以該數據的高位數值作為樹莖,而葉上只保留該數值的最後一個數字。
(4) 箱線圖
它不僅可以用來反映原始數據的分布特徵,還可以進行多組數據分布特徵的比較。繪製時,先找出數據的最大值、最小值、中位數和兩個四分位數;然後連接兩個四分位數畫出箱子;再將最大值和最小值與箱子相連,中位數在箱子中間。箱線圖還可用來尋找離群點,從而來處理數據的異常值。
用於展示時間序列的圖形:
(5) 線圖
它可以用於展示時間序列數據,反映現象隨時間變化的特徵。繪製時,時間一般繪在橫軸,觀測值繪在縱軸。一般情況下,橫軸應長於縱軸,縱軸數據下端應從「0」開始(若起始數據與「0」相差大,可採用折斷符號),以便於比較。
用於展示變量之間的關係的圖形主要有以下幾種:
(6) 散點圖(兩個數值型變量)
它可以用來展示兩個數值型變量之間的關係,一個變量在橫軸,一個變量在縱軸,通過觀察散點的趨勢判斷兩變量的相關性。
(7)氣泡圖(三個數值型變量)
它可以用來展示三個數值型變量之間的關係。第一個變量用橫軸表示,第二個變量用縱軸表示,第三個變量用氣泡的大小表示。
(8)矩陣散點圖(兩個以上數值型變量)
它可以用來同時比較多個變量兩兩之間的關係。
(9)雷達圖(兩個以上數值型變量)
它是從一點出發,用每一條射線代表一個變量,多個變量的數據的連成線就圍成了一個區域,多個樣本就能繪製多個區域 ,從而方便研究各樣本間的相似程度。
(10)輪廓圖(兩個以上數值型變量)
它是用橫軸表示各樣本,縱軸表示每個樣本的多個變量的取值,將不同樣本同一個變量的取值用折線連接,從而便於分析各個樣本之間的相似程度。
二. 統計量描述
1. 集中趨勢度量
(1) 分類數據:眾數
眾數是一組數據中出現次數最多的變量值,常用於反映一組分類數據的集中趨勢,且不受極端值影響。
(2) 順序數據:中位數、四分位數
中位數是一組數據排序後處於中間位置的變量值。四分位數是一組數據排序後處於25%和75%位置上的值。它們常用於反映一組順序數據的集中趨勢,且不受極端值影響。
(3) 數值型數據:平均數
平均數是一組數據相加後除以數據的個數得到的結果,它的計算公式有多種,如簡單平均數、加權平均數、幾何平均數。主要是用於反映一組數值型數據的集中趨勢,且易受極端值影響。
2. 離散程度度量
(1) 分類數據:異眾比率
異眾比率是指非眾數組的頻數佔總頻數的比例,它主要用于衡量眾數對一組數據的代表程度。其值越大,眾數的代表性越差;值越小,眾數代表性越好。
(2) 順序數據:四分位差
四分位差是上四分位數與下四分位數之差。它反映了中間50%數據的離散程度,其數值越小說明數據越集中,數值越大說明數據越發散。
(3) 數值型數據:方差和標準差
方差是各變量值與其均值離差平方的平均數。方差的平方根成為標準差。它們是實際中應用最廣的數值型數據離散程度測度值。其值越大,說明數據越分散。此外,還有極差、平均差等可以對離散程度進行測度。
此外,還有極差,平均差等統計量有時也可以反映數值型數據的離散程度,不過極差描述的效果不太好,而平均差則不方便計算,故不常用。
註:數值型數據的相對位置度量用標準分數(sc)如z=-1.5,則表示該數值低於平均數的1.5倍標準差,標準分數公式如下:
3. 分布形狀度量:偏態係數、峰態係數
(1) 偏態係數是對數據分布對稱性的測度,當分布對稱時,其值為0;分布左偏時,其值為負;分布右偏時,其值為正。
(2) 峰態係數是對數據分布平峰或尖峰程度的測度,它是通過與標準正態分布的峰態係數進行比較來實現的,當分布為正態時,其值為0;分布為尖峰時,其值為正;分布為平峰時,其值為負。
4. 相對離散程度:離散(變異)係數
離散係數是一組數據的標準差與其相應的平均數之比,其計算公式為:
它主要用來比較不同樣本之間的離散程度。離散係數越大,說明數據的離散程度越大;離散係數越小,則說明數據的離散程度越小。