一名合格的數據分析師,統計基礎不可或缺!

2021-01-08 CDA數據分析師

作者 | CDA數據分析師 來源 | CDA數據科學研究院

從事數據分析工作,統計基礎不可或缺。今天小編就來給大家好好梳理一下關於一名合格數據分析師所要掌握的統計基礎都有哪些,旨在為大家查缺補漏,讓大家的數據分析之路走得更紮實穩靠。

統計的基本任務是對經濟社會發展情況進行統計調查、統計分析,提供統計資料和統計諮詢意見、實行統計監督。統計的信息、諮詢和監督三大職能,是相互作用、相互促進、相輔相成和密切聯繫的。信息職能是統計最基本的職能,是保證諮詢和監督職能得以有效發揮的前提。諮詢和監督職能是在信息職能基礎上的拓展和深化,是在充分發揮信息資源作用的基礎上,對統計整體效能的提高。

按照所採用的計量尺度的不同,可以將統計數據分為分類數據、順序數據和數值型數據。

分類數據是只能歸於某一類別的非數字型數據,它是對事物進行分類的結果,數據表現為類別,是用文字來表述的。

順序數據是只能歸於某一有序類別的非數字型數據。順序數據雖然也是類別,但這些類別是有序的。

數值型數據是按數字尺度測量的觀測值,其結果表現為具體的數值。現實中所處理的大多數數據都是數值型數據。

分類數據和順序數據說明的是事物的品質特徵,通常是用文字來表述的,其結果均表現為類別,因而也可統稱為定性數據或稱品質數據;數值型數據說明的是現象的數量特徵,通常是用數值來表現的,因此也可以稱為定量數據或數量數據。

本文主要介紹了一名合格的數據分析師所應具備的統計基礎——統計描述。數據分析的前提就是要學會觀察數據,了解數據,統計描述包括對數據的圖表描述和統計量描述,它能讓我們對數據有一個直觀的認識,比如數據是否完整、是否存在異常、服從什麼分布、存在什麼規律等,為數據預處理和數據分析做準備。

內容框架

一. 圖表描述

1. 分類數據描述

(1) 頻數分布表——單變量分布表

主要用於計數和匯總一個分類變量的數據,通過它可以使頻數、比例等一目了然,從而為進一步分析做準備。

(2) 頻數分布表——雙變量列聯表

主要用於計數和匯總兩個分類變量的數據,通過它可以使兩個變量交叉分類的頻數、比例等一目了然,從而為進一步分析做準備。

(3) 條形圖

它可以用來展示各類別的絕對值和數據的分布特徵。它通過相同寬度條形的長短來表示各類別的數值大小。

(4) 帕累託圖

它可以用來比較各類別的頻數大小。它是按各類別數據出現的頻數多少排序後繪製的條形圖,通過對條形圖的排序,容易看出哪類數據出現得多,哪類數據出現的少。

(5) 餅圖

它可以用來展示一個樣本的結構。它通過一個圓來表示總的數值大小,用圓內各扇形的角度來表示各類別的數值大小。

(6) 環形圖

它可以顯示多個樣本各部分所佔的相應比例,從而用來比較多個樣本的結構。它是把餅圖疊在一起,挖去中間的部分;圖中每一個環都表示一個樣本,樣本中的每一部分數據則用環中的一段表示。

2. 順序數據描述

(1) 頻數分布表——累計頻數分布表

主要用於計數和匯總順序變量的數據,通過它可以使頻數、比例、累積頻數、累積頻率等一目了然,從而為進一步分析做準備。

(2) 累計頻數分布圖

主要是用於展示順序變量的累積頻數分布情況。它是將各類別按級別大小進行升序或降序排列在橫坐標上,用縱坐標表示各類別的頻率,然後用折線繪製出累積頻率。

3. 數值型數據描述

(1) 頻數分布表——分組表

主要是用於計數和匯總數值型分組數據。通過它可以使分組後的頻數、比例等一目了然,從而為進一步分析做準備。

用於展示數據分布特徵的圖形主要有以下幾種:

(2) 直方圖

它可以用來展示分組數據的分布特徵。它用矩形的面積來表示頻數分布,在矩形的高度表示每一組的頻數或頻率,寬度則表示各組的組距。

直方圖與條形圖的區別與聯繫:

區別:條形圖主要用來展示分類數據,其高度表示各類別頻數的多少,其寬度是固定的;直方圖則主要是用於展示數值型分組數據,是用面積表示頻數分布,矩形的高度表示每一組的頻數或頻率,寬度則表示各組的組距,因此其高度和寬度均有意義。且由於分組數據具有連續性,直方圖的各矩形通常是連續排列的,而條形圖則是分開排列的。

聯繫:二者都用來展示數據的分布情況;在平面直角坐標系中,二者的橫軸都表示分組,縱軸都可表示頻數或頻率大小。

(3) 莖葉圖

它不僅可以用來反映數據的分布特徵,還可以保留原始數據的信息,更適用於觀察少量數據的分布。它由「莖」和「葉」兩部分構成。繪製時,首先將一個數值分成兩部分,通常是以該數據的高位數值作為樹莖,而葉上只保留該數值的最後一個數字。

(4) 箱線圖

它不僅可以用來反映原始數據的分布特徵,還可以進行多組數據分布特徵的比較。繪製時,先找出數據的最大值、最小值、中位數和兩個四分位數;然後連接兩個四分位數畫出箱子;再將最大值和最小值與箱子相連,中位數在箱子中間。箱線圖還可用來尋找離群點,從而來處理數據的異常值。

用於展示時間序列的圖形:

(5) 線圖

它可以用於展示時間序列數據,反映現象隨時間變化的特徵。繪製時,時間一般繪在橫軸,觀測值繪在縱軸。一般情況下,橫軸應長於縱軸,縱軸數據下端應從「0」開始(若起始數據與「0」相差大,可採用折斷符號),以便於比較。

用於展示變量之間的關係的圖形主要有以下幾種:

(6) 散點圖(兩個數值型變量)

它可以用來展示兩個數值型變量之間的關係,一個變量在橫軸,一個變量在縱軸,通過觀察散點的趨勢判斷兩變量的相關性。

(7)氣泡圖(三個數值型變量)

它可以用來展示三個數值型變量之間的關係。第一個變量用橫軸表示,第二個變量用縱軸表示,第三個變量用氣泡的大小表示。

(8)矩陣散點圖(兩個以上數值型變量)

它可以用來同時比較多個變量兩兩之間的關係。

(9)雷達圖(兩個以上數值型變量)

它是從一點出發,用每一條射線代表一個變量,多個變量的數據的連成線就圍成了一個區域,多個樣本就能繪製多個區域 ,從而方便研究各樣本間的相似程度。

(10)輪廓圖(兩個以上數值型變量)

它是用橫軸表示各樣本,縱軸表示每個樣本的多個變量的取值,將不同樣本同一個變量的取值用折線連接,從而便於分析各個樣本之間的相似程度。

二. 統計量描述

1. 集中趨勢度量

(1) 分類數據:眾數

眾數是一組數據中出現次數最多的變量值,常用於反映一組分類數據的集中趨勢,且不受極端值影響。

(2) 順序數據:中位數、四分位數

中位數是一組數據排序後處於中間位置的變量值。四分位數是一組數據排序後處於25%和75%位置上的值。它們常用於反映一組順序數據的集中趨勢,且不受極端值影響。

(3) 數值型數據:平均數

平均數是一組數據相加後除以數據的個數得到的結果,它的計算公式有多種,如簡單平均數、加權平均數、幾何平均數。主要是用於反映一組數值型數據的集中趨勢,且易受極端值影響。

2. 離散程度度量

(1) 分類數據:異眾比率

異眾比率是指非眾數組的頻數佔總頻數的比例,它主要用于衡量眾數對一組數據的代表程度。其值越大,眾數的代表性越差;值越小,眾數代表性越好。

(2) 順序數據:四分位差

四分位差是上四分位數與下四分位數之差。它反映了中間50%數據的離散程度,其數值越小說明數據越集中,數值越大說明數據越發散。

(3) 數值型數據:方差和標準差

方差是各變量值與其均值離差平方的平均數。方差的平方根成為標準差。它們是實際中應用最廣的數值型數據離散程度測度值。其值越大,說明數據越分散。此外,還有極差、平均差等可以對離散程度進行測度。

此外,還有極差,平均差等統計量有時也可以反映數值型數據的離散程度,不過極差描述的效果不太好,而平均差則不方便計算,故不常用。

註:數值型數據的相對位置度量用標準分數(sc)如z=-1.5,則表示該數值低於平均數的1.5倍標準差,標準分數公式如下:

3. 分布形狀度量:偏態係數、峰態係數

(1) 偏態係數是對數據分布對稱性的測度,當分布對稱時,其值為0;分布左偏時,其值為負;分布右偏時,其值為正。

(2) 峰態係數是對數據分布平峰或尖峰程度的測度,它是通過與標準正態分布的峰態係數進行比較來實現的,當分布為正態時,其值為0;分布為尖峰時,其值為正;分布為平峰時,其值為負。

4. 相對離散程度:離散(變異)係數

離散係數是一組數據的標準差與其相應的平均數之比,其計算公式為:

它主要用來比較不同樣本之間的離散程度。離散係數越大,說明數據的離散程度越大;離散係數越小,則說明數據的離散程度越小。

相關焦點

  • 如何成為合格的數據分析師,需要考取哪些證書嗎?
    CDA數據分析師原創作品,轉載需授權數據分析師可謂是近幾年經常被業界提及和行業火熱招聘的一類職位,從15年大數據興起,到現在18年臨近年末,將近4個年頭的時光,大數據發展迅猛,數據分析師也跟著翻湧起來,
  • 如何成為一名數據分析師?
    因此,數據分析師也成為一個熱門的職業。那麼,數據分析師這個職業到底怎麼樣呢?首先,我們需要了解數據分析師是做什麼的。數據分析師 指的是不同行業中,專門從事行業數據搜集、整理、分析,並依據數據做出行業研究、評估和預測的專業人員。可以分為兩種:一種類似產品經理、一種偏向數據挖掘。
  • 大數據時代,數據分析師的報考條件是什麼?
    圍繞數據,人類已經做了很多數據科學的研究和應用工作,其中最為基礎的就是數據的存儲、傳輸。數據的價值在於數據上承載的信息,信息的價值在於消除不確定性的成本及其直接和間接的作用,而這一系列的價值使得我們對數據的價值予以空前的重視。什麼是數據分析師?
  • 一個成功的數據分析師的職業生涯
    數據分析師做什麼?數據分析員收集,處理和執行數據的統計分析,即使數據以某種方式或其他方式有用。它們幫助其他人做出正確的決策,並優先處理已收集的原始數據,以便使用某些公式和應用正確的算法使工作更輕鬆。如果你對數字,代數函數充滿熱情,並喜歡與其他人分享你的工作,那麼你將成為數據分析師。
  • 零基礎入門數據分析師——你可以做到!
    如果您計劃成為一名數據分析師,目標是提升數據獲取、數據分析、數據可視化的水平。但是網上資料一大堆,完全零基礎的你從哪開始學習?視頻下載了很多,無法堅持學習? 經常遇到問題,卻得不到及時解決,浪費大量寶貴時間。CDA數據分析研究院的老師指導您零基礎入門數據分析,以下將針對零基礎學員介紹數據分析的流程。
  • 一名數據分析師的「實戰解碼」
    一名數據分析師的「實戰解碼」■劉 永 解放軍報記者 李建文 特約記者 張 雷 通訊員 楊佳志中部戰區空軍雷達某旅數據分析師劉志成(右一)指導戰勤參謀完成作戰課題研究。調整改革後,博士劉志成成為中部戰區空軍雷達某旅首批數據分析師。他一頭扎進雷達情報數據的海洋,與戰友們一起攻克制約戰鬥力生成的諸多難題,打開了預警體系能力建設的一扇窗。結緣數據,目光鎖定戰場枯燥、燒腦,這是很多人對數據的第一印象。中部戰區空軍雷達某旅數據分析師劉志成卻覺得數據「有點意思」。
  • 數據科學家和數據分析師的區別在哪兒?
    有人會說,要成為一名數據科學家,要先從數據分析的工作做起。數據科學與數據分析用完全不一樣的工具和程式語言,數據科學是數據分析的一種形式,因為最終你是在與數據打交道轉換格式,進行可視化得出可用的結論。
  • 數據分析師的職位描述、資質和前景
    統計、計算、可視化和數據挖掘是數據分析師工作描述的各個方面。數據分析師,一般執行相同的功能,在一定程度上具有相同的資格。然而,特定的企業或行業可以塑造工作職責、技能、資格以及就業和晉升前景。職位概述:數據分析師專業人員做什麼?
  • 2020年怎麼能成為數據分析師,你想了解的都在這裡
    我們通常了解數據分析師首先我們要知道:數據分析師是幹什麼的?數據分析師的薪資?數據分析師需要的技能?所以對於公司來說,數據分析師應該是一個有靈魂的、能夠獨立思考的個體,而不是一個只會提數的工具人。02數據分析師的薪資 數據分析師的薪資有多少。
  • 零基礎轉行數據分析師是怎樣的體驗?
    這篇文章是根據將之前自己的知乎問答結合自己入職後的體驗進行修改分享給大家,如果有意轉行做數據分析師的進攻參考。這裡的數據分析師定位於偏業務的數據分析師,不談高大上算法和數倉之類的數據分析師。講這個之前還是要潑潑冷水,現在數據分析師的崗位被一些培訓機構炒的太熱,導致很多人被忽悠進這個行業。
  • 三個月從小白到數據分析師,都是靠著這份書單!
    如何快速成為數據分析師?是很多想轉行數據分析的人經常問的問題,數據分析設計多個領域的知識,內容繁雜,很多人沒有基礎的人自學起來,感覺摸不著頭腦,今天就圍繞數據分析師的成長路徑為大家整理了一個相對完整的從入門到進階的學習書單,內容較多,建議大家採取階段性學習。
  • Top30數據分析師常見面試題(附答案)!
    【IT168 評論】這是一個用數據說話的時代,也是一個依靠數據競爭的時代。各大網際網路公司都在不斷完善自己的數據分析團隊,數據分析師的薪酬也是水漲船高。業內人士透露,應屆畢業生的平均薪資大概在6K左右,1至3年經驗的大概在10K到20K之間,5至10年經驗的大概在25K以上。薪資還是十分誘人的,那麼,如何快速成長為一名年薪百萬的數據分析師呢?
  • 轉行數據分析師後悔了?脫穎而出才是關鍵!
    但又擔心轉行後的工作待遇達不到自己的預期,顧慮重重……時下的大數據時代與人工智慧熱潮,相信有許多對數據分析師或大數據分析師非常感興趣、躍躍欲試想著轉行的朋友,但面向整個社會,最不缺的其實就是人才,對於是否轉行數據分析行列,對於能否勇敢一次跳出自己的舒適圈,不少人還是躊躇滿志啊!畢竟好多決定,一旦做出了就很難再回頭了。
  • BI數據分析師,一個正在被悄悄淘汰的職業
    如果你正好是一名BI數據分析師或者在準備當BI數據分析師的路上,當你看到這個標題時可能就會開始各種不滿,淡定!先稍安勿躁,咱先聊聊為什麼我會這麼說,如果你有其他異議,歡迎在評論區提出!BI數據分析師這個職業現在怎麼樣?
  • CDA數據分析師認證3個級別對應的薪資標
    ,數據分析師也逐漸成為了一門搶手的職業。如何成為數據分析師?如何入行數據分析?教育是一個難題!在這個行業中,是否有高質量的證書?拿到證書後能找到多少薪資的工作?今天,我們來分析分析作為這個行業中的老牌,CDA數據分析師的等級標準。
  • 怎樣從數據分析師轉型數據科學家?
    數據分析師的首要作業是對數據進行搜集和處理,並通過統計算法分析已處理的結構化數據,從而為數據賦能,改進決策。數據科學家也會進行相似的作業,但對其提出了更高的要求。那麼,怎樣從數據分析師轉型數據科學家呢?
  • 數據分析師入坑指南
    從2015年回國加入百度,我已經在分析師這個行業工作了5年,也算是個milestone了。恰逢最近總有親戚家小孩請教畢業後怎麼找一份數據分析師的工作,而我在分析師的招聘方面也有一定的經驗,所以今天就來寫一寫我的想法。專業要求幾乎沒有要求,我曾經問過周圍的數據分析師, 大家的專業還是挺具有差異化的。
  • 重磅推薦:29本數據分析師值得一讀的經典好書
    數據分析師更應該是通才、了解數據的整個生態鏈,從數據產生、採集、存儲、提取、分析、挖掘、應用和展現等多方面均要有所涉獵,作為一名數據分析師必須要保存持續學習,而多看相關書籍並不斷總結實踐則成為學習提升的一個重要途徑,下面這些書應該是想要成為一名數據分析師或已是數據分析師需要提高的都值得一讀!!!
  • 第十二屆CDA數據分析師考試火熱報名中
    5月8日,CDA數據分析師認證考試中心正式發文通知:為做好疫情常態化防控,CDA第12屆考試將延期一個月進行。原定於6月底的第十二屆CDA數據分析師考試時間調整為7月25-26日兩天,請相關考生做好安排。此次延期為廣大考生爭取了更多的備考時間,也讓一些原本複習時間不充足的考生趕上了末班車。
  • 十圖看懂「CDA數據分析師」證書的含金量
    市面上有很多種數據分析師的證書,但是到底考哪一種讓人頭疼。今天帶大家一起看看「CDA數據分析師認證」的含金量如何。為想要投身於數據分析領域的人提供一點專業性意見。 2003年-依託於中國人民大學經濟學院,創立人大經濟論壇,成為經管領域最活躍的交流社區; 2006年-北京國富如荷網絡科技有限公司成立,運營人大經濟論壇; 2007年-論壇開展統計、數據分析相關培訓,開創了國內商業數據分析教育先河; 2013年-CDA數據分析師品牌成立,提供體系化的大數據、數據分析人才培養與認證;