人人都是數據分析師之統計分析

2020-12-06 DataFocus

前面三章介紹了DataFocus可視化視圖,本章主要介紹運用視圖進行統計分析的幾種方法。

7.1節介紹二八法則和帕累託圖的運用。

7.2節介紹如何進行平均分析,包括算數平均分析以及加權平均分析。

7.3節介紹時間序列分析相關概念。

7.4節介紹基本散點圖以及高級散點圖的運用。

7.5介紹常用的增速比較,包括同比、環比和定基比。

本章用到四個數據源:

「採購數據」,其中每條記錄代表在一個供應商的購買金額,欄位包括供應商代碼、購買金額。

「學生成績表」,其中每條記錄代表一位學生的成績,欄位包括姓名、小測、期中、期末。

「客服接聽數據」,其中每條記錄代表一條接聽記錄,欄位包括中心、部、班、日期、人工服務接聽量等。

「銷售數據」,其中每條記錄代表一條訂單,欄位包括產品類別、區域、訂單日期、銷售金額等。

7.1 二八法則

義大利經濟學家巴萊多在19世紀末20世紀初提出了二八定律(也稱二八法則、巴萊多定律)。在二八法則中,他認為,相對少量的原因通常造成大多數的問題和缺陷,即80%的問題是由20%的原因導致的。舉個例子,在現實生活中我們可以看到,超市所有商品中的20%的商品帶來了當月營業額的80%的利潤,所有產品中,最重要的也許只有那20%,即「至關重要的極少數」。二八法則非常適用於目前這個信息高速膨脹的網際網路時代,為了能更高效合理的利用企業的渠道資源,例如時間、成本等,產生更多的利潤價值和社會競爭力。

在數學上,帕累託圖在概念上與二八法則有關,因此二八法則也被叫做帕累託法則。帕累託圖是按照一定的類別,根據發生頻率的大小順序繪製直方圖,並計算出其分類所佔的比例展示比例累積和的圖形。

本節我們以某企業的物料採購金額數據為例繪製一個帕累託圖,從而快速定位有重要貢獻的供應商。在本圖中,橫軸為供應商代號,縱軸為採購金額,其中柱狀圖顯示採購金額從高到低供應商排序,折線圖則表示金額累計百分比沿著橫軸的變化情況。如圖7-1-1所示,當累計百分比為80%時,供應商大致為6家,一共30家供應商,即該企業80%的物料採購是被20%的供應商所承擔的,因此這20%的供應商是該企業的主要供應來源。

圖7-1-1 帕累託圖

1.數據準備

導入「採購數據.xls」數據源,在本案例中需要用到的欄位為「供應商代碼」和「購買金額」。

2.創建帕累託圖

進入搜索頁面,選擇數據源「採購數據.xls」。雙擊選擇「供應商代碼」、「購買金額」欄位入搜索匡,系統智能呈現環圖,見圖7-1-2。

圖7-1-2 搜索欄位

切換圖形為帕累託圖,見圖7-1-3。

圖7-1-3 切換圖形

將購買金額按降序進行排序,見圖7-1-4。

圖7-1-4 欄位排序

最後得到帕累託圖如圖7-1-5所示。

圖7-1-5 帕累託圖視圖

7.2 平均分析

平均分析法是通過平均數指標,反映事物目前所處的位置和發展水平。在運用平均分析法時,對不同的特徵數據所採用的的平均指標有所不同,本節將舉例算數平均數。算數平均數分為簡單算術平均數和加權平均數。簡單算數平均數即為將數據集合中所有數據之和除以數據個數;加權平均數是計算具有不同權重的數據的算數平均數。

在本節中我們使用「學生成績表」數據源,對學生的期末綜合成績進行評估。如圖7-2-1和圖7-2-2所示,得到兩種不同平均指標下的綜合成績排名前10的學生。其中,在加權平均分析中,小測成績權重為20%,期中成績權重為30%,期末成績權重為50%。

圖7-2-1 算數平均分析圖

圖7-2-2加權平均分析圖

1.數據準備

導入「學生成績.xls」數據源,在本案例中需要用到的欄位為「姓名」、「小測」、「期中」、「期末」。

2.創建算數平均數視圖

進入搜索頁面,選擇「學生成績.xls」數據源。增加「算數平均」公式欄位,見圖7-2-3。

圖7-2-3 增加「算數平均」公式欄位

雙擊選擇「姓名」、「算數平均」欄位入搜索框,並切換圖形為柱狀圖,見圖7-2-4。

圖7-2-4 基礎算數平均視圖創建

在搜索框中輸入「排名前10的算數平均的總和」,篩選出綜合成績排名前10 的學生,見圖7-2-5。

圖7-2-5 排序

選擇配置選項為顯示數據標籤,得到算數平均分析視圖,如圖7-2-6所示。

圖7-2-6算數平均分析視圖

增加「加權平均」公式欄位,見圖7-2-7。

圖7-2-7 增加「加權平均」公式欄位

雙擊選擇「姓名」、「加權平均」欄位入搜索框,並切換圖形為柱狀圖,見圖7-2-8。

圖7-2-8基礎加權平均視圖創建

在搜索框中輸入「排名前10的加權平均的總和」,篩選出綜合成績排名前10 的學生,見圖7-2-9。

圖7-2-9 排序

選擇配置選項為顯示數據標籤,得到加權平均分析視圖,如圖7-2-10所示。

圖7-2-10 加權平均分析視圖

7.3 時間序列分析

時間序列分析經常應用在觀察變量隨時間變化的某種趨勢。時間序列圖以時間作為橫軸,縱軸放置不同時間點上變量的取值。

下面以客服接聽數據為例,創建各個部按日的人工服務接聽量的時間序列圖和按周的人工服務接聽量的時間序列圖。

(1)進入搜索頁面,選擇「客服接聽數據」數據源。

(2)雙擊選擇「部」、「人工服務接聽量」、「日期」欄位入搜索框,智能呈現折線圖。

(3)適當修改主題顏色和線條粗細,見圖7-3-1。

圖7-3-1 修改主題顏色和線條粗細

得到時間序列圖如圖7-3-2所示。

圖7-3-3 時間序列圖

(4)如果想看按周的人工服務接聽量時間趨勢,可以在搜索框中輸入「每周」,此時數據以周為單位統計。還可以適當修改線條樣式,見圖7-3-4。

圖7-3-4修改線條樣式

得到周_時間序列圖如圖7-3-5所示。

圖7-3-5 周_時間序列圖

7.4 散點圖與相關分析

散點圖一般用於發現兩個連續變量或多個變量之間的關係,通常可以通過散點圖大致看出變量之間的相關關係,當存在大量數據點時結果更精準。

7.4.1創建基本散點圖

本小節以客服接聽數據為例,來直觀展示每個班的人工服務接聽量總和。

(1)選擇「客服接聽數據」數據源,雙擊選擇「人工服務接聽量」、「部」入搜索框,切換圖形為散點圖,見圖7-4-1。

圖7-4-1 基本散點圖繪製

得到基本散點圖如圖7-4-2所示。

圖7-4-2 基本散點圖

7.4.2創建高級散點圖

本小節將分析人工服務接聽量和平均呼入通話時長之間的關係。

(1)增加「平均呼入通話時長」欄位,見圖7-4-3。

圖7-4-3 增加「平均呼入通話時長」欄位

(2)增加「部門」欄位,將「中心」和「部」數據列進行整合,見圖7-4-4。

圖7-4-4 增加「部門」欄位

(3)雙擊選擇「人工服務接聽量」、「平均呼入通話時長」、「部門」、「工號」入搜索框,並在「人工服務接聽量」欄位後鍵入「的平均值」,切換圖形為散點圖,見圖7-4-5。

圖7-4-5 創建散點圖

(4)為了更好的查看數據分布,可以設置參考線。設置圖表屬性——標度,選擇平均值,以直線形式呈現,見圖7-4-6。

圖7-4-6 設置平均值標度

得到高級散點圖如圖7-4-7所示。從圖中可以看出:平均人工服務接聽量的數據分布比較分散;平均呼入通話時長大致服從正態分布,大部分客服的平均通話時長集中在100秒——150秒。

圖7-4-7 高級散點圖

7.5 環比同比定基比

在業務分析中,在時間上的業務發展速度是必要的分析指標。一般可分為同比增速、環比增速、定基比增速。增長速度可以是正數,也可以是負數。正數表示增長,負數表示降低。選擇合適的圖形進行可視化可以一目了然的跟進業務成果,一般比較常用折線圖、瀑布圖等。本節我們以某零售企業的銷售數據為例繪製環比、同比、定基比圖,了解它們之間的差異。

7.5.1環比

環比一般指N期水平與N+1期水平或N-1期水平對比,通常分為日環比、周環比、月環比和年環比。下面我們以銷售數據為例,計算企業銷售金額的月環比。

進入搜索頁面,選擇「銷售數據.csv」數據源,本小節需要用到「訂單日期」、「銷售金額」欄位。在搜索框中輸入「按訂單日期計算的銷售金額的總和的月增長率」,系統呈現瀑布圖。

圖7-5-1 環比圖視圖

如圖7-5-1所示,2014年11月和12月的月增長率較高,而後的月環比處於小幅度波動狀態。

7.5.2同比

同比一般指第N年本期發展水平與第N-1年同期發展水平的對比。下面我們以銷售數據為例,計算企業銷售金額的月同比。

(1)進入搜索頁面,選擇「銷售數據.csv」數據源,本小節需要用到「訂單日期」、「銷售金額」欄位。

(2)在搜索框中輸入「按訂單日期計算的銷售金額的總和的月增長率與往年同期相比」。

(3)切換圖形為折線圖。

圖7-5-2 同比圖視圖

如圖7-5-2所示,2015年12月份的同比增速最高,銷售額同比亦處于波動狀態。

7.5.3定基比

定基增速也稱總速度,是報告期與固定基期水平之比,表明在較長時期內該現象的總的發展情況。下面我們以銷售數據為例,計算企業銷售金額的月定基比。

(1)進入搜索頁面,選擇「銷售數據.csv」數據源,本小節需要用到「訂單日期」、「銷售金額」欄位。

(2)以2014年1月銷售金額為對比基準,因此需要得到2014年1月的銷售金額總額。在搜索框中輸入「2014 一月 銷售金額」即可得到,見圖7-5-3。

圖7-5-3 計算2014年1月的銷售金額總額

(3)增加「基比」公式欄位,見圖7-5-4。

圖7-5-4 增加「基比」公式欄位

(4)在搜索框中輸入「基比 每月」,1月份為基準月,不做視圖,因而再篩選訂單日期大於等於2014年2月1日,見圖7-5-5。

圖7-5-5 篩選

(5)切換圖形為面積圖,見圖7-5-6。

圖7-5-6 切換圖形為面積圖

得到最終定基比視圖如圖7-5-7所示,可以看到除了2014年11月和2016年11月定基比增速為正向,其餘均為負向。

圖7-5-7 定基比視圖

綜上,三種增速的比較,最大的區別體現在兩個方面。一是對比基數不同,同比的對比基數是上年的同一期間的數據,環比的基數是上一期間的數據,而定基比的基數則是固定的;二是則重點不同,環比側重反應數據的短期趨勢,會受到季節等因素的影響,同比傾向於側重反映長期的大趨勢,規避了季節的因素,而定基比側重表現現象在較長時期內總的發展速度。

相關焦點

  • 一名合格的數據分析師,統計基礎不可或缺!
    作者 | CDA數據分析師 來源 | CDA數據科學研究院從事數據分析工作,統計基礎不可或缺。今天小編就來給大家好好梳理一下關於一名合格數據分析師所要掌握的統計基礎都有哪些,旨在為大家查缺補漏,讓大家的數據分析之路走得更紮實穩靠。統計的基本任務是對經濟社會發展情況進行統計調查、統計分析,提供統計資料和統計諮詢意見、實行統計監督。
  • 零基礎轉行數據分析師是怎樣的體驗?
    這篇文章是根據將之前自己的知乎問答結合自己入職後的體驗進行修改分享給大家,如果有意轉行做數據分析師的進攻參考。這裡的數據分析師定位於偏業務的數據分析師,不談高大上算法和數倉之類的數據分析師。講這個之前還是要潑潑冷水,現在數據分析師的崗位被一些培訓機構炒的太熱,導致很多人被忽悠進這個行業。
  • 三個月從小白到數據分析師,都是靠著這份書單!
    如何快速成為數據分析師?是很多想轉行數據分析的人經常問的問題,數據分析設計多個領域的知識,內容繁雜,很多人沒有基礎的人自學起來,感覺摸不著頭腦,今天就圍繞數據分析師的成長路徑為大家整理了一個相對完整的從入門到進階的學習書單,內容較多,建議大家採取階段性學習。
  • 從零開始數據分析:一個數據分析師的數據分析流程
    數據分析百科給出準確定義:指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。簡而言之就是有目的的收集數據、分析數據,使之成為信息的過程。
  • 從零開始數據分析:一個數據分析師的數據分析流程 | 網際網路數據...
    數據分析百科給出準確定義:指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。簡而言之就是有目的的收集數據、分析數據,使之成為信息的過程。
  • 數據分析師入坑指南
    從2015年回國加入百度,我已經在分析師這個行業工作了5年,也算是個milestone了。恰逢最近總有親戚家小孩請教畢業後怎麼找一份數據分析師的工作,而我在分析師的招聘方面也有一定的經驗,所以今天就來寫一寫我的想法。專業要求幾乎沒有要求,我曾經問過周圍的數據分析師, 大家的專業還是挺具有差異化的。
  • 數據科學家和數據分析師的區別在哪兒?
    數據科學家和數據分析師的區別在哪兒?數據科學家和數據分析師在所用程式語言、平臺/工具,以及所解決的問題方面都有共同之處。一、數據科學家的主要職責  數據科學家主要職責:與有關部門一起定義要解決的問題;獲取數據(使用SQL);探索性的數據分析、特徵工程、模型構建、預測(使用Python、Jupyter Notebook、各種算法);根據工作場景,將代碼編製成.py文件和/或用於部署的模型。實施自動化統計的行業,使用各種模型來進行分類和預測。
  • 怎樣從數據分析師轉型數據科學家?
    數據分析師的首要作業是對數據進行搜集和處理,並通過統計算法分析已處理的結構化數據,從而為數據賦能,改進決策。數據科學家也會進行相似的作業,但對其提出了更高的要求。那麼,怎樣從數據分析師轉型數據科學家呢?
  • 2020年怎麼能成為數據分析師,你想了解的都在這裡
    數據分析師這個職業是越老越吃香的,就是因為隨著年限的增加,他的業務知識、他的思考的方式都是一直在積累,這些都是分析師很珍貴的東西。我們在網上都能找到很多數據分析的項目實訓,但是這些數據都是脫敏數據,我們一般在做企業項目的時候,企業裡的數據常常沒有項目實訓裡的數據那樣好看,企業給到你的數據往往都是髒數據,還有些是缺失的。也就是對企業來說你沒有經歷過真實項目你是不知道一個真實項目理念的邏輯的。
  • 數據分析實戰|人人都是產品經理網站(上篇):平臺視角
    乾貨滿滿的上篇,不僅僅是一篇數據分析,相信你將對人人都是產品經理的網站和發展會有新認識,歡迎指導交流~上過人人的微信頭條,每天都能有幾個新的訂閱用戶,這些都在告訴在我這一點付出還是能夠幫助到其他人的。但我一直很好奇它具體在人人的過往文章中到底是個什麼水平,我心裡沒有底。所以出於好奇,就有了這次數據分析的探索之旅。內容安排學過數據分析的同學肯定在最開始都有這樣的體會,手中有了錘子,看什麼都像釘子。
  • 一個成功的數據分析師的職業生涯
    數據分析師做什麼?數據分析員收集,處理和執行數據的統計分析,即使數據以某種方式或其他方式有用。它們幫助其他人做出正確的決策,並優先處理已收集的原始數據,以便使用某些公式和應用正確的算法使工作更輕鬆。如果你對數字,代數函數充滿熱情,並喜歡與其他人分享你的工作,那麼你將成為數據分析師。
  • 數據分析師的職位描述、資質和前景
    統計、計算、可視化和數據挖掘是數據分析師工作描述的各個方面。數據分析師,一般執行相同的功能,在一定程度上具有相同的資格。然而,特定的企業或行業可以塑造工作職責、技能、資格以及就業和晉升前景。職位概述:數據分析師專業人員做什麼?
  • 大數據時代,數據分析師的報考條件是什麼?
    數據分析師是指基於各種分析手段對大數據進行科學分析、挖掘、展現並用於決策支持的過程,大數據分析師就是從事此項職業的從業人員稱呼,國內已有商務部對大數據分析師進行等級認證。大數據時代,數據分析師的培養(1)培養核心技術人才,確保長期競爭力。
  • 零基礎入門數據分析師——你可以做到!
    如果您計劃成為一名數據分析師,目標是提升數據獲取、數據分析、數據可視化的水平。但是網上資料一大堆,完全零基礎的你從哪開始學習?視頻下載了很多,無法堅持學習? 經常遇到問題,卻得不到及時解決,浪費大量寶貴時間。CDA數據分析研究院的老師指導您零基礎入門數據分析,以下將針對零基礎學員介紹數據分析的流程。
  • 女生適合做數據分析嗎?數據分析師是否是青春飯?
    在當下大數據分析與人工智慧火熱發展的的浪潮下,數據分析師或大數據分析師已然成為當前炙手可熱的熱門就業職位之一,就業待遇和發展前景也是被好多人看好,於是乎想進入數據分析行列的人群也日益增加,很多女生也會蠢蠢欲動,想轉行或立志從事數據分析領域的工作,但顧慮也由此產生——女生適合做數據分析嗎?
  • CPDA:學習數據分析為什麼要選擇用SPSS來做統計軟體
    這兩個應用程式的構建都是為了幫助業務用戶執行複雜的統計分析,以快速有效地解決業務和研究問題。 SPSS Statistics致力於解決整個分析過程,從訪問整個數據文件格式的數據以及通過ODBC訪問數據開始,並支持整個大數據的管理和處理功能,然後進行數據分析,總結數據分析後形成報告和部署。
  • 數據分析師的80%時間都在清洗數據?到底怎麼洗?
    就拿做飯打個比方吧,對於很多人來說,熱油下鍋、掌勺翻炒一定是做飯中最過癮的環節,但實際上炒菜這個過程只佔做飯時間的20%,剩下80%的時間都是在做準備,比如買菜、擇菜、洗菜等等。  在數據分析中,數據清洗就是這樣的前期準備工作。對於數據分析師來說,我們會遇到各種各樣的數據,在分析前,要投入大量的時間和精力把數據「整理裁剪」成自己想要或需要的樣子。
  • CDA數據分析師認證3個級別對應的薪資標
    如何成為數據分析師?如何入行數據分析?教育是一個難題!在這個行業中,是否有高質量的證書?拿到證書後能找到多少薪資的工作?今天,我們來分析分析作為這個行業中的老牌,CDA數據分析師的等級標準。CDA Level Ⅰ業務數據分析師需要掌握概率論和統計理論基礎,能夠熟練運用Excel、R、Python、SPSS等一門專業分析軟體,有良好的商業理解能力,能夠根據業務問題指標利用常用數據分析方法進行數據的處理與分析,並得出邏輯清晰的業務報告。
  • 轉行數據分析師後悔了?脫穎而出才是關鍵!
    但又擔心轉行後的工作待遇達不到自己的預期,顧慮重重……時下的大數據時代與人工智慧熱潮,相信有許多對數據分析師或大數據分析師非常感興趣、躍躍欲試想著轉行的朋友,但面向整個社會,最不缺的其實就是人才,對於是否轉行數據分析行列,對於能否勇敢一次跳出自己的舒適圈,不少人還是躊躇滿志啊!畢竟好多決定,一旦做出了就很難再回頭了。
  • 數據分析必備——統計學入門基礎知識 - 人人都是產品經理
    編輯導語:不論在什麼崗位,都要懂得本崗位的基礎知識,打牢基礎後面才能穩步發展;數據分析也是如此,數據分析必須要掌握統計學的基礎知識;本文是作者分享的關於統計學入門基礎的知識,我們一起來學習一下吧。要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!