前面三章介紹了DataFocus可視化視圖,本章主要介紹運用視圖進行統計分析的幾種方法。
7.1節介紹二八法則和帕累託圖的運用。
7.2節介紹如何進行平均分析,包括算數平均分析以及加權平均分析。
7.3節介紹時間序列分析相關概念。
7.4節介紹基本散點圖以及高級散點圖的運用。
7.5介紹常用的增速比較,包括同比、環比和定基比。
本章用到四個數據源:
「採購數據」,其中每條記錄代表在一個供應商的購買金額,欄位包括供應商代碼、購買金額。
「學生成績表」,其中每條記錄代表一位學生的成績,欄位包括姓名、小測、期中、期末。
「客服接聽數據」,其中每條記錄代表一條接聽記錄,欄位包括中心、部、班、日期、人工服務接聽量等。
「銷售數據」,其中每條記錄代表一條訂單,欄位包括產品類別、區域、訂單日期、銷售金額等。
7.1 二八法則
義大利經濟學家巴萊多在19世紀末20世紀初提出了二八定律(也稱二八法則、巴萊多定律)。在二八法則中,他認為,相對少量的原因通常造成大多數的問題和缺陷,即80%的問題是由20%的原因導致的。舉個例子,在現實生活中我們可以看到,超市所有商品中的20%的商品帶來了當月營業額的80%的利潤,所有產品中,最重要的也許只有那20%,即「至關重要的極少數」。二八法則非常適用於目前這個信息高速膨脹的網際網路時代,為了能更高效合理的利用企業的渠道資源,例如時間、成本等,產生更多的利潤價值和社會競爭力。
在數學上,帕累託圖在概念上與二八法則有關,因此二八法則也被叫做帕累託法則。帕累託圖是按照一定的類別,根據發生頻率的大小順序繪製直方圖,並計算出其分類所佔的比例展示比例累積和的圖形。
本節我們以某企業的物料採購金額數據為例繪製一個帕累託圖,從而快速定位有重要貢獻的供應商。在本圖中,橫軸為供應商代號,縱軸為採購金額,其中柱狀圖顯示採購金額從高到低供應商排序,折線圖則表示金額累計百分比沿著橫軸的變化情況。如圖7-1-1所示,當累計百分比為80%時,供應商大致為6家,一共30家供應商,即該企業80%的物料採購是被20%的供應商所承擔的,因此這20%的供應商是該企業的主要供應來源。
圖7-1-1 帕累託圖
1.數據準備
導入「採購數據.xls」數據源,在本案例中需要用到的欄位為「供應商代碼」和「購買金額」。
2.創建帕累託圖
進入搜索頁面,選擇數據源「採購數據.xls」。雙擊選擇「供應商代碼」、「購買金額」欄位入搜索匡,系統智能呈現環圖,見圖7-1-2。
圖7-1-2 搜索欄位
切換圖形為帕累託圖,見圖7-1-3。
圖7-1-3 切換圖形
將購買金額按降序進行排序,見圖7-1-4。
圖7-1-4 欄位排序
最後得到帕累託圖如圖7-1-5所示。
圖7-1-5 帕累託圖視圖
7.2 平均分析
平均分析法是通過平均數指標,反映事物目前所處的位置和發展水平。在運用平均分析法時,對不同的特徵數據所採用的的平均指標有所不同,本節將舉例算數平均數。算數平均數分為簡單算術平均數和加權平均數。簡單算數平均數即為將數據集合中所有數據之和除以數據個數;加權平均數是計算具有不同權重的數據的算數平均數。
在本節中我們使用「學生成績表」數據源,對學生的期末綜合成績進行評估。如圖7-2-1和圖7-2-2所示,得到兩種不同平均指標下的綜合成績排名前10的學生。其中,在加權平均分析中,小測成績權重為20%,期中成績權重為30%,期末成績權重為50%。
圖7-2-1 算數平均分析圖
圖7-2-2加權平均分析圖
1.數據準備
導入「學生成績.xls」數據源,在本案例中需要用到的欄位為「姓名」、「小測」、「期中」、「期末」。
2.創建算數平均數視圖
進入搜索頁面,選擇「學生成績.xls」數據源。增加「算數平均」公式欄位,見圖7-2-3。
圖7-2-3 增加「算數平均」公式欄位
雙擊選擇「姓名」、「算數平均」欄位入搜索框,並切換圖形為柱狀圖,見圖7-2-4。
圖7-2-4 基礎算數平均視圖創建
在搜索框中輸入「排名前10的算數平均的總和」,篩選出綜合成績排名前10 的學生,見圖7-2-5。
圖7-2-5 排序
選擇配置選項為顯示數據標籤,得到算數平均分析視圖,如圖7-2-6所示。
圖7-2-6算數平均分析視圖
增加「加權平均」公式欄位,見圖7-2-7。
圖7-2-7 增加「加權平均」公式欄位
雙擊選擇「姓名」、「加權平均」欄位入搜索框,並切換圖形為柱狀圖,見圖7-2-8。
圖7-2-8基礎加權平均視圖創建
在搜索框中輸入「排名前10的加權平均的總和」,篩選出綜合成績排名前10 的學生,見圖7-2-9。
圖7-2-9 排序
選擇配置選項為顯示數據標籤,得到加權平均分析視圖,如圖7-2-10所示。
圖7-2-10 加權平均分析視圖
7.3 時間序列分析
時間序列分析經常應用在觀察變量隨時間變化的某種趨勢。時間序列圖以時間作為橫軸,縱軸放置不同時間點上變量的取值。
下面以客服接聽數據為例,創建各個部按日的人工服務接聽量的時間序列圖和按周的人工服務接聽量的時間序列圖。
(1)進入搜索頁面,選擇「客服接聽數據」數據源。
(2)雙擊選擇「部」、「人工服務接聽量」、「日期」欄位入搜索框,智能呈現折線圖。
(3)適當修改主題顏色和線條粗細,見圖7-3-1。
圖7-3-1 修改主題顏色和線條粗細
得到時間序列圖如圖7-3-2所示。
圖7-3-3 時間序列圖
(4)如果想看按周的人工服務接聽量時間趨勢,可以在搜索框中輸入「每周」,此時數據以周為單位統計。還可以適當修改線條樣式,見圖7-3-4。
圖7-3-4修改線條樣式
得到周_時間序列圖如圖7-3-5所示。
圖7-3-5 周_時間序列圖
7.4 散點圖與相關分析
散點圖一般用於發現兩個連續變量或多個變量之間的關係,通常可以通過散點圖大致看出變量之間的相關關係,當存在大量數據點時結果更精準。
7.4.1創建基本散點圖
本小節以客服接聽數據為例,來直觀展示每個班的人工服務接聽量總和。
(1)選擇「客服接聽數據」數據源,雙擊選擇「人工服務接聽量」、「部」入搜索框,切換圖形為散點圖,見圖7-4-1。
圖7-4-1 基本散點圖繪製
得到基本散點圖如圖7-4-2所示。
圖7-4-2 基本散點圖
7.4.2創建高級散點圖
本小節將分析人工服務接聽量和平均呼入通話時長之間的關係。
(1)增加「平均呼入通話時長」欄位,見圖7-4-3。
圖7-4-3 增加「平均呼入通話時長」欄位
(2)增加「部門」欄位,將「中心」和「部」數據列進行整合,見圖7-4-4。
圖7-4-4 增加「部門」欄位
(3)雙擊選擇「人工服務接聽量」、「平均呼入通話時長」、「部門」、「工號」入搜索框,並在「人工服務接聽量」欄位後鍵入「的平均值」,切換圖形為散點圖,見圖7-4-5。
圖7-4-5 創建散點圖
(4)為了更好的查看數據分布,可以設置參考線。設置圖表屬性——標度,選擇平均值,以直線形式呈現,見圖7-4-6。
圖7-4-6 設置平均值標度
得到高級散點圖如圖7-4-7所示。從圖中可以看出:平均人工服務接聽量的數據分布比較分散;平均呼入通話時長大致服從正態分布,大部分客服的平均通話時長集中在100秒——150秒。
圖7-4-7 高級散點圖
7.5 環比同比定基比
在業務分析中,在時間上的業務發展速度是必要的分析指標。一般可分為同比增速、環比增速、定基比增速。增長速度可以是正數,也可以是負數。正數表示增長,負數表示降低。選擇合適的圖形進行可視化可以一目了然的跟進業務成果,一般比較常用折線圖、瀑布圖等。本節我們以某零售企業的銷售數據為例繪製環比、同比、定基比圖,了解它們之間的差異。
7.5.1環比
環比一般指N期水平與N+1期水平或N-1期水平對比,通常分為日環比、周環比、月環比和年環比。下面我們以銷售數據為例,計算企業銷售金額的月環比。
進入搜索頁面,選擇「銷售數據.csv」數據源,本小節需要用到「訂單日期」、「銷售金額」欄位。在搜索框中輸入「按訂單日期計算的銷售金額的總和的月增長率」,系統呈現瀑布圖。
圖7-5-1 環比圖視圖
如圖7-5-1所示,2014年11月和12月的月增長率較高,而後的月環比處於小幅度波動狀態。
7.5.2同比
同比一般指第N年本期發展水平與第N-1年同期發展水平的對比。下面我們以銷售數據為例,計算企業銷售金額的月同比。
(1)進入搜索頁面,選擇「銷售數據.csv」數據源,本小節需要用到「訂單日期」、「銷售金額」欄位。
(2)在搜索框中輸入「按訂單日期計算的銷售金額的總和的月增長率與往年同期相比」。
(3)切換圖形為折線圖。
圖7-5-2 同比圖視圖
如圖7-5-2所示,2015年12月份的同比增速最高,銷售額同比亦處于波動狀態。
7.5.3定基比
定基增速也稱總速度,是報告期與固定基期水平之比,表明在較長時期內該現象的總的發展情況。下面我們以銷售數據為例,計算企業銷售金額的月定基比。
(1)進入搜索頁面,選擇「銷售數據.csv」數據源,本小節需要用到「訂單日期」、「銷售金額」欄位。
(2)以2014年1月銷售金額為對比基準,因此需要得到2014年1月的銷售金額總額。在搜索框中輸入「2014 一月 銷售金額」即可得到,見圖7-5-3。
圖7-5-3 計算2014年1月的銷售金額總額
(3)增加「基比」公式欄位,見圖7-5-4。
圖7-5-4 增加「基比」公式欄位
(4)在搜索框中輸入「基比 每月」,1月份為基準月,不做視圖,因而再篩選訂單日期大於等於2014年2月1日,見圖7-5-5。
圖7-5-5 篩選
(5)切換圖形為面積圖,見圖7-5-6。
圖7-5-6 切換圖形為面積圖
得到最終定基比視圖如圖7-5-7所示,可以看到除了2014年11月和2016年11月定基比增速為正向,其餘均為負向。
圖7-5-7 定基比視圖
綜上,三種增速的比較,最大的區別體現在兩個方面。一是對比基數不同,同比的對比基數是上年的同一期間的數據,環比的基數是上一期間的數據,而定基比的基數則是固定的;二是則重點不同,環比側重反應數據的短期趨勢,會受到季節等因素的影響,同比傾向於側重反映長期的大趨勢,規避了季節的因素,而定基比側重表現現象在較長時期內總的發展速度。