人人都是數據分析師之統計分析

2020-12-17 DataFocus

前面三章介紹了DataFocus可視化視圖,本章主要介紹運用視圖進行統計分析的幾種方法。

7.1節介紹二八法則和帕累託圖的運用。

7.2節介紹如何進行平均分析,包括算數平均分析以及加權平均分析。

7.3節介紹時間序列分析相關概念。

7.4節介紹基本散點圖以及高級散點圖的運用。

7.5介紹常用的增速比較,包括同比、環比和定基比。

本章用到四個數據源:

「採購數據」,其中每條記錄代表在一個供應商的購買金額,欄位包括供應商代碼、購買金額。

「學生成績表」,其中每條記錄代表一位學生的成績,欄位包括姓名、小測、期中、期末。

「客服接聽數據」,其中每條記錄代表一條接聽記錄,欄位包括中心、部、班、日期、人工服務接聽量等。

「銷售數據」,其中每條記錄代表一條訂單,欄位包括產品類別、區域、訂單日期、銷售金額等。

7.1 二八法則

義大利經濟學家巴萊多在19世紀末20世紀初提出了二八定律(也稱二八法則、巴萊多定律)。在二八法則中,他認為,相對少量的原因通常造成大多數的問題和缺陷,即80%的問題是由20%的原因導致的。舉個例子,在現實生活中我們可以看到,超市所有商品中的20%的商品帶來了當月營業額的80%的利潤,所有產品中,最重要的也許只有那20%,即「至關重要的極少數」。二八法則非常適用於目前這個信息高速膨脹的網際網路時代,為了能更高效合理的利用企業的渠道資源,例如時間、成本等,產生更多的利潤價值和社會競爭力。

在數學上,帕累託圖在概念上與二八法則有關,因此二八法則也被叫做帕累託法則。帕累託圖是按照一定的類別,根據發生頻率的大小順序繪製直方圖,並計算出其分類所佔的比例展示比例累積和的圖形。

本節我們以某企業的物料採購金額數據為例繪製一個帕累託圖,從而快速定位有重要貢獻的供應商。在本圖中,橫軸為供應商代號,縱軸為採購金額,其中柱狀圖顯示採購金額從高到低供應商排序,折線圖則表示金額累計百分比沿著橫軸的變化情況。如圖7-1-1所示,當累計百分比為80%時,供應商大致為6家,一共30家供應商,即該企業80%的物料採購是被20%的供應商所承擔的,因此這20%的供應商是該企業的主要供應來源。

圖7-1-1 帕累託圖

1.數據準備

導入「採購數據.xls」數據源,在本案例中需要用到的欄位為「供應商代碼」和「購買金額」。

2.創建帕累託圖

進入搜索頁面,選擇數據源「採購數據.xls」。雙擊選擇「供應商代碼」、「購買金額」欄位入搜索匡,系統智能呈現環圖,見圖7-1-2。

圖7-1-2 搜索欄位

切換圖形為帕累託圖,見圖7-1-3。

圖7-1-3 切換圖形

將購買金額按降序進行排序,見圖7-1-4。

圖7-1-4 欄位排序

最後得到帕累託圖如圖7-1-5所示。

圖7-1-5 帕累託圖視圖

7.2 平均分析

平均分析法是通過平均數指標,反映事物目前所處的位置和發展水平。在運用平均分析法時,對不同的特徵數據所採用的的平均指標有所不同,本節將舉例算數平均數。算數平均數分為簡單算術平均數和加權平均數。簡單算數平均數即為將數據集合中所有數據之和除以數據個數;加權平均數是計算具有不同權重的數據的算數平均數。

在本節中我們使用「學生成績表」數據源,對學生的期末綜合成績進行評估。如圖7-2-1和圖7-2-2所示,得到兩種不同平均指標下的綜合成績排名前10的學生。其中,在加權平均分析中,小測成績權重為20%,期中成績權重為30%,期末成績權重為50%。

圖7-2-1 算數平均分析圖

圖7-2-2加權平均分析圖

1.數據準備

導入「學生成績.xls」數據源,在本案例中需要用到的欄位為「姓名」、「小測」、「期中」、「期末」。

2.創建算數平均數視圖

進入搜索頁面,選擇「學生成績.xls」數據源。增加「算數平均」公式欄位,見圖7-2-3。

圖7-2-3 增加「算數平均」公式欄位

雙擊選擇「姓名」、「算數平均」欄位入搜索框,並切換圖形為柱狀圖,見圖7-2-4。

圖7-2-4 基礎算數平均視圖創建

在搜索框中輸入「排名前10的算數平均的總和」,篩選出綜合成績排名前10 的學生,見圖7-2-5。

圖7-2-5 排序

選擇配置選項為顯示數據標籤,得到算數平均分析視圖,如圖7-2-6所示。

圖7-2-6算數平均分析視圖

增加「加權平均」公式欄位,見圖7-2-7。

圖7-2-7 增加「加權平均」公式欄位

雙擊選擇「姓名」、「加權平均」欄位入搜索框,並切換圖形為柱狀圖,見圖7-2-8。

圖7-2-8基礎加權平均視圖創建

在搜索框中輸入「排名前10的加權平均的總和」,篩選出綜合成績排名前10 的學生,見圖7-2-9。

圖7-2-9 排序

選擇配置選項為顯示數據標籤,得到加權平均分析視圖,如圖7-2-10所示。

圖7-2-10 加權平均分析視圖

7.3 時間序列分析

時間序列分析經常應用在觀察變量隨時間變化的某種趨勢。時間序列圖以時間作為橫軸,縱軸放置不同時間點上變量的取值。

下面以客服接聽數據為例,創建各個部按日的人工服務接聽量的時間序列圖和按周的人工服務接聽量的時間序列圖。

(1)進入搜索頁面,選擇「客服接聽數據」數據源。

(2)雙擊選擇「部」、「人工服務接聽量」、「日期」欄位入搜索框,智能呈現折線圖。

(3)適當修改主題顏色和線條粗細,見圖7-3-1。

圖7-3-1 修改主題顏色和線條粗細

得到時間序列圖如圖7-3-2所示。

圖7-3-3 時間序列圖

(4)如果想看按周的人工服務接聽量時間趨勢,可以在搜索框中輸入「每周」,此時數據以周為單位統計。還可以適當修改線條樣式,見圖7-3-4。

圖7-3-4修改線條樣式

得到周_時間序列圖如圖7-3-5所示。

圖7-3-5 周_時間序列圖

7.4 散點圖與相關分析

散點圖一般用於發現兩個連續變量或多個變量之間的關係,通常可以通過散點圖大致看出變量之間的相關關係,當存在大量數據點時結果更精準。

7.4.1創建基本散點圖

本小節以客服接聽數據為例,來直觀展示每個班的人工服務接聽量總和。

(1)選擇「客服接聽數據」數據源,雙擊選擇「人工服務接聽量」、「部」入搜索框,切換圖形為散點圖,見圖7-4-1。

圖7-4-1 基本散點圖繪製

得到基本散點圖如圖7-4-2所示。

圖7-4-2 基本散點圖

7.4.2創建高級散點圖

本小節將分析人工服務接聽量和平均呼入通話時長之間的關係。

(1)增加「平均呼入通話時長」欄位,見圖7-4-3。

圖7-4-3 增加「平均呼入通話時長」欄位

(2)增加「部門」欄位,將「中心」和「部」數據列進行整合,見圖7-4-4。

圖7-4-4 增加「部門」欄位

(3)雙擊選擇「人工服務接聽量」、「平均呼入通話時長」、「部門」、「工號」入搜索框,並在「人工服務接聽量」欄位後鍵入「的平均值」,切換圖形為散點圖,見圖7-4-5。

圖7-4-5 創建散點圖

(4)為了更好的查看數據分布,可以設置參考線。設置圖表屬性——標度,選擇平均值,以直線形式呈現,見圖7-4-6。

圖7-4-6 設置平均值標度

得到高級散點圖如圖7-4-7所示。從圖中可以看出:平均人工服務接聽量的數據分布比較分散;平均呼入通話時長大致服從正態分布,大部分客服的平均通話時長集中在100秒——150秒。

圖7-4-7 高級散點圖

7.5 環比同比定基比

在業務分析中,在時間上的業務發展速度是必要的分析指標。一般可分為同比增速、環比增速、定基比增速。增長速度可以是正數,也可以是負數。正數表示增長,負數表示降低。選擇合適的圖形進行可視化可以一目了然的跟進業務成果,一般比較常用折線圖、瀑布圖等。本節我們以某零售企業的銷售數據為例繪製環比、同比、定基比圖,了解它們之間的差異。

7.5.1環比

環比一般指N期水平與N+1期水平或N-1期水平對比,通常分為日環比、周環比、月環比和年環比。下面我們以銷售數據為例,計算企業銷售金額的月環比。

進入搜索頁面,選擇「銷售數據.csv」數據源,本小節需要用到「訂單日期」、「銷售金額」欄位。在搜索框中輸入「按訂單日期計算的銷售金額的總和的月增長率」,系統呈現瀑布圖。

圖7-5-1 環比圖視圖

如圖7-5-1所示,2014年11月和12月的月增長率較高,而後的月環比處於小幅度波動狀態。

7.5.2同比

同比一般指第N年本期發展水平與第N-1年同期發展水平的對比。下面我們以銷售數據為例,計算企業銷售金額的月同比。

(1)進入搜索頁面,選擇「銷售數據.csv」數據源,本小節需要用到「訂單日期」、「銷售金額」欄位。

(2)在搜索框中輸入「按訂單日期計算的銷售金額的總和的月增長率與往年同期相比」。

(3)切換圖形為折線圖。

圖7-5-2 同比圖視圖

如圖7-5-2所示,2015年12月份的同比增速最高,銷售額同比亦處于波動狀態。

7.5.3定基比

定基增速也稱總速度,是報告期與固定基期水平之比,表明在較長時期內該現象的總的發展情況。下面我們以銷售數據為例,計算企業銷售金額的月定基比。

(1)進入搜索頁面,選擇「銷售數據.csv」數據源,本小節需要用到「訂單日期」、「銷售金額」欄位。

(2)以2014年1月銷售金額為對比基準,因此需要得到2014年1月的銷售金額總額。在搜索框中輸入「2014 一月 銷售金額」即可得到,見圖7-5-3。

圖7-5-3 計算2014年1月的銷售金額總額

(3)增加「基比」公式欄位,見圖7-5-4。

圖7-5-4 增加「基比」公式欄位

(4)在搜索框中輸入「基比 每月」,1月份為基準月,不做視圖,因而再篩選訂單日期大於等於2014年2月1日,見圖7-5-5。

圖7-5-5 篩選

(5)切換圖形為面積圖,見圖7-5-6。

圖7-5-6 切換圖形為面積圖

得到最終定基比視圖如圖7-5-7所示,可以看到除了2014年11月和2016年11月定基比增速為正向,其餘均為負向。

圖7-5-7 定基比視圖

綜上,三種增速的比較,最大的區別體現在兩個方面。一是對比基數不同,同比的對比基數是上年的同一期間的數據,環比的基數是上一期間的數據,而定基比的基數則是固定的;二是則重點不同,環比側重反應數據的短期趨勢,會受到季節等因素的影響,同比傾向於側重反映長期的大趨勢,規避了季節的因素,而定基比側重表現現象在較長時期內總的發展速度。

相關焦點

  • 人人都是數據分析師?看見它,我信了!
    人人都是數據分析師,這是一個美好的夢嗎?不,它是一個偉大的目標,更是一種信仰!Desktop?Why?雖然通過幾個搜尋引擎一頓搜索,但我仍不敢確認,是不是永洪科技首個提出「人人都是數據分析師」這一說法,但是沒關係,我相信這是大數據行業的每個企業一致的努力方向,而且對這樣的結果,相信所有人也都充滿期待。
  • 數據分析師是怎麼使用統計數據的?
    使用的統計數據:實驗設計,頻率統計(假設檢驗和置信區間) 2.建立預測信號而非噪聲的模型 觀察:12月的銷售額增長了5%。 數據分析師可以告訴你可能的原因,為什麼銷量增長了5%。
  • 螞蟻金服數據洞察分析平臺 DeepInsight:人人都是數據分析師
    大數據時代,由數據驅動的用戶行為分析、運營分析、業務分析無疑是最被關注的「熱詞」,尤其對於擁有海量數據的大中型企業來說,對數據的需求已遠遠超越了傳統數據報表所能提供的範疇。如何運用自助式 BI 實現當代企業精細化運營,已成為企業運營管理的新課題。一個企業,如果要知道前段時間都發生了什麼?為什麼會發生?現在發生了什麼?接下來又會發生什麼?
  • 一名合格的數據分析師,統計基礎不可或缺!
    作者 | CDA數據分析師 來源 | CDA數據科學研究院從事數據分析工作,統計基礎不可或缺。今天小編就來給大家好好梳理一下關於一名合格數據分析師所要掌握的統計基礎都有哪些,旨在為大家查缺補漏,讓大家的數據分析之路走得更紮實穩靠。
  • 從數據分析師的級別看:產品經理的數據修養
    BLUES在準備一個數據運營的分享PPT,看到網上流傳的一份,據說是阿里的數據分析師職級體系,於是想到這幾年的產品工作,一直和數據息息相關,BLUES在騰訊的第一個崗位就是QQ秀的數據運營,每天都要輸出一份產品數據運營日報
  • 零基礎轉行數據分析師是怎樣的體驗?
    這篇文章是根據將之前自己的知乎問答結合自己入職後的體驗進行修改分享給大家,如果有意轉行做數據分析師的進攻參考。這裡的數據分析師定位於偏業務的數據分析師,不談高大上算法和數倉之類的數據分析師。講這個之前還是要潑潑冷水,現在數據分析師的崗位被一些培訓機構炒的太熱,導致很多人被忽悠進這個行業。
  • 從零開始數據分析:一個數據分析師的數據分析流程
    數據分析百科給出準確定義:指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。簡而言之就是有目的的收集數據、分析數據,使之成為信息的過程。
  • 一文理清:大數據、數據挖掘、數據分析、數理統計之間的關係
    數理統計與數據挖掘的聯繫 從兩者的理論來源來看,它們都來源於統計基礎理論,因此它們的很多方法在很多情況下都是同根同源的。例如,概率論和隨機事件是統計學的核心理論之一,統計分析中的抽樣估計需要應用該理論,而數據挖掘技術的樸素貝葉斯分類就是這些統計理論的發展和延伸。
  • NAR:MicrobiomeAnalyst微生物組分析師——統計、可視化和元分析微生物組數據的網頁工具
    導讀微生物組研究重點從上遊標準化定量和組裝,轉移至下遊數據個體化的挖掘和比較階段,但相關工具甚少;微生物組分析師(MicrobiomeAnalyst)是一款用戶界面友好,整合了最新統計和可視化方法的免費分析雲平臺;可提供擴增子、宏基因組和宏轉錄組豐度矩陣對應的下遊數據分析、功能組成和代謝網絡可視化;例如基於OTU表、物種注釋和分組信息,可實現Alpha
  • 如何成為一名合格的數據分析師,數據分析師需要哪些技能?
    你就是下一個數據分析師目前很多高校都在培養數據分析相關性人才,並且很多學校聯合企業實踐實操,正在為社會輸送一批批的優秀數據分析、數據挖掘、數據處理人才。主要的學科知識背景需要有高數、線性代數、數理統計與概率論、計算機基礎、統計學等相關課程的學習,當然也應該修學運籌學、市場營銷學、經濟學等數據分析的主要應用領域的相關知識。
  • 三個月從小白到數據分析師,都是靠著這份書單!
    如何快速成為數據分析師?是很多想轉行數據分析的人經常問的問題,數據分析設計多個領域的知識,內容繁雜,很多人沒有基礎的人自學起來,感覺摸不著頭腦,今天就圍繞數據分析師的成長路徑為大家整理了一個相對完整的從入門到進階的學習書單,內容較多,建議大家採取階段性學習。
  • 數據分析師之快速掌握SQL基礎
    >作者丨斌迪這是作者的第3篇文章SQL技能是數據分析師的必備技能,作者在之前的文章《你不知道的數據分析師》中也提到了,數據分析師50%的時間都在寫SQL。本文將從一道數據分析師的SQL面試題開始分析講解,期間,會涉及到SQL的基礎操作和分析函數的使用等知識點,然後為大家總結出了一份快速掌握SQL基礎的指南,希望能夠幫助到SQL初學者。這是一道來自百度數據部門的面試題,主要考察row_number的使用。題目:SQL語句如何查詢各用戶最長連續登錄天數?
  • 如何成為數據分析師
    最近幾年大數據的概念比較火,越來越多的人感受到數據的價值,許多公司都開始招聘數據分析相關的職位。但如果你去看看國內的高校,會發現沒有一所大學開有數據分析專業的,職位的成熟度還不夠。
  • 大數據分析為什麼要學概率統計
    學習概率和統計數據並不是大多數有抱負的數據分析師和科學家所要解決的第一件事。但是請不要誤會:理解數學與理解編程同樣重要! 今年我們將通過開設新的概率基礎課程來簡化數據科學的學習概率和統計,這將成為學習數據科學工作所需數學的更切入點。 大數據分析為什麼要學概率統計已作為統計課程系列中的第三部分添加到Python數據分析師和Python路徑數據科學家課程中,但是您無需完成以前的課程就可以開始學習概率知識。
  • 「分析思維」轉行數據分析師的利弊分析後篇
    除了每個行業都需要數據分析這一優點之外,它還適合很多別的專業的人轉行進來。好像數據分析只有計算機專業的人的話才能夠去做,你這個理解是錯誤的。數據分析是一個交叉性學科,它需要你有一些編程的技能,需要有市場的專業知識,同時還要建模等這樣的一些數據統計的知識。
  • 在線教育平臺應用與spss數據統計分析師在線直播培訓
    SPSS數據統計分析師認證培訓 @全國現場網絡同步直播學習——1. 數據管理企業的數據收集主要涉及3個方面:原始數據錄入、數據文件讀入和資料庫的訪問,這些我們將在前三節具體介紹,這裡以實際企業要求為背景,強調學員的上機動手實踐能力。a.
  • Hadoop大數據分析師周末開課了,著重實戰案例分析!
    越來越多的政府部門、企業等機構開始意識到數據正在成為最重要的資產,數據分析能力正在成為組織的核心競爭力。 人大經濟論壇順應大數據新趨勢,專業講師團隊研發了Hadoop大數據分析師課程。全面掌握Hadoop的架構原理和使用場景;親自學會Hadoop的三種架構方式及搭建過程;熟練掌握HDFS文件系統與MapReduce程序開發思想;利用hadoop平臺進行大數據分析;能深入實際的項目案例進行大數據的實戰開發;達到大數據分析師的理論和實戰要求。
  • 你想成為一名數據分析師嗎?
    數據分析師的角色和職責是巨大的,並且從一個領域到另一個領域都有所不同,以至於人們可能會感到困惑:數據分析師到底在做什麼?他是數學家還是統計學家還是計算機工程師?讓我們看看數據分析師的角色和職責,或者數據分析師的期望。 1.識別並找出基於數據分析的問題,並查看它們如何對客戶及其需求產生直接影響。
  • 數據分析師的職業規劃之路
    中級:有能力獨立完成高質量的數據分析報告,如產品規劃、市場活動等,可以cover住從前期規劃到中期細節完善再到後期評價分析的整個過程。 高級: 獨當一面的分析師,可以負責一個子產品(一組模塊)級別的項目,帶領一個團隊來全面解決問題,把控手下數據分析師的工作質量。
  • 數據分析師告訴你數據分析的結構體系
    這些人在實際工作中,發現確實數據很有用,但對自己的數據分析能力感到不滿意,進而想做出提升;第三類是傳統企業的業務人員,也是不知道怎麼就對數據感興趣了,想要從事數據分析相關的崗位,但缺少時間系統學習,工作經歷又不足以支撐自己跳到數據分析職位。