用EXCEL做數據分析,從實戰中熟悉,更進一步

2020-12-13 職場劉Sir

在我們要做數據分析之前,首先要了解數據分析有哪些步驟。

數據分析一般分為5個步驟:

明確問題理解數據數據清洗數據分析或構建模型數據可視化一切的數據分析工作都是為了解決問題,所以在做數據分析之前,我們首先要搞懂要處理分析什麼樣的問題;在採集或者收集到數據信息後,我們要理解數據分別是代表什麼信息;接著我們要進行數據清洗,一般我們拿到數據後,可能是雜亂無章的,很多髒數據或者重複數據,所以我們要給數據「洗白白」;然後我們就可以用各種方法對數據進行分析了;在最後分析完成之後,我們就可以用數據可視化的方式,利用圖表的形式讓大家看懂數據。

EXCEL作為數據分析工作中最常用的軟體,是我們在入門數據分析首先要學的工具,今天我們就以EXCEL的使用為例,看看如何做到基礎的數據分析工作。

一、數據分析第1步:明確問題

假設我們手頭上有一份招聘網站的招聘數據,我們想要了解一些問題:

在哪些城市找數據分析工作機會更大?數據分析師的薪資水平怎麼樣?不同的工作經驗,薪酬水平有怎樣的變化情況?

二、數據分析第2步:理解數據

我們在拿到收集數據的文件之後,需要養成良好的工作習慣,對原始數據文件進行備份,然後再在文檔上對數據進行理解、清晰、分析等工作。

1.了解數據有什麼信息

我們打開數據文件,我們會看到會有很多的列明(欄位),例如城市、公司名稱、職位福利、薪水等,而這些信息正是意味著我們可以通過這份數據可以讓我們了解到什麼情況,或者可以用來解決什麼問題。

很多時候我們拿到一份EXCEL文檔,會發現很多個格子的信息都顯示不全,這種時候我們可以點擊任意一個信息,然後鍵盤CTR+A全選數據,然後點擊「開始」欄的自動換行。

這時信息就顯示全了,那麼想要讓表格更加美觀一點呈現信息的話,我們可以點擊表格的左上角的小三角形,這時候會全選整個表格,接著再列號位置點擊右鍵(A/B/C/D……這種),然後點擊列寬,試著設置為15,這時表格會變寬。

2.了解EXCEL的數據類型

EXCEL的數據類型主要分為三種類型,分別是字符串、數值、邏輯。

數字可以是兩種類型,一種是字符串類型,字符串類型的數字不能用於計算,一般在表格中默認向左對齊;而數值類型的數字則可以用於計算,一般在表格中默認向右對齊。

三、數據分析第3步:數據清洗

數據清洗佔用我們數據分析中大部分的時間,數據清洗相當於把數據改變我們喜歡的樣子、符合我們需求的樣子,為後續的分析工作做準備。

數據清洗一般分為以下7個步驟:1.選擇子集(選擇我們準備進行數據分析工作中感興趣或是需要的幾個列數據。)

2.列名重命名(把列名改為符合自己命名喜好的名字。)

3.刪除重複值(把重複的多餘數據進行刪除。)

4.缺失值處理(把缺失的數據進行刪除或是補全等方式的處理。)

5.一致化處理(對數據列沒有統一命名的值進行統一處理。)

6.數據排序(通過數據一定規律的排序便於發現價值信息。)

7.異常值處理(對數據異常的值進行處理。)

1.選擇子集

選擇子集主要是把對我們有用的信息留下,把對我們沒用的信息隱藏掉,方便對數據進行處理。例如,我們要分析工作機會、薪酬水平等問題,像「公司ID」這種數據對於我們來說沒什麼用,我們就可以在該列的列號上點擊右鍵,然後點擊隱藏就可以了,如果欄位信息在一行上,那就在行號上點擊就可以了。

如果想要把隱藏的數據展開,可以在「開始」欄中的格式中,點擊隱藏和取消隱藏,根據實際需要取消隱藏行或列。

2.列名重命名

在表格中,像「公司大小」這種,我習慣的表達方式是「公司規模」,那麼我就會雙擊該格子,把文字改過來。

3.刪除重複值

在招聘的表格中,有一項「職位ID」,因為在發布的職位中,每個職位都是有著唯一的一個ID號碼的,就像身份證一樣,如果出現重複的情況就意味著這個職位信息的數據重複了,我們需要進行刪除。

點擊「數據」欄裡的「刪除重複值」,然後勾選「數據包含標題」,點擊取消全選,找到我們要用來識別數據是否重複的「職位ID」,點確認,然後系統就進行自動刪除處理了,方便快捷。

4.缺失值處理

在打開數據表格後,我們有時候可能會發現,有的數據格子是空白的,那麼我們怎麼找出這些缺失值呢?

用對比的方法,找出缺失數量。我們可以通過每一列的數據總數進行查看,然後用簡單的減法就可以算出缺失數量。

「城市」列缺失數量=「公司簡稱」數量-「城市」數量,即5032-5030=2。

數據缺失的情況下,我們可以這麼處理:如果數據比較少,我們就可以嘗試進行補全,例如上圖空白處,我們可以根據公司所在區域來核對公司是在哪個城市。

刪除缺失數據。用平均值代替缺失值。用統計模型計算出數值進行替代。

5.一致化處理

(1)分割

有時候我們的數據信息裡,一個格子裡可能會有幾個信息,那麼這時候,我們就可以用一致化處理的方式把他們分割開來。

例如,公司所屬領域,會涉及幾個領域,並且用逗號分割開來。我們點擊「數據」欄裡的「分列」,然後設置為根據分割符號進行分割,處理過後我們就會發現原來的那一列旁邊自動生成了分割後的數據。但是我們在處理之前要把那一列的數據複製到表格最後處理,避免分割後的數據覆蓋掉旁邊的數據列。

(2)函數處理:

在一致化處理,我們還可以通過函數來對數據進行一致化處理,函數其實就是規則、公式,只要設定好,EXCEL的系統就會自動幫你處理信息,這樣就不需要我們一個個選項去算、去選那麼麻煩。

EXCEL裡的函數非常豐富,函數的應用對於我們來說真是可以大大提高效率,那些成千上萬的數據,要是一個個處理,那簡直是苦力工作,但是函數卻能讓我們一件生成。

接下來我將用實戰案例來展示函數的相關運用。

四、電商嬰兒產品數據試手

通過天池平臺,我手上獲得了兩份表,一份是購買產品信息表,一份是嬰兒信息表。

1.明確問題

根據昨天的初步構想,準備主要分析每個季度哪些嬰兒商品賣得最好的有哪些?並在這個過程中,附帶一些其他一些探索性的分析。

2.理解數據

拿到表後,先看一下表內的各個列名都有些什麼信息,好讓我們知道我們可以拿這些數據信息分析什麼。

3.數據清洗

(1)選擇子集

由於商品屬性有很多參數,而且每個商品不盡相同,對於我這次分析作用不大,因此先進行隱藏。

(2)列名重命名

首先我將表格中的欄位休息修改為我習慣的表達方式,並且調整列寬和換行,讓表格看起順眼一些。

(3)刪除重複值

在嬰兒信息表裡,因為每個嬰兒的ID都是唯一的,所以我們可以通過刪除重複值,直接識別和刪除,點擊過後發現數據並無重複。

(4)缺失值處理

通過列的信息量計數得出,除了商品屬性一列為29828行信息外,其餘列均為29972,即商品屬性列缺失了144個數據信息。但由於商品屬性對於此次的分析無影響作用,所以可以後續再根據商品編號補充回對應的商品屬性信息。

(5)一致化處理

日期處理兩個表格裡的日期都是全數字的,不方便查閱,因此我們要通過分列的技巧,把日期全都改為標準日期形式,並通過設置單元格格式讓日期進一步統一。

嬰兒性別處理因為嬰兒表中,都是用0來代表女性,1代表男性,2代表未知性別,為了方便識別,我將其通過替換改為中文表達方式。

4.數據分析

接下來,我通過數據透視表分析每個季度哪些嬰兒商品賣得最好的有哪些?

通過數據顯示發現,類目編號為28的商品在11個季度中,有9個季度都是賣得最好的。

然後我們通過每個季度的總銷量進行排序,發現季度的銷量每年呈現第四季度>第三季度>第二季度>第一季度的規律。

接著,我試著用VLOOKUP函數進行多表關聯,把收集到嬰兒信息的用戶ID跟購買用戶ID進行匹配,識別出購買日期和購買數量。

然後通過描述性統計分析發現,用戶評價購買商品的數量為1.6個,而中位數和眾數都為1,代表大部分用戶購買數量都是1份。但是從最大值和最小值差距比較大可以看出,這份數據可能有異常,我們需要進一核查信息。

通過數據透視表我們可以發現,為女性嬰兒購買產品的父母會多一點,但是實際上男女嬰兒需求比例是差不多的。

結語通過分析策略的學習和軟體的學習之後,因為都不夠熟悉,導致在實戰使用起來會比較生澀,或者是考慮因素不夠周全,運用方式不夠全面,需要多加練習,逐步進階。

相關焦點

  • 別人都在用數據分析軟體,你還在用excel做數據分析?
    之前聽朋友吐槽過,他們是上千人的企業,但做數據分析居然還是靠手動上傳數據,而且還是用的excel做的。但其實excel並不是企業做數據分析的好工具。數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。
  • 基於python的大數據分析-pandas數據讀取(代碼實戰)
    長按上方二維碼加入千人QQ群基於python的大數據分析實戰學習筆記-Anaconda基於python的大數據分析實戰學習筆記-pandas(數據分析包)基於python的大數據分析實戰學習筆記-pandas之DataFrame我們常見的數據存儲格式無非就是csv、excel、txt以及資料庫等形式
  • 別人都在用數據分析軟體了,不要再用excel做數據分析了
    之前聽朋友吐槽過,他們是上千人的企業,但做數據分析居然還是靠手動上傳數據,而且還是用的excel做的。但其實excel並不是企業做數據分析的好工具。 數據分析是指用適當的統計分析方法對收集來的大量數據進行分析,提取有用信息和形成結論而對數據加以詳細研究和概括總結的過程。
  • 數據分析從零開始實戰 | 基礎篇(三)
    零、寫在前面前面兩篇文章基礎篇(一)和基礎篇(二)講了數據分析虛擬環境創建和pandas讀寫csv、tsv、json格式的數據,今天我們繼續探索pandas讀取數據。本系列學習筆記參考書籍:《數據分析實戰》託馬茲·卓巴斯一、基本知識概要1.利用pandas讀寫Excel文件2.利用pandas讀寫XML文件二、開始動手動腦1.利用Python讀寫Excel讀取,利用Pandas庫的ExcelFile()方法。
  • 數據分析從零開始實戰 (三)
    講了數據分析虛擬環境創建和pandas讀寫csv、tsv、json格式的數據,今天我們繼續探索pandas讀取數據。本系列學習筆記參考書籍:《數據分析實戰》託馬茲·卓巴斯一、基本知識概要1.利用pandas讀寫Excel文件2.利用pandas讀寫XML文件二、開始動手動腦1.利用Python讀寫Excel讀取,利用Pandas庫的ExcelFile()方法。
  • Excel裡的這個工具,做財務分析一定要學會
    有過編制預算經驗的朋友,應該會很熟悉,在預測技術裡,回歸分析應用非常廣泛,是用來進行定量數據分析的方法。線性回歸分析是一種統計方法,用於確定某個變量(或一組變量)對另一個變量的影響。
  • 數據分析:手把手教你Excel實戰
    在Excel函數和Excel技巧後,今天這篇文章講解實戰,如何運用上兩篇文章的知識進行分析。內容是新手的基礎教程。曾經有童鞋向我反應沒有Excel數據練習,所以這次提供真實數據。為了更好的了解數據分析師這個崗位,我用爬蟲爬取了招聘網站上約5000條的數據分析師職位數據。拿數據分析師進行數據分析。
  • 用Excel來進行數據分析
    Microsoft Excel是目前世界上被使用的最廣泛的數據分析工具之一使用Excel進行數據分析是使用R或Python進行數據科學的先驅我們應該要學習用於分析數據的基本的Excel函數介紹我一直都很佩服Excel強大的數據分析能力。這款軟體不僅能夠進行基本的數據計算,還可以使用它來進行數據分析。它被廣泛用於許多的領域內,包括財務建模和業務規劃等。
  • excel高手不加班的神器:用數據透視表輕鬆做匯總分析!
    課程信息卡課程:《Excel天天訓練營》2.0圖文版章節:第1章-提高效率內容:excel數據透視表如果你諮詢過一些excel高手,會發現他們會經常提及數據透視表。在excel裡面,數據透視表確實可以算作一個神器,因為用它不需要會寫函數公式,也可以非常輕鬆的做數據匯總和數據分析。現在,我們就來講下excel高手不加班的神器:用數據透視表輕鬆做匯總分析!
  • 你連Excel都用不好,怎麼證明你的數據分析能力?
    對於很多競價員和優化師的工作內容而言,我們可以用一個字「表」來概括。處理EXCEL表是我們必要的一項工作,而靈活使用是我們必要掌握的一項能力。毫不誇張地說,精通excel可以幫助我們提升70%的工作效率。那麼今天我們一起來學習下:幾個Excel高效處理數據技巧。
  • Excel不好嗎,為什麼非要用Python做數據分析?
    目前也是做數據分析的主流語言之一,擁有非常豐富的工具包,比如我平時用的pandas。」不難發現,很多大廠崗位,儘管跟程式設計師的職位無關,仍舊在招聘JD裡都寫上了:熟悉Python編程, 這樣的條件。財務/會計人員,評估預算的時候,爬取自己所需要的數據,來進行對比。 行政人員,利用Python自動處理考勤excel文件,自動發郵件、word排版、替換……金融行業人員,藉助Python來進行策略的計算和驗證,甚至可以根據策略設定的規則自動進行交易。
  • Excel可視化圖表製作數據分析工具?
    Excel用戶的雲神器使用您熟悉的Excel,不用學習複雜的新軟體。Excel直連資料庫,不用在各種平臺導數據,數據分析不求人。內網數據全面上雲將企業內網的ERP/OA/CRM等資料庫,通過智分析的本地數據網關接入雲端,讓員工分析數據不受地理位置束縛。支持各類雲端資料庫,本地excel數據導入。
  • Excel作為一種強大的數據挖掘工具,數據分析是做什麼的
    生活中有許多數據,那數據分析是做什麼的呢?面對浩繁數據的時候,僅僅依靠人類的大腦和雙手無法從這些龐大的數據中獲得寶貴的信息。即便可以,如果沒有任何科學依據。也不能從中找出有效信息。因此,融合了統計技術和IT技術的「數據挖掘」便應運而生。
  • 指導行為--數據分析價值之源
    心中一萬匹羊駝跑過之後,出現了一個問題:統計有什麼用,數據分析的價值到底在哪裡?(標題就是答案,下面是小白的R實踐過程,大牛請自行跳過)我的R實踐:還是我們熟悉的《朝陽醫院2016年銷售數據》,課上我們做出了《2016年朝陽醫院消費曲線》及月均消費次數、月均消費金額、客單價等三個KPI指標。
  • 數據分析9 - 數據分析常用excel函數筆記整理
    在數據分析中,excel可以方便快速的分析小樣本數據,熟練運用excel函數也很重要。「不會因為會python成為好的數據分析師,而是能用任何工具解決問題」,其實數據分析師重要的是解決問題,發現問題,一起學起來吧
  • 數據分析案例:用excel實現最低總成本的決策分析
    電信公司再拓展業務中需要用到大量的電纜,年需求量大約為1000萬噸,電纜的年單位存儲費用為750元,一次訂購的訂費受市場的影響,可能為30、40、50或60不等,零擔運費每噸25元,整車運輸每噸24元,整車運輸的起始噸位為15噸。
  • 精品數據分析課程推薦
    ,由BAT數據分析專家帶你領略數據分析思維的樂趣,目前好評如潮,記住有了思維和方法論再去入門,這樣你定位更加清晰,後期也可作為自己思維的提升,多看幾遍適合人群:預用數據分析來升職、提升、加薪的從業者第三門:數據分析師的通關升級師資:陳哲,先後在市研公司、網際網路公司和數據協會任職,出版《數據分析:企業的賢內助》、《活用數據:驅動業務的數據分析實戰
  • 程式設計師的基本功:為什麼非要用 Python 做數據分析?Excel 不好嗎?
    網際網路公司很多人都喜歡用Python完成自動化辦公,表格處理,數據分析、圖表製作等工作。無論你做研發,系統架構,還是做產品,運營,甚至是管理,數據分析就是你的基本功,它不單單是一個職位,而是一個技能。就是數據分析帶起來的!課程從實際業務出發,基於Python3落地工作中經常碰到的分析與挖掘方法,教你通過數據分析,找到問題,形成方案,採取行動,反饋評估,形成一個閉環,讓你的數據充分發揮業務價值!
  • 前端如何一鍵生成多維度數據可視化分析報表
    這裡筆者總結為如下3點核心知識:如何使用JavaScript實現前端導入和導出excel文件(H5編輯器實戰復盤)前端如何基於table中的數據一鍵生成多維度數據可視化分析報表如何實現會員管理系統下的權限路由和權限菜單
  • Python入門學習之數據分析實戰獲取數據
    想用一個完整的案例講解Python數據分析的整個流程和基礎知識,實際上以一個數據集為例,數據集是天池上的一個短租數據集,後臺回覆:短租數據集,即可獲得。先來想一下數據分析的流程,第一步獲取數據,因此本節內容就是獲取數據以及對數據的基本操作。