Excel是進行數據分析用得最多、最基本的工具。為了儘快掌握使用Excel做數據分析的操作,我也來找個小案例實踐一下。這個小案例是對數據分析的崗位進行的分析,希望通過數據分析找到數據分析這個崗位的一些基本情況,也給自己轉行多一點底氣。
明確分析的目的
數據準備
數據清洗
數據分析
數據可視化
分析報告
數據分析師的在各個城市的招聘數量和平均薪水
數據分析師的各個工作經驗年限招聘佔比
數據分析師的各個工作經驗年限招聘的平均薪水
薪資前幾位的公司
各學歷的崗位數量及佔比
本次分析的數據存在Excel表中,一共有6800多條數據。在數據準備階段我們要做的是對數據每一列的意義和作用要有一個準確的理解,這樣才能保證後面的數據分析工作順利進行。
數據清洗的過程包括:選擇子集,重命名列名,刪除重複值,缺失值處理,欄位分列,過濾篩選等。
在給定的數據表中,有一些列是我們數據分析的時候用不到的,所以我們通常會將用不到的隱藏掉。
操作:選中要隱藏的列--》在列的上方右擊--》選擇隱藏
非必要,根據實際情況來定。當有列名意思表達不恰當,我們可以將列明重命名為易於理解的名字。
Excel刪除重複值的方法有很多種,可以使用countif函數統計重複次數,然後刪除重複項;可以用篩選的方法來刪除重複的;還可以通過數據透視表來刪除重複項。這裡使用的是較為簡單的方法,直接根據職位ID來刪除重複項。刪除重複項前有職位ID的數據有6875條,刪除後剩下5032行了。
這裡選擇第一種方法來處理,選中各列,可以查看各列的記錄條數,可以看到城市和崗位所屬列存在商量的缺失值,在這對城市欄位的缺失值我們可以通過其他的欄位來判斷,然後將其手動補充完整。
操作:選中城市列--》點篩選--》去掉全選--》選擇空白,篩選出了兩條缺失值的記錄,然後根據商區可以判斷城市為上海,手動補全記錄。對於職位所屬可以用同樣的方法來補全缺失值。當空缺值較多時使用Ctrl+Eneter快捷鍵,在不連續的單元格中同時輸入同一個數據或公式時很好用。
在公司所屬領域欄位,有跨領域的情況存在,這時候需要將其分成兩列。
操作:將公司所屬領域這一列複製到最後粘貼(分列後的單元格會覆蓋右邊的單元格)--》隱藏原公司所屬領域列--》選中公司所屬領域列--》點擊篩選--》下一步--》選擇逗號分隔(或者在其他中輸入中文逗號)--》下一步--》完成,這時候可以看到被分成兩列了,然後將列的名字分別改成公司所屬領域1和2(防止後面在做數據透視的時候提示警告找不到數據表對應的欄位名)。
薪水欄位是一個範圍,需要將其分為三個欄位,最高薪水、最低薪水、平均薪水。
和上面的欄位拆分同樣的方法分列將分隔符設置為-,將薪水拆成最高薪水、最低薪水兩列,加上平均薪水列。在薪水這一列中可以看到有的薪資值沒有使用-分隔而是以上或是以下,這樣的列都會分隔到最低薪水這一列中,所以對應的最高薪水的值就會為空值,通過篩選最高薪水中的空值可以看到具體的情況。這裡的處理方式是把最高薪水賦值為最低薪水的值。
操作:取消最高薪水列的篩選--》選中列--》進入開始選項卡--》選擇查找--》在下拉框中選擇定位條件--》在彈出框中選擇空值--》將所有的空值查找到--》在單元格中輸入「=選中右邊的單元格」--》按Ctrl+Enter可以將所有的為空值的最高薪水列填充最低薪水的值。
最後我們把這兩列中的除數字以外的字符都替換為空就處理完成了。
操作:選中第一個單元格--》輸入avg選中平均值計算函數--》計算出單元格的平均值--》然後點擊右上角的T2,輸入T2:T5032回車--》即可選中2到5032的行--》在單元格上方的函數計算欄按Ctrl+Enter即可將所有的選中的單元格的平均值計算出來。
在查看職位名稱的數據時發現,職位中有一些不是數據分析的職位,需要把這些職位篩選過濾掉。
在原表【職位名稱】列後插入新的列命名為「是否為數據分析職位」。
在下方空白單元格插入函數=IF(COUNT(FIND({"數據運營","數據分析","分析師"},L2)),"是","否")。
雙擊單元格右下方進行自動填充。
上面的清洗工作做完了就到了真正的數據分析階段了,數據分析階段通過常用的數據透視表來進行,然後將分析結果以可視化圖表的形式來表現。
操作:選中所有數據--》點擊右上角的數據透視表--》生成數據透視表--》在右側將城市和列欄位拖入響應的區域裡面--》在左側會生成數據透視表的統計結果--》再點選表格中左上角行標籤---其他排序選項---降序排序--計數項:城市--》最後在總計的一列的任一單元格上右擊--》選擇值顯示方式--》選擇列匯總百分比--》
數據透視表調整完成,現在需要對我們的數據進行可視化。
這裡先選中數據透視表--》複製數據透視表--》在下方以粘貼值的方式粘貼(直接在透視表創建並餅圖會沒有總計欄位)--》選中粘貼的圖表--》右擊--》選擇設置單元格格式--》選擇數據顯示格式為百分比。
為了更好的展示局部站整體的百分比情況,選擇用餅圖來展示,從上面的透視結果看,從武漢往下面的佔比都不足百分之1,我們通過複合餅圖,將這些比例很小的放到其他的裡面顯示。
操作:選中賦值的數據表--》選擇插入選項卡--》圖表中點擊餅圖--》選擇複合餅圖類型--》在篩選中選中列標籤總計--》應用--》後面接著設置數字顯示格式--》調整餅圖樣式等操作。
4.數據分析師的隨工作經驗增長招聘的平均薪水變化趨勢