文末掃海報二維碼領【全國數據崗位調研數據】
Excel是進行數據分析用得最多、最基本的工具。為了儘快掌握使用Excel做數據分析的操作,我也來找個小案例實踐一下。
這個小案例是對數據分析的崗位進行的分析,希望通過數據分析找到數據分析這個崗位的一些基本情況,也給自己轉行多一點底氣。
首先還是數據分析的步驟,一般可以分為6個:
明確分析的目的
數據準備
數據清洗
數據分析
數據可視化
分析報告
數據分析師的在各個城市的招聘數量和平均薪水
數據分析師的各個工作經驗年限招聘佔比
數據分析師的各個工作經驗年限招聘的平均薪水
薪資前幾位的公司
各學歷的崗位數量及佔比
本次分析的數據存在Excel表中,一共有6800多條數據。在數據準備階段我們要做的是去理解數據對每一列的意義和作用要有一個準確的理解,這樣才能保證後面的數據分析工作順利進行。
數據清洗的過程包括:選擇子集,重命名列名,刪除重複值,缺失值處理,欄位分列,過濾篩選等。
1.選擇子集
在給定的數據表中,有一些列是我們數據分析的時候用不到的,所以我們通常會將用不到的隱藏掉。
這裡隱藏的列有:
操作:
2.重命名列名
非必要,根據實際情況來定。當有列名意思表達不恰當,我們可以將列明重命名為易於理解的名字。
3.刪除重複值
Excel刪除重複值的方法有很多種:
這裡使用的是較為簡單的方法,直接根據職位ID來刪除重複項。刪除重複項前有職位ID的數據有6875條,刪除後剩下5032行了。
4.缺失值處理
一般對缺失值的處理有4種方法,根據情況靈活使用:
這裡選擇第一種方法來處理,選中各列,可以查看各列的記錄條數,可以看到城市和崗位所屬列存在商量的缺失值,在這對城市欄位的缺失值我們可以通過其他的欄位來判斷,然後將其手動補充完整。
操作:
篩選出了兩條缺失值的記錄,然後根據商區可以判斷城市為上海,手動補全記錄。對於職位所屬可以用同樣的方法來補全缺失值。
當空缺值較多時使用Ctrl+Eneter快捷鍵,在不連續的單元格中同時輸入同一個數據或公式時很好用。
5.欄位分列
在公司所屬領域欄位,有跨領域的情況存在,這時候需要將其分成兩列
操作:
這時候可以看到被分成兩列了,然後將列的名字分別改成公司所屬領域1和2(防止後面在做數據透視的時候提示警告找不到數據表對應的欄位名)。
薪水欄位是一個範圍,需要將其分為三個欄位,最高薪水、最低薪水、平均薪水。
和上面的欄位拆分同樣的方法分列將分隔符設置為-,將薪水拆成最高薪水、最低薪水兩列,加上平均薪水列。
在薪水這一列中可以看到有的薪資值沒有使用-分隔而是以上或是以下,這樣的列都會分隔到最低薪水這一列中,所以對應的最高薪水的值就會為空值,通過篩選最高薪水中的空值可以看到具體的情況。這裡的處理方式是把最高薪水賦值為最低薪水的值。
操作:
接下來就是計算平均薪資了
操作:
選中第一個單元格
輸入avg選中平均值計算函數
計算出單元格的平均值
然後點擊右上角的T2,輸入T2:T5032回車
在單元格上方的函數計算欄按Ctrl+Enter
6.過濾篩選
在查看職位名稱的數據時發現,職位中有一些不是數據分析的職位,需要把這些職位篩選過濾掉。
操作:
在原表【職位名稱】列後插入新的列命名為「是否為數據分析職位」;
在下方空白單元格插入函數=IF(COUNT(FIND({"數據運營","數據分析","分析師"},L2)),"是","否");
雙擊單元格右下方進行自動填充;
上面的清洗工作做完了就到了真正的數據分析階段了,數據分析階段通過常用的數據透視表來進行,然後將分析結果以可視化圖表的形式來表現。
操作:
數據透視表調整完成,現在需要對我們的數據進行可視化。
1.了解各城市的數據分析崗位的招聘數量佔比
為了更好的展示局部站整體的百分比情況,選擇用餅圖來展示,從上面的透視結果看,從武漢往下面的佔比都不足百分之1,我們通過複合餅圖,將這些比例很小的放到其他的裡面顯示。
操作:
選中賦值的數據表
選擇插入選項卡
圖表中點擊餅圖
選擇複合餅圖類型
在篩選中選中列標籤總計
應用
設置數字顯示格式
調整餅圖樣式
2.各城市的各工作經驗年限的招聘佔比
3.數據分析師的在各個城市的招聘數量和平均薪水
4.數據分析師的隨工作經驗增長招聘的平均薪水變化趨勢
5.招聘薪資前3位的公司
6.各學歷的崗位數量及佔比
結論:
招聘數量方面:數據分析相關崗位在各個工作年限的招聘數量都是最多的,其次是上海,另外還可以看到,北京和上海在所有的工作年限的招聘數量上分布相對均勻一些,沒有相差很大。北上深杭四個城市的招聘數量佔到了接近90%,說明在這些城市之外,數據分析崗位可選擇性還是很低的。
薪資方面:北京的平均薪資高於其他城市,上海和深圳基本持平。從工作年限隨平均薪資的變化曲線可以看到,前期的薪資上漲相對緩慢,後期上漲相對較快。
公司方面:招聘薪資排在前幾位的公司裡面分了3個層次,100K,80K和70K,可以看到,基本上是金融、科技和網際網路公司。
學歷方面:可以看到,本科生還是佔據了大多數,其次是專科生,博士的數量極其稀少。