這兩年的大數據熱潮帶火了數據分析這個職業,很多人想轉行幹數據分析,但是又不知道現在這個行業的求職環境和前景如何,動了心卻不敢貿然行動。
前兩天有個幹運營的妹子找我聊天,也是問我數據分析崗位前景的問題,看在妹子長得實在好看的份上,我花了一晚上時間,去智聯招聘上面爬了一下數據分析崗位的招聘數據,對數據分析崗位的薪水,需求情況,以及要求的工作年限做了個分析。
python數據爬取我就不多說了,可以參考網上的代碼,我一共爬了5000條數據
拿到數據後,選擇工具進行數據分析,一提到分析工具,很多人都會想到用Excel,我剛入行的時候也是「Excel打遍天下」,但Excel數據清洗和計算效率低下,需要進行大量重複性、低附加值的人工操作,而且要做好看的圖表得花很多時間研究功能,遇到大數據量就卡的不行。後來我了解到了自助分析工具FineBI,從此放棄了Excel,這篇我就用FineBI來給大家展示一個完整的分析過程:
數據分析的步驟:
1、提出問題——明確數據分析目的
2、理解數據——理解數據列名的意義
3、數據清洗——統一格式內容
4、構建模型——思考用什麼樣的表現形式把數據呈現出來
5、數據可視化——把數據轉化成圖
提出問題
首先要明確這次數據分析的目的是什麼?也就是為了解決什麼問題?(提出的問題要能用很明確的指標和數字來衡量,切勿模稜兩可)
提出問題:1、在哪些城市找到數據分析師工作的機會比較大?2、數據分析師的薪水如何?3、根據工作經驗的不同,薪酬是怎樣變化的?
理解數據
接下來要理解表格中的各個欄位(列名)表示什麼意思:
城市:用於比較不同城市對數據分析師的需求如何
職位所屬:分析以後的工作崗位
職位ID:表示職位的唯一表示,也就是每一行數據的唯一標識------用於去掉重複ID
薪水:比較不同城市、和所屬領域的薪水區別
工作年限:從時間軸上對比薪資漲幅
數據準備
下載安裝好FineBI後,連結數據。FineBI可以直接和資料庫進行對接,實時更新數據,以往用excel統計數據的時候,一旦數據需要更新,比如做了8月份的財務報表,到了9月份時,就需要再次花費人力更新數據,十分麻煩,用FineBI就很方便。除此以外,FineBI還提供業務包功能,基於我們的分析主題新建一個業務包,把我本次分析需要用到的數據表存放在業務包裡,方便查找。
然後將數據表添加到業務包中,數據表添加支持資料庫表,sql數據表,excel數據表,還有自助數據集中的表,這裡我把爬來的招聘數據Excel表添加到業務包中
然後將數據表添加到業務包中,數據表添加支持資料庫表,sql數據表,excel數據表,還有自助數據集中的表,這裡我把爬來的招聘數據Excel表添加到業務包中。
數據清洗加工
數據準備好了,下一步就是對數據進行清洗加工,去掉重複、無效的數據,拿到我們想到的數據,FineBI的處理過程十分方便,自助數據集可以對數據進行求和、平均、排序等一系列的運算
1、選擇子集
業務包中添加自助數據集,只選擇對數據分析有意義的欄位,無意義的欄位不勾選,也就是在Excel裡面隱藏列。這裡我們隱藏公司ID和公司全名,保留職位ID和公司簡稱還有薪水數據,數據實時預覽,
2、髒數據清洗
瀏覽了以下,發現有幾條記錄中城市數據缺失,我們直接添加過濾條件,過濾掉空值和異常值
3、薪水上下限分割:
數據集中,因為薪水是以xxK-xxk的文本形式進行存儲的,我需要用FineBI新增公式列(類似excel函數)將這些字符進行分割,方便麵對薪水進行分析
薪水下限(數值):left( indexofarray ( split (薪水,"-") ,1),find( "K",INDEXOFARRAY( split(薪水,"-") ,1))-1)
薪水上限(含K字符):right ( indexofarray( split(薪水,"-") ,2),len(薪水)- find("K",indexofarray(split(薪水,"-"),2 ) ) )
薪水上限(數值):left((薪水上限(含K字符) ,find"k",薪水上限(含K字符))-1 )
這樣就得到每個崗位的數值格式的薪水區間了:
4、崗位平均薪水計算
知道每個崗位的數值格式的薪水區間,我們還可以計算以下每個崗位的平均薪水,新增列:平均薪水=(薪水下限+薪水上限)/2,即可得到每個崗位的平均薪水。
數據可視化分析
數據清洗加工完畢,接下來就是數據可視化分析階段了,用Finebi做數據可視化十分的簡單,拖拖拽拽就可以自動生成圖表,而在Excel裡,要想作出美觀的可視化,就肯定要學會數據透視表,操作過程也十分的繁雜。下面我用Finebi來展示以下數據可視化分析的過程:
1、我們先來看看在哪些城市找到數據分析師工作的機會比較大?
新建組件,將城市拖入橫軸,記錄數拖入縱軸,並將工作年限拖入顏色,圖表就自動生成了
從表中可以看出,在北京數據分析的崗位最多,往後是上海、深圳、杭州、廣州;按工作年限要求來看,3-5年的需求量最大,其次是1-3年,這說明數據分析對年輕人需求將更多。
2、看完了數據分析崗位在各城市的需求情況,我們再來看看數據分析師的薪水如何?
新建組件,將城市拖入橫軸,平均薪水拖入縱軸,平均薪水進行二次計算,選擇求平均值
從上面的結果可以看出,北京的數據分析師平均薪水最高,其次是深圳,上海,杭州。
3、根據工作經驗的不同,薪酬是怎樣變化的?
以工作年限要求行橫軸,平均薪水為縱軸,分析工作年限與平均薪水的關係
從上面的分析結果可以看出,隨著工作經驗的增長,數據分析師的薪酬也在不斷增加。
綜合上面三個分析結果,我整理出來以下結論分享給了問我問題的妹子:
1)數據分析這一崗位,有大量的工作機會集中在北上廣深以及新一線城市,如果將來去這些城市找工作,可以提高求職成功的條件概率。
2)從待遇上看,數據分析師留在北京,深圳發展是個不錯的選擇,其次是上海。
3)數據分析是個年輕的職業方向,大量的工作經驗需求集中在1-5年。對於數據分析師來說,5年似乎是個瓶頸期,如果在5年之內沒有提升自己的能力,大概以後的競爭壓力會比較大。
4)隨著經驗的提升,數據分析師的薪酬也在不斷提高,10年以上工作經驗的人,能獲得相當豐厚的薪酬。
FineBI個人版永久免費,感興趣的朋友可以私信回復「數據分析」獲取免費下載地址!