點擊上方「Python技術之巔」,馬上關注,每天下午17:40準時推送
Python語言相比其他語言的優勢在哪裡?豬哥認為是
數據分析和
人工智慧這兩大塊,而且這兩個方向需求會慢慢增大,所以那些想學習Python卻不知道要朝著哪個目標學習的同學可以考慮往這兩個方向發展!一、分析目標數據分析之前我們需要清楚的知道自己想要分析什麼東西,也就是先搞清楚我們的目標。在公司可能是公司財報、用戶增量變化、產品受歡迎程度、一些報表等等。
注意: 以上數據分析全部基於上次爬取的2500款淘寶商品(默認排序),並不代表淘寶所有保險套商品!二、分析實現首先數據處理的庫這個很好確定,基本就是
numpy和
pandas這兩個必備的庫,所以大家首先確保已經安裝了這兩個庫。然後數據可視化庫呢?這麼多可視化庫該怎麼選?如果你不知道怎麼選,那豬哥給你推薦:
pyecharts 這個由中國人開發的可視化庫,想要什麼類型的圖在下面文檔裡面找就行。中文文檔:https://pyecharts.org/#/zh-cn/intro
源碼地址:https://github.com/pyecharts/pyecharts最後技術選型完畢,我們就可以開始正式的敲代碼分析了。(分析的標題將和上面的分析目標一一對應)0.數據清洗在我們數據分析之前,我們需要對數據進行清洗。因為從淘寶爬取下來的數據並不是標準的數據,比如:商品銷量,爬取下來的數據是:
2.5萬+人付款,我們需要將它轉為:
25000(整型),這樣才方面後面的處理!我們先來看看從淘寶爬取的原始數據,看看那些數據需要清洗
根據使用庫的經驗豬哥認為有兩列數據需要清洗:1、銷量轉成整型 2、地區轉成只包含省份,具體如何清洗我們直接看代碼吧!
大家可以看到最後豬哥又從新生成了一個excel文件,目的就是不去汙染原始數據,
因為原始數據非常重要,所以我們在以後的數據處理中要儘量保存好原始數據,多備份幾個都不多餘!1.分析保險套標題高頻關鍵字分析標題高頻關鍵字這都是老生常談的一個流程,也就是使用jieba分詞,然後統計詞頻,最後生成一個詞雲圖,我相信經常看豬哥公眾號的同學看都看膩了吧,這種小功能閉著眼睛都會了。
十幾行代碼就搞定了,我們來看看效果圖吧
分析結論:2.分析保險套標題高頻關鍵字 與 商品數量關係上面我們只看到大概哪些功能受歡迎,如果需要看具體的數據怎麼辦呢?我們就來統計一下包含這些高頻關鍵詞的商品數據數量吧,代碼講解在圖片下方,下同!
我們取最高頻的20個關鍵字,然後遍歷所有數據的標題中是否包含其中關鍵字,如果包含則該關鍵字的value就+1。來看看生成的柱狀圖效果吧!
包含情趣二字的商品有1150款,佔到總數(2500款+)的46%。ps:豬哥有個疑問想請教各位老司機:這個
免洗 是咋玩的?3.分析保險套標題高頻關鍵字 與 平均銷量關係這個分析有意思了,就相當於用戶更喜歡哪種功能或者材質的套套。高頻關鍵字與平均銷量分析數據的實現方法是,同樣遍歷所有數據的標題,如果包含某個關鍵字,則把該項數據的銷量放在關鍵字的value中(一個list),統計完後再對每個關鍵字的value進行求平均值,最後再根據平均銷量排序。來看看效果吧!
分析結論:ps:有很多同學問:為什麼不是超薄?超薄自己是爽了,可女朋友呢?4.分析保險套標題高頻關鍵字 與 平均售價關係分析完大家喜歡的功能,再來分析下這些功能的價格如何?哪些功能的保險套比較貴呢?
高頻關鍵字 與 平均售價關係分析原理與上面是相似的,使用的同一個方法,只不過是將原來的銷量換成價格,來看看效果圖吧!
分析結論:ps:類似凝膠、透明質、免洗的哪位老司機用過,和一般的有啥區別?5.分析保險套商品價格區間分布關係商品的標題和功能差不多分析完了,我們來分析下價格吧!
豬哥人為的對價格進行了劃分,一共分為:』0-20』, 『21-40』, 『41-60』, 『61-80』, 『81-100』, 『101-120』, 『121-150』, 『151-200』, 『200以上』這9個區間,然後對數據切割、統計、排序,最後分別生成柱狀圖和餅圖。
分析結論:價格區間在21-40的商品最多為778款,大約佔比31%。ps:沒想到還有這麼多超過100塊的,我想問下200塊價格的套套是啥感覺?6.分析保險套商品銷量區間分布關係
銷量區間分布分析實現原理:認為為銷量分區,大概分為:』一千以內』, 『一千到五千』, 『五千到一萬』, 『一萬到五萬』, 『五萬到十萬』, 『十萬以上』,這六個區間,然後同上方法進行統計、排序最後可視化。
分析結論:ps:想知道那款超過10萬銷量的保險套商品信息嗎?關注豬哥微信公眾號「裸睡的豬」回覆:爆款套套,即可查看!7.分析保險套商品價格區間 與 平均銷量關係假如你是一個保險套賣家,新推出一款保險套,你想知道價格定為多少銷量才會比較高呢?這時候我們就可以通過分析價格與商品的銷量關係,用實際的數據來定價,這也正是數據分析的價值之一。
商品價格區間 與 平均銷量關係分析實現原理是:使用pandas自動分區將價格劃分為12個分區,然後對銷量數據分組、求平均值,來看看可視化之後的效果。
分析結論:定價在31.9-39這個區間平均銷量最高,為8938.分析保險套商家數量全國分布關係標題、價格、銷量都分析過了,最後我們還分析下商家位置的數據。分析的目標是統計全國各省保險套商家數量,然後做成熱力圖和柱狀圖。
統計商家數量還是比較簡單,因為我們之前在數據清洗的時候已經只保留了省份數據,所以直接value_counts()就可以得到想要的數據,看看效果如何!
分析結論:ps:貴州四周都有賣套套的,為何就它沒有?難道和地理有關?9.分析保險套商家全國平均銷量關係分析完商家數後,我們來看看各省的平均銷量吧。
商家全國平均銷量關係分析實現原理:我們新創建一個透視表並對銷量求平均值,然後再排序,最後生成熱力圖和柱狀圖。
出乎意料的是山西39個商家平均銷量竟然是第一為1535。三、總結價格區間在21-40的商品最多為778款,大約佔比31%定價在31.9-39這個區間平均銷量最高,為893通過上述分析結果,如果豬哥作為一個保險套商家,想要推出一款產品,設置標題帶螺紋、顆粒、狼牙,價格設置在31.9-39元,這樣可能會更暢銷一些。數據分析作為一把利刃,能讓你看見別人看不見的事物,如果使用得當完全可以作為你創業的一個重要支點!最後豬哥再送你一句忠告:想學數據分析,一定要學好pandas!
源碼上傳到後臺上,回復「 TT」即可獲得。
如果你覺得文章還不錯,請大家點讚分享下。你的肯定是我最大的鼓勵和支持。
更多爬蟲,關注下面公號,後臺回覆:「爬蟲實戰」,獲取獨家整理的一份爬蟲匯總。