最近正值「618活動」,阿里、拼多多、京東等都在發力,商品的價格也下降了不少。我打開某寶首頁,頓時想對某些商品的評論進行一次爬取分析。
一提到爬取,我們肯定先想到python,那可真的是利器,不過我提醒一句,不允許爬的千萬不要碰。python雖然爬取簡單,但是做可視化分析需要費不少力氣,雖然有 Matplotlib 和 Seaborn 兩個包就足夠了。
如果只調用基本的函數可能做出來的圖會比較簡陋,要達到好看的效果還是需要很多的精力和代碼的,不適用於零基礎小白。
所以我想到了當下最火的BI分析工具,有了數據,直接拖拽就能得到可視化分析,完全就是零代碼,python+BI在手,打遍無敵手。原理也很簡單,數據獲取是通過Python進行的,然後得到Excel表,BI可以直接連接數據源,負責最後應用層的數據處理、加工和可視化。
那分析什麼呢?想來想去,我選擇了女性的內衣。
不要想歪,不要懷疑,這就是一個數據可視化項目,純屬娛樂,大家看看就行,重要是我分析的過程,如果能學到東西我就更開心了,我只用了13分鐘。
話不多說,進入主題。
一、數據獲取
數據來自python爬蟲獲取,淘寶約50個文胸商品的20W條評論數據,原始數據是txt格式,為了方便處理,這邊轉為Dataframe~
由於篇幅的限制,這裡只放部分代碼,感興趣的可以到文末。
二、分析目的
這裡先給大家做一個科普,對於很多隻知道A/B/C的紳士們,我們在看數據之前可能先得了解點知識,內衣是有上圍和下圍的區分的。
通過上圍與下圍的差值,我們就可以確定大小了。
雖然我沒買過,但是對分析維度還是了解的:
顏色與膚色的對比款式尺碼大小評價分析三、數據可視化
雖然獲取到的數據數量不是很大,才20W,但是Excel分析這個體量,肯定是會卡死的,而且Excel的可視化圖表簡直一言難盡,還需要各種函數...
上面說到BI工具,那市面上這麼多BI工具,怎麼去挑選呢?市面上知名的有Tableau、FineBI等,這兩個也是在知乎最受好評的工具,我從下面幾個方面簡單給你們講一下。
部署安裝:都是基於瀏覽器端即可使用的工具學習教程:FineBI更全面使用體驗(上手難度)和需求符合度:FineBI更適合小白產品功能:Tableau更佔優一點,但有些功能並不是國內企業所看重的,FineBI能做複雜報表報價和服務:FineBI的性價比很高,Tableau很貴所以我選擇FineBI進行這次可視化分析,先通過下面這個來了解一下:
不要單純的以為它只是個可視化工具,它的本質是數據分析工具,能通過數據對業務產生指導:
1、評論裡出現最多的關鍵詞
可以看見,內衣的顏色和膚色還是有很大關係的,不過據數據統計,妹子喜歡黑色佔大多數,因為在人的印象裡,好像粉色、紫色都有點怪怪的?
知道給自己女朋友/老婆買什麼顏色了嗎?不對,你們不一定有....
2、哪個尺寸的妹子最多?
D的數量很少,符合我們的認知。B的數量等於A+C的總和,這數據應該是準確的,穿B不代表就是B,就像你買衣服也喜歡寬鬆的,自己體會。
3、具體大小受什麼影響?
我從上下圍兩個角度來分析A/B/C/D的分布,這個應該是迄今為止最全面的內衣分析了,想說的都在圖裡。
4、她們喜歡什麼時候買內衣?
高峰期在上午和晚上,這也可以理解,大家都在玩手機,但是夜裡3點買的人,我想問問,你圖啥?
5、內衣的評價如何?
圖片來自於網絡
這是詞雲圖,字越大,代表佔的比重就越大,FineBI也能做,方法也是一樣,有了數據直接拖拽,然後選擇合適的圖表類型即可。
內衣畢竟是衣服,女性關注的點肯定是效果與舒適度,男性的話我就不知道了。
關於代碼和數據可視化工具,關注我,並轉發該文章,回復「內衣」即可獲得!!!
各位紳士,你們怎麼看?