用Python分析淘寶2000款保險套,得出這些有趣的結論

2021-02-15 Python技術之巔

點擊上方「Python技術之巔」,馬上關注,每天下午17:40準時推送

Python語言相比其他語言的優勢在哪裡?豬哥認為是數據分析人工智慧這兩大塊,而且這兩個方向需求會慢慢增大,所以那些想學習Python卻不知道要朝著哪個目標學習的同學可以考慮往這兩個方向發展!一、分析目標數據分析之前我們需要清楚的知道自己想要分析什麼東西,也就是先搞清楚我們的目標。在公司可能是公司財報、用戶增量變化、產品受歡迎程度、一些報表等等。注意: 以上數據分析全部基於上次爬取的2500款淘寶商品(默認排序),並不代表淘寶所有保險套商品!二、分析實現首先數據處理的庫這個很好確定,基本就是numpypandas這兩個必備的庫,所以大家首先確保已經安裝了這兩個庫。然後數據可視化庫呢?這麼多可視化庫該怎麼選?如果你不知道怎麼選,那豬哥給你推薦:pyecharts 這個由中國人開發的可視化庫,想要什麼類型的圖在下面文檔裡面找就行。中文文檔:https://pyecharts.org/#/zh-cn/intro
源碼地址:https://github.com/pyecharts/pyecharts最後技術選型完畢,我們就可以開始正式的敲代碼分析了。(分析的標題將和上面的分析目標一一對應)0.數據清洗在我們數據分析之前,我們需要對數據進行清洗。因為從淘寶爬取下來的數據並不是標準的數據,比如:商品銷量,爬取下來的數據是:2.5萬+人付款,我們需要將它轉為:25000(整型),這樣才方面後面的處理!我們先來看看從淘寶爬取的原始數據,看看那些數據需要清洗

根據使用庫的經驗豬哥認為有兩列數據需要清洗:1、銷量轉成整型 2、地區轉成只包含省份,具體如何清洗我們直接看代碼吧!

大家可以看到最後豬哥又從新生成了一個excel文件,目的就是不去汙染原始數據,因為原始數據非常重要,所以我們在以後的數據處理中要儘量保存好原始數據,多備份幾個都不多餘!1.分析保險套標題高頻關鍵字分析標題高頻關鍵字這都是老生常談的一個流程,也就是使用jieba分詞,然後統計詞頻,最後生成一個詞雲圖,我相信經常看豬哥公眾號的同學看都看膩了吧,這種小功能閉著眼睛都會了。

十幾行代碼就搞定了,我們來看看效果圖吧


分析結論:2.分析保險套標題高頻關鍵字 與 商品數量關係上面我們只看到大概哪些功能受歡迎,如果需要看具體的數據怎麼辦呢?我們就來統計一下包含這些高頻關鍵詞的商品數據數量吧,代碼講解在圖片下方,下同!

我們取最高頻的20個關鍵字,然後遍歷所有數據的標題中是否包含其中關鍵字,如果包含則該關鍵字的value就+1。來看看生成的柱狀圖效果吧!
包含情趣二字的商品有1150款,佔到總數(2500款+)的46%。ps:豬哥有個疑問想請教各位老司機:這個 免洗 是咋玩的?3.分析保險套標題高頻關鍵字 與 平均銷量關係這個分析有意思了,就相當於用戶更喜歡哪種功能或者材質的套套。高頻關鍵字與平均銷量分析數據的實現方法是,同樣遍歷所有數據的標題,如果包含某個關鍵字,則把該項數據的銷量放在關鍵字的value中(一個list),統計完後再對每個關鍵字的value進行求平均值,最後再根據平均銷量排序。來看看效果吧!


分析結論:
ps:有很多同學問:為什麼不是超薄?超薄自己是爽了,可女朋友呢?4.分析保險套標題高頻關鍵字 與 平均售價關係分析完大家喜歡的功能,再來分析下這些功能的價格如何?哪些功能的保險套比較貴呢?


高頻關鍵字 與 平均售價關係分析原理與上面是相似的,使用的同一個方法,只不過是將原來的銷量換成價格,來看看效果圖吧!


分析結論:
ps:類似凝膠、透明質、免洗的哪位老司機用過,和一般的有啥區別?5.分析保險套商品價格區間分布關係商品的標題和功能差不多分析完了,我們來分析下價格吧!


豬哥人為的對價格進行了劃分,一共分為:』0-20』, 『21-40』, 『41-60』, 『61-80』, 『81-100』, 『101-120』, 『121-150』, 『151-200』, 『200以上』這9個區間,然後對數據切割、統計、排序,最後分別生成柱狀圖和餅圖。



分析結論:
價格區間在21-40的商品最多為778款,大約佔比31%。ps:沒想到還有這麼多超過100塊的,我想問下200塊價格的套套是啥感覺?6.分析保險套商品銷量區間分布關係

銷量區間分布分析實現原理:認為為銷量分區,大概分為:』一千以內』, 『一千到五千』, 『五千到一萬』, 『一萬到五萬』, 『五萬到十萬』, 『十萬以上』,這六個區間,然後同上方法進行統計、排序最後可視化。



分析結論:
ps:想知道那款超過10萬銷量的保險套商品信息嗎?關注豬哥微信公眾號「裸睡的豬」回覆:爆款套套,即可查看!7.分析保險套商品價格區間 與 平均銷量關係假如你是一個保險套賣家,新推出一款保險套,你想知道價格定為多少銷量才會比較高呢?這時候我們就可以通過分析價格與商品的銷量關係,用實際的數據來定價,這也正是數據分析的價值之一。
商品價格區間 與 平均銷量關係分析實現原理是:使用pandas自動分區將價格劃分為12個分區,然後對銷量數據分組、求平均值,來看看可視化之後的效果。


分析結論:定價在31.9-39這個區間平均銷量最高,為8938.分析保險套商家數量全國分布關係標題、價格、銷量都分析過了,最後我們還分析下商家位置的數據。分析的目標是統計全國各省保險套商家數量,然後做成熱力圖和柱狀圖。

統計商家數量還是比較簡單,因為我們之前在數據清洗的時候已經只保留了省份數據,所以直接value_counts()就可以得到想要的數據,看看效果如何!



分析結論:
ps:貴州四周都有賣套套的,為何就它沒有?難道和地理有關?9.分析保險套商家全國平均銷量關係分析完商家數後,我們來看看各省的平均銷量吧。

商家全國平均銷量關係分析實現原理:我們新創建一個透視表並對銷量求平均值,然後再排序,最後生成熱力圖和柱狀圖。

出乎意料的是山西39個商家平均銷量竟然是第一為1535。三、總結價格區間在21-40的商品最多為778款,大約佔比31%定價在31.9-39這個區間平均銷量最高,為893通過上述分析結果,如果豬哥作為一個保險套商家,想要推出一款產品,設置標題帶螺紋、顆粒、狼牙,價格設置在31.9-39元,這樣可能會更暢銷一些。數據分析作為一把利刃,能讓你看見別人看不見的事物,如果使用得當完全可以作為你創業的一個重要支點!最後豬哥再送你一句忠告:想學數據分析,一定要學好pandas!

源碼上傳到後臺上,回復「 TT」即可獲得。

如果你覺得文章還不錯,請大家點讚分享下。你的肯定是我最大的鼓勵和支持。

更多爬蟲,關注下面公號,後臺回覆:爬蟲實戰,獲取獨家整理的一份爬蟲匯總。

相關焦點

  • 淘寶5000+「保險套」商品數據分析
    保險套的歷史可以追溯到3000年前的古埃及,相傳被詛咒的米諾斯的精液含有蛇和蠍子,為了保護他的性伴侶,米諾斯用山羊的膀胱做了一個女用保險套,相較於同期通過蜂蜜和牛糞避孕的方法,該方法具有無可比擬的時代進步性。現代保險套的出現要追溯到17世紀的英國。
  • 四六級作文模板:原因分析+得出結論
    小編整理了表示原因分析+得出結論的作文展開句。希望幫到正在備考的各位~   提醒大家,模板只能幫的大家理清思路。具體的內容還是要大家進行填充的。想拿高分,句式表達靈活多樣,也是非常重要的。背完模板一定要找幾篇作文題目練手!
  • 用Python 對新冠病毒做數據分析,我們得出哪些結論?
    一些分析人士預測,疫情對全球經濟構成的威脅,有可能引發深遠的政治後果。              數據集簡介              約翰霍普金斯大學收集了「Novel Corona Virus 2019 Dataset」,並將該數據集發表在 Kaggle 上。該小組從世界衛生組織、當地疾控中心和媒體等不同渠道收集了這些數據。
  • 有圖有真相 評測六款男士保險套
    在平日的性生活中,保險套是夫妻必備之物。一個優質的保險套能夠幫助成功避孕的同時,也能夠為你的私房性事增添「性趣」。市面上保險套的種類繁多,小編精選了6個常見品牌的保險套,分別是杜蕾斯、傑士邦、岡本、多樂士、倍力樂和第六感。
  • Python自動化用這些知識點就夠了!
    自動化辦公無非是excel、ppt、word、郵件、文件處理、數據分析處理、爬蟲這些,這次就來理一理python自動化辦公的那些知識點。下面一一詳解。excel自動化office家族其實都可以用VBA解決自動化的問題,但可能很多人不會用。python針對excel有很多的第三方庫可以用,比如xlwings、xlsxwriter、xlrd、xlwt、pandas、xlsxwriter、win32com、xlutils等等。
  • python爬蟲之selenium抓取淘寶商品信息
    簡介本節採用python爬蟲相關技術獲取淘寶商品信息。採用的技術有selenium、pyquery及urllib.parse等。selenium有優點也有缺點,模擬用戶實際操作,必須等待網頁的必要信息加載完畢,如靜態頁面、css等,所以效率比較低,所以具體看用戶如何取捨,如果注重效率,可以用requests模塊進行分析爬取,後續有空也會採用requests、urllib庫進行爬蟲訓練,使用正則表達式分析爬取到的內容。
  • 相同資料庫,相同主題,兩篇論文得出了相反的結論
    原因顯而易見:這些數據相對容易獲得;可以很短時間內就能進行分析;並可以回答諸多問題。但局限性也很明顯:數據是觀察性的,很容易發生選擇偏倚或混雜偏倚。 結論相反的兩篇論文 相距一個月發表在同一個期刊上的兩篇論文,卻得出了完全相反的結論,這是去年發生在《Surgery》期刊上的事情(IF=3.356)。
  • 內行人專業分析比較,得出結論
    內行人專業分析比較,得出結論如今我們在裝修房子的時候,可以選擇的方式越來越多,就連地面的鋪設都有多種方式可以選擇,比如比較流行的兩種地面鋪設就是瓷磚和木地板,兩種方式各自有著優缺點,所以有的人就比較糾結,那麼在裝修的時候到底是選擇木地板還是瓷磚呢?來看看內行人的專業分析,得出的結論,相信你看完之後再選擇就不會糾結了。
  • 俄媒分析一番得出結論:將給某個大國帶來恐懼
    由於關於這款戰略轟炸機的數據少之又少,因此,不少外國專家只能通過有限的數據來分析它的性能,近日,俄羅斯媒體分析並評價了正處於研發階段當中的「轟-20」戰略轟炸機,得出了結論。(俄媒報導)據俄羅斯媒體報導:中國西安飛機工業公司研發的「轟-20」戰略轟炸機將會超越解放軍現役的「轟-6」轟炸機的所有型號。
  • 小白數據分析——Python職位數據分析全鏈路
    1.1 按照創建時間清洗異常值對 「職位創建時間」 維度清洗主要是為了防止有些創建時間特別離譜的崗位混進來,比如:出現了2000年招聘的崗位。如果跟Java、PHP職位去對比,或許我們能得出一些結論,然而單純看這個總數顯然是沒有實際參考價值的。所以接下來我們需要按照維度來進行細粒度的拆分。2.1 單維度分析我們由粗到細,先來按照單維度進行分析。對於一個在校生來說,他最迫切想了解的數據是什麼?
  • 超適合Python小白的乾貨,Python數據分析50個實戰項目
    2.大話NBA | 用數據帶你回顧喬丹的職業生涯3.分析幾十萬條知乎數據,我挖掘出了這些秘密4.用(大)數據全方位解讀電視劇《大秦帝國之崛起》5.以虎嗅網4W+文章的文本挖掘為例,展現數據分析的一整套流程6.從大數據輿情傳播角度看《三生三世十裡桃花》7.北京二手房房價分析8.kaggle數據分析實踐項目練習
  • 【研究】帶你用數據分析看透美國總統大選
    那麼,為了更好的理解數據分析的這些問題,我們現在來結合美國大選這個具體例子,帶著大家做一場「探索性數據分析」。 第七步:得出結論 最後總結數據分析結論如下: 1、有部分州,每年都一定選擇共和黨或者一定選擇民主黨,剩下小部分州會在兩黨之間搖擺,也就是說,美國總統大選,候選人背後代表的黨派影響力,大於他們個人的影響力。
  • 淘寶造物節一天讓「楊超越」說了2000萬句話
    曾幾何時,當一個新的創意或者新的潮流出現的時候,我們的第一反應,總是要上淘寶上搜一搜。在萬物皆可淘寶的時代,稱淘寶為「萬能的淘寶」也不為過。因為淘寶不僅帶給我們越來越多的奇思妙想,也吸引了無數的年輕人在這裡開啟創業之路,更幫助年輕人們找到了最好的自我展示方式。
  • 那些有趣/用的 Python 庫,15篇 Python 技術熱文
    註:以下文章,點擊標題即可閱讀《那些有趣/用的 Python 庫》本文整理了一些有趣有用的 Python 庫,其中包括圖片處理,視頻下載,財經數據接口包等等,需要的童鞋可以看過來啦。《Python 爬蟲實踐:《戰狼2》豆瓣影評分析》本文用 Python 實現了簡單的爬蟲爬取了豆瓣的最新電影的影評。主要分為三部分:抓取網頁數據、清理數據、用詞雲進行展示。想學習Python網絡爬蟲的同學可以作為參考。
  • python爬取+BI分析5000條內衣數據,發現妹子最愛這款文胸
    生活中我們經常會用python進行數據爬取,但是爬取簡單分析難,很多人喜歡用echarts圖表接口或者是python的第三方庫進行數據可視化,甚至是用matlab,基本上都需要用代碼實現,在數據展示上十分繁瑣,效率不高。
  • 進口保險套不合格居多 如何正確挑選保險套
    該局分析指出,乳膠保險套安全項目不合格直接影響避孕和預防性病、愛滋病的效果,產品質量與消費者安全密切相關。他們將通過風險監測等手段,加強對乳膠保險套的檢驗監管力度。若用過一次後覺得太緊或太松,則要用細線,繞充分勃起後的陰莖中部一圈,然後測量線的長度,得出的即是陰莖周長值,再除以2,然後根據這個計算結果,諮詢購買尺寸合適的保險套。  2、有早洩情況就別用超薄型保險套  保險套可分為超薄、薄型和普通三種。專家指出,厚度對男性性心理有影響。
  • 如何用python來繪製四邊形-python繪製四邊形圖文教程來了
    python的應用有很多,其中還可以用python來繪製四邊形,下面羽憶教程網為您分享如何用python來繪製四邊形的詳細步驟。python繪製四邊形想要用python繪製四邊形,首先需要調用turtle模塊,這個turtle模塊是python內置的一個非常有趣的模塊,安裝python後自帶的,所以只需要簡單的導入就可以了。1、在python中先導入turtle模塊。
  • python數據分析專題 (7):python數據分析模塊
    python是一門優秀的程式語言,而是python成為數據分析軟體的是因為python強大的擴展模塊。
  • 掌握數據分析最重要的軟實力:數據感知能力
    Python的功能強大,相信會點開這篇文章的人早就明了於心python有強大的三方庫,功能齊全,且python
  • 《刺激戰場》玩家用M762測試6種握把,得出了一個結論! - 遊戲王者盟
    那麼這期又有哪些有趣的事情呢?內容前瞻「一位玩家用M762測試6種握把的效果,得出了一個結論,直角握把不是第一」,我們一起來看看吧!一、玩家用M762測試6種握把的壓槍一位粉絲投稿給盟盟說「我在訓練場使用M762測試了遊戲中6種握把的壓槍,結果得出了一個結論,公布結果,建議收藏!