前幾天 iG 奪冠,王老闆在微博抽獎,113 個 10000 元。
抽獎結果出來後,有心人爆出獲獎的人數 113 裡面有 112 個都是女性,這不免讓人生疑,很多大號都發文章說了,我也就不湊熱鬧了。
為啥總有人這麼牛逼,能發現這些別人看不到的事情。分析出這個結果需要什麼能力呢?
寫代碼?數據分析?還是啥東西?
這篇文章,給大家分享一個,普通人也能分析出王思聰中獎名單貓膩的方法。
首先,要分析中獎名單,肯定要知道哪些人中獎了,這些信息哪裡來呢?
這部分信息肯定是公開的,那是不公開,誰知道是不是內定呢?那結果去哪裡看呢?
王思聰發的抽獎,他的微博肯定有入口,到微博主頁搜索「王思聰」。
然後點進去,到他的微博主頁,從最近的帖子看,果然看到一條他發的抽獎結果信息,裡面有名單公示連結入口。
點這個連結,果然看到了所有中獎人的名單:
點進去第一個看看,到了他的微博主頁,但是沒有性別,雖然頭像哪裡有個箭頭,但是不直觀。繼續觀察,看到右下角一個「查看更多」
點進去看看,公開信息基本都可以看到。
好了,至此,我們已經研究出了找到中獎名單的詳細信息路徑,下面就是如果把這些信息統計下來了。
113 個,手動統計?太麻煩了!
編程?門檻太高!
有沒有啥工具,可以幫我們呢?有!
話不多說,直接上步驟!
使用軟體:webscraper
安裝步驟,看視頻:https://v.qq.com/x/page/j0753l7ki12.html
安裝好以後,打開 webscraper,點擊「導入Sitemap」
然後下面需要用到的一些代碼,大家不用理會它什麼意思。
{"_id":"wangsicong","startUrl":["http://event.weibo.com/yae/event/lottery/result?pageid=100140E1198435&id=3436763&f=weibo"],"selectors":[{"id":"people","type":"SelectorElementClick","parentSelectors":["_root"],"selector":"h4 a.S_txt1","multiple":true,"delay":"2000","clickElementSelector":"a.page.S_txt1:nth-of-type(n+3)","clickType":"clickOnce","discardInitialElements":false,"clickElementUniquenessType":"uniqueText"},{"id":"bbb","type":"SelectorLink","parentSelectors":["people"],"selector":"_parent_","multiple":false,"delay":0},{"id":"ccc","type":"SelectorLink","parentSelectors":["bbb"],"selector":"div.PCD_person_info a.WB_cardmore","multiple":false,"delay":"2000"},{"id":"ddd","type":"SelectorElement","parentSelectors":["ccc"],"selector":"div#plc_main","multiple":false,"delay":"3000"},{"id":"eee","type":"SelectorText","parentSelectors":["ddd"],"selector":"div.WB_cardwrap:nth-of-type(1) li.li_1:nth-of-type(1) span.pt_detail","multiple":false,"regex":"","delay":0},{"id":"address","type":"SelectorText","parentSelectors":["ddd"],"selector":"li.li_1:nth-of-type(2) span.pt_detail","multiple":false,"regex":"","delay":0},{"id":"sex","type":"SelectorText","parentSelectors":["ddd"],"selector":"li.li_1:nth-of-type(3) span.pt_detail","multiple":false,"regex":"","delay":0},{"id":"time","type":"SelectorText","parentSelectors":["ddd"],"selector":"li.li_1:nth-of-type(7) span.pt_detail","multiple":false,"regex":"","delay":0},{"id":"following","type":"SelectorText","parentSelectors":["ddd"],"selector":"td.S_line1:nth-of-type(1) strong.W_f18","multiple":false,"regex":"","delay":0},{"id":"followed","type":"SelectorText","parentSelectors":["ddd"],"selector":"td.S_line1:nth-of-type(2) strong.W_f18","multiple":false,"regex":"","delay":0},{"id":"content","type":"SelectorText","parentSelectors":["ddd"],"selector":"td.S_line1:nth-of-type(3) strong.W_f18","multiple":false,"regex":"","delay":0},{"id":"level","type":"SelectorText","parentSelectors":["ddd"],"selector":"p.level_info span.info:nth-of-type(1) span.S_txt1","multiple":false,"regex":"","delay":0},{"id":"vip","type":"SelectorText","parentSelectors":["ddd"],"selector":"p.info:nth-of-type(2)","multiple":false,"regex":"","delay":0},{"id":"birthday","type":"SelectorText","parentSelectors":["ddd"],"selector":"li.li_1:nth-of-type(4) span.pt_detail","multiple":false,"regex":"","delay":0}]}
需要輸入 2 個信息:
1、複製粘貼,一字不差,如果提示錯誤,檢查一下是不是一字不差,一字不差的意思是,一個標點符號都不能有誤差。
2、英文字母,隨便寫。
填完以後,點擊下面的 「Import Sitemap」。
然後,點擊中間下拉菜單,再點擊 「scrape」
然後,點擊 「start scraping」
然後,會彈出一個窗口,你需要做的就是 —— 等,等他抓完。
這個時間,你可以在電腦上做其他任何事情,不要關掉這個彈出的窗口就行。
大概 10 - 20 分鐘,就抓完了,具體時間根據具體情況定,抓完窗口就自動關閉了。
然後,你會看到下面這個圖片,點擊「refresh」。
等出現一大堆數據後,點擊中間菜單欄,點擊 「export data as CSV」。
點擊 「download」。
ok,抓取到的數據,已經下載到電腦上了,你可以用 excel 打開,看看裡面有些什麼?
可以看到 113 條數據,就是 113 個中獎名單,有暱稱,地點,性別,註冊日期,關注,粉絲數,帖子數,微博等級,會員等級,個性籤名等。
可能你看到的會和上面的截圖有些不一樣,因為我已經把無關的信息列刪掉了,你直接下載下來是沒有刪掉的,你可以研究一下那些多餘的數據是什麼?其實也蠻有趣的!(後臺回復「微博」,可以獲取原始數據)
我們可以很清楚的看到,性別那列除了一個男,其他都是女,已經達到我們的目的了,但是能不能看起來更美觀一點?
聽說 excel 的透視表可以做那種看起來很有逼格的圖表,透視表,一聽就很難的樣子,實際上,我只花了 1 分鐘,然後發現,沒學會,就放棄了。
我心裡有一個聲音在響,一定有更簡單的方法做這個,一定有!
然後我就開始冥想,果然,突然靈光一閃,我想到了谷歌表格,(其實是我試了好多工具,發現谷歌表格最好用),應該可以做到這個。
麻利的打開谷歌,搜索「谷歌表格」,第一個網站,點進去,先新建一個空白表格。
然後管他三七二十一,先把要處理的數據粘貼上去,我把性別這一列數據粘貼到剛才新建的空白表格裡面,如下——
我想,谷歌的產品號稱簡潔易操作,我選中要處理的這列,應該會有一個按鈕,我一按,它就自動幫我生成一個圖標之類的東西,嗯,肯定是這樣。
管他呢!我點!點!點……
果然,在插入這個菜單下面,發現了一個叫「圖表」的選項 ——
管他呢,先看看效果 ——
哈哈,不錯,果然成功了!
但是這種展示比例的數據,之前看別人的圖片,用那種圓餅的樣子好像比較舒服,應該有按鈕可以選擇圖表類型吧,管他呢,到處點點試一下!
果然,在右邊發現了一個選項!剛好有我想要的圓餅圖。
管他呢,點了試試 ——
完美!
excel 裡面的數據還有其他類型,都放上去做個圖表吧,反正有那麼多圖標類型,都試一下,看哪個漂亮,就選哪個!
地域上海、北京、廣東人數最多,好像符合預期。
關注的人數大部分用戶關注的人都在 300 以內,還是蠻愛學習(八卦)的。
粉絲數可以看到,粉絲數大於 5000 的只有 3個。
帖子大部分人都是在 850 個帖子內。
微博等級等級在 30 區間的最多,幾乎佔到了一半還多。
是否會員會員 30%,非會員 70%,如果數據沒有貓膩,這個比例可以用來評估微博的總體會員數,畢竟 2000w 的量足夠覆蓋到各個圈層,如果擔心不準確,可以多找幾個其他類別的數據,平均一下,也許王思聰的粉絲都比較有錢呢?
至此,藉助上面的工具,我們實現了
1. 找到信息源頭
2. 採集數據
3. 分析展示
這個完整流程。
我想說的是,上面這個例子,不僅僅是無聊湊熱鬧,這包含了面對一個信息,如何挖掘、整理、分析、展示的過程,可能中途你會遇到一些問題,但是大家注意到我上面的一個詞沒——
管他呢,先試試!
遇到問題不可怕,你遇到的問題,一定有解決方案。可怕的是,你小心翼翼,擔心嘗試的結果不如人意,浪費時間。
沒事的,自己的主動嘗試,後面的過程、結果,都會促進你的邏輯、思維更進一步,這個無形中鍛鍊出來的能力,在日後會帶給你無窮的裨益。
在爬蟲群裡,我經常遇到一些朋友,遇到一個新網站,還沒操作,就先來群裡問,這個能不能抓?其實我內心是崩潰的,能不能抓,你應該自己先試一試,如果每次遇到新網站,都需要別人肯定後,才用勇氣自己操作,那麼永遠也成長不了。
如果你下次遇到這種問題,自己還沒試,就想著問別人,我希望你能想起來下面這句話——
沒事,管他呢,先幹!
以上,是我今天的分享,希望能給您帶來幫助。
哦,對了,老闆,如果覺得本文有用,萬水千山總是情,打賞一塊行不行?
如果不打賞,分享給朋友行不行
實在不行,你就……看著辦吧!
哈哈哈哈哈
👇👇👇👇👇👇👇👇
您可能還會感興趣:
雙 11剁手,不如提升認知,擁有一個開掛的人生
有關webscraper的一些問題
分析了10個公眾號5600篇文章2000w字,原來它們用這個詞最多!
如果