刷朋友圈,看到一篇文章,很有料,哈!這個公眾號不錯,關注一下。
翻一下歷史文章吧,看看作者還寫了什麼其他好玩的東西。
從公眾號打開歷史文章頁,往下滑動了幾秒,哎,這樣看的話,很費時間啊。
而且我又不想全部文章都看,有沒有什麼方法,可以看到全部文章標題,我根據標題,選擇感興趣的再看文章內容。
搜索一下,找到了下面幾個解決方案。
1、「P大叔」(http://pdfuncle.com/):可以將公眾號文章導出為PDF,很方便。
P 大叔 72 小時內才能導出,如果現在就想看,就需要等一段時間,放棄。
2、傳送門(http://chuansong.me/):可以直觀的看到文章標題列表。
我感興趣的公眾號,卻是沒有被收錄,提交的話,估計要等一段時間了。放棄。
3、新榜(https://www.newrank.cn/):新榜的「公眾號回採」功能,可以抓取文章的閱讀數、點讚數、題圖、等等等,多維度的數據。
對於我來說,這麼多數據,我用不到,而且價格有點貴。
沒錢,放棄。
4、搜狗微信搜索(http://weixin.sogou.com/):可以通過關鍵字查找相關文章。
如果目標是某個確定的公眾號,那搜狗就沒有用武之地了,它只能顯示最近的10條文章。
放棄。
5、編程:自己抓取公眾號的標題。
額。。。這個,有點難度,放棄。
6、不用寫代碼的爬蟲技能:用谷歌插件 webscraper,自己抓取感興趣的公眾號,需要的時候,隨時抓,隨時出結果。
而且入手簡單,還是免費的。
我自己試了下,沒問題,幾分鐘時間,很輕鬆的就將 1300多個標題全部抓下來了,而且真的一行代碼都沒有寫。
如圖:
下面是抓取公眾號的操作詳細步驟——
一、 下載安裝軟體webscraper 是運行在谷歌瀏覽器之中,所以我們需要實際需要安裝兩個軟體
這兩個軟體如果大家之前用過,就可以直接跳到第二步。
如果沒有,可以看下面這個視頻,裡面詳細介紹了安裝步驟。
電腦觀看體驗更好
我因為手頭只有 mac 系統,所有我介紹一下 mac 的抓取方式。
1、從瀏覽器打開公眾號歷史列表打開 mac 版微信,進入某個公眾號,點開歷史文章頁面,如下圖——
點擊歷史文章頁面圖標(上圖標註2)後,會彈出一個窗口,可以看到下面的圖片——
這塊如果你看到的是其他瀏覽器圖標,則需要將系統默認瀏覽器設置為谷歌瀏覽器。這塊自己百度一下
點擊上圖標註的瀏覽器logo,即可在瀏覽器查看公眾號歷史文章列表,這個頁面,記為 A,不要關閉。
這個網頁URL,也就是瀏覽器地址欄的信息,複製到某個地方保存下來,記為 B,這個很重要。
如下圖
如果你點開出現下面的情況——
說明你的微信版本太高,最新版的微信內置瀏覽器,所以無法通過瀏覽器查看。需要退回到上一個版本的微信,後臺回復「微信」,即可下載重新安裝
2、開始抓取數據(1)在前面的 A 網頁上,點擊滑鼠 右鍵 ——> 審查元素(檢查)
可以看到下方界面,如果和圖片不一致,說明你的webscraper安裝可能出現點問題,可以回看上面的視頻演示。
圖片下方的一大列信息請忽略,能看到紅框標註的 web scraper即可。
(2)點擊 Create new sitemap ——> Import Sitemap,如下圖。
點擊 Import Sitemap 後,可以看到下面界面——
在 Sitemap JSON 右側輸入下面信息(一個字母都不能丟):
{"_id":"testwechat","startUrl":["AAAAA"],"selectors":[{"id":"total","type":"SelectorElementScroll","parentSelectors":["_root"],"selector":"div.weui_media_box","multiple":true,"delay":"3000"},{"id":"title","type":"SelectorText","parentSelectors":["total"],"selector":"h4.weui_media_title","multiple":false,"regex":"","delay":0},{"id":"date","type":"SelectorText","parentSelectors":["total"],"selector":"p.weui_media_extra_info","multiple":false,"regex":"","delay":0}]}
注意!!上方加紅加粗的AAAAA,大家需要替換成自己想要抓取的公眾號歷史文章界面的網址,這個網址,前面讓大家複製保存記為 B了。(忘了的可以上拉看下)
如果這塊出現下圖的提示
說明你複製信息的時候,沒複製全,可以返回檢查一下。
Rename Sitemap,就是重新起個名字,你抓的哪個公眾號,就取什麼最好,做到顧名思義。(也可以不寫,默認為 testwechat)
填完點擊最下面的 Import Sitemap即可。
(3)開始抓取,點擊中間欄 「Sitemap 你起的名字」 ——> Scrape。
如下圖——
出現下方界面,需要填兩個信息,默認即可。
點擊「Start scraping」,就是見證奇蹟的時刻,動圖演示——
瀏覽器會彈出一個新窗口,可以看到,這個窗口會自動下拉,直到將公眾號的文章全部抓取完畢才會停止,這個過程,你可以去做其他任何事情,但是不要關閉這個彈出窗口。
如果你出現下面這個界面,提示「驗證」,卡住不動,說明你沒有做上面的修改連結步驟,請回到上面第(2)步。
等到數據抓取完畢,可以看到下面這個界面,點擊 「refresh」
一定等抓完再點 refresh
(4)導出excel到電腦上:點擊中間欄 「Sitemap 你起的名字」 ——> Export data as CSV
如下圖——
點擊 Download now! ,如下圖
至此,我們已經將一個公眾號的所有標題,以及發文日期抓取完畢。下載的 CSV 文件可以用excel軟體打開。
mac下用 Numbers 打開即可。
如果出現亂碼,百度即可解決。
excel裡面的內容,大家關注自己需要的即可,無關的列,可以刪掉。
這裡抓到的只是標題和時間,如果大家通過標題,對某篇文章感興趣,可以複製標題,到搜狗微信搜索(http://weixin.sogou.com/)即可看到原版內容。
我問了幾個windows系統的朋友,發現windows版的微信無法從瀏覽器打開公眾號文章列表,也就是前面的 A 網頁,如果能做到這點,那就可以按照上面的方法操作。
可能還有其他方法可以做到這點,windows的朋友可以試下,如果成功了,可以告訴我下。
如果實在不行的話,就找個有mac的朋友幫你抓下,很簡單的,要不找明白也行的。
用 webscraper 不僅僅可以抓取公眾號,像淘寶、知乎、簡書、微博、等等,網頁上能看到的信息,99%都可以抓到。
如果感興趣,可以點擊下方加入我的知識星球,一起交流。
加入星球的朋友,可以 ——
1、免費學習 99 元《不用寫代碼的爬蟲課》視頻課程
2、免費使用星球的網站抓取模板
3、向我提問一些有關webscraper數據抓取的問題
4、後續甲方如有付費爬蟲任務發布,可以按酬領取,賺點小錢
當然,我也可以幫你免費抓公眾號的啦。。。
操作過程中,有問題,留言即可。