不寫代碼,你也可以抓取任意公眾號

2021-03-02 多元思維Hack

刷朋友圈,看到一篇文章,很有料,哈!這個公眾號不錯,關注一下。

翻一下歷史文章吧,看看作者還寫了什麼其他好玩的東西。

從公眾號打開歷史文章頁,往下滑動了幾秒,哎,這樣看的話,很費時間啊。

而且我又不想全部文章都看,有沒有什麼方法,可以看到全部文章標題,我根據標題,選擇感興趣的再看文章內容。

搜索一下,找到了下面幾個解決方案。

1、「P大叔」(http://pdfuncle.com/):可以將公眾號文章導出為PDF,很方便。

P 大叔 72 小時內才能導出,如果現在就想看,就需要等一段時間,放棄。

2、傳送門(http://chuansong.me/):可以直觀的看到文章標題列表。

我感興趣的公眾號,卻是沒有被收錄,提交的話,估計要等一段時間了。放棄。

3、新榜(https://www.newrank.cn/):新榜的「公眾號回採」功能,可以抓取文章的閱讀數、點讚數、題圖、等等等,多維度的數據。

對於我來說,這麼多數據,我用不到,而且價格有點貴。

沒錢,放棄。

4、搜狗微信搜索(http://weixin.sogou.com/):可以通過關鍵字查找相關文章。

如果目標是某個確定的公眾號,那搜狗就沒有用武之地了,它只能顯示最近的10條文章。

放棄。

5、編程:自己抓取公眾號的標題。

額。。。這個,有點難度,放棄。

6、不用寫代碼的爬蟲技能:用谷歌插件 webscraper,自己抓取感興趣的公眾號,需要的時候,隨時抓,隨時出結果。

而且入手簡單,還是免費的。

我自己試了下,沒問題,幾分鐘時間,很輕鬆的就將 1300多個標題全部抓下來了,而且真的一行代碼都沒有寫。

如圖:

下面是抓取公眾號的操作詳細步驟——

一、 下載安裝軟體

webscraper 是運行在谷歌瀏覽器之中,所以我們需要實際需要安裝兩個軟體

這兩個軟體如果大家之前用過,就可以直接跳到第二步。

如果沒有,可以看下面這個視頻,裡面詳細介紹了安裝步驟。

電腦觀看體驗更好


二、 抓取數據

我因為手頭只有 mac 系統,所有我介紹一下 mac 的抓取方式。

1、從瀏覽器打開公眾號歷史列表

打開 mac 版微信,進入某個公眾號,點開歷史文章頁面,如下圖——

點擊歷史文章頁面圖標(上圖標註2)後,會彈出一個窗口,可以看到下面的圖片——

這塊如果你看到的是其他瀏覽器圖標,則需要將系統默認瀏覽器設置為谷歌瀏覽器。這塊自己百度一下

點擊上圖標註的瀏覽器logo,即可在瀏覽器查看公眾號歷史文章列表,這個頁面,記為 A,不要關閉。

這個網頁URL,也就是瀏覽器地址欄的信息,複製到某個地方保存下來,記為 B,這個很重要
如下圖

如果你點開出現下面的情況——

說明你的微信版本太高,最新版的微信內置瀏覽器,所以無法通過瀏覽器查看。需要退回到上一個版本的微信,後臺回復「微信」,即可下載重新安裝

2、開始抓取數據

(1)在前面的 A 網頁上,點擊滑鼠 右鍵 ——> 審查元素(檢查)

可以看到下方界面,如果和圖片不一致,說明你的webscraper安裝可能出現點問題,可以回看上面的視頻演示。

圖片下方的一大列信息請忽略,能看到紅框標註的 web scraper即可。

(2)點擊 Create new sitemap ——> Import Sitemap,如下圖。

點擊 Import Sitemap 後,可以看到下面界面——

在 Sitemap JSON 右側輸入下面信息(一個字母都不能丟):

{"_id":"testwechat","startUrl":["AAAAA"],"selectors":[{"id":"total","type":"SelectorElementScroll","parentSelectors":["_root"],"selector":"div.weui_media_box","multiple":true,"delay":"3000"},{"id":"title","type":"SelectorText","parentSelectors":["total"],"selector":"h4.weui_media_title","multiple":false,"regex":"","delay":0},{"id":"date","type":"SelectorText","parentSelectors":["total"],"selector":"p.weui_media_extra_info","multiple":false,"regex":"","delay":0}]}

注意!!上方加紅加粗的AAAAA,大家需要替換成自己想要抓取的公眾號歷史文章界面的網址,這個網址,前面讓大家複製保存記為 B了。(忘了的可以上拉看下)

如果這塊出現下圖的提示

說明你複製信息的時候,沒複製全,可以返回檢查一下。

Rename Sitemap,就是重新起個名字,你抓的哪個公眾號,就取什麼最好,做到顧名思義。(也可以不寫,默認為 testwechat)

填完點擊最下面的 Import Sitemap即可。

(3)開始抓取,點擊中間欄 「Sitemap 你起的名字」 ——> Scrape。

如下圖——

出現下方界面,需要填兩個信息,默認即可。

點擊「Start scraping」,就是見證奇蹟的時刻,動圖演示——

瀏覽器會彈出一個新窗口,可以看到,這個窗口會自動下拉,直到將公眾號的文章全部抓取完畢才會停止,這個過程,你可以去做其他任何事情,但是不要關閉這個彈出窗口。

如果你出現下面這個界面,提示「驗證」,卡住不動,說明你沒有做上面的修改連結步驟,請回到上面第(2)步

等到數據抓取完畢,可以看到下面這個界面,點擊 「refresh」
一定等抓完再點 refresh

(4)導出excel到電腦上:點擊中間欄 「Sitemap 你起的名字」 ——> Export data as CSV

如下圖——

點擊 Download now! ,如下圖

至此,我們已經將一個公眾號的所有標題,以及發文日期抓取完畢。下載的 CSV 文件可以用excel軟體打開。

mac下用 Numbers 打開即可。

如果出現亂碼,百度即可解決。

excel裡面的內容,大家關注自己需要的即可,無關的列,可以刪掉。

這裡抓到的只是標題和時間,如果大家通過標題,對某篇文章感興趣,可以複製標題,到搜狗微信搜索(http://weixin.sogou.com/)即可看到原版內容。

我問了幾個windows系統的朋友,發現windows版的微信無法從瀏覽器打開公眾號文章列表,也就是前面的 A 網頁,如果能做到這點,那就可以按照上面的方法操作。

可能還有其他方法可以做到這點,windows的朋友可以試下,如果成功了,可以告訴我下。

如果實在不行的話,就找個有mac的朋友幫你抓下,很簡單的,要不找明白也行的。

用 webscraper 不僅僅可以抓取公眾號,像淘寶、知乎、簡書、微博、等等,網頁上能看到的信息,99%都可以抓到。

如果感興趣,可以點擊下方加入我的知識星球,一起交流。

加入星球的朋友,可以 ——
1、免費學習 99 元《不用寫代碼的爬蟲課》視頻課程
2、免費使用星球的網站抓取模板
3、向我提問一些有關webscraper數據抓取的問題
4、後續甲方如有付費爬蟲任務發布,可以按酬領取,賺點小錢

當然,我也可以幫你免費抓公眾號的啦。。。

操作過程中,有問題,留言即可。

相關焦點

  • 推薦 :手把手教你用Python進行Web抓取(附代碼)
    本教程以在Fast Track上收集百強公司的數據為例,教你抓取網頁信息。作為一名數據科學家,我在工作中所做的第一件事就是網絡數據採集。使用代碼從網站收集數據,當時對我來說是一個完全陌生的概念,但它是最合理、最容易獲取的數據來源之一。經過幾次嘗試,網絡抓取已經成為我的第二天性,也是我幾乎每天使用的技能之一。
  • 網站植入抓取代碼竊取隱私 訪客手機號碼賣1元1條
    網站植入抓取代碼 竊取手機訪客隱私  網站植入抓取代碼竊取手機訪客隱私,網上售賣抓取技術形成網絡黑產;記者親測4個手機號被抓取2個  網絡安全專家告訴記者,用戶手機號碼洩露可能是訪問的網站使用了手機訪客抓取技術,這是一種網絡黑產,受警方打擊。  記者檢索發現,多個博客、論壇有關於抓取技術的售賣網帖。為了驗證技術的真實性,記者聯繫發帖人,獲取了一段抓取代碼,隨後自建網站植入了抓取代碼,用自己和同事的手機號分別測試,發現此類抓取技術確實能在機主不知情的情況下,獲取手機號碼。
  • 你上世紀寫的代碼現在還work嗎?挑戰者:我需要一個讀磁帶的機器
    代碼找不到、硬體已過時、文檔也缺失…… 幾十年前的代碼復現起來沒那麼容易。「敢不敢把你十年前寫的代碼翻出來看看還能不能運行?」在最近的一篇社論文章中,《Nature》介紹了兩位法國科學家發起的一項挑戰。
  • 英文網站的描述你真的會寫嗎?
    />訪問所需的任何頁面,右鍵單擊頁面上的任意位置,然後選擇「查看原始碼」以查看頁面的HTML內容。搜索結果一般展示的結果又以下幾點網頁的標題網頁的URL網頁的元描述(也許是你自己寫的也許是谷歌抓取你網頁上的任意部分)網站sitelingks
  • 國內五大主流網站內容抓取工具、採集軟體大盤點
    今天,我們將對比國內五大主流採集軟體優缺點,幫助你選擇最適合的爬蟲,體驗數據hunting帶來的快感。國內篇1.火車頭作為採集界的老前輩,我們火車頭是一款網際網路數據抓取、處理、分析,挖掘軟體,可以抓取網頁上散亂分布的數據信息,並通過一系列的分析處理,準確挖掘出所需數據。它的用戶定位主要是擁有一定代碼基礎的人群,適合編程老手。
  • 一款Google抓圖神器,它與Python批量抓取圖片的原理一模一樣
    》的公眾號文章(文章的描述已經顯而易見,大家都非常清楚了)https://mp.weixin.qq.com/s/bvSnLrgqaW57vISHEajqqQ可以說,因為這事鬧的人心惶惶,沸沸揚揚,為此,致使一些三線二線的個別爬蟲工程師迫切轉行,其次,還有一些朋友對自己所學的爬蟲技術感到擔憂和恐慌
  • python : 利用 asyncio 進行快速抓取
    方法如此多樣的原因在於,數據「抓取」實際上包括很多問題:你不需要使用相同的工具從成千上萬的頁面中抓取數據,同時使一些Web工作流自動化(例如填一些表單然後取回數據)。我喜歡DIY的原因在於其靈活性,但是卻不適合用來做大量數據的抓取,因為需要請求同步,所以大量的請求意味著你不得不等待很長時間。在本文中,我將會為你展示一個基於新的異步庫(aiohttp)的請求的代替品。
  • 小課堂:如何用Excel抓取網頁數據
    然後你會看到網頁的原始碼,你不需要懂,只要看到當前高亮的代碼中,包含以下任意的標籤,就表示網頁用了table標籤,可以用這個方法。這個數據包常用的格式是JSON,那麼我們只要把JSON數據包抓取下來,也可以實現網頁數據抓取。不管他,幹就完事兒了。
  • 如何堅持寫公眾號文章?
    事情一多起來,自己想堅持的事情就不容易堅持下去了。就像今天,本來想著一早就開始寫公眾號文章,但是因為昨晚和小夥伴一起練攤去了,喝了不少的扎啤,早上醒來身上一點勁兒都沒有,雖然及時完成了自己的鍛鍊習慣,但公眾號磨磨蹭蹭沒有及時開始寫,朗誦也沒有進行。
  • 【微信公眾號排版】一句代碼,輕鬆用HTML改字體
    ,但是作為高標準高追求的我們,如何才能利用字體,讓自己的推文的字體能更貼近公眾號的定位,更迎合目標讀者的喜好呢?微信公眾號所推送的推文默認字體是由誰提供的?不是微信APP哦,是由我們在閱讀文章時使用的終端的系統環境決定的。本篇推文就對通用的Android和iOS系統字體來展開。有沒有發現,本段文字的字體有一點點特別呢?先不多說,直接上對比。
  • 伯克利AI實驗室最新發文:公布用於機器人抓取的Dexterity Network...
    雷鋒網3、GQ-CNN Python 程序包: 包含代碼,可以復現我們用生成的數據訓練GQ-CNN網絡的結果。(點我打開)(注意下面的系統需求)在這篇文章中,我們也概述了支持Dex-Net 2.0的方法,在實際機器人上的實驗結果,以及數據集、模型和代碼的細節。關於Dexterity Network的研究論文和額外信息可以在這個項目的網站上找到。
  • 一鍵下載公眾號所有文章,導出文件支持PDF,HTML,Markdown,Excel,chm等格式
    上面寫的備份公眾號方法都是單篇備份,如果你想備份某個公眾號的所有文章,就有點太麻煩了,所以今天分享的是用Python一鍵備份某個公眾號的所有文章,再也不用擔心想看的文章被刪了,這裡就以我自己的公眾號蘇生不惑為例了,原理就是通過抓包抓取微信客戶端的接口,用Python請求微信接口獲取公眾號文章連結再下載。
  • 微信公眾號運營漲粉真的不簡單!但有辦法!
    當你在網上搜「微信公眾號運營」、「微信公眾號漲粉」這些字眼,你一定看到過這種回答:「三個月,我把公眾號運營到1萬粉絲,下面是我的方法…balabala...感興趣的話你就可以...(你懂得)」看,你就是幫助人家漲粉的那個小傻瓜!相信我,到了2020年,微信公眾號運營漲粉真的不簡單!只能說還有辦法,看你會不會!
  • Python3抓取糗百、不得姐
    點擊關注 異步圖書,置頂公眾號每天與你分享 IT好書 技術乾貨 職場知識重要提示1
  • 使用 Scrapy 快速抓取網頁
    這可能是 CORS 的問題,或者是 Javascript 代碼無法執行,或者加載本地 URL 對應的資源。Scrapy shell 與常規的 Python shell 沒什麼不同,所以你可以盡情在其中添加自定義的腳本或函數。
  • [精選] 寫代碼有這10個好習慣的話,可以減少80%非業務的bug
    希望能幫助到你!最後感謝你的支持提升php技能,免費分享給你視頻教程【PHP+Beanstalkd實現任務優化處理,延遲消息隊列】,公眾號裡回覆:495819   免費領取提取碼!這個也是新手程式設計師經常犯的錯誤哦~所以,如果你的需求是在原來接口上修改的,並且這個接口是對外提供服務的,那你就一定要考慮接口兼容。4.複雜的代碼邏輯,添加清楚的注釋寫代碼的時候是沒有必要寫太多的注釋的,好的方法或變量命名就是最好的注釋。
  • 推薦一個優質Linux技術公眾號-作者都是一線Linux代碼貢獻者們哦
    公號的作者,我覺得有義務推薦優秀的公眾號,希望對大家的學習有所幫助~「Linux閱碼場」 是國內為數不多專注Linux內核,系統編程與Linux調試調優技術的公眾號,它的文章雲集了國內眾多知名企業一線工程師的心得,不少作者都是Linux內核代碼的直接貢獻者!!
  • 公眾號原創文章怎麼寫?
    公眾號的文章寫作方式有原創、轉載、約稿、偽原創整合、重發歷史文章等幾種,那作為自媒體人為何要寫原創文章,又應該怎麼寫原創文章呢?公眾號原創文章怎麼寫一、公眾號開通原創有什麼好處呢?2.你可以獲得讚賞了開通原創之後,你就可以把讚賞帳號放到文章中,如果讀者覺得有用,會給你讚賞,如果獲得了讚賞,不只是金錢方面的收穫,個人也會收穫額外的信心。
  • 微信公眾號怎麼寫文章 這樣絕對是最吸引人的
    哈嘍,9妹又來啦~最近有很多小可愛問9妹,怎麼寫公眾號文章才能吸引人呢?emmmm,對於這個問題,9妹只能對你說這可不是一朝一夕就能搞定的還需要大家慢慢的積累才能實現一切慢慢來這樣比較快今天9妹就先給大家普及一個
  • 李亞濤:如何禁止搜尋引擎抓取網站內容?
    大家做seo都是在千方百計的讓搜尋引擎抓取和收錄,但是其實很多情況下我們還需要禁止搜尋引擎抓取和收錄比如,公司內部測試的網站,或者內部網,或者後臺登錄的頁面,肯定不希望被外面的人搜索到升級後robots將優化對網站視頻URL收錄抓取情況。僅當您的網站包含不希望被視頻搜尋引擎收錄的內容時,才需要使用robots.txt文件。如果您希望搜尋引擎收錄網站上所有內容,請勿建立robots.txt文件。