這款Chrome 插件就能幫你完成網頁抓取

2020-12-27 新浪科技

來源:新浪眾測

作者:AppSo新酷應用

不知大家是否總能在朋友圈看到類似的廣告,『加班完成的 Excel 用 Python 只需 3 分鐘』、『每天都能準點下班只因學會了 Python』,似乎 Python 已經成為了當代年輕人的必備技能。

▲朋友圈廣告

的確,作為一門易於上手的程式語言,Python 在自動化辦公中用處巨大,特別是對於網頁數據的爬取,在這樣一個大數據時代顯得尤為重要。

爬取網頁數據,也可以稱為『網絡爬蟲』 ,能幫助我們快速搜集網際網路的海量內容,從而進行深度的數據分析與挖掘。比如抓取各大網站的排行榜、抓取各大購物網站的價格信息等。而我們日常用的搜尋引擎就是一個個『網絡爬蟲』。

但畢竟學習一門語言的成本太高了,有什麼辦法可以不學 Python 也能達到目的呢?當然有,藉助 Chrome 瀏覽器的《Web Scraper》插件,讓你在不用寫代碼的情況下,就能快速抓取海量內容。

懶人目錄

抓取頁面中多條信息——bilibili 排行榜為例

自動翻頁抓取——豆瓣電影 Top250 為例

抓取二級頁面內容——知乎熱榜為例

抓取頁面中的多條信息——BiliBili 排行榜為例

安裝《Web Scraper》後,在瀏覽器按 F12 進入開發者模式,就能在最後一個標籤頁看到《Web Scraper》的菜單。需要注意的是,如果開發者模式面板不在下方,則會提示必須將其放到瀏覽器下方才能繼續。

在菜單中選擇『Create new sitemap - Create sitemap』以創建新的 sitemap,填入名稱與起始地址就可以開始了。這裡以 BiliBili 排行榜為例,介紹如何抓取頁面中的多條信息,起始地址設為『https://www.bilibili.com/ranking』。

這裡我們需要抓取『視頻標題』、『播放量』、『彈幕數』、『up 主』以及『綜合得分』,因此首先為每一條記錄創建一個封裝器。

點擊『Add new selector』,id 填寫『封裝器』, type 選擇『element』,然後點擊『selector』,選擇一條記錄的外邊框,外包框中需要包含上述所有信息,然後再選擇第二條,這樣就會發現頁面中的所有記錄都已自動選擇,點擊『Done selecting』完成數據的選擇。還要記得勾選『Multiple』以保證抓取多條記錄,最後保存該選擇器即可。

返回後點擊剛才的封裝器,進入二級路徑,創建『標題』選擇器,id 填寫『視頻標題』,type 選擇『text』,點擊『selector』會發現第一條記錄高亮顯示,這是因為我們已提前將其設定為了封裝器。選擇包圍框中的標題,再點擊『Done selecting』完成標題的選擇,注意這裡不需要勾選『Multiple』,最後保存該選擇器。

同樣的,我們為『播放量』、『彈幕數』、『up 主』和『綜合得分』分別建立選擇器,選擇後可以通過『Data pview』預覽是否選中了想要的內容。另外還可以通過菜單欄中的『Sitemap bilibili_ranking - Selector graph』 直觀地查看樹狀結構。

繼續在剛才的菜單下選擇『Scrape』開始創建抓取任務,單個網頁的間隔時間和響應時間默認即可。點擊『Start scraping』開始抓取。這時候瀏覽器會自動打開新的頁面,停留數秒後自動關閉,代表抓取已完成。

點擊『Refresh Data』刷新數據,或點擊『Sitemap bilibili_ranking - Browse』查看數據。通過『Sitemap bilibili_ranking - Export data as CSV』即可下載為 CSV 格式文件。

▲BiliBili 排行榜

使用 Excel 打開,由於《Web Scraper》抓取的內容是無序的,因此需要對『綜合得分』進行降序排列,以恢復原始排行榜的結果。

自動翻頁抓取——豆瓣電影 Top250 為例

Bilibili 排行榜只有 100 條記錄,並且都在一個網頁中,那麼如果有分頁顯示的情況該怎麼辦呢?這裡以豆瓣電影 Top250 為例介紹自動翻頁抓取。

同樣的,新建 sitemap,在填寫起始地址前,我們先觀察一下豆瓣電影 Top250 的構成,總共有 250 條記錄,每頁顯示 10 條,共分為 25 頁。

而每一頁的網址都非常有規律,第一頁的地址為『https://movie.douban.com/top250?start=0&filter=』,第二頁僅僅是把地址中的『start=0』改為了『start=25』,因此我們填寫起始地址時便可以填寫『https://movie.douban.com/top250?start=[0-250:25]&filter=』,這裡 start=[0-250:25] 表示 以 25 的步長從 0 取到 250,因此 start 分別為 0、25、50 等等。這樣《Web Scraper》就會按順序一頁一頁抓取數據了。

接下來類似於 BiliBili 排行榜,創建『封裝器』後再添加『電影名』、『豆瓣評分』、『電影短評』以及『豆瓣排名』選擇器就行了,然後開始抓取。

可以看到瀏覽器會一頁一頁地進行翻頁抓取,這裡只需要安靜地等待抓取完畢即可,最後得到的數據以『豆瓣排名』進行升序排序,就能獲得豆瓣電影 Top250 的榜單了。

▲豆瓣電影 Top250

當然,這只是一種最簡單的分頁方法,而許多網站地址並不一定有著類似的規律,因此《Web Scraper》還有更多的方法能用來分頁,但相對較為複雜,在此也不再贅述了。

抓取二級頁面內容——知乎熱榜為例

以上完成了對網頁的單頁以及多頁內容的抓取,但不是每次都有著現成的數據擺在一個頁面中,因此還需要更進一步地對二級頁面進行搜尋。以知乎熱榜為例,介紹如何對二級頁面的『關注量』和『瀏覽量』進行抓取。

首先,新建 sitemap,起始地址為『https://www.zhihu.com/hot』。然後像前面一樣創建『封裝器』,再創建『文章標題』、『文章熱度』、『知乎排名』這三個選擇器。

接下來是重要步驟,創建一個『二級頁面』的連結。點擊『Add new selector』,id 填寫『二級頁面』, type 選擇『link』,然後點擊『selector』,選擇文章的標題,即每篇文章的入口,確認選擇後保存退出。

這樣就相當於有了一個窗口,點擊剛才創建的『二級頁面』,進入下一級目錄,然後像之前創建『文章標題』一樣創建『關注量』與『瀏覽量』兩個選擇器。最後整個樹狀結構如下圖所示。

點擊『Sitemap zhihu_hot - Scrape』開始抓取,這裡可以將『Page load delay』響應時間調大一些,確保網頁完全加載完畢。這時候瀏覽器會依次打開每個二級頁面進行抓取,因此需要等待一會兒。

抓取任務完成後將結果下載為 CSV 文件,按『知乎排名』降序排列,即可獲得整個知乎熱榜的榜單。

▲知乎熱榜

至此,介紹了如何使用《Web Scraper》抓取頁面中多條信息、自動翻頁抓取以及抓取二級頁面內容。很顯然《Web Scraper》的功能遠不止這些,還有更多強大的功能比如圖片抓取、正則表達式等等可自行摸索。

另外,如果只是想要簡單地抓取信息,可以嘗試使用其它插件如《Simple scraper》《Instant Data Scraper》,這些插件甚至可以一鍵抓取,但相比《Web Scraper》,功能的豐富度還是欠缺不少的。

不用學 Python,也不用花錢讓別人幫你,使用《Web Scraper》自己就能完成網頁抓取,或許下一個準時下班的就是你?

相關焦點

  • chrome插件:你的瀏覽器,不是只能瀏覽網頁!
    今天給大家推薦幾個自用chrome插件,涵蓋學習娛樂,日常生活中使用頻率比較高。有了這些插件,能很大程度提高使用瀏覽器的滿足感。01全網音樂播放插件這款插件用了好多年了,最初只有一個插件,現在支持android、window
  • 10款插件讓你的Chrome成為全世界最好用的瀏覽器!
    1、Momentum ——定義你的新標籤頁Momentum插件是一款自動更換壁紙,自帶時鐘,任務日曆和工作清單的chrome瀏覽器插件。裡面的圖片全部來自500PX裡面的高清圖,無廣告,無彈窗,非常適合筆記本使用,讓裝逼再上新臺階。感受一下出自細節,觸及心靈的美。
  • 10款非常好用的谷歌插件
    這個插件可以幫助大家在使用谷歌瀏覽器觀看視頻時隨意下載自己喜歡的網站視頻文件。5.貓抓 - 網頁媒體嗅探工具網絡嗅探器,最早是為網絡管理人員配備的工具,通過它網絡管理員可以隨時掌握網絡的實際情況。嗅探器也是很多程序人員在編寫網絡程序時抓包測試的工具。近年來,網絡嗅探器被廣泛地運用到用戶的日常行為中,變成抓取視頻、音頻等內容的工具。
  • Chrome 沒插件,香味少一半,用Chrome瀏覽器這些插件怎麼能沒有
    用JSONView前:用JSONView後:Adblock Plus它的定位是一款免費的廣告攔截器,雖然Chrome 瀏覽器已經做了相應的廣告攔截功能,但是還是有一些廣告會成為漏網之魚,這款軟體的廣告攔截效果相當的好,使用了它後讓你的網頁再也沒有廣告的幹擾
  • chrome插件:您的瀏覽器不僅可以瀏覽網頁
    我想推薦幾個自用的chrome插件,涵蓋學習和娛樂。有了這些插件,您可以大大提高使用瀏覽器的滿意度。01全網音樂播放器插件這個插件已經使用多年了,起初,只有一個插件,現在他支持android、window客戶端,不過,我覺得插入是很方便的。目前許多瀏覽器可以安裝插件,以chrome基於內核的瀏覽器為例安裝listen1。下面將以chrome瀏覽器為例安裝AdBlock插件。
  • 推薦15款Google Chrome 插件
    Chrome最強大的還是它的插件機制,使chrome具有很強的擴展性,用對了插件對工作和學習生活都有很大的幫助,本文將推薦15款插件。這是一個社區驅動的開源項目,有數百名志願者為 Adblock Plus 的成功作出了貢獻,以實現所有煩人的廣告被自動阻擋。FEhelper該插件提供了JSON自動格式化、手動格式化,支持排序、解碼、下載等眾多豐富的功能。
  • 我只用Chrome 這款插件……
    2.瀏覽器設置暗黑模式前文已經講到雖然電腦實現了暗黑模式,但是瀏覽器網頁卻不能跟隨系統變為暗黑模式,所以我們就需要一個小小的chrome插件來實現,2.那麼沒關係我們只需要在網上去下載一個暗黑模式插件即可實現,考慮到很多小夥伴找不到合適的插件,或是使用的瀏覽器不同,我這裡已經為大家準備好了,只需要在後臺回復即可獲得,這款暗黑模式的插件。3.
  • 彩雲小譯:最佳的網頁翻譯插件
    那麼有沒有一個工具,能幫助我們加載網站頁面的時候就能看到翻譯後的內容,最好原內容也不要替換掉,這樣遇到不通順的地方也可以人肉校準。滿是英文的網頁我今天看資料的時候,就發現了這麼一款工具,非常簡單好用,接下來就介紹下它。
  • Chrome(谷歌)瀏覽器使用必備的15款神級插件提高你的工作效率
    給大家推薦15款非常好用的谷歌Chrome插件,如果熟練使用這些插件可以極大地提高工作和學習的效率。1、谷歌上網助手推薦理由:這款插件是chrome內核瀏覽器專用插件,它可以輕鬆解決chrome擴展無法自動更新的問題。另外,你還可以通過它,來訪問google搜索,gmail郵箱,google+等等,谷歌相關的產品。
  • Chrome的5大神級插件,讓你擁有全世界最好用的瀏覽器!
    但是,有很多人在使用了Chrome之後,覺得並沒有大家誇獎的那麼好用,覺得名不符實~而實際上,Chrome瀏覽器本身並不具有太多複雜的功能,但是配合chrome豐富的擴展插件,足以讓你的chrome擁有無限的可能,更能讓你擁有全世界最好用的瀏覽器!
  • chrome瀏覽器常用插件推薦
    用過chrome瀏覽器的人肯定覺得插件才是它最大的魅力,就像一個魔方可玩性太高了,下面推薦幾款我經常用的插件。1、翻譯插件-ImTranslator劃詞翻譯,可以調用谷歌翻譯、Microsoft、Yandex,設置選項中設置好目標語言為簡體中文。
  • 這7款Chrome 插件,堪稱神器
    給大家介紹這7款Chrome 插件,堪稱神器,感興趣的朋友可以收藏起來。1、OneTab谷歌雖然好用,但經常因為內存佔用而被人吐槽。使用Chrome時經常會一次打開好多tab,很多暫時不會用到,但又不捨得關,內存就這樣佔用著。
  • 超好用的Chrome插件推薦,及超簡單安裝方法.
    現在大家都想盡一切方法去屏蔽廣告,最簡單的方法就是花錢去除廣告,但也只能試用在視頻網站上,像網頁和微博就不行了。於是今天小編給大家推薦兩款Chrome插件,用來去除網頁和微博裡的廣告,希望大家能用到。說起Adblock Plus可謂是一款去網頁廣告的神器,這款插件可以去除那些煩人的網頁廣告和狗皮膏藥。
  • 忘掉QQ吧 這可能是最強網頁截圖工具:Chrome插件搞定
    然而,QQ截圖遠稱不上的萬能,起碼在網頁截圖方面,局限巨大——例如你想要下拉網頁長截圖,QQ對此是無能為力的。網頁截圖有沒有什麼好方法?這就來給大家介紹一款廣為流傳的網頁截圖神器。Fireshot:https://getfireshot.com/這是一款廣為流傳的瀏覽器截圖工具,它是一款瀏覽器擴展程序,支持Chrome、Firefox、Edge等多款瀏覽器。
  • 效率神器|8款好用的Chrome瀏覽器插件
    Chrome瀏覽器支持各種各樣的擴展插件,這些插件可以將你的Chrome武裝到強大無敵!這裡我向大家推薦一些超級好用的Chrome擴展插件,提高工作學習效率!1.Grammarly for Chrome這個插件會自動提醒你拼寫和語法錯誤,用這個插件寫論文可以避免很多低級錯誤,可以提高你的寫作水平,不至於被自己的低級錯誤氣暈。
  • 不用代碼玩轉爬蟲實例(1) - 抓取貓眼電影信息
    有很多朋友在日常的工作生活當中需要抓取網頁上的信息,進行相關的行業分析或者準備資料、報告使用。
  • 這4款堪稱神器的Chrome小插件,別說你沒用過!
    此外一些網站也會把長文內容給摺疊了,雖說這樣能夠讓你在一個頁面中多看幾個內容,但是每次都要點擊 「 展開閱讀全文 」 還是有點煩人的。所以世超第一個想和差友們推薦的是一款能夠幫你自動展開全文的 Chrome 插件,這玩意是一個同樣被 「 點擊閱讀全文 」 困擾的網友自己做的。
  • 網頁視頻嗅探插件貓抓+m3u8視頻批量下載合併
    第一個要介紹的網頁視頻嗅探功能是chrome插件,名字叫「貓抓」,  安裝插件之後,每當網頁有視頻播放的時候,插件就會自動獲取到視頻地址,  點擊下載地址直接下載,或用軟體下載都可以,  這類網站的通常是一些短視頻網站,且內容未加密,如微博視頻、tumblr、P*rnh*b等。
  • 近10年來最好用的Chrome插件有哪些?為你精挑了這幾款
    接下來就帶各位一探究竟,希望可以幫到你哦!     3、 書籤側邊欄  平時我們使用網頁的時候,肯定會收藏一堆東西,但是如果你沒有這個插件,就有時候可能會找不到你想要的頁面,所以最好使用這款側邊欄哦!你用過這款神器嗎?
  • JS插件Vs.網頁版!Jungle Scout這些功能你真的都了解嗎?
    2020-02-12 14:11 很多賣家認識Jungle Scout是從JS插件開始的,熟悉之後發現JS不僅有插件而且還有Jungle Scout網頁版。也有不少小夥伴問過小歌,這兩款工具有什麼區別,特別是在選品方面的區別?