牛逼的chrome插件,不用一行代碼,輕鬆爬取各大網站公開信息!(附視頻)

2021-02-15 菜鳥學Python

點上方藍色「菜鳥學Python」,選「星標」公眾號

重磅乾貨,第一時間送到

小編最近在和同學聊天的時候,同學就感慨道,如今的各個網站的反扒手段是越來越厲害,前幾天寫的程序,過幾天就沒法用了,尤其像是大流量網站,例如某寶和某東,做的反扒真是越來越難,逼得他程序寫起來也越來越複雜。而我勸他不要再自己造輪子了,快來試試Google的爬蟲插件吧。
小編今天就為大家推薦一個chrome瀏覽器的爬蟲插件神器——web scraper。讓大家只需要簡簡單單的幾個操作,不需要寫哪怕一行代碼,就可以爬取到我們想要的數據內容。01.什麼是web scraperweb scraper是谷歌提供的網頁爬取插件,可以很方便的爬取數據。此外,web scraper插件會將數據爬取出來生成excel表格,供我們使用。非常方便,簡直就是懶人的福音啊!


02.如何安裝web scraper

對於scraper的插件,小編已經為大家準備好,大家只需要下載後,任意解壓到指定的文件夾,然後在chrome瀏覽器中輸入chrome://extensions/。按照下圖的方式進行插件加載即可。

上圖中,首先啟動開發者模式,然後點擊「加載已解壓的擴展程序」。選擇我們解壓好的scraper文件夾,然後點擊選擇文件夾即可完成scraper插件的安裝。

03.如何使用scraper插件


對於scraper的插件使用,下圖所示:

上圖中,首先在開發者模式下打開Scraper,然後創建新的Sitemap,並將網頁的url連結填寫到Start URL中,對於Sitemap name的命名,大家可以隨意進行填寫。點擊Create Sitemap後,即可創建一個新的SItemap。在創建Sitemap後,接下來的操作才是最重要的,如下圖所示:

上圖中首先選擇Add new selector,然後在Type中選擇link,並點擊Select。在網頁中點擊不同商品的連結,scraper會自動提取商品的url連結,並生成selector連結,點擊Done selecting即可。

上圖中,在點擊Done selecting後,勾選Multiple(因為是爬取多個商品url),這裡的Delay可以採用默認的值,或者是自己添加一個數值。

並點擊Save selector。然後在Sitemap underwear下點擊Scrape,點擊Start Scraping後,scraper便會幫我們爬取到各個商品的url連結。

在上圖的Sitemap underwear下拉菜單下,點擊Export data as CSV後,即可將爬取到的數據保存為csv文件並下載下來。如下圖所示:



04.Scraper爬取多頁的連結

怎麼樣,是不是scraper非常的好用,不僅如此,scraper還能夠進行翻頁並爬取多頁的信息。

為了更好的為大家進行展示scraper的運行,並讓大家體驗到scraper的便捷性。小編特地用視頻的方式展現了:

視頻演示

這個插件還是很牛逼的,其實原理就是用selenium 打開chrome瀏覽器進行爬取,只是google這個插件幫我們集成了好了。有興趣的小夥伴可以試一下。


需要這個插件的可以按照下面的方式獲取:

1). 長按下面的二維碼

2). 後臺輸入:插件

相關焦點

  • 我寫了個 Chrome 插件,一鍵下載 PornHub 視頻!(附帶資源)
    當時小詹就 P 站上爬取了一些考研數學視頻,雖然我用不上,但是我熱愛技術啊!之所以有今天這篇文章呢,是因為 zgao(下文中的我都為讀者 zgao)發現 P 站修改了前端的代碼,將視頻的接口信息全部隱藏起來了,不像以前那樣能直接在網頁源碼中找到視頻連結。
  • 學代碼就是為了用Python爬蟲?零代碼也能爬取96%網站的數據!
    前幾天我一位學設計的朋友說「想在某網站抓取近期100張風景圖,收集這些圖片來作為ps的背景圖,但我是文科生,不會用用代碼,也不會用Python採集網站圖片,不知道該怎麼辦!於是我介紹了一款零代碼的採集工具給他使用,很快就上手了。
  • 給你代碼:chrome插件心得
    最近需要做一款chrome的插件,關於chrome插件的種種資料而且很分散其實網上非常少。內容腳本,直接插入到頁面裡的腳本,因為有很多敏感信息或者說危險操作,所以他的api是限定的,只能操作dom和部分chrome插件api。他可以訪問dom但是不能訪問該頁面的其他js,相當於一個額外的沙箱。列印一些屬性就是這些chrome擴展可以用。
  • Python網絡爬蟲——爬取小視頻網站源視頻!自己偷偷看哦!
    學習前提1、了解python基礎語法2、了解re、selenium、BeautifulSoup、os、requests等python第三方庫1.引入庫PS:如有需要Python學習資料的小夥伴可以加點擊下方連結自行獲取python免費學習資料以及群交流解答點擊即可加入爬取網站視頻需要引入的第三方庫
  • python+Chrome爬取動態異步生成的頁面內容
    準備用python爬。直接用urllib.request爬取,發現得到的剛好沒有這些資源,怎麼回事?我們需要能爬到動態的內容,可以使用selenium+chrome得到。為什麼不用PhantomJS?還需要對應的chromeDriverchromeDriver要求和配置可以參照我的另一篇文章《Python+selenium自動上傳博客圖片至新浪微博相冊》上代碼~from selenium import webdriver
  • 如何使用 Python 和 BeautifulSoup 爬取網站
    網際網路上的信息如此之多,任何人窮其一生也無法全部消化吸收。你需要的不是訪問這些信息,而是一種可伸縮的方式,可以用來收集、組織和分析這些信息。你需要的是 Web 爬取。Web 爬取可以自動提取數據,並以一種讓你可以輕鬆理解的格式顯示出來。Web 爬取可以用於許多場景,但本教程將重點介紹它在金融市場中的應用。 網際網路上的信息如此之多,任何人窮其一生也無法全部消化吸收。
  • Chrome 沒插件,香味少一半,用Chrome瀏覽器這些插件怎麼能沒有
    俗話說Chrome 沒插件,香味少一半,Chrome 最大的優勢還是其支持眾多強大好用的擴展程序,使用Chrome瀏覽器的最大魅力就是插件了,今天,小編就來一起盤點一下chrome上那些相見恨晚的擴展。
  • 尋找論文代碼沒那麼麻煩,現在只需裝個Chrome插件
    但是,如果作者自己沒有提交代碼,卻有第三方實現怎麼辦?去Google找嗎?大可不必!現在告訴你一個瀏覽器插件神器,能幫你快速找到論文對應代碼,無論官方還是第三方,不必在搜尋引擎上找半天了。比如,在谷歌學術頁面搜索「StyleGAN」:或是在arXiv網站下搜索機器學習相關論文:又或者是看AI領域學者介紹自己新論文的Twitter:看到右邊的CODE了嗎?點擊它,一鍵快速跳轉到GitHub。
  • chrome瀏覽器必備網站:「中國式的谷歌插件商店」
    自從2010年穀歌退出中國市場後,谷歌旗下的大多數網站,在國內基本上無法正常訪問。但是由於chrome瀏覽器有著擴展插件這個強大的功能,讓我們在使用過程享用了更多的方便,所以還是吸引了不少的用戶。所以今天就來分享一個國內收集chrome插件的網站,送給仍在尋找chrome插件的朋友,希望能幫助你早日體驗到chrome插件的強大功能。
  • Chrome的5大神級插件,讓你擁有全世界最好用的瀏覽器!
    但是,有很多人在使用了Chrome之後,覺得並沒有大家誇獎的那麼好用,覺得名不符實~而實際上,Chrome瀏覽器本身並不具有太多複雜的功能,但是配合chrome豐富的擴展插件,足以讓你的chrome擁有無限的可能,更能讓你擁有全世界最好用的瀏覽器!
  • Chrome插件(一):用戶篇
    下面的文章標題格式包含冒號的:,則右側的表示為擴展件名(後續將擴展插件稱為插件吧)。一、瀏覽器基本功能增強篇1. 廣告終結者:Adblock Plus網站打開之時大量廣告視窗也隨湧而出,極度反感吧!使用Adblock Plus 插件可攔截全部廣告窗口程序。可輕鬆攔截 Facebook ,YouTube ,愛奇藝,優酷等大量網站上的彈出窗口和煩人的廣告。
  • 科學上網-雲麓YunRoute–谷歌Chrome加速器插件
    雲麓YunRoute科學上網,查閱資料,觀看視頻,外貿交易,是操作最簡單速度最快最穩定的一款科學上網Chrome瀏覽器加速插件,一鍵安裝,即裝即用,無需繁瑣設置,優雅上網,翻牆必備,輕鬆快速穩定瀏覽google,facebook,twitter,youtube等海量國際網站。
  • IE插件Chrome Frame公開測試
    Google早在去年9月份的時候就宣布為IE開發了一款開源插件Chrome Frame,時隔近一年,Google終於提供了這款插件的Beta公測版本。Chrome Frame兼容XP、Vista、Windows 7系統,適用於IE6、IE7、IE8,安裝該插件後IE用戶就可以使用Chrome的JavaScript引擎,體驗到和Chrome一樣的速度以及各種新的Web技術,比如HTML5。
  • Chrome插件修改教程(一款GitHub的插件為例,附樣品)
    提取插件安裝包chrome://extensions/管理頁面中,查看剛才安裝後的插件的ID這樣。因為瞎換行,把人家的字符串給拆了。。。_state,因為多次調用該代碼,因此溯源。找this._state賦值的位置。就在上面一行(格式化後的)
  • 這些chrome插件竟然都是科研利器!
    今天就給大家來個一鍋端,做個chrome科研插件大匯總,看這一篇就夠了!▍文獻閱讀畫重點辛辛苦苦看完一篇英文文獻,如果不做些重點記錄、關鍵詞記號,下一次看文獻還會是一臉懵需要重頭再來。這款插件幫助大家解決這個問題,每次閱讀文獻時都能直接找到文獻重點位置,高效提速查看文獻!點擊文章查看 → 超牛chrome插件,必須高效做科研!大牛都在用!
  • Chrome(谷歌)瀏覽器使用必備的15款神級插件提高你的工作效率
    1、谷歌上網助手推薦理由:這款插件是chrome內核瀏覽器專用插件,它可以輕鬆解決chrome擴展無法自動更新的問題。另外,你還可以通過它,來訪問google搜索,gmail郵箱,google+等等,谷歌相關的產品。
  • 開工大吉,給各位大佬分享20款超級好用的chrome拓展插件
    作為一個已經工作了好幾年的 老划水員,分享一些我工作以來用過或是見過的優質chrome拓展插件,相信一定能在日常工作中提供不少幫助。有了它,幾乎不用再去下載別的小工具插件了。但有時候想快速調試接口,又礙於複雜配置項編寫的時候,就可以用到這款插件了。它允許CORS使您可以輕鬆地在Web應用程式中執行跨域Ajax請求。
  • 使用Chrome插件來補充一些寫作網站沒有Markdown的坑
    場景技術者寫文章,基本少不了Markdown了,但是很多自媒體平臺(大而全那種),往往都是坑爹的富文本編輯器(還很多是魔改UEditor,人家官方三年沒更新了餵)。小白學邏輯,內行看門道。這種坑爹玩意兒,就得讓程式設計師手動粘貼代碼過來,然後遇到排版不友好的,呵呵,對,說的還是你,頭條! 於是吧,我就想著,奶奶個熊,沒有我就自己寫個插件來搞吧。事實上,我自己的網站上有自己依賴marked做的一套編輯器,還挺好用,但是由於圖床問題,還是得每次把富文本粘貼到頭條後,刪除圖片,重新上傳,沒辦法,窮是本命。
  • 媽媽再也不用擔心我記不住密碼了:鯤圭填鴨|給你代碼
    前言最近有一個需求需要做一款能夠應用於登錄頁面,自動記錄並且填充的這樣的一個插件。使用以後媽媽再也不用擔心我記住密碼了。這是記之前那篇的後續。問題顯示當前地址所需要的信息當用戶進行登錄以後如何彈出信息是否彈出信息的匹配實現1. 由於插件機制有個background是一直運行在瀏覽器中,運用其中的方法來監聽頁面。