Python之初識Scrapy框架

2020-12-12 python那點事

今天帶大家了解下 Scrapy 框架,先解答三個問題:什麼是 Scrapy 框架呢?它有什麼作用呢?為什麼需要使用它?

Scrapy 是 Python 開發的一個快速、高層次的屏幕抓取和web抓取框架,用於抓取 web 站點並從頁面中提取結構化的數據。

Scrapy 用途廣泛,可以用於數據挖掘、監測和自動化測試。

為什麼需要使用它?Scrapy 是一個寫好的框架,不用重複造輪子,scapy 底層是異步框架 twisted ,吞吐量高,並發是最大優勢。

Scrapy 安裝

我電腦上同時裝了 py2 和 py3,在 py3 環境裡安裝 Scrapy,使用以下命令。

創建爬蟲項目

創建儲存 scrapy 文件夾 scrapypy3,cd 進入到路徑,用 scrapy startproject 命令新建項目。

Scrapy 項目目錄結構

新建的爬蟲項目文件有以下部分組成,將整個文件在編輯器 Pycharm 中打開看得很明顯,文件後面我做了中文解釋。

創建項目參數

剛才用 scrapy startproject 創建了爬蟲項目,創建的時候我們也可以加入一些參數,具體有哪些參數呢?我們可以在命令行通過 scrapy startproject -h查看,以下常見的命令給出了相應的中文注釋。

常用工具命令

Scrapy 中,工具命令分為兩種,一種為全局命令,一種為項目命令。

全局命令

在不進入Scrapy 爬蟲項目所在目錄的情況下,運行 scrapy -h,在commands下會出現所有的全局命令。

項目命令

首先進入一個已經創建的 Scrapy 爬蟲項目,運行 scrapy -h 顯示項目中可用命令。在展示出來的命令中,包括了上面講到的全局命令。全局命令既可以在非 Scrapy 爬蟲項目文件夾中使用,同時也可以在 Scrapy 爬蟲項目文件夾中使用,而 Scrapy 項目命令一般只能在 Scrapy 爬蟲項目文件夾中使用。去掉全局命令,剩下的就是Scrapy項目命令。

所以,Scrapy 的項目命令主要有:bench、check、crawl、edit、genspider、list、parse。

這篇文章給大家講了下 Scrapy 框架的安裝和常用的命令,這只是初步了解,之後會在實戰中使用,項目實戰才是我們的最終目的。

此文章對你有點幫忙的話希望大家能多給點支持,關注、點讚、轉發都是對我的一種支持,有什麼問題歡迎評論留言。

相關焦點

  • 使用Scrapy網絡爬蟲框架小試牛刀
    前言這次咱們來玩一個在Python中很牛叉的爬蟲框架——Scrapy。scrapy 介紹標準介紹Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架,非常出名,非常強悍。所謂的框架就是一個已經被集成了各種功能(高性能異步下載,隊列,分布式,解析,持久化等)的具有很強通用性的項目模板。
  • python爬蟲-- Scrapy入門
    前言轉行做python程式設計師已經有三個月了,這三個月用Scrapy爬蟲框架寫了兩百多個爬蟲,不能說精通了Scrapy,但是已經對Scrapy有了一定的熟悉
  • 【Scrapy】走進成熟的爬蟲框架
    簡單來說,Scrapy是一個中大型的爬蟲框架,框架的意義就在於幫你預設好了很多可以用的東西,讓你可以從複雜的數據流和底層控制中抽離出來,專心於頁面的解析即可完成中大項目爬蟲,甚至是分布式爬蟲。但是爬蟲入門是不推薦直接從框架入手的,直接從框架入手會讓你頭暈目眩,覺得哪兒哪兒都看不懂,有點類似於還沒學會基礎的遣詞造句就直接套用模板寫成文章,自然是十分吃力的。
  • python scrapy框架爬蟲當當網
    最近在複習scrapy框架,就隨便找了個網站做了一下爬蟲,當當網,說實話這種網站還是比較好做爬蟲的,我沒加代理,也沒限速,沒寫多線程,就直接搞下來了,
  • scrapy爬蟲框架的運用
    # scrapy# 爬蟲框架- 框架- 爬蟲框架- scrapy- pyspider- crawley- scrapy框架介紹- https://doc.scrapy.org/en/latest/- http://scrapy-chs.readthedocs.io
  • Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...
    資料庫 20爬蟲scrapy框架及案例 21數據分析 22機器學習 23深度學習 24數據結構和算法 25python網絡爬蟲 26機器學習入門篇 27機器學習入門篇2 28機器學習提升篇 29數據挖掘篇 30深度學習必備原理與實戰
  • 神一般的Scrapy框架,Python中Scrap的基本結構和去重原理
    1.scrapy的基本結構(五個部分都是什麼,請求發出去的整個流程)2.scrapy的去重原理(指紋去重到底是什麼原理)看來大家都發現了標題中Scrapy掉了一個y,以後小編會改正的,謝謝大家的提醒一、Scrapy
  • 第76天:Scrapy 模擬登陸
    我們能確定的是我們必須在框架請求 start_urls 中的網頁之前登錄。我們進入 Spider 類的源碼,找到下面這一段代碼:def start_requests(self): cls = self.
  • Scrapy爬蟲框架結構介紹(各部分組件功能,常用命令)
    Python之srcapy介紹Scrapy是一個健壯的爬蟲框架,可以從網站中提取需要的數據。是一個快速、簡單、並且可擴展的方法。Scrapy使用了異步網絡框架來處理網絡通訊,可以獲得較快的下載速度,因此,我們不需要去自己實現異步框架。並且,Scrapy包含了各種中間件接口,可以靈活的完成各種需求。
  • Scrapy爬取網抑雲熱評
    起因昨天寫了python自動籤到今天大概就想試試網抑雲目標抓取網易雲歌曲點讚1w
  • 網絡爬蟲框架Scrapy詳解之Request
    在Spider中通常用法:yield scrapy.Request(url = 'zarten.com')類屬性和方法有:urlmethodheadersbodymetacopy()replace([url, method, headers
  • 大數據開發神器——Scrapy Spider框架
    還好Python提供了類似Scrapy等類似的爬蟲框架(人生苦短,我用Python) Scrapy Spider 框架圖 Scrapy | A Fast and Powerful Scraping and Web Crawling
  • Python程式語言:如何建立爬蟲框架
    建立爬蟲框架,首先學習scrapy爬蟲框架!這個爬蟲框架是一個快速且功能強大的網絡爬蟲框架!scrapy爬蟲框架安裝如下:在Windows平臺上,以管理員身份運行cmd,執行pip install scrapy 進行安裝這個框架,安裝好了之後,進行檢測一下,執行scrapy —h就好了!
  • 爬蟲大殺器 | Python學習之Scrapy-Redis實戰京東圖書
    redis-based components for scrapyscrapy-Redis就是結合了分布式資料庫redis,重寫了scrapy一些比較關鍵的代碼,將scrapy變成一個可以在多個主機上同時運行的分布式爬蟲。
  • Python的scrapy之爬取6毛小說網的聖墟!
    然後開始創建scrapy項目:(scrapy.Spider): name = 'sixmaospider' #allowed_domains = ['http://www.6mao.com'] start_urls = ['http://www.6mao.com/html/40/40184/12601161.html'] #聖墟 def parse(self, response): novel_biaoti
  • 今日課堂之初識python
    近些時候我總是能夠在各平臺上看到Python一詞,在如此高頻出現的情況下決定帶著大家了解下什麼是python,就跟著我一起學習吧!1什麼是python?最最重要的是,python應用領域廣泛,例如:爬蟲,數據分析,科學計算,自動化辦公,自動化運維,網站開發,多媒體處理,機器學習,深度學習等。2python可以做些什麼?
  • 每個python人都離不開的12個python庫
    如果說python能取得今天的成就,一方面是它簡介的語法,更重要的一方面就是它豐富的第三方庫,可以毫不誇張的說,只要你能想到的任何一個功能模塊,都有對應的python庫,可以說正是因為有了豐富的python庫,python才發展得如此迅速,下面我們來看看python人最常用的20個python
  • 深圳Python培訓班打造行業高標準Python人才
    我們都知道Web前端一直都是不可忽視的存在,我們離不開網絡,離不開Web前端,利用Python的框架可以做網站,而且都是一些精美的前端界面,另外我們需要掌握一些數據的應用。Python火的原因1、python相比別的高級語言集成度更高,除了執行的效率低些,開源可以調用的類庫實在太多了,要實現一個功能,如果換作傳統的程式語言,需要實現基本的功能模塊,但直接調用類庫很方便的搞定,特別適合零基礎的學習, 幾行代碼就能實現很強大的功能。
  • 第7天|10天搞定Python網絡爬蟲,Scrapy爬更快
    Scrapy,Python開發的一個快速、高層次的屏幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛,可以用於數據挖掘、監測和自動化測試.7.1 Scrapy的核心Scrapy吸引人的地方在於它是一個框架,任何人都可以根據需求方便的修改。它也提供了多種類型爬蟲的基類,如BaseSpider、sitemap爬蟲等,最新版本又提供了web2.0爬蟲的支持.
  • Python爬蟲學習筆記總結(二)
    這裡,資料庫選擇MySQL,採用pymysql這個第三方庫來處理python和mysql資料庫的存取,python連接mysql資料庫的配置信息db_config ={    'host': '127.0.0.1',    'port': 3306,    'user': 'root',    'password': '',