今天帶大家了解下 Scrapy 框架,先解答三個問題:什麼是 Scrapy 框架呢?它有什麼作用呢?為什麼需要使用它?
Scrapy 是 Python 開發的一個快速、高層次的屏幕抓取和web抓取框架,用於抓取 web 站點並從頁面中提取結構化的數據。
Scrapy 用途廣泛,可以用於數據挖掘、監測和自動化測試。
為什麼需要使用它?Scrapy 是一個寫好的框架,不用重複造輪子,scapy 底層是異步框架 twisted ,吞吐量高,並發是最大優勢。
Scrapy 安裝
我電腦上同時裝了 py2 和 py3,在 py3 環境裡安裝 Scrapy,使用以下命令。
創建爬蟲項目
創建儲存 scrapy 文件夾 scrapypy3,cd 進入到路徑,用 scrapy startproject 命令新建項目。
Scrapy 項目目錄結構
新建的爬蟲項目文件有以下部分組成,將整個文件在編輯器 Pycharm 中打開看得很明顯,文件後面我做了中文解釋。
創建項目參數
剛才用 scrapy startproject 創建了爬蟲項目,創建的時候我們也可以加入一些參數,具體有哪些參數呢?我們可以在命令行通過 scrapy startproject -h查看,以下常見的命令給出了相應的中文注釋。
常用工具命令
Scrapy 中,工具命令分為兩種,一種為全局命令,一種為項目命令。
全局命令
在不進入Scrapy 爬蟲項目所在目錄的情況下,運行 scrapy -h,在commands下會出現所有的全局命令。
項目命令
首先進入一個已經創建的 Scrapy 爬蟲項目,運行 scrapy -h 顯示項目中可用命令。在展示出來的命令中,包括了上面講到的全局命令。全局命令既可以在非 Scrapy 爬蟲項目文件夾中使用,同時也可以在 Scrapy 爬蟲項目文件夾中使用,而 Scrapy 項目命令一般只能在 Scrapy 爬蟲項目文件夾中使用。去掉全局命令,剩下的就是Scrapy項目命令。
所以,Scrapy 的項目命令主要有:bench、check、crawl、edit、genspider、list、parse。
這篇文章給大家講了下 Scrapy 框架的安裝和常用的命令,這只是初步了解,之後會在實戰中使用,項目實戰才是我們的最終目的。
此文章對你有點幫忙的話希望大家能多給點支持,關注、點讚、轉發都是對我的一種支持,有什麼問題歡迎評論留言。