上篇《分布式爬蟲管理平臺Crawlab開發搭建》把爬蟲的管理後臺搭建起來了;搗鼓一番發現要真正爬取數據還有下不少的功夫。這篇看看怎麼搭建python+scrapy環境。
0x01:安裝Python3
註:安裝過程中請注意一定要請勾選pip安裝並加入到環境變量中,否則後續無法正常安裝第三方類庫。
0x02:安裝爬蟲所需的一些常用類庫
pip install selenium
備註:pillow官網
https://pillow.readthedocs.io/en/latest/installation.html
備註:安裝爬蟲框架必須依賴的第三方類庫Twisted,在使用pip安裝時會出現下載文件失敗而無法安裝問題,可以先下載Twisted安裝文件。然後使用pip install安裝Twisted。
pip install 下載Twisted文件絕對路徑
下載地址如下(下載與Python版本匹配的whl文件):
https://www.lfd.uci.edu/~gohlke/pythonlibs/
0x03:驗證scrapy 是否安裝成功
進入cmd,輸入 scrapy 查看scrapy是否安裝成功
0x04:創建爬蟲項目
scrapy startproject tutorial
tutorial項目的目錄結構大概如下:
QuoteSpider是文件名,http://www.baidu.com是要爬取的域名, ./tutorial/tutorial/spiders 目錄下生成一個QuoteSpider.py文件。文件內容如下:
修改一下QuoteSpider.py文件:
import scrapyclass QuotespiderSpider(scrapy.Spider): name = &39; allowed_domains = [&39;] start_urls = [&39;] def parse(self, response): 39;/& 定義文件名字,把response中的內容寫到一個html文件中 with open(fname, &39;) as f: 39;Saved file %s.& self.log是運行日誌,不是必要的
這個代碼很簡單就是爬取一個頁面,並保存到文件中。
執行tutorial爬蟲項目,在cmd目錄中執行
scrapy crawl QuoteSpider
執行日誌如下
可以在 tutorial 目錄下看的 index_1.htm 文件;該文件就是爬取到的內容。