Crawlab準備之python+scrapy環境搭建

2020-09-05 java樂園

上篇《分布式爬蟲管理平臺Crawlab開發搭建》把爬蟲的管理後臺搭建起來了;搗鼓一番發現要真正爬取數據還有下不少的功夫。這篇看看怎麼搭建python+scrapy環境。


0x01:安裝Python3

  • 下載python安裝包,具體版本根據自己的系統要求https://www.python.org/downloads/windows/
  • 下載安裝完成後直接cmd輸入python,可正常查看版本

註:安裝過程中請注意一定要請勾選pip安裝並加入到環境變量中,否則後續無法正常安裝第三方類庫。


0x02:安裝爬蟲所需的一些常用類庫

  • 安裝 selenimu 自動化web包,cmd進入任意目錄,執行

pip install selenium

  • 安裝 pymysql 連接mysql包,cmd進入任意目錄,執行。方便以後把爬取的數據插入資料庫pip install pymysql
  • 安裝 pillow 圖片處理包pip install pillow

備註:pillow官網

https://pillow.readthedocs.io/en/latest/installation.html

  • 安裝 pypiwin32 操作底層dll包pip install pypiwin32
  • 安裝 requests 發送web請求包pip install requests
  • 安裝 scrapy 爬蟲框架包pip install scrapy

備註:安裝爬蟲框架必須依賴的第三方類庫Twisted,在使用pip安裝時會出現下載文件失敗而無法安裝問題,可以先下載Twisted安裝文件。然後使用pip install安裝Twisted。

pip install 下載Twisted文件絕對路徑

下載地址如下(下載與Python版本匹配的whl文件):

https://www.lfd.uci.edu/~gohlke/pythonlibs/

  • 安裝解析網頁內容包pip install bs4


0x03:驗證scrapy 是否安裝成功

進入cmd,輸入 scrapy 查看scrapy是否安裝成功


0x04:創建爬蟲項目

  • 創建項目,只需一行命令即可創建名為 tutorial 的Scrapy項目:

scrapy startproject tutorial

tutorial項目的目錄結構大概如下:

  • 創建爬蟲的模板文件進入 ./tutorial/tutorial 執行:scrapy genspider QuoteSpider &34;

QuoteSpider是文件名,http://www.baidu.com是要爬取的域名, ./tutorial/tutorial/spiders 目錄下生成一個QuoteSpider.py文件。文件內容如下:

修改一下QuoteSpider.py文件:

import scrapyclass QuotespiderSpider(scrapy.Spider):    name = &39;     allowed_domains = [&39;]    start_urls = [&39;]    def parse(self, response): 39;/& 定義文件名字,把response中的內容寫到一個html文件中        with open(fname, &39;) as f: 39;Saved file %s.& self.log是運行日誌,不是必要的

這個代碼很簡單就是爬取一個頁面,並保存到文件中。

執行tutorial爬蟲項目,在cmd目錄中執行

scrapy crawl QuoteSpider

執行日誌如下

可以在 tutorial 目錄下看的 index_1.htm 文件;該文件就是爬取到的內容。

相關焦點

  • 分布式爬蟲管理平臺Crawlab開發搭建
    分布式爬蟲管理平臺Crawlab發現挺不錯,但是官方文檔中涉及二次開發的環境啟動章節比較模糊。在構建之前,我們需要配置一下前端的部署環境變量。打開 ./frontend/.env.production,內容如下。
  • python Scrapy在Windows平臺的安裝
    在Windows平臺上安裝scrapy,直接採用pip install scrapy重來沒有成功過,今天剛裝完系統,安裝了python3.6.4,剛好沒有裝scrapy,我就把這個安裝過程記錄下來,分享一下。
  • Python 爬蟲框架Scrapy 簡單介紹
    當前Scrapy 最新版本為1.5,支持python2.7 和python3.4+版本的python。Linux/Mac在linux 和 Mac 系統下,可使用 pip安裝。pip install scrapy windows在windows上安裝的話,需要按照的依賴包比較多。
  • Python之初識Scrapy框架
    Scrapy 安裝我電腦上同時裝了 py2 和 py3,在 py3 環境裡安裝 Scrapy,使用以下命令。創建爬蟲項目創建儲存 scrapy 文件夾 scrapypy3,cd 進入到路徑,用 scrapy startproject 命令新建項目。
  • Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...
    11編程讓生活更美好 之 初識 excel操控 12【VBA宏工程插件與python+xlwings混合調用】 13python +VBA混合開發 之 winapi自由世界 14python+panas+excel+vba混合調用 15【hybridDev實戰】【py+excel+ppt自動匯報】 16原創獨家配套筆記之混合開發
  • 使用Scrapy網絡爬蟲框架小試牛刀
    命令pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simplescrapy創建爬蟲項目命令scrapy startproject <項目名稱>示例:創建一個糗事百科的爬蟲項目(記得cd到一個乾淨的目錄哈)scrapy startproject
  • Python開發環境的搭建
    俗話說得好,不打無準備之仗,方能立於不敗之地。不同語言之間的交流需要一個轉換機制,而Python開發環境的搭建就是建立一個我們與計算機之間交流的一個轉換機制。Python的安裝包下載地址:https://www.python.org進入網站後,會出現下載列表如圖所示:選擇完對應的系統後,會進入詳細的下載列表,裡面有Python的各個版本,選擇你所需要的版本進行下載,下圖是3.8.6版本的圖示:根據個人的電腦情況選擇相應的文件下載。
  • scrapy使用快速入門
    首先你要具備以下能力:#有一定的python基礎和編程思想,#具有一定的liunx系統管理基礎#掌握基本資料庫操作,增刪改查等,#了解html,css,js相關方面的知識建議使用Pycharm開發工具,方便調試下面我們開始寫爬蟲程序1、創建一個scrapy
  • 怎麼搭建python開發環境?此文詳解
    雖然網上有很多python開發環境搭建的文章,不過重複造輪子還是要的,記錄一下過程,方便自己以後配置,也方便正在學習中的同事配置他們的環境。   1.準備好安裝包  1)上python官網下載python運行環境(https://www.python.org/downloads/),目前比較穩定的是python-3.5.2  2)上pycharm
  • Python Tool 101 - Tool 002 - Python 情感分析 SnowNLP
    Python Tool 101 - Tool 002 - Python 情感分析 SnowNLP環境背景:今天想嘗試一下導師說過的情感分析,根據自身的實際情況選擇SnowNLP來做個有趣的實驗。SnowNLP是咋們中國人受到了TextBlob的啟發後開發的python類庫,能夠非常方便的處理中文文本內容,劃重點方便處理中文的類庫!!!,類庫中的算法和訓練好的字典都已經準備好了。唯一需要注意的是要使用unicode編碼,所以使用時請自行decode成unicode。知道這個SnowNLP是什麼之後,我們開始設計下實驗方案。
  • centos下Python入門環境搭建
    搭建python環境Linux下默認系統自帶python2.6的版本,這個版本被系統很多程序所依賴,所以不建議刪除,如果使用最新的Python3那麼我們知道編譯安裝源碼包和系統默認包之間是沒有任何影響的,所以可以安裝python3和python2共存1.Python
  • python自動化測試環境搭建
    本章主要講述python進行接口自動化或者UI自動化開發環境的搭建 jdk環境變量一樣把python添加到系統path中去 3、驗證python是否安裝完成和path是否添加方法: 打開cmd,輸入python, 如果能看到python版本號,說明python安裝成功。
  • python爬蟲29 | 使用scrapy爬取糗事百科
    這個框架到底有多牛b那麼接下來就是學習 python 的正確姿勢這個框架那麼接下來小帥b會帶你使用它來爬取一下 糗事百科 的段子主要讓你知道 scrapy 的使用以及體驗它的牛逼之處廢話不多說爬蟲我們就需要繼承 scrapy.Spider 這個類這樣我們才能使用它定義的一些方法class QiushiSpider(scrapy.Spider):
  • Python RF環境搭建
    搭建RF下載Python3.7的安裝包,進行安裝:https://www.python.org/配置環境變量:3.使用pip安裝pip install robotframework#安裝robotframework-ridepip install robotframework-rideScripts/ride.py就是RobotFrameWork的啟動文件,通過python.exe
  • 零基礎也能快速搭建Python+Mysql開發環境
    工欲善其事,必先利其器,作為零基礎的新手接觸python,能夠搭建好python數據開發環境,也會給後續學習提升很多便利。因為網上大部分的Python環境安裝教程都比較老,用的版本還是python2.7/3.5、3.7的,MySQL用的5.3/5.6的版本偏多,而技術的更新換代日新月異。
  • python開發環境搭建及工具配置
    安裝後,你會得到Python解釋器(負責運行Python程序的),一個命令行交互環境,還有一個簡單的集成開發環境。集成開發環境主要有兩種方式: Python 和 Anaconda。Python方式先到Python官網下載 https://www.python.org/, 自己使用的話可下載最新版本3.8.1。下載合適的版本後windows平臺下直接下一步安裝完成即可。
  • Python爬蟲:Scrapy-redis分布式爬蟲講解
    Github地址:https://github.com/rmax/scrapy-redis安裝:pip install scrapy-redisscrapy_redis在scrapy的基礎上實現了更多,更強大的功能,具體體現在:
  • python爬蟲小白——scrapy的使用
    本文中的知識點:安裝scrapyscrapy的基礎教程scrapy使用代理安裝scrapy以下的演示是基於windows系統,windows與linux都可以用。安裝好後,確認scrapy是否安裝看下這裡的代碼,先導入scrapy,定義了一個BaiduSpider類,必須要繼承scrapy.Spider。這裡注意,裡面有3個必須的屬性(name,allowed_domains,start_urls)。name——爬蟲的名字,運行爬蟲的時候就看這個參數。allowed_domains——抓取的域名限制,這是我們剛才在命令行輸入的。
  • 雲計算開發學習筆記:Python的環境搭建
    大家都知道學好Python是進入雲計算領域的基礎,那麼在學習之前我們先來了解下Python環境是如何搭建的。Python可應用於多種平臺,包括大家熟悉的Window,Linux 和 Mac OS X。
  • 適合小白的Python 開發環境搭建教程
    開發環境,基礎又重要的東西程式設計師用開發語言進行工作創造,或者小白要學習一門開發語言,那麼搭建開發環境是必須的第一步。就像木工會有自己的工作空間,畫家有自己的畫筆、顏料等。Python的開發環境搭建其實很簡單,找到正確的路子不走彎路任何一個小白都能快速的完成搭建,現在我們就進入正題。