Python爬蟲的名詞有什麼意義?

2020-12-03 青年學記

在上一篇文章當中學記給大家展示了 Scrapy 爬蟲框架在爬取之前的框架文件該如何設置。在上一篇文章當中,是直接以代碼的形式進行描述的,在這篇文章當中學記會解釋一下上一篇文章當中爬蟲代碼當中的一些名詞的用法

Scrapy爬蟲框架中,所有自定義的爬蟲都是從這個scrapy.spiders.Spider父類繼承下來的,也就是說在這個爬蟲框架當中,所有的爬蟲代碼所適用的的屬性和方法都是由此父類規定的。

在這個父類中規定的各個名詞用法如下:

1.name:言簡意賅,就是爬蟲的名字

2.allowed_domains允許爬取的域名不在此範圍的連結不會被跟進爬取

3.start_urls起始URL列表,一般會從這個列表開始爬取。

4.custom_settings:用來存放爬蟲專屬配置的字典,這裡的設置會覆蓋全局的設置

5.crawler:與爬蟲對應的Crawler對象,利用它可以獲取項目的配置信息,如調用crawler.settings.get()。

6.settings:用來獲取爬蟲全局設置的變量

7.start_requests():用於生成初始請求,該方法默認使用GET請求訪問起始URL。

8.parse():它負責處理Response對象並返回結果,從中提取出需要的數據和後續的請求

9.closed():當爬蟲進程結束之後,該方法會被調用,通常用來做一些釋放資源的善後操作

我們來看一下上一篇文章當中關於 爬虫部分的代碼 :

# -*- coding: utf-8 -*- #設置字符格式為 utf-8.

importscrapy

fromscrapy.selector import Selector

fromscrapy.linkextractors import LinkExtractor

fromscrapy.spiders import CrawlSpider, Rule

frombaidu.items import baiduItem

classImageSpider(CrawlSpider):

name= 'image' #即爬蟲的名字,主要爬取圖片

allowed_domains = ['tieba.baidu.com'] #只爬取百度貼吧內的圖片。

start_urls= ['https://tieba.baidu.com/'] #起始爬取 url

rules = (

Rule(LinkExtractor(allow=(r'https://tieba.baidu.com\?start=\d+.*'))),

Rule(LinkExtractor(allow=(r'https://tieba.daidu.com/subject/\d+')), callback='parse_item'),

)

def parse_item(self, response):

sel= Selector(response)

item = baiduItem()

item['name']=sel.xpath('//*[@id="content"]/h1/span[1]/text()').extract()

item['year']=sel.xpath('//*[@id="content"]/h1/span[2]/text()').re(r'\((\d+)\)')

returnitem

一般來說,就是這樣的用法,上述的名詞在整個爬蟲代碼當中只佔很小的一部分。

如果想學習更多科技知識,可以點擊關注

如果對文章中的內容有什麼困惑的地方,可以在評論區提出自己的問題,學記同大家一起交流,解決各種問題,一起進步。

青年學記 陪伴著各位青年

作者:青年學記 一名不斷進步的程序

一起學習 一起進步

走向自立

相關焦點

  • python開發爬蟲有門檻嗎?
    如果你不是科班出身,沒有開發經驗,初次接觸開發爬蟲這檔子事兒,相信這篇文章能幫到你。python開發爬蟲肯定是有門檻的。儘管python很簡單,上手不難,但是開發起來你會發現,開發爬蟲不只是單單會python就可以了,你還得需要下列這些技能。
  • python爬蟲-urllib、urllib2、requests三者關係
    只要人能看到的東西,理論上都是爬蟲可以獲取的。不論靜態頁面還是動態頁面。也不論pc端的頁面還是移動端的app。話有點大,但這就是本系列的目的。爬蟲編程,有很多語言可選,python、php、go、java···甚至是c。這裡我們選擇python作為爬蟲的程式語言,因為它簡單易上手,並且節約生命。
  • Python爬蟲學到什麼程度就可以去找工作了?
    有朋友在群裡和大家討論,問的最多的問題就是,python 爬蟲學到什麼程度可以去找工作了,關於這點,和大家分享下我的理解。去招聘網上看看需求都有哪些,直接做個拉勾網爬蟲(有需要的私信)出結果了:仔細看看,我們可以得出以下幾點:1、 python 不是唯一可以做爬蟲的,很多語言都可以,
  • 開課吧Python:Python爬蟲是什麼?爬蟲工程師薪資怎麼樣?
    為什麼總說爬蟲,找工作容易,工資還高,但是他們是什麼,能做什麼!你知道嗎?繼續往下看吧,我來告訴你答案。Python爬蟲是什麼?Python爬蟲是什麼?這類網絡爬蟲的抓取範圍和數量巨大,對抓取速度和存儲空間要求較高,抓取頁面的順序相對較低。比如我們常見的百度和谷歌搜索。當我們輸入關鍵詞時,他們會從整個網絡中尋找與關鍵詞相關的網頁,並按照一定的順序呈現給我們。聚焦爬蟲是指選擇性地抓取與預定義主題相關的頁面的爬蟲。相比一般的web爬蟲,聚焦爬蟲只需要抓取特定的網頁,抓取的廣度會小很多。
  • 初學者如何用「python爬蟲」技術抓取網頁數據?
    在當今社會,網際網路上充斥著許多有用的數據。我們只需要耐心觀察並添加一些技術手段即可獲得大量有價值的數據。而這裡的「技術手段」就是指網絡爬蟲。 今天,小編將與您分享一個爬蟲的基本知識和入門教程:什麼是爬蟲?
  • Python開發簡單爬蟲【學習資料總結】
    一、簡單爬蟲架構 ;另一方面,會將新的URL補充進URL管理器,若有URL管理器中含有新的URL,則重複上述步驟,直到爬取完所有的URL 6、最後,調度器會調動應用的方法,將價值數據輸出到需要的格式。
  • Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...
    高級編程(6套課程) 注:零基礎全能篇中,針對windows和liunx系統均有兩套課程可供選擇學習,單純學python,哪個系統都一樣,初學者只需選擇自己熟悉的系統學習相應課程即可。 因篇幅有限,以下展示的只是課程裡部分內容如對python課程有更多疑問 請諮詢客服 1零基礎入門全能班 01 –python簡介 02 第一個程序 03-python執行方式和pycharm設置 04-程序的注釋和算術運算符 05 程序執行原理 06變量的使用以及類型 07
  • Python,爬蟲開發的不二選擇
    如果我們把網際網路比作一張大的蜘蛛網,數據便是存放於蜘蛛網的各個節點,而爬蟲就是一隻小蜘蛛,沿著網絡抓取自己的獵物(數據)。爬蟲指的是:向網站發起請求,獲取資源後分析並提取有用數據的程序。如今,人類社會已經進入了大數據時代,如何高效的獲取數據,已經成了各個網際網路公司的技術研發重點,掌握爬蟲技術已經成為了大數據公司技術人員不可或缺的一項技能。
  • Python破解反爬蟲:最新反爬蟲有道翻譯中英文互譯破解,附代碼
    由於爬蟲的出現,導致很多網頁都設置了反爬蟲機制:常見的反爬蟲機制就是在客戶端發出請求的時候,在請求的內容中新增一些內容,而這些內容都是經過「加密的」,每次請求都是不同的,這樣就導致了很多傳統的爬蟲失效。
  • 雲立方網科普:常用高效的Python爬蟲框架有哪些?
    Python是現在非常流行的程式語言,而爬蟲則是Python語言中最典型的應用,下面是總結的高效Python爬蟲框架,大家看看是否都用過呢。 Pyspider 是一個用python實現的功能強大的網絡爬蟲系統,能在瀏覽器界面上進行腳本的編寫,功能的調度和爬取結果的實時查看,後端使用常用的資料庫進行爬取結果的存儲,還能定時設置任務與任務優先級等。
  • 從零開始寫Python爬蟲,四大工具你值得擁有!
    如果你正在學習編程,那麼「爬蟲」絕對是你不可忽視的。那麼,學習python爬蟲之前需要哪些準備?一顆熱愛學習,不屈不撓的心一臺有鍵盤的電腦(什麼系統都行。我用的os x,所以例子會以這個為準)html相關的一些知識。
  • python爬蟲入門實戰!爬取博客文章標題和連結!
    最近有小夥伴和我留言想學python爬蟲,那麼就搞起來吧。準備階段爬蟲有什麼用呢?舉個最簡單的小例子,你需要《戰狼2》的所有豆瓣影評。最先想的做法可能是打開瀏覽器,進入該網站,找到評論,一個一個複製到文本中,保存,翻頁,接著複製,直到翻到最後一頁。
  • Python 爬蟲面試題 170 道
    17.在給 Py 文件命名的時候需要注意什麼?高級特性70.函數裝飾器有什麼作用?請列舉說明?71.Python 垃圾回收機制?72.魔法函數 __call__怎麼使用?73.如何判斷一個對象是函數還是方法?
  • Python爬蟲是什麼意思有啥用 python爬蟲原理實例介紹
    但什麼是爬蟲,如何利用爬蟲為自己服務,這些在ICT技術小白聽起來又有些高入雲端。不用愁,下面一文帶你走近爬蟲世界,讓即使身為ICT技術小白的你,也能秒懂使用Python爬蟲高效抓取圖片。  什麼是專用爬蟲?  網絡爬蟲是一種從網際網路抓取數據信息的自動化程序。
  • Python新手爬蟲,簡單製作抓取廖雪峰的教程的小爬蟲
    Python 數據處理 Python編程從入門到實踐 核心編程基礎教程 網絡爬蟲入門書籍 python視頻編程從入門到精通 程序設計教材人民郵電¥72.2領3元券話不多說,先來看看整個爬蟲過程吧!目標:廖雪峰官網—python教程工具:pycharm、python3.6、requests庫、time庫、lxml庫思路:85 抓取所有的目錄章節 url85 找到 url內教程主體所在的 div85 遍歷 div下所有標籤,文本和代碼部分內容直接保存85 區分其中的代碼、圖片、視頻 3個內容,
  • 簡單講解價值1K的Python爬蟲外包案例
    前言 本文的文字及圖片來源於網絡,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯繫我們以作處理。 相關模塊的使用 常規爬取數據 多線程爬取數據 scrapy框架爬取數據 目標網頁分析 爬取python
  • python為什麼叫爬蟲?為啥那麼多人通過python兼職都能掙不少錢?
    Python能做什麼之前有很多文章介紹python能做什麼。今天介紹python爬蟲的學習。網絡爬蟲 網絡爬蟲,也叫網絡蜘蛛(Web Spider)。爬蟲是在某個URL頁面入手,抓取到這個頁面的內容,從當前的頁面中找到其他的連結地址,然後從這地址再次爬到下一個網站頁面,這樣一直不停的抓取到有用的信息,所以可以說網絡爬蟲是不停的抓取獲得頁面上想要的信息的程序。還不懂?
  • 普通人學Python有意義嗎?學Python有前途嗎?-開課吧Python
    Pythonpython憑藉著第三方庫數量的龐大,其幾乎可以說是萬能的,對於普通人來說,數據表格excel基本上都有需要製作,而有一些編程基礎的,就可以使用庫openpyxl來實現excel表格的自動處理和生成,同時除了excel之外,針對word,ppt等python都有對應的庫。
  • 「Python爬蟲與文本實例技術與應用」培訓班通知
    通過爬蟲獲取的海量信息,我們可以對其進行進一步的分析:市場預測、文本分析、機器學習方法等。     Python作為一門腳本語言,它靈活、易用、易學、適用場景多,實現程序快捷便利,早已經成為程式設計師們的一門編程利器。Python這門程式語言包羅萬象,可以說掌握了python,除了一些特殊環境和高度的性能要求,你可以用它做任何事。
  • Python 爬蟲面試題 170 道:2019 版
    59.python 字典和 json 字符串相互轉化方法60.請寫一個 Python 邏輯,計算一個文件中的大寫字母數量高級特效70.函數裝飾器有什麼作用?請列舉說明?71.Python 垃圾回收機制?