入門Python爬蟲——獲取數據篇

2020-12-12 百度校園

作者: 李菲 來源:人工智慧學習圈

在如今的大數據時代,相信大家都對Python一詞有所耳聞。而Python爬蟲,簡單來說,即通過Python程序獲取對我們有用的數據。常用於商業分析,不過偶爾也可以輔助我們解決在日常生活中遇到的一些問題。

首先,在爬蟲中最常見的代碼便是:

引入requests庫,是一切爬蟲程序的基礎。在Python中,有許多庫可以供我們使用。這也是Python相對於其它程式語言的一大優勢。

*這裡要注意,如果之前沒有在電腦上安裝過requests庫,需要先進行安裝。Mac用戶在終端中輸入pip3 install requests,按下回車即可。Windows用戶需要打開命令提示符程序,輸入pip install requests。

在引入requests資料庫後,就可以使用其中的requests.get()方法了。其具體的用法為:

其中,variable代表變量的名稱,常用的命名為res。(不過也可以自定義變量名,並不會影響程序的運行。)括號中的參數是所需要的數據的網址

在這裡需要注意,不是所有伺服器都會歡迎爬蟲程序。建議大家在運行爬蟲程序前先去查一下相應網站的Robots協議,了解一下哪些頁面是可以抓取的。而查看Robots協議的方式也很簡單,只需在網站域名後加上/robots.txt就可以了。網址前如有顯示『Allow』即為允許爬取,而帶有『Disallow』後的網址就不建議大家去抓取了。比如,下圖就是知乎的部分Robots協議截圖。

那麼,在這裡舉個例子。比如,我想要爬取某網站的信息,假設它的網址為https://www.xxxxx/,那麼獲取數據部分的完整的代碼便是:

除此之外,我們還可以通過print(type(res))來查看數據的類型。如運行無誤,終端中會顯示<class 'requests.models.Response』>。代表變量res屬於requests.models.Response類。而此類中的常用屬性及作用分別為:

1)變量.status_code

用於查看請求是否成功。如終端返回200,則代表請求成功,伺服器會返回相應數據。

2)變量.content

用於轉換response對象到二進位數據。常用於圖片、音頻與視頻數據。

3)變量.text

用於轉換response對象到字符串數據。常用於文本數據。

4)變量.encoding

用於定義response對象的編碼。注意:只有亂碼情況下才會使用到此屬性

只有短短幾行的代碼,是不是看起來很簡單呢?

不過,千萬不要掉以輕心啦,因為這只是爬蟲中的冰山一角。在了解到如何獲取數據後,還需要學習如何解析、提取、以及儲存數據。這樣才算掌握了最基本的爬蟲技能。

原文連結:https://zhuanlan.zhihu.com/p/149326920

相關焦點

  • 如何快速學會Python爬蟲(入門篇)
    Python爬蟲入門二之爬蟲基礎了解3. Python爬蟲入門三之Urllib庫的基本使用4. Python爬蟲入門四之Urllib庫的高級用法5. Python爬蟲入門五之URLError異常處理6.
  • 進階版python獲取天氣信息——爬蟲入門
    python定時獲取天氣數據並自動發送到郵箱中,調用了其它網站的天氣接口來獲取天氣。瀏覽器基於這些問題,今天我們就來個進階版的獲取天氣信息方法——爬蟲獲取,同時該例子也是理解入門爬蟲的最好例子。「獲取」天氣信息接下來,按照爬蟲三步曲走來一步一步實現「獲取」天氣,數據源選擇中國天氣網。1.「第一曲」發送請求,下載網頁在發送請求的時候,我們需要將這個請求偽裝成瀏覽器的操作,那這就需要一些參數。
  • python 爬蟲學習路線:從入門到進階
    但掌握正確的方法,在短時間內做到能夠爬取主流網站的數據,其實非常容易。在目標的驅動下,你的學習才會更加精準和高效。那些所有你認為必須的前置知識,都是可以在完成目標的過程中學到的。這裡給你一條平滑的、快速入門的學習路徑。本文依舊需要有一些python基礎,至少要求掌握python語法。
  • 初學者如何用「python爬蟲」技術抓取網頁數據?
    在當今社會,網際網路上充斥著許多有用的數據。我們只需要耐心觀察並添加一些技術手段即可獲得大量有價值的數據。而這裡的「技術手段」就是指網絡爬蟲。 今天,小編將與您分享一個爬蟲的基本知識和入門教程:什麼是爬蟲?
  • Python爬蟲入門教程:超級簡單的Python爬蟲教程
    這是一篇詳細介紹 Python 爬蟲入門的教程,從實戰出發,適合初學者。讀者只需在閱讀過程緊跟文章思路,理清相應的實現代碼,30 分鐘即可學會編寫簡單的 Python 爬蟲。這篇 Python 爬蟲教程主要講解以下 5 部分內容:了解網頁;使用 requests 庫抓取網站數據;
  • Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...
    ,然後再根據自 己的需求和規劃選擇學習其他方向課程,學完後一定要多實踐 總目錄 零基礎全能篇(4套課程) 實用編程技巧進價(1套課程) 數據分析與挖掘(8套課程) 辦公自動化(3套課程) 機器學習與人工智慧(7套課程) 開發實戰篇(4套課程) 量化投資(2套課程) 網絡爬蟲(
  • 入門Python爬蟲——提取數據篇
    作者: 李菲 來源:人工智慧學習圈前言在提取數據這一環節,爬蟲程序會將我們所需要的數據提取出來。在上一篇文章《入門Python爬蟲 -- 解析數據篇》中,我們已經了解過了解析數據的要點。提取數據知識點在提取數據的過程中,我們依舊會用到熟悉的BeautifulSoup庫。下面我會介紹一下其中比較常用的兩個方法:find()以及find_all()。find():提取首個符合要求的數據。
  • 入門Python爬蟲——解析數據篇
    作者:李菲 來源:人工智慧學習圈首先,讓我們回顧一下入門Python爬蟲的四個步驟吧:而解析數據,其用途就是在爬蟲過程中將伺服器返回的HTML原始碼轉換為我們能讀懂的格式。那麼,接下來就正式進入到解析數據篇的內容啦。Part 1:了解HTMLHTML(Hyper Text Markup Language)為超文本標記語言。簡單來講,就是一種用於構建網頁的程式語言。其主要組成部分為網頁頭(<head>元素)與網頁體(<body>元素)。
  • python爬蟲100個入門項目
    6爬取豆瓣排行榜電影數據(含GUI界面版)7多線程+代理池爬取天天基金網、股票數據(無需使用爬蟲框架)8一鍵生成微信個人專屬數據報告(了解你的微信社交歷史)9一鍵生成QQ個人歷史報告10微信公眾號文章爬蟲
  • Python資料全家桶—網絡爬蟲入門到實踐,共計4.2G
    前言網絡爬蟲是一個模擬人類請求網站行為的程序 ,可以自動請求網頁,並將數據抓取下來,然後使用一定的規則來提取有價值的數據。網絡爬蟲的分類:通用爬蟲、聚焦爬蟲。業界內也很少叫蜘蛛的, 一般都叫做網絡爬蟲, Spider只是個別爬蟲的名稱。建議將詞條名稱改為網絡爬蟲。
  • python爬蟲篇二:HTTP協議六大方法
    爬蟲篇#,今後還有更多專題,感興趣的小夥伴先關注我吧!GET:用於獲取明文可傳遞的網站內容,數據大小不可超過255個字節。百度搜索,就是使用GET。POST:用於登錄時,傳遞加密的數據,防止有人竊聽,數據大小無上限。PUT:用於向主機上傳文件。DELETE:刪除主機上的文件。
  • Python開發簡單爬蟲【學習資料總結】
    開發爬蟲步驟 python語言基礎:(帶你熟悉python語言的特性,學會使用python開發環境,使用python開發一些簡單的案例)
  • python開發爬蟲有門檻嗎?
    如果你不是科班出身,沒有開發經驗,初次接觸開發爬蟲這檔子事兒,相信這篇文章能幫到你。python開發爬蟲肯定是有門檻的。儘管python很簡單,上手不難,但是開發起來你會發現,開發爬蟲不只是單單會python就可以了,你還得需要下列這些技能。
  • Python,爬蟲開發的不二選擇
    如果我們把網際網路比作一張大的蜘蛛網,數據便是存放於蜘蛛網的各個節點,而爬蟲就是一隻小蜘蛛,沿著網絡抓取自己的獵物(數據)。爬蟲指的是:向網站發起請求,獲取資源後分析並提取有用數據的程序。如今,人類社會已經進入了大數據時代,如何高效的獲取數據,已經成了各個網際網路公司的技術研發重點,掌握爬蟲技術已經成為了大數據公司技術人員不可或缺的一項技能。開發爬蟲使用的語言,一般有C++、Java或者Python等,這些都是面向對象的程式語言。其中C++和Java都是強類型語言,而Python是一種弱類型語言。
  • python定時獲取天氣數據並自動發送到郵箱
    這篇文章我們就來談談如何獲取天氣數據,並定時將天氣數據發送到指定的郵箱中?另一種是通過python爬取相關天氣預報網頁的內容,從裡面提取相關的信息。由於之前沒有給大家介紹過相關爬蟲的知識,所以這裡採用第一種方法。以後再陸續介紹爬蟲怎麼去獲取天氣預報信息。
  • Python入門指南教程:10天學會使用python做爬蟲!免費領取!
    從去年開始,公眾號鋪天蓋地的python廣告,讓很多行外人也知道了python這個東西,python語言開始變得無所不能,剛畢業的新手用python能做什麼?三分鐘做好了職場老手一天才能做完的表格十分鐘採集下全網競爭對手的數據寫一個軟體一年躺賺幾十萬!
  • python爬蟲百度圖片
    祝大家五一快樂最近和朋友聊天,說他想學學python數據分析這塊。正好自己也好久沒寫python了,於是昨天晚上寫了一個百度圖片的爬蟲,只要更改關鍵字,就能在百度圖片上爬取相應圖片。代碼附在文末。/usr/bin/env python# -*- coding:utf-8 -*-import osimport reimport urllibimport jsonimport socketimport urllib.requestimport urllib.parseimport urllib.error# 設置超時import timetimeout = 5socket.setdefaulttimeout
  • 喜歡用Python做爬蟲嗎?進度條了解下?自製一個進度條模塊!
    我們在做Python爬蟲腳本的時候,往往希望在運行的過程中可以實時查看到我的下載進度!重點是'\r'和end參數,\r是跳到行開頭,end=''是將原本的print完成後換行改為不換行,這樣就實現了這個小功能那麼,進度條完成了,怎麼和我們的代碼結合,比如我們下載1個10M的東東,怎麼控制每1M顯示10%呢,這就用到了我們爬蟲最常用的一個庫requests庫的一個功能了現貨 Python編程從入門到實踐python3.5絕技核心編程基礎教程網絡爬蟲入門書籍python
  • Python最佳經典學習路線
    如何學習Python python語言基礎:(帶你熟悉python語言的特性,學會使用python開發環境,使用python開發一些簡單的案例) (1)Python3入門,數據類型,字符串 (2)判斷/循環語句,函數,
  • 開課吧Python:Python爬蟲是什麼?爬蟲工程師薪資怎麼樣?
    Python爬蟲是由Python程序開發的網絡爬蟲(webspider,webrobot),是按照一定規則自動抓取全球資訊網信息的程序或腳本。其實一般是通過程序在網頁上獲取你想要的數據,也就是自動抓取數據。為什麼需要用爬蟲?