入門Python爬蟲——獲取數據篇

2020-12-11 百度校園

作者: 李菲 來源:人工智慧學習圈

在如今的大數據時代,相信大家都對Python一詞有所耳聞。而Python爬蟲,簡單來說,即通過Python程序獲取對我們有用的數據。常用於商業分析,不過偶爾也可以輔助我們解決在日常生活中遇到的一些問題。

首先,在爬蟲中最常見的代碼便是:

引入requests庫,是一切爬蟲程序的基礎。在Python中,有許多庫可以供我們使用。這也是Python相對於其它程式語言的一大優勢。

*這裡要注意,如果之前沒有在電腦上安裝過requests庫,需要先進行安裝。Mac用戶在終端中輸入pip3 install requests,按下回車即可。Windows用戶需要打開命令提示符程序,輸入pip install requests。

在引入requests資料庫後,就可以使用其中的requests.get()方法了。其具體的用法為:

其中,variable代表變量的名稱,常用的命名為res。(不過也可以自定義變量名,並不會影響程序的運行。)括號中的參數是所需要的數據的網址

在這裡需要注意,不是所有伺服器都會歡迎爬蟲程序。建議大家在運行爬蟲程序前先去查一下相應網站的Robots協議,了解一下哪些頁面是可以抓取的。而查看Robots協議的方式也很簡單,只需在網站域名後加上/robots.txt就可以了。網址前如有顯示『Allow』即為允許爬取,而帶有『Disallow』後的網址就不建議大家去抓取了。比如,下圖就是知乎的部分Robots協議截圖。

那麼,在這裡舉個例子。比如,我想要爬取某網站的信息,假設它的網址為https://www.xxxxx/,那麼獲取數據部分的完整的代碼便是:

除此之外,我們還可以通過print(type(res))來查看數據的類型。如運行無誤,終端中會顯示<class 'requests.models.Response』>。代表變量res屬於requests.models.Response類。而此類中的常用屬性及作用分別為:

1)變量.status_code

用於查看請求是否成功。如終端返回200,則代表請求成功,伺服器會返回相應數據。

2)變量.content

用於轉換response對象到二進位數據。常用於圖片、音頻與視頻數據。

3)變量.text

用於轉換response對象到字符串數據。常用於文本數據。

4)變量.encoding

用於定義response對象的編碼。注意:只有亂碼情況下才會使用到此屬性

只有短短幾行的代碼,是不是看起來很簡單呢?

不過,千萬不要掉以輕心啦,因為這只是爬蟲中的冰山一角。在了解到如何獲取數據後,還需要學習如何解析、提取、以及儲存數據。這樣才算掌握了最基本的爬蟲技能。

原文連結:https://zhuanlan.zhihu.com/p/149326920

相關焦點

  • 如何快速學會Python爬蟲(入門篇)
    Python爬蟲入門二之爬蟲基礎了解3. Python爬蟲入門三之Urllib庫的基本使用4. Python爬蟲入門四之Urllib庫的高級用法5. Python爬蟲入門五之URLError異常處理6.
  • 進階版python獲取天氣信息——爬蟲入門
    python定時獲取天氣數據並自動發送到郵箱中,調用了其它網站的天氣接口來獲取天氣。瀏覽器基於這些問題,今天我們就來個進階版的獲取天氣信息方法——爬蟲獲取,同時該例子也是理解入門爬蟲的最好例子。「獲取」天氣信息接下來,按照爬蟲三步曲走來一步一步實現「獲取」天氣,數據源選擇中國天氣網。1.「第一曲」發送請求,下載網頁在發送請求的時候,我們需要將這個請求偽裝成瀏覽器的操作,那這就需要一些參數。
  • Python爬蟲入門教程:超級簡單的Python爬蟲教程
    這是一篇詳細介紹 Python 爬蟲入門的教程,從實戰出發,適合初學者。讀者只需在閱讀過程緊跟文章思路,理清相應的實現代碼,30 分鐘即可學會編寫簡單的 Python 爬蟲。這篇 Python 爬蟲教程主要講解以下
  • 初學者如何用「python爬蟲」技術抓取網頁數據?
    在當今社會,網際網路上充斥著許多有用的數據。我們只需要耐心觀察並添加一些技術手段即可獲得大量有價值的數據。而這裡的「技術手段」就是指網絡爬蟲。 今天,小編將與您分享一個爬蟲的基本知識和入門教程:什麼是爬蟲?網絡爬蟲,也叫作網絡數據採集,是指通過編程從Web伺服器請求數據(HTML表單),然後解析HTML以提取所需的數據。
  • python爬蟲-- Scrapy入門
    前言轉行做python程式設計師已經有三個月了,這三個月用Scrapy爬蟲框架寫了兩百多個爬蟲,不能說精通了Scrapy,但是已經對Scrapy有了一定的熟悉
  • Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...
    ,然後再根據自 己的需求和規劃選擇學習其他方向課程,學完後一定要多實踐 總目錄 零基礎全能篇(4套課程) 實用編程技巧進價(1套課程) 數據分析與挖掘(8套課程) 辦公自動化(3套課程) 機器學習與人工智慧(7套課程) 開發實戰篇(4套課程) 量化投資(2套課程) 網絡爬蟲(
  • 入門Python爬蟲——提取數據篇
    作者: 李菲 來源:人工智慧學習圈前言在提取數據這一環節,爬蟲程序會將我們所需要的數據提取出來。在上一篇文章《入門Python爬蟲 -- 解析數據篇》中,我們已經了解過了解析數據的要點。提取數據知識點在提取數據的過程中,我們依舊會用到熟悉的BeautifulSoup庫。下面我會介紹一下其中比較常用的兩個方法:find()以及find_all()。find():提取首個符合要求的數據。
  • 入門Python爬蟲——解析數據篇
    作者:李菲 來源:人工智慧學習圈首先,讓我們回顧一下入門Python爬蟲的四個步驟吧:而解析數據,其用途就是在爬蟲過程中將伺服器返回的HTML原始碼轉換為我們能讀懂的格式。那麼,接下來就正式進入到解析數據篇的內容啦。
  • 從零開始的python爬蟲速成指南
    一、爬蟲入門Python爬蟲入門一之綜述Python爬蟲入門二之爬蟲基礎了解Python爬蟲入門三之Urllib庫的基本使用Python爬蟲入門四之Urllib庫的高級用法Python爬蟲入門五之URLError異常處理Python爬蟲入門六之Cookie的使用
  • 一個入門級python爬蟲教程詳解
    這篇文章主要介紹了一個入門級python爬蟲教程詳解,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑑價值,需要的朋友可以參考下
  • python爬蟲入門實戰!爬取博客文章標題和連結!
    最近有小夥伴和我留言想學python爬蟲,那麼就搞起來吧。準備階段爬蟲有什麼用呢?舉個最簡單的小例子,你需要《戰狼2》的所有豆瓣影評。最先想的做法可能是打開瀏覽器,進入該網站,找到評論,一個一個複製到文本中,保存,翻頁,接著複製,直到翻到最後一頁。
  • 我整理了大數據入門帖子200篇並用python分析了一下
    部分大數據入門帖子000我通過 數據挖掘入門,自學人工智慧,python入門,nlp是什麼,統計學入門,大數據入門,爬蟲是什麼意思,學習大數據要什麼基礎,數據分析師適合女生嘛,自學大數據該怎麼入手等63個入門相關關鍵問題,找了200篇左右的高票入門帖子。
  • 如何開始寫你的第一個python腳本——簡單爬蟲入門!
    好多朋友在入門python的時候都是以爬蟲入手,而網絡爬蟲是近幾年比較流行的概念,特別是在大數據分析熱門起來以後,學習網絡爬蟲的人越來越多,哦對,現在叫數據挖掘了!其實,一般的爬蟲具有2個功能:取數據和存數據!好像說了句廢話。。。
  • 小白也能懂的python爬蟲入門案例
    此文屬於入門級級別的爬蟲,老司機們就不用看了。本次主要是爬取網易新聞,包括新聞標題、作者、來源、發布時間、新聞正文。首先我們打開163的網站,我們隨意選擇一個分類,這裡我選的分類是國內新聞。也就是通過api接口獲取的數據。那麼確認了之後可以使用F12打開谷歌瀏覽器的控制臺,點擊 Network,我們一直往下拉,發現右側出現了:"… special/00804KVA/cm_guonei_03.js? … "之類的地址,點開Response發現正是我們要找的api接口。
  • Python 從零開始--入門篇
    ,目的只有一個是大家一起能夠使用 python 寫自己的爬蟲,能夠達到公司要求的基本水平。why pthon為什麼是 python 呢,原因很簡單~嗯哼!就是很簡答相比於 C語言 的指針的混亂,和 Java 的繁瑣,python 更加適合作為非計算機專業的第一個入門的程式語言。
  • Python開發簡單爬蟲【學習資料總結】
    開發爬蟲步驟 python語言基礎:(帶你熟悉python語言的特性,學會使用python開發環境,使用python開發一些簡單的案例)
  • Python爬蟲從入門到精通只需要三個月
    如何入門Python,為了能夠幫助大家更輕鬆的學好Python開發,Python爬數據,Python數據分析等相關理論知識,給大家共同分享自己一套Python學習生活資料,文章最後面的有附屬的相關資料,無論你是大牛還是小白,是想轉行還是想入行都可以來了解,一起不斷進步以及一起努力學習
  • 1小時入門 Python 爬蟲
    從而爬蟲工程師、數據分析師、大數據工程師的崗位也越來越受歡迎。爬蟲是 Python 應用的領域之一。有 Python 基礎對於學習 Python 爬蟲具有事半功倍的效果。就像學英語一樣,一個對英語一概不通的人聽完別人讀英語,自己也能讀出來,但要把英語讀好,學好音標非常有必要。
  • Python 爬蟲入門
    從而爬蟲工程師、數據分析師、大數據工程師的崗位也越來越受歡迎。爬蟲是 Python 應用的領域之一。有 Python 基礎對於學習 Python 爬蟲具有事半功倍的效果。就像學英語一樣,一個對英語一概不通的人聽完別人讀英語,自己也能讀出來,但要把英語讀好,學好音標非常有必要。
  • Python入門學習之數據分析實戰獲取數據
    想用一個完整的案例講解Python數據分析的整個流程和基礎知識,實際上以一個數據集為例,數據集是天池上的一個短租數據集,後臺回覆:短租數據集,即可獲得。先來想一下數據分析的流程,第一步獲取數據,因此本節內容就是獲取數據以及對數據的基本操作。