Python爬蟲從入門到放棄(一)||Request:請求

2021-03-02 Wo愛分析

大家好！我是郭小帥！我準備挖個新坑，教各位大寶貝們寫爬蟲，難度定義在-100，俺保證只要會打字的都能學會！

開坑的理由是我前兩篇文章發出之後一些熱【話】心【多】的網友給我了一些反饋，在這也給大家分享一下：

熱心網友「施肥宅」：郭小帥，你的文章都挺有意思的，但是我們看不懂有個毛用？你自己在那瞎分析有個毛用？呵，直男，he tui！

熱心網友「小閆童鞋」：作為一個女生，我覺得你那個口紅篇莫得用，買最貴的不就完啦，哼~不過我覺得你的爬蟲挺有意思的，教教我唄！

熱心網友「劉某人」：小帥，你個Doggy，我在CSDN上發現有個人的風格跟你很像哦，感覺很給力，通俗易懂，你要再不更新教程你可就要脫粉啦！！（你的表情包我拿走了啊，下次記得提供源碼！）

OKOK，我懂了，小帥的粉絲跟小帥是一樣的，明明可以靠顏值吃飯，卻偏偏要靠實力，就是想學點真本事！

好哇，小帥這麼寵粉，一定給你們安排上！

首先，工欲善其事，必先利其器。我們寫爬蟲要用Python，需要安裝一下子，然後還需要一個編輯器，小帥推薦使用PyCharm，也需要安裝一下。

都看著我幹嘛？好好好，我懂你們，在公眾號號回復「520」即可獲取安裝包下載連結。

接下來捋捋思路。問：把大象裝冰箱裡總共分幾步？....啊不好意思串臺了。

重來，問：要用爬蟲爬取一個頁面，總共分幾步？

簡單來說，分三步！（跟大象真的沒關係）

（一）請求

（二）解析

（三）存儲

今天我們就先講第一講：請求。

我們一般上網的形式簡單的來說就是瀏覽器發送請求到伺服器，伺服器收到並處理後返迴響應的內容給瀏覽器，瀏覽器最終渲染解析成我們看到的網頁。

還是很抽象嗎？那舉個慄子，豬拱白菜大家都知道吧，我們把豬理解成瀏覽器，把白菜理解成伺服器：

豬去拱白菜，請求白菜當他女朋友，白菜收到請求後說：不願意，滾！並給了豬一個大嘴巴子。這在瀏覽器中就是403錯誤，伺服器拒絕請求。

豬去拱白菜，請求白菜當他女朋友，白菜收到請求後說：行，我知道你的請求了。然後就沒有然後了.這就屬於204 狀態，伺服器成功處理了請求，但沒有返回任何內容。

豬去拱白菜，請求白菜當他女朋友，白菜收到請求後，說：啊，蒼天啊，總算有一隻豬瞎了眼了，我願意我願意！這在瀏覽器中就能正常看到請求的頁面了。

比喻可能略有瑕疵，但意思差不多就是這個意思。來，我們一起去拱白菜！

然後我們說說Python的request這個庫，它將HTTP協議封裝得非常好，我們使用起來非常的方便，很適合爬蟲一類的網絡編程，而我們就是利用這個庫中的方法去拱...哦，是去請求網頁。【PS：request的官方主頁寫著「HTTP for Humans」，很有意思】

在使用request庫時，我們需要安裝一下（requests庫不是內置庫），安裝很簡單，打開CMD（命令提示符），輸入pip install requests，等待安裝完成即可（前提是Python已經安裝完成）

然後我們打開安裝好的PyCharm，新建一個項目，然後再創建一個Python File，起個美美噠的名字，就創建完成了。

接下來動手試一下，再PyCharm中敲入以下代碼：

import requests #導入requests庫

r = requests.get('http://www.baidu.com') #用requests庫的get方法去請求百度，並把返回的結果賦給對象r
info=r.content #把伺服器返回的字節響應內容賦給info

print(info) #輸出info

執行一下看看結果

返回這樣的結果就已經請求成功了（白菜已經答應豬了），接下來我們就要爬取和解析有用的信息了，解析我們到下一節課我們在講。是不是很簡單？！是不是覺得自己棒棒噠~

最後小帥給大家布置一下作業昂

1、把Python和PyCharm安裝好；

2、在命令提示符裡安裝好requests庫；

3、試著用requests.get()去請求一下網站

好啦，教程系列寫起來還是比較輕鬆愉快的，小帥爭取一周兩更，避免掉粉（記得是爭取啊！爭取！）。

大寶貝們要是覺得文章對你有幫助的話請點讚、轉發關注素質三聯！你們的鼓勵就是我最大的動力！大家有什麼疑問可以隨時來撩~請為小帥瘋狂打Call~

相關焦點

python爬蟲-- Scrapy入門

準備寫一個系列的Scrapy爬蟲教程，一方面通過輸出鞏固和梳理自己這段時間學到的知識，另一方面當初受惠於別人的博客教程，我也想通過這個系列教程幫助一些想要學習Scrapy的人。Scrapy簡介Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。
Python爬蟲 | 0x6 - 請求庫:urllib

兩個庫來實現請求發送，而在Python3中將這兩個庫合併到了一起，統一為urllib。常用屬性及函數調用示例如下：import urllib.requestresp = urllib.request.urlopen("https://www.python.org")print("resp.geturl
進階版python獲取天氣信息——爬蟲入門

python定時獲取天氣數據並自動發送到郵箱中，調用了其它網站的天氣接口來獲取天氣。瀏覽器基於這些問題，今天我們就來個進階版的獲取天氣信息方法——爬蟲獲取，同時該例子也是理解入門爬蟲的最好例子。XPath 是一門在 XML 文檔中查找信息的語言，XPath 可用來在 XML 文檔中對元素和屬性進行遍歷。就是說用XPath可以找到你想要內容對應的標籤。3.存放資料庫或者文件將第二步提取出來的數據做持久化處理，保存到關係型資料庫或者非關係型資料庫，再或者直接保存到文件中，為數據分析做準備。
Python爬蟲:一些常用的爬蟲技巧總結

也差不多一年多了，python應用最多的場景還是web快速開發、爬蟲、自動化運維：寫過簡單網站、寫過自動發帖腳本、寫過收發郵件腳本、寫過簡單驗證碼識別腳本。cookie、向傳出的HTTP請求添加cookie的對象。
Python爬蟲之urllib庫—爬蟲的第一步

----被urllib使用的response類這4個屬性中最重要的當屬request了，它完成了爬蟲大部分的功能，我們先來看看request是怎麼用的。request請求最簡單的操作是用urlopen方法，代碼如下import urllib.requestresponse = urllib.request.urlopen('http://python.org/')result = response.read
Python爬蟲利器一之Requests庫的用法

註：Python 版本依然基於 2.7前言之前我們用了 urllib 庫，這個作為入門的工具還是不錯的，對了解一些爬蟲的基本理念，掌握爬蟲爬取的流程有所幫助。入門之後，我們就需要學習一些更加高級的內容和工具來方便我們的爬取。那麼這一節來簡單介紹一下 requests 庫的基本用法。
Python 爬蟲:8 個常用的爬蟲技巧總結!

用python也差不多一年多了，python應用最多的場景還是web快速開發、爬蟲、自動化運維：寫過簡單網站、寫過自動發帖腳本、寫過收發郵件腳本
Python爬蟲常用庫之urllib詳解

1# 請求頭2headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0'}3requests = request.Request('http
Python破解反爬蟲:最新反爬蟲有道翻譯中英文互譯破解,附代碼

由於爬蟲的出現，導致很多網頁都設置了反爬蟲機制：常見的反爬蟲機制就是在客戶端發出請求的時候，在請求的內容中新增一些內容，而這些內容都是經過「加密的」，每次請求都是不同的，這樣就導致了很多傳統的爬蟲失效。
爬蟲入門到放棄01:什麼是爬蟲

之前給同事普及爬蟲的時候，自己動手做了人生中的第一個PPT，所以爬蟲系列文章將圍繞著這個PPT來開展。系列結構目錄如圖，將從四個方面來介紹爬蟲。爬蟲入門：主要包括爬蟲的基本概念、技術棧、爬蟲程序的開發等。反爬技術：主要是講述常見的反爬蟲技術以及應對方法。Scrapy框架：目前最好的爬蟲框架，也是本系列文章的重點內容。
Python網絡爬蟲實戰(一)快速入門

不管你是學習Java爬蟲還是Python爬蟲，都可以從中學到爬蟲的編碼思想。我們編寫網絡爬蟲最主要的目的是爬取想要的數據，通過爬蟲去自動完成我們想在網站中做的一些事情。從今天開始我會從基礎開始講解如何通過網絡爬蟲去完成你想要做的事。先來看一段簡單的代碼。
Python爬蟲入門教程:超級簡單的Python爬蟲教程

這是一篇詳細介紹 Python 爬蟲入門的教程，從實戰出發，適合初學者。讀者只需在閱讀過程緊跟文章思路，理清相應的實現代碼，30 分鐘即可學會編寫簡單的 Python 爬蟲。，則全部禁止爬取，代碼如下：這一句代碼的意思是除前面指定的爬蟲外，不允許其他爬蟲爬取任何數據。
Python爬蟲--Requests 庫用法大全

昨晚分享了Python爬蟲的基本知識，本文分享一下爬蟲裡面請求相關的內容：Requests 用法。
Python開發簡單爬蟲【學習資料總結】

一、簡單爬蟲架構簡單爬蟲架構，學會使用python開發環境，使用python開發一些簡單的案例）（1）Python3入門，數據類型，字符串（2）判斷/循環語句，函數，（3）類與對象，繼承，多態（4）tkinter界面編程（5）文件與異常，數據處理簡介
1小時入門 Python 爬蟲

一、Python 開發環境的搭建 Python 目前流行 Python 2.x 與 Python 3.x 兩個版本，由於 Python 2 只會維護到 2020 年，因此這裡建議使用 python 3 來作為編程環境。
Python 爬蟲入門

一、Python 開發環境的搭建 Python 目前流行 Python 2.x 與 Python 3.x 兩個版本，由於 Python 2 只會維護到 2020 年，因此這裡建議使用 python 3 來作為編程環境。
一小時入門 Python 3 網絡爬蟲

作者：Jack-Cui，熱愛技術分享，活躍於 CSDN 和知乎，開設的《Python3網絡爬蟲入門》、《Python3機器學習》等專欄受到好評。聲明：本文講解的實戰內容，均僅用於學習交流，請勿用於任何商業用途！
python爬蟲基礎之urllib的使用

這篇文章主要介紹了python爬蟲基礎之urllib的使用，幫助大家更好的理解和使用python，感興趣的朋友可以了解下一
小白也能懂的python爬蟲入門案例

此文屬於入門級級別的爬蟲，老司機們就不用看了。本次主要是爬取網易新聞，包括新聞標題、作者、來源、發布時間、新聞正文。首先我們打開163的網站，我們隨意選擇一個分類，這裡我選的分類是國內新聞。可以看到這些接口的地址都有一定的規律：「cm_guonei_03.js」、「cm_guonei_04.js」，那麼就很明顯了：http://temp.163.com/special/00804KVA/cm_guonei_0(*).js上面的連結也就是我們本次抓取所要請求的地址。
如何開始寫你的第一個python腳本——簡單爬蟲入門!

好多朋友在入門python的時候都是以爬蟲入手，而網絡爬蟲是近幾年比較流行的概念，特別是在大數據分析熱門起來以後，學習網絡爬蟲的人越來越多，哦對，現在叫數據挖掘了！其實，一般的爬蟲具有2個功能：取數據和存數據！好像說了句廢話。。。

Python爬蟲從入門到放棄(一)||Request:請求

相關焦點

python爬蟲-- Scrapy入門

Python爬蟲 | 0x6 - 請求庫:urllib

進階版python獲取天氣信息——爬蟲入門

Python爬蟲:一些常用的爬蟲技巧總結

Python爬蟲之urllib庫—爬蟲的第一步

Python爬蟲利器一之Requests庫的用法

Python 爬蟲:8 個常用的爬蟲技巧總結!

Python爬蟲常用庫之urllib詳解

Python破解反爬蟲:最新反爬蟲有道翻譯中英文互譯破解,附代碼

爬蟲入門到放棄01:什麼是爬蟲

Python網絡爬蟲實戰(一)快速入門

Python爬蟲入門教程:超級簡單的Python爬蟲教程

Python爬蟲--Requests 庫用法大全

Python開發簡單爬蟲【學習資料總結】

1小時入門 Python 爬蟲

Python 爬蟲入門

一小時入門 Python 3 網絡爬蟲

python爬蟲基礎之urllib的使用

小白也能懂的python爬蟲入門案例

如何開始寫你的第一個python腳本——簡單爬蟲入門!