大家好!我是郭小帥!我準備挖個新坑,教各位大寶貝們寫爬蟲,難度定義在-100,俺保證只要會打字的都能學會!
開坑的理由是我前兩篇文章發出之後一些熱【話】心【多】的網友給我了一些反饋,在這也給大家分享一下:
熱心網友「施肥宅」:郭小帥,你的文章都挺有意思的,但是我們看不懂有個毛用?你自己在那瞎分析有個毛用?呵,直男,he tui!
熱心網友「小閆童鞋」:作為一個女生,我覺得你那個口紅篇莫得用,買最貴的不就完啦,哼~不過我覺得你的爬蟲挺有意思的,教教我唄!
熱心網友「劉某人」:小帥,你個Doggy,我在CSDN上發現有個人的風格跟你很像哦,感覺很給力,通俗易懂,你要再不更新教程你可就要脫粉啦!!(你的表情包我拿走了啊,下次記得提供源碼!)
OKOK,我懂了,小帥的粉絲跟小帥是一樣的,明明可以靠顏值吃飯,卻偏偏要靠實力,就是想學點真本事!
好哇,小帥這麼寵粉,一定給你們安排上!
首先,工欲善其事,必先利其器。我們寫爬蟲要用Python,需要安裝一下子,然後還需要一個編輯器,小帥推薦使用PyCharm,也需要安裝一下。
都看著我幹嘛?好好好,我懂你們,在公眾號號回復「520」即可獲取安裝包下載連結。
接下來捋捋思路。問:把大象裝冰箱裡總共分幾步?....啊不好意思串臺了。
重來,問:要用爬蟲爬取一個頁面,總共分幾步?
簡單來說,分三步!(跟大象真的沒關係)
(一)請求
(二)解析
(三)存儲
今天我們就先講第一講:請求。
我們一般上網的形式簡單的來說就是瀏覽器發送請求到伺服器,伺服器收到並處理後返迴響應的內容給瀏覽器,瀏覽器最終渲染解析成我們看到的網頁。
還是很抽象嗎?那舉個慄子,豬拱白菜大家都知道吧,我們把豬理解成瀏覽器,把白菜理解成伺服器:
豬去拱白菜,請求白菜當他女朋友,白菜收到請求後說:不願意,滾!並給了豬一個大嘴巴子。這在瀏覽器中就是403錯誤,伺服器拒絕請求。
豬去拱白菜,請求白菜當他女朋友,白菜收到請求後說:行,我知道你的請求了。然後就沒有然後了.這就屬於204 狀態,伺服器成功處理了請求,但沒有返回任何內容。
豬去拱白菜,請求白菜當他女朋友,白菜收到請求後,說:啊,蒼天啊,總算有一隻豬瞎了眼了,我願意我願意!這在瀏覽器中就能正常看到請求的頁面了。
比喻可能略有瑕疵,但意思差不多就是這個意思。來,我們一起去拱白菜!
然後我們說說Python的request這個庫,它將HTTP協議封裝得非常好,我們使用起來非常的方便,很適合爬蟲一類的網絡編程,而我們就是利用這個庫中的方法去拱...哦,是去請求網頁。【PS:request的官方主頁寫著「HTTP for Humans」,很有意思】
在使用request庫時,我們需要安裝一下(requests庫不是內置庫),安裝很簡單,打開CMD(命令提示符),輸入pip install requests,等待安裝完成即可(前提是Python已經安裝完成)
然後我們打開安裝好的PyCharm,新建一個項目,然後再創建一個Python File,起個美美噠的名字,就創建完成了。
接下來動手試一下,再PyCharm中敲入以下代碼:
import requests #導入requests庫
print(info) #輸出info
執行一下看看結果
返回這樣的結果就已經請求成功了(白菜已經答應豬了),接下來我們就要爬取和解析有用的信息了,解析我們到下一節課我們在講。是不是很簡單?!是不是覺得自己棒棒噠~
最後小帥給大家布置一下作業昂
1、把Python和PyCharm安裝好;
2、在命令提示符裡安裝好requests庫;
3、試著用requests.get()去請求一下網站
好啦,教程系列寫起來還是比較輕鬆愉快的,小帥爭取一周兩更,避免掉粉(記得是爭取啊!爭取!)。
大寶貝們要是覺得文章對你有幫助的話請點讚、轉發關注素質三聯!你們的鼓勵就是我最大的動力!大家有什麼疑問可以隨時來撩~請為小帥瘋狂打Call~