這裡是Python7編程挑戰-爬蟲專題!
每天學習3個問題,包括初級,中級,高級問題各1個。
今天是第2天!一起來呀,就7天!
參加方法:關注麥叔編程公眾號,回復「7天」入群學習和討論。
每日3題是麥叔的面試系列專題之一,每天包括初級,中級,高級難度題目各一道。[Easy] 什麼是爬蟲協議(Robots)?思考30秒再往下翻...
Robots協議(也稱為爬蟲協議、爬蟲規則、機器人協議等)也就是robots.txt,網站通過robots協議告訴搜尋引擎哪些頁面可以抓取,哪些頁面不能抓取。
Robots協議是網站國際網際網路界通行的道德規範,其目的是保護網站數據和敏感信息、確保用戶個人信息和隱私不被侵犯。因其不是命令,故需要搜尋引擎自覺遵守。
[Normal] 簡述爬蟲cookie模擬登陸原理?思考30秒再往下翻...
因為http請求是無狀態的,網站為了識別用戶身份,需要通過cookie記錄用戶信息(用戶、密碼),這些信息都會在手動登陸時記錄在post請求的form-data裡,那麼在爬蟲時候只需要將這些信息添加到請求頭裡即可。
s = requests.Session()
r = s.get('https://test.abc', cookies={'from-my': 'browser'})
[Hard] scrapy的優點有哪些?為什麼要選擇scrapy框架?思考30秒再往下翻...
優點:
提供了一個爬蟲任務管理界面, 可以實現爬蟲的停止,啟動,調試,支持定時爬取任務缺點:基於python爬蟲框架,擴展性比較差,基於twisted框架,運行中exception是不會幹掉reactor,並且異步框架出錯後是不會停掉其他任務的,數據出錯後難以察覺
支持麥叔,請點在看,謝謝!