在知乎上學 Python - 爬蟲篇

2022-01-22 Crossin的編程教室

知乎是個好地方。雖然近年來,為了吸引更多的用戶,知乎的定位與早期略有點偏離。但從內容質量和專業性來說,知乎仍然是國內數一數二的知識型社區。不少同學都是通過知乎發現了我們編程教室,我自己也經常會通過知乎去尋求一些專業知識的解答和參考。

之前,為了讓大家能更好地挖掘知乎上有價值的信息,我們做了一個索引,把編程入門相關的一些問答和文章做了整理:

在知乎上學 Python - 入門篇

文中曾立下FLAG說之後會整理爬蟲、數據分析、機器學習等方面的索引,然而卻一拖再拖。好在現在,有同學幫我們做了後續整理,今天就把「爬蟲篇」分享給大家。


注意:由於微信文中不能直接跳轉外部連結,因此建議點擊文末的「閱讀原文」,收藏知乎原文。

有很多人正在入門Python爬蟲,學習Python爬蟲。在這個過程中,會遇到很多難題,許多小夥伴都會去尋找答案,但是因為答案的紛繁複雜和種類多樣,往往要花上好些時間。所以我通過整理知乎上關於Python爬蟲的精彩回答文章和教程,製作一篇關於Python爬蟲的索引,包括:


入門指南-教程資源-框架工具-爬蟲實例-專欄索引


入門指南:

1.如何入門Python爬蟲?—謝科的回答

https://www.zhihu.com/question/20899988/answer/24923424

(簡介:爬蟲怎麼工作以及怎麼在python實現。)


2.爬蟲基本原理 

https://zhuanlan.zhihu.com/p/35324806

(簡介:給有一些有python基礎,但是對爬蟲一無所知的人)


3.Python爬蟲入門

第一講:Python爬蟲|Python爬蟲入門(一):基本

https://zhuanlan.zhihu.com/p/21377121?refer=xmucpp

第二講:Python爬蟲|Python爬蟲入門(二):請求

https://zhuanlan.zhihu.com/p/21394571

第三講:Python爬蟲|Python爬蟲入門(三):解析

https://zhuanlan.zhihu.com/p/21442500

第四講:Python爬蟲|Python爬蟲入門(四):儲存

https://zhuanlan.zhihu.com/p/21452812

(簡介:本爬蟲系列入門教程假設讀者僅有一點點Python基礎或者近乎為零的基礎。如果是有Python基礎的可以跳過一些對於Python基本知識的補充。)

教程資源:

書籍:

1.一份Python爬蟲電子書 (路人甲)

https://zhuanlan.zhihu.com/p/28865834

(簡介:這本書主要內容是Python入門,以及Python爬蟲入門和Python爬蟲進階)


2.問題:求大神們推薦Python入門書籍

https://www.zhihu.com/question/38801925/answer/184406876

(簡介:Python爬蟲方面入門書籍推薦)


教程:

系列教程:

1.Python爬蟲學習系列教程

https://zhuanlan.zhihu.com/p/25949099

(簡介:學習過程中我把一些學習的筆記總結下來,還記錄了一些自己實際寫的一些小爬蟲)


2.Python爬蟲教程(一)使用request+Beautifi

https://zhuanlan.zhihu.com/p/35493091

   Python爬蟲教程(二)使用request+正則re批量下載好聽輕音樂網歌曲https://zhuanlan.zhihu.com/p/35528714


3.python爬蟲初探(一):爬蟲的基本結構

https://zhuanlan.zhihu.com/p/32652572

   python爬蟲初探(二):URL管理器和下載器

https://zhuanlan.zhihu.com/p/32673371

   python爬蟲初探(三):HTML解析器

https://zhuanlan.zhihu.com/p/32675668

   python爬蟲初探(四):數據存儲器

https://zhuanlan.zhihu.com/p/32697330


拓展教程:

1.爬蟲萬金油,一鵝在手,抓遍全球:goose 簡介https://zhuanlan.zhihu.com/p/46595420

2.這個男人讓你的爬蟲開發效率提升8倍

https://zhuanlan.zhihu.com/p/38466193

3.Python 抓取網頁亂碼原因分析

https://zhuanlan.zhihu.com/p/21057822

4.幹了這碗「美麗湯」,網頁解析倍兒爽

https://zhuanlan.zhihu.com/p/58445021


進階拓展:

進階:

1.Python爬蟲進階

https://www.zhihu.com/question/35461941/answer/192693594

https://www.zhihu.com/question/35461941/answer/72909421

(簡介:爬蟲無非分為這幾塊:分析目標、下載頁面、解析頁面、存儲內容)


2.「百行代碼」實現簡單的Python分布式爬蟲

https://zhuanlan.zhihu.com/p/26045460

(簡介:進階知識)


拓展:

1.利用爬蟲技術能做到哪些很酷很有用的事情?

https://www.zhihu.com/question/27621722

2.Python爬蟲學到什麼樣就可以找工作了https://www.zhihu.com/question/61103114/answer/183926752

3.從python爬蟲,到更愛這個世界

https://zhuanlan.zhihu.com/p/32711505

4.Python爬蟲和情感分析簡介

https://zhuanlan.zhihu.com/p/20359324

5.你是如何開始能寫Python爬蟲?

https://www.zhihu.com/question/21358581/answer/274132025

爬蟲資源:

1.一個很「水」的Python爬蟲入門代碼文件

https://zhuanlan.zhihu.com/p/22982208

2.156個Python網絡爬蟲資源!

https://zhuanlan.zhihu.com/p/28407245

3.可能是最全面的75個Python爬蟲資源 

https://zhuanlan.zhihu.com/p/27985429


學習經驗:

1.用Python寫爬蟲時應該注意的坑?

https://www.zhihu.com/question/49296232/answer/368313956


2.Python3網絡爬蟲學習建議?

https://www.zhihu.com/question/41277528/answer/95885043


3.Python爬蟲知識點梳理 

https://zhuanlan.zhihu.com/p/29523349


4.常用的 Python 爬蟲技巧

https://zhuanlan.zhihu.com/p/23088379


5.如何優化Python爬蟲的速度?

https://www.zhihu.com/question/20145091/answer/618321662


6.Python爬蟲—破解JS加密的Cookie

https://zhuanlan.zhihu.com/p/25957793


7.主流網站 Python 爬蟲模擬登陸方法匯總

https://zhuanlan.zhihu.com/p/59733826


8.三步走,教你定製自己的個性Python爬蟲

https://zhuanlan.zhihu.com/p/23178014


9.Python爬蟲傳送post請求要攜帶哪些參數?https://www.zhihu.com/question/60256922/answer/174211193


框架工具:

框架:

1.Python有哪些常見的、好用的爬蟲框架?

https://www.zhihu.com/question/60280580/answer/617068010


2.一個極為簡潔的Python爬蟲框架

https://zhuanlan.zhihu.com/p/23017812


3.擁有屬於自己的Python爬蟲框架--練習編寫多線程、協程爬蟲框架https://zhuanlan.zhihu.com/p/24469566


工具:

1.10個爬蟲工程師必備的工具了解一哈

https://zhuanlan.zhihu.com/p/54855072

(簡介:工欲善其事必先利其器的道理相信大家都懂。)


2.推薦4個爬蟲抓包神器

https://zhuanlan.zhihu.com/p/61980749

(簡介:今天推薦4個HTTP代理工具通過抓包分析,幫助你還原APP背後的每個請求。)


3.爬蟲必備工具,掌握它就解決了一半的問題

https://zhuanlan.zhihu.com/p/39340856

(簡介:今天這篇文章不談任何具體網站的抓取,只來說一個共性的東西:如何通過 Chrome 開發者工具尋找一個網站上特定數據的抓取方式。)


4.聽說你好不容易寫了個爬蟲,結果沒抓幾個就被封了?

https://zhuanlan.zhihu.com/p/28726244

(簡介:實現一個自動獲取可用代理 IP 的接口。)

爬蟲實例:

1.利用python爬取網易雲音樂,並把數據存入mysqlhttps://zhuanlan.zhihu.com/p/34354440


2.python爬取20w表情包之後,從此你就成為了微信鬥圖屆的高手https://zhuanlan.zhihu.com/p/66243518


3.如何讓Python爬蟲一天抓取100萬張網頁

https://zhuanlan.zhihu.com/p/65508954


4.Python爬蟲告訴你上海房價有多高

https://zhuanlan.zhihu.com/p/40293278


5.Python爬蟲入門 | 2 爬取豆瓣電影信息

https://zhuanlan.zhihu.com/p/32037625


6.Python爬蟲一步步抓取房產信息

https://zhuanlan.zhihu.com/p/25713752


7.我用Python又爬蟲了拉鉤招聘,給你們看看2019市場行情https://zhuanlan.zhihu.com/p/65081383


8.爬蟲爬了下知乎上的神回復,已笑趴~

https://zhuanlan.zhihu.com/p/46132179


9.一鍵下載:將知乎專欄導出成電子書

https://zhuanlan.zhihu.com/p/44918640


10.如何用Python抓抖音上的小姐姐

https://zhuanlan.zhihu.com/p/46396868


11.【招聘數據分析】Python就業前景如何

https://zhuanlan.zhihu.com/p/35027220


專欄索引:

Python爬蟲索引:

1.如何入門爬蟲(路人甲)

https://zhuanlan.zhihu.com/p/21479334

(簡介:一個知乎大神整理的關於Python爬蟲的索引,內容詳細全面,結構完整。對於新手和正在學習的小夥伴是非常有幫助的。)


2.從零開始寫Python爬蟲(Ehco)

https://zhuanlan.zhihu.com/p/26673214

(簡介:提供了實用的方法和建議)


3.自學入門 Python 優質中文資源索引

https://zhuanlan.zhihu.com/p/49798116

(簡介:自學入門Python的整理,有關於Python爬蟲的索引)


Python爬蟲號推薦:

1.蚍蜉撼大樹

https://www.zhihu.com/people/handashu/posts/posts_by_votes

(簡介:Python爬蟲之旅系列)


2.州的先生

https://www.zhihu.com/people/zmister/posts/posts_by_votes?page=2

(簡介:python爬蟲實戰入門系列)


3.學習python的正確姿勢

https://www.zhihu.com/people/xue-xi-pythonde-zheng-que-zi-shi-92/posts/posts_by_votes

(簡介:Python爬蟲實戰系列)


4.不吃夾生飯

https://www.zhihu.com/people/bu-chi-jia-sheng-fan/posts

(簡介:反反爬蟲系列)


爬蟲項目索引:

1.資源整理|32個Python爬蟲項目讓你一次吃到撐

https://zhuanlan.zhihu.com/p/27938007

(簡介:32個爬蟲項目)


2.GitHub上有哪些優秀的Python爬蟲項目?

https://www.zhihu.com/question/58151047/answer/640461600

(簡介:GitHub上優秀的Python爬蟲項目)


3.23個Python爬蟲開源項目代碼,包含微信淘寶,豆瓣知乎,微博等

https://zhuanlan.zhihu.com/p/58851666


這裡的資源都是來自知乎,我花了不少時間去整理篩選,算是我對Crossin的編程教室的一點點回饋,希望能幫助到同樣在學習Python的小夥伴們。大家覺得有用的話,可以點個「在看」,或者在知乎上點讚和關注。

其他內容回復左側關鍵詞獲取:

python :零基礎入門課程目錄

新手 :初學者指南及常見問題

資源 :超過500M學習資料網盤地址

項目 :十多個進階項目代碼實例

如需了解視頻課程及答疑群等更多服務,

請號內回復 碼上行動

推薦閱讀

經驗:選專業 | Python轉行 | 我用Python | 新手建議

乾貨:如何debug |  一圖學Python  | 知乎資源 | 單詞表

案例:漫威API | 爬抖音 | 查天氣 | 監控大V | 紅包提醒

歡迎加入

Crossin的編程教室

crossincode.com


請把我們分享給身邊愛學習的小夥伴 :)  

點擊文末「閱讀原文」,查看更多學習資源

相關焦點

  • 在知乎上學 Python - 入門篇
    而像爬蟲、數據分析、機器學習等進階內容將會在後續的文章給出。本文僅為知乎內資源的索引,不包含外部資源。但在這些回答和文章中,你會找到足夠豐富的學習資源。內容的篩選有一定主觀性,也難免會有遺漏。如果有其他值得推薦的內容,歡迎各位在評論中給出,我也將持續更新本文。
  • 從零開始的python爬蟲速成指南
    在前言:最近後臺有人留言問:有沒有python爬蟲的相關教程,爬蟲不是我專業方向,很多不是很熟悉,而網上很多資料講的過於散亂,不能很好的系統性學習爬蟲,而且水平參差不齊。特委託一位熟悉爬蟲的小夥伴,幫忙把關,將網上現有資料進行整合,整理了一份相對比較系統的資料。
  • Python爬蟲框架:scrapy爬取知乎數據
    測試爬蟲效果我這裡先寫一個簡單的爬蟲,爬取用戶的關注人數和粉絲數,代碼如下:import scrapyclass ZhuHuSpider(scrapy.Spider): """ 知乎爬蟲 """ name = 'zhuhu' allowed_domains = ['zhihu.com'] start_urls
  • Python爬蟲學習路線,強烈建議收藏
    python web方向Python Django 快速Web應用開發入門3.python爬蟲Python實戰:一周學會爬取網頁4.這兒有很多:Ø 知乎--你需要這些:Python3.x爬蟲學習資料整理Ø 如何學習Python爬蟲[入門篇]? - 知乎專欄Ø 知乎--Python學習路徑及練手項目合集 (四)Python爬蟲進階爬蟲無非分為這幾塊:分析目標、下載頁面、解析頁面、存儲內容,其中下載頁面不提。
  • 從零開始的 Python 爬蟲速成指南,10篇 Python 技術熱文
    (點擊上方公眾號,可快速關注)本文精選了 Python開發者 1月份的10篇 Python 熱文。
  • 如何爬取全網1200本Python書|爬蟲實戰篇
    上次代碼沒有寫完,正好周末有時間把代碼全部完成並且存入了資料庫中,今天就給大家一步步分析一下是我是如何爬取數據,清洗數據和繞過反爬蟲的一些策略和點滴記錄。1)2).我用的是多線程爬取,把所有的url都扔到一個隊列裡面,然後設置幾個線程去隊列裡面不斷的爬取,然後循環往復,直到隊列裡的url全部處理完畢3).數據存儲的時候,有兩種思路:1).一般大型的網站都有反爬蟲策略,雖然我們這次爬的數量只有1000本書,但是一樣會碰到反爬蟲問題
  • 如何快速學會Python爬蟲(入門篇)
    Python爬蟲入門二之爬蟲基礎了解3. Python爬蟲入門三之Urllib庫的基本使用4. Python爬蟲入門四之Urllib庫的高級用法5. Python爬蟲入門五之URLError異常處理6.
  • 聊聊學python轉行、具體學習方法、自學python用於辦公、寫爬蟲等...
    Python這幾年都挺火的,比如說應用於數據分析、機器學習、自動化辦公、寫爬蟲採集數據等等……因為我之前發過幾篇和python有關的推文,所以不止一個朋友加私信問我說,你是怎麼學的,能不能談一談學習的經驗和技巧。
  • Pyspider框架 —— Python爬蟲實戰之爬取 V2EX 網站帖子
  • Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...
    本課程為python教程大合集,包含python所有就業方向,每套課程均來自市面上主流培訓機構的原版教程,價值都在數百元以上 每套課程均包含:視頻課程+課件+原始碼 重要:建議根據自己工作方向和需求,重點選擇2到3套課程學精,吃透,然後在工作 重要:零基礎小白建議先選擇零基礎全能篇的一套課程學精
  • 廖雪峰老師的Python商業爬蟲課程 Python網絡爬蟲實戰教程 體會不一樣的Python爬蟲課程
    ) 20181211.zip(26)\資料\3\第一節;目錄中文件數:1個├─(47) 20181206 headless.zip(27)\資料\3\第七節;目錄中文件數:1個├─(48) python二期12.20.zip(28)\資料\3\第三節;目錄中文件數:1個├─(49) 20181211.zip(29)\資料\3\第二節;目錄中文件數
  • 小白學 Python 爬蟲(17):Requests 基礎使用
    收錄於話題 #小白學 Python 爬蟲篇
  • 強勢來襲,Python爬蟲之正則表達式!
    我們的《從零開始學爬蟲》專欄發布後,目前已經更新了三篇:今天我們來介紹一個在爬蟲中非常重要的工具:正則表達式。正則表達式是一個特殊的符號系列,它能夠幫助開發人員檢查一個字符串是否與某種模式匹配。本篇文章涉及以下內容:正則表達:學會正則表達式的常用符號。
  • Python爬蟲:一些常用的爬蟲技巧總結
    也差不多一年多了,python應用最多的場景還是web快速開發、爬蟲、自動化運維:寫過簡單網站、寫過自動發帖腳本、寫過收發郵件腳本、寫過簡單驗證碼識別腳本。爬蟲在開發過程中也有很多復用的過程,這裡總結一下,以後也能省些事情。
  • Python爬蟲入門教程:超級簡單的Python爬蟲教程
    這是一篇詳細介紹 Python 爬蟲入門的教程,從實戰出發,適合初學者。讀者只需在閱讀過程緊跟文章思路,理清相應的實現代碼,30 分鐘即可學會編寫簡單的 Python 爬蟲。這篇 Python 爬蟲教程主要講解以下
  • python為什麼叫爬蟲?為啥那麼多人通過python兼職都能掙不少錢?
    Python能做什麼之前有很多文章介紹python能做什麼。今天介紹python爬蟲的學習。網絡爬蟲 網絡爬蟲,也叫網絡蜘蛛(Web Spider)。爬蟲是在某個URL頁面入手,抓取到這個頁面的內容,從當前的頁面中找到其他的連結地址,然後從這地址再次爬到下一個網站頁面,這樣一直不停的抓取到有用的信息,所以可以說網絡爬蟲是不停的抓取獲得頁面上想要的信息的程序。還不懂?
  • Python爬蟲學習?Scrapy框架介紹
    一、Scrapy框架介紹1.
  • Python 爬蟲「學前班」!學會免踩坑!
    作者 | 喵叔責編 | 胡巍巍爬蟲應用的廣泛,例如搜尋引擎、採集數據、廣告過濾、數據分析等。當我們對少數網站內容進行爬取時寫多個爬蟲還是有可能的,但是對於需要爬取多個網站內容的項目來說是不可能編寫多個爬蟲的,這個時候我們就需要智能爬蟲。
  • 爬蟲教程:五分鐘帶你學會Python網絡爬蟲
    細分下來,業內分為兩類:爬蟲和反爬蟲。反爬蟲:顧名思義,就是防止你來我網站或APP上做爬蟲的。爬蟲工程師和反爬蟲工程師是一對相愛相殺的小夥伴,經常因為對方要加班寫代碼,甚至丟掉工作。二、爬蟲語言目前主流的Java、Node.js、C#、python等開發語言,都可以實現爬蟲。
  • 入門Python爬蟲——獲取數據篇
    而Python爬蟲,簡單來說,即通過Python程序獲取對我們有用的數據。常用於商業分析,不過偶爾也可以輔助我們解決在日常生活中遇到的一些問題。首先,在爬蟲中最常見的代碼便是:即引入requests庫,是一切爬蟲程序的基礎。在Python中,有許多庫可以供我們使用。這也是Python相對於其它程式語言的一大優勢。