18個Python爬蟲實戰案例(已開源)

2021-02-18 Python技術之巔
點擊上方「Python技術之巔」,馬上關注,每天下午17:40準時推送目錄

爬蟲小工具

爬蟲實戰

筆趣看小說下載

VIP視頻下載

百度文庫文章下載_rev1

百度文庫文章下載_rev2

《帥啊》網帥哥圖片下載

構建代理IP池

《火影忍者》漫畫下載

財務報表下載小助手

一小時入門網絡爬蟲

抖音App視頻下載_rev1

抖音App視頻下載_rev2

抖音App視頻下載_rev3

GEETEST驗證碼破解

12306搶票小助手

百萬英雄答題輔助系統

網易雲音樂批量下載

B站視頻和彈幕批量下載

其它

爬蟲小工具

一個可以用於下載圖片、視頻、文件的小工具,有下載進度顯示功能。稍加修改即可添加到自己的爬蟲中。

動態示意圖:

爬蟲實戰

1、biqukan.py:《筆趣看》盜版小說網站,爬取小說工具

第三方依賴庫安裝:

pip3 install beautifulsoup4

使用方法:

python biqukan.py

2、video_downloader:愛奇藝等主流視頻網站的VIP視頻破解助手(暫只支持PC和手機在線觀看VIP視頻!)

感謝Python3二維碼生成器作者:https://github.com/sylnsfar/qrcode

編譯好的軟體下載連接:https://pan.baidu.com/s/1bqSTNJL 密碼:p8bs

解壓密碼:cuijiahua.com

無需Python3環境,在Windows下,解壓即用!軟體使用方法

源碼可查看video_downloader,運行源碼需要搭建Python3環境,並安裝相應第三方依賴庫:

在video_downloader文件夾下,安裝第三方依賴庫:

pip3 install -r requirements.txt

使用方法:

python movie_downloader.py

運行環境:

Windows, Python3

Linux, Python3

Mac, Python3

3、baiduwenku.py: 百度文庫word文章爬取

原理說明:http://blog.csdn.net/c406495762/article/details/72331737
代碼不完善,沒有進行打包,不具通用性,純屬娛樂,以後有時間會完善。

4、shuaia.py: 爬取《帥啊》網,帥哥圖片

《帥啊》網URL:http://www.shuaia.net/index.html

原理說明:http://blog.csdn.net/c406495762/article/details/72597755

第三方依賴庫安裝:

pip3 install requests beautifulsoup4

5、daili.py: 構建代理IP池

原理說明:http://blog.csdn.net/c406495762/article/details/72793480

6、carton: 使用Scrapy爬取《火影忍者》漫畫

代碼可以爬取整個《火影忍者》漫畫所有章節的內容,保存到本地。更改地址,可以爬取其他漫畫。保存地址可以在settings.py中修改。

動漫網站:http://comic.kukudm.com/

原理說明:http://blog.csdn.net/c406495762/article/details/72858983

7、hero.py: 《王者榮耀》推薦出裝查詢小助手

網頁爬取已經會了,想過爬取手機APP裡的內容嗎?

原理說明:http://blog.csdn.net/c406495762/article/details/76850843

8、financical.py: 財務報表下載小助手

爬取的數據存入資料庫會嗎?《跟股神巴菲特學習炒股之財務報表入庫(MySQL)》也許能給你一些思路。

原理說明:http://blog.csdn.net/c406495762/article/details/77801899

動態示意圖:

9、one_hour_spider:一小時入門Python3網絡爬蟲。

原理說明:

本次實戰內容有:

網絡小說下載(靜態網站)-biqukan

優美壁紙下載(動態網站)-unsplash

愛奇藝VIP視頻下載

10、douyin.py:抖音App視頻下載

抖音App的視頻下載,就是普通的App爬取。

原理說明:個人網站:http://cuijiahua.com/blog/2018/03/spider-5.html

11、douyin_pro:抖音App視頻下載(升級版)

抖音App的視頻下載,添加視頻解析網站,支持無水印視頻下載,使用第三方平臺解析。

原理說明:個人網站:http://cuijiahua.com/blog/2018/03/spider-5.html

12、douyin_pro_2:抖音App視頻下載(升級版2)

抖音App的視頻下載,添加視頻解析網站,支持無水印視頻下載,通過url解析,無需第三方平臺。

原理說明:個人網站:http://cuijiahua.com/blog/2018/03/spider-5.html

動態示意圖:

13、geetest.py:GEETEST驗證碼破解

爬蟲最大的敵人之一是什麼?沒錯,驗證碼!Geetest作為提供驗證碼服務的行家,市場佔有率還是蠻高的。遇到Geetest提供的滑動驗證碼怎麼破?授人予魚不如授人予漁,接下來就為大家呈現本教程的精彩內容。

原理說明:http://www.cuijiahua.com/blog/2017/11/spider_2_geetest.html

動態示意圖:

14、12306.py:用Python搶火車票簡單代碼

可以自己慢慢豐富,蠻簡單,有爬蟲基礎很好操作,沒有原理說明。

15、baiwan:百萬英雄輔助答題

效果圖:

原理說明:http://cuijiahua.com/blog/2018/01/spider_3.html

功能介紹:

伺服器端,使用Python(baiwan.py)通過抓包獲得的接口獲取答題數據,解析之後通過百度知道搜索接口匹配答案,將最終匹配的結果寫入文件(file.txt)。

手機抓包不會的朋友,可以看下我的早期手機APP抓包教程。

Node.js(app.js)每隔1s讀取一次file.txt文件,並將讀取結果通過socket.io推送給客戶端(index.html)。

親測答題延時在3s左右。

聲明:沒做過後端和前端,花了一天時間,現學現賣弄好的,javascript也是現看現用,百度的程序,調試調試而已。可能有很多用法比較low的地方,用法不對,請勿見怪,有大牛感興趣,可以自行完善。

16、Netease:根據歌單下載網易雲音樂

效果圖:

功能介紹:根據music_list.txt文件裡的歌單的信息下載網易雲音樂,將自己喜歡的音樂進行批量下載。

17、bilibili:B站視頻和彈幕批量下載

使用說明:

   python bilibili.py -d 貓 -k 貓 -p 10

三個參數:
       -d    保存視頻的文件夾名
       -k    B站搜索的關鍵字
       -p    下載搜索結果前多少頁

更多爬蟲,關注下面公號,後臺回覆:爬蟲實戰,獲取全套代碼。

相關焦點

  • 乾貨 | 18個Python爬蟲實戰案例(已開源)
    目錄爬蟲小工具爬蟲實戰筆趣看小說下載VIP視頻下載百度文庫文章下載_rev1
  • 推薦18個Python爬蟲實戰案例
    目錄爬蟲小工具爬蟲實戰筆趣看小說下載VIP視頻下載百度文庫文章下載_rev1百度文庫文章下載_rev2《帥啊》網帥哥圖片下載構建代理IP池《火影忍者》漫畫下載財務報表下載小助手一小時入門網絡爬蟲抖音App視頻下載_rev1
  • Python網絡爬蟲應用實戰
    從小到伺服器運維的腳本,到大型軟體開發,使用python都能夠很靈活的快速實現。python不但可以快速實現大型的web應用程式,在網絡層的開發,以及工程計算、數學計算上都有方便的開發手段。Map&Reduce思想在python裡面也有著非常方便的實現。甚至在一些嵌入式設備上,你也可以實現自己的python應用。
  • Python爬蟲實戰案例(一)
    大家好,今天分享的是一個爬蟲獲取數據+數據分析的實用性案例。之前的推文介紹了python在數據處理方面的強大功能,但python的強大不止如此,其在獲取數據(網絡爬蟲)方面,也具有強大的功能。python爬蟲技術我也接觸不久,如果本文相關內容有改進的地方,還望不吝賜教。
  • Python爬蟲實戰(2):爬取京東商品列表
    在上一篇《Python爬蟲實戰:爬取Drupal論壇帖子列表》,爬取了一個用Drupal做的論壇,是靜態頁面,抓取比較容易,即使直接解析
  • Python開發簡單爬蟲【學習資料總結】
    開發爬蟲的步驟開發爬蟲步驟python語言基礎:(帶你熟悉python語言的特性,學會使用python開發環境,使用python開發一些簡單的案例)(1)Python3入門,數據類型,字符串python語言高級:(python語言的高級庫,常用的企業級開發案例實戰)(1)Python常見第三方庫與網絡編程(2)面向對象,Python正則表達式(3)求職數據爬蟲,金融數據爬蟲,多線程爬蟲
  • Python教父|廖雪峰老師官方爬蟲教程,13個案例帶你全面入門!
    >對於我來說學習python有什麼用?」而且,Python已經被納入信息技術的高考,可見python已經受到了戰略性的重視。2.收入:薪酬高網際網路的高速發展勢必會帶來各大公司的人才缺口,掌握了python技術的程序猿也變得更加炙手可熱,工資也是跟著水漲船高。即使是掌握Python技術的大學應屆畢業生,在找工作時通過一份源碼的展示,也可以取得一份非常可觀的薪水。
  • Python實戰 | 只需 「4步」 入門網絡爬蟲(有福利哦)
    本次實戰是python爬蟲原理解析:網絡爬蟲(Web crawler),就是通過網址獲得網絡中的數據、然後根據目標解析數據、存儲目標信息。這個過程可以自動化程序實現,行為類似一個蜘蛛。蜘蛛在網際網路上爬行,一個一個網頁就是蜘蛛網。這樣蜘蛛可以通過一個網頁爬行到另外一個網頁。
  • Python3 網絡爬蟲快速入門實戰解析
    在講解爬蟲內容之前,我們需要先學習一項寫爬蟲的必備技能:審查元素(如果已掌握,可跳過此部分內容)。1、審查元素在瀏覽器的地址欄輸入 URL 地址,在網頁處右鍵單擊,找到檢查。(不同瀏覽器的叫法不同,Chrome 瀏覽器叫做檢查,Firefox 瀏覽器叫做查看元素,但是功能都是相同的)Python3 網絡爬蟲快速入門實戰解析我們可以看到,右側出現了一大推代碼,這些代碼就叫做 HTML。什麼是 HTML?舉個容易理解的例子:我們的基因決定了我們的原始容貌,伺服器返回的 HTML 決定了網站的原始容貌。
  • Python爬蟲實戰 | 只需 「4步」 入門網絡爬蟲(有福利哦)
    GET請求是把參數包含在了url裡面,比如在百度裡面輸入爬蟲,得到一個get 請求,連結為 https://www.baidu.com/s?wd=爬蟲。而post請求大多是在表單裡面進行,也就是讓你輸入用戶名和秘密,在url裡面沒有體現出來,這樣更加安全。post請求的大小沒有限制,而get請求有限制,最多1024個字節。
  • Python爬蟲入門看什麼書好 小編教你學Python
    而且這本色書的作者在Python領域有著非常深厚的積累,不僅精通Python網絡爬蟲,而且在Python機器學習等領域都有著豐富的實戰經驗,所以說這本書是Python爬蟲入門人員必備的書籍。這本書總共從三個維度講解了Python爬蟲入門,分別是:技術維度:詳細講解了Python網絡爬蟲實現的核心技術,包括網絡爬蟲的工作原理、如何用urllib庫編寫網絡爬蟲、爬蟲的異常處理、正則表達式、爬蟲中Cookie的使用、爬蟲的瀏覽器偽裝技術、定向爬取技術、反爬蟲技術,以及如何自己動手編寫網絡爬蟲;工具維度:以流行的Python
  • Python網絡爬蟲實戰 【免費視頻教程持續更新中 已更新18課時】
    丘祐瑋老師的《Python網絡爬蟲實戰》免費視頻連結:https://edu.hellobi.com/course/81學習目的:本Python 網絡爬蟲課程將教授如何用Python抓取、清理、儲存網絡數據,透過實際案例示範,傳授如何定義數據產品、從網絡萃取與清理數據、資料庫儲存、並進行初步數據分析的基礎方法,讓大數據分析不再只是紙上談兵。
  • python爬蟲資源匯總:書單、網站博客、框架、工具、項目(附資源)
    全面介紹了利用 Python3 開發網絡爬蟲的知識.從各種類型的環境配置和爬蟲基礎知識出發,配合新鮮案例進行數據爬取,還教授一些爬蟲技巧,是一本很好的實戰書籍。網址:https://awesome-python‍‍‍《Python3網絡爬蟲開發實戰》作者博客
  • Python實戰 | 只需 「4步」 入門網絡爬蟲(有福利哦)
    GET請求是把參數包含在了url裡面,比如在百度裡面輸入爬蟲,得到一個get 請求,連結為 https://www.baidu.com/s?wd=爬蟲。而post請求大多是在表單裡面進行,也就是讓你輸入用戶名和秘密,在url裡面沒有體現出來,這樣更加安全。post請求的大小沒有限制,而get請求有限制,最多1024個字節。
  • 乾貨 | Python 爬蟲的工具列表大全
    python-goose – HTML內容/文章提取器。lassie – 人性化的網頁內容檢索工具micawber – 一個從網址中提取豐富內容的小庫。sumy -一個自動匯總文本文件和HTML網頁的模塊Haul – 一個可擴展的圖像爬蟲。
  • Python爬蟲的起點
    一、Python有哪些網絡庫在真實瀏覽網頁我們是通過滑鼠點擊網頁然後由瀏覽器幫我們發起網絡請求,那在Python中我們又如何發起網絡請求的呢?答案當然是庫,具體哪些庫?豬哥給大家列一下:Python網絡請求庫有點多,而且還看見網上還都有用過的,那他們之間有何關係?又該如何選擇?
  • Python使用requests+re簡單入門爬蟲
    在學習了python基礎後,一心想著快速入門爬蟲,因為我就是為爬蟲而學的python,所以就找了這個豆瓣電影來爬取。<li>的標籤內,所以可以用正則表達式來先提取每一個電影,然後在分別提取每個電影中的數據。
  • Python網絡爬蟲從入門到進階工作坊 | 第2季
    複雜動態網站實戰(第三天下午)(將所學應用於實戰,使學員熟悉使用模板來應對未來可能遇到的不同類型、不同難度的網頁爬蟲)1、爬蟲總結2、案例一:空氣汙染3、案例二:電子警察4、案例三:中國土地市場網5、案例四:法律之星6、案例五:私募基金7
  • 爬蟲乾貨 | python3 + selenium + chrome實戰速成
    皮卡丘聯合爬蟲業界大牛FastGets整理一系列文章,介紹python爬蟲基礎知識、大牛多年反爬經驗,有難度網站抓取實戰、爬蟲系統架構設計、安卓
  • 【Python爬蟲】Urllib的使用(2)
    寫在前面這是第二篇介紹爬蟲基礎知識的文章,之前的文章【Python爬蟲】初識爬蟲(1)主要是讓大家了解爬蟲和爬蟲需要的基礎知識