這個用Python寫的開源爬蟲網站 讓你秒搜所有豆瓣好書

2021-01-05 51CTO
這個用Python寫的開源爬蟲網站 讓你秒搜所有豆瓣好書

最近猿哥在GitHub上發現了一個網站,是中國科學院自動化研究所的一大神(lanbing510)用Python寫的一個爬蟲,他在16年的時候就爬下了豆瓣所有的讀書數據並做了個WebApp接口方來挖掘查找和閱讀好書。怪我知道的太晚

作者:佚名來源:程式設計師書庫|2019-05-21 14:08

程式設計師在提升自己的道路,大多還是會選擇閱讀編程書籍這一途徑,但找到一本好書就沒那麼容易了。

通過查看各大銷售網站的銷量數據和評價,以及豆瓣評分和評價人數,可以幫助我們更快的挖掘出經典的計算機書籍,還有那些被人們忽視的好書。

最近猿哥在GitHub上發現了一個網站,是中國科學院自動化研究所的一大神(lanbing510)用Python寫的一個爬蟲,他在16年的時候就爬下了豆瓣所有的讀書數據並做了個WebApp接口方來挖掘查找和閱讀好書。怪我知道的太晚

後來lanbing510再次爬了一遍豆瓣讀書的數據,總共更新了3232088本圖書信息,共2138386KB,並將其開源

為什麼說它很好用呢?猿哥演示一遍你就知道了:

可以看出這網站的界面非常簡潔,沒有花裡花哨的內容,只有乾貨,你可以直接通過關鍵字、分數、和評價人數這三個選項進行搜索,比如我們可以搜索關鍵字:編程;分數:9.0;評價人數:100人以上

查找結果的顯示方式有按照分數排序和人數排序兩種,按照分數排序的截圖如下:

按照評價人數排序的截圖如下:

除了以上演示的操作,這個網站並實現了以下功能:

可以爬下豆瓣讀書標籤下的所有圖書 按評分排名依次存儲 存儲到Excel中,可方便大家篩選搜羅,比如篩選評價人數>1000的高分書籍;可依據不同的主題存儲到Excel不同的Sheet 採用User Agent偽裝為瀏覽器進行爬取,並加入隨機延時來更好的模仿瀏覽器行為,避免爬蟲被封

也就是說你不僅可以在網站上搜索,還能通過下載各類目下的Excel書單文件,直接在Excel中搜索

效果截圖如下:

附上網站地址:http://sobook.lanbing510.info

GitHub地址:https://github.com/lanbing510/DouBanSpider

【編輯推薦】

【責任編輯:

未麗燕

TEL:(010)68476606】

點讚 0

相關焦點

  • python爬蟲100個入門項目
    11新浪微博爬蟲分享(一天可抓取 1300 萬條數據)12新浪微博分布式爬蟲分享13python爬蟲教程,帶你從零到一14豆瓣讀書的爬蟲15鏈家網和貝殼網房價爬蟲6180s 影視資源爬蟲 - JianSo_Movie62各種爬蟲63心靈毒雞湯64糗事百科65python爬蟲的時候對Json數據的解析66秒爬,python爬蟲中的多線程,多進程
  • PythonPython100個練手項目|github|瀏覽器|爬蟲|python|斷點_網易...
    新浪微博爬蟲分享(一天可抓取 1300 萬條數據)    12. 新浪微博分布式爬蟲分享    13. python爬蟲教程,帶你從零到一    14. 豆瓣讀書的爬蟲    15. 鏈家網和貝殼網房價爬蟲    16.
  • 聊聊學python轉行、具體學習方法、自學python用於辦公、寫爬蟲等...
    一:關於轉行學python的情況之前有朋友看了我一篇關於用python爬蟲採集信息分析網際網路職位的文章,加我,然後問我說:學python數據分析能恰飯不?」然後我就問他說:「你說的恰飯是什麼意思呢?是找工作?還是自己做點東西?或者是接私活?」
  • 總算領會為什麼要選擇Python寫網絡爬蟲?
    傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件爬蟲有什麼用?作為通用搜尋引擎網頁收集器。(google,baidu)做垂直搜尋引擎.
  • Python爬蟲技術路線?
    原標題:Python爬蟲技術路線?     對於初學者而言,Python爬蟲的技術路線應該怎麼取捨?     首先展示一下如何用python爬蟲requests庫進行爬取,requests庫是python爬蟲最基礎也必須掌握的庫。
  • python寫一個豆瓣短評通用爬蟲並可視化分析
    然而我所在的組剛好遇到的是python爬蟲的小課題。心想這不是很簡單嘛,搞啥呢?想著去搞新的時間精力可能不太夠,索性自己就把豆瓣電影的評論(短評)搞一搞吧。分析對於豆瓣爬蟲登錄——> 爬蟲——>存儲——>可視化分析。
  • @Python小白,一文讓你掌握Python爬蟲
    興趣我沒事喜歡逛知乎,有一段時間看到了這個問題:利用爬蟲技術能做到哪些很酷很有趣很有用的事情: http://t.cn/RptGOPx覺得回答的一個個炒雞酷炫就對爬蟲產生了濃厚的興趣,於是就開始了我的一路摸爬滾打
  • 你是如何用python寫下第一個爬蟲的?
    大家好,我是鳥哥,今天不聊技術,主要想給大家分享一下我在第一次python爬蟲之前的學習經歷,因為最近總是有朋友在問我到底怎麼才能快速入門python爬蟲,希望我的經歷能給初學者點啟發。從接觸python到現在,也有三四年了,雖然算不上大牛,但也大大小小完成了數百個小項目,中間曾走過一些彎路,也曾有過迷茫,不過我感覺這些都是初學者的必經之路,畢竟學習總是痛苦的。
  • 簡單使用scrapy爬蟲框架批量採集網站數據
    本篇文章就使用python爬蟲框架scrapy採集網站的一些數據。 建議切換國內鏡像源安裝pip install -i 國內鏡像地址 包名 例如: 國內常用源鏡像地址: 你可能會出現的報錯:
  • python爬蟲入門實戰!爬取博客文章標題和連結!
    最近有小夥伴和我留言想學python爬蟲,那麼就搞起來吧。準備階段爬蟲有什麼用呢?舉個最簡單的小例子,你需要《戰狼2》的所有豆瓣影評。最先想的做法可能是打開瀏覽器,進入該網站,找到評論,一個一個複製到文本中,保存,翻頁,接著複製,直到翻到最後一頁。而爬蟲只要寫腳本,執行,泡杯咖啡,坐等他執行完。
  • 用Python寫爬蟲就很low?你贊同嘛?
    入職的第1天,就讓我入手寫個爬蟲,只是這個爬蟲沒有採集幾個億數據量的業務場景。於是,整理了下需求,簡單的設計了下方案就草草開始了。小B是我大學時候的舍友,那天這哥們約我吃飯,想看下能否順帶介紹幾個妹子。酒過三巡,不勝酒力,於是便聊起了最近的工作。當他知曉我竟然在寫爬蟲,便起了憐憫之心,覺得我懷才不遇。仿佛寫爬蟲是件很低級很low的技術活。
  • 從零開始寫Python爬蟲,四大工具你值得擁有!
    如果你正在學習編程,那麼「爬蟲」絕對是你不可忽視的。那麼,學習python爬蟲之前需要哪些準備?一顆熱愛學習,不屈不撓的心一臺有鍵盤的電腦(什麼系統都行。我用的os x,所以例子會以這個為準)html相關的一些知識。
  • 為什麼大家都在學python?
    5.很多有名的大公司在用國外非常有名的有Google,facebook,Yahoo,YueTube,還有美國宇航局NASA,像著名的開源雲計算平臺openstack也是用python寫的,還有國內的豆瓣也是用python寫的.
  • Python爬蟲架構模板——教你規範寫爬蟲
    講解了這麼多期的python爬蟲教程,那你真的會寫爬蟲了嗎?為什麼這樣問呢,因為我們日常寫小爬蟲都是一個py文件加上幾個請求,但是如果你去寫一個正式的項目時,你必須考慮到很多種情況,所以我們需要把這些功能全部模塊化,這樣也使我們的爬蟲更加的健全。
  • Python爬蟲入門,快速抓取大規模數據
    大到各類搜尋引擎,小到日常數據採集,都離不開網絡爬蟲。爬蟲的基本原理很簡單,遍歷網絡中網頁,抓取感興趣的數據內容。這篇文章會從零開始介紹如何編寫一個網絡爬蟲抓取數據,然後會一步步逐漸完善爬蟲的抓取功能。
  • python 爬蟲學習路線:從入門到進階
    那些所有你認為必須的前置知識,都是可以在完成目標的過程中學到的。這裡給你一條平滑的、快速入門的學習路徑。本文依舊需要有一些python基礎,至少要求掌握python語法。前置條件:python開發環境首先,學習python爬蟲,需要會:自己安裝python,python庫以及自己的編輯器。
  • 分布式爬蟲很難嗎?用Python寫一個小白也能看懂的分布式
    前言很早就有採集知乎用戶數據的想法,要實現這個想法,需要寫一個網絡爬蟲(Web Spider)。因為在學習 python,正好 python 寫爬蟲也是極好的選擇,於是就寫了一個基於 python 的網絡爬蟲。
  • Python爬蟲入門並不難,甚至進階也很簡單
    如果你用過 BeautifulSoup,會發現 Xpath 要省事不少,一層一層檢查元素代碼的工作,全都省略了。掌握之後,你會發現爬蟲的基本套路都差不多,一般的靜態網站根本不在話下,小豬、豆瓣、糗事百科、騰訊新聞等基本上都可以上手了。
  • Python爬蟲並自製新聞網站,太好玩了
    Flask是python中一個輕量級web框架,相對於其他web框架來說簡單,適合小白練手。使用Flask+爬蟲,教大家如何實時展示自己爬下來的數據到網頁上。整個流程就是簡單的三步:爬取數據利用實時爬取數據生成詞雲利用熱點推薦新聞爬虫部分這次爬蟲主要利用多線程方式爬取新浪新聞+網易新聞所有欄目新聞信息。
  • Python爬蟲並自製新聞網站,太好玩了
    Flask是python中一個輕量級web框架,相對於其他web框架來說簡單,適合小白練手。使用Flask+爬蟲,教大家如何實時展示自己爬下來的數據到網頁上。先給大家展示一下這個醜醜的網頁 ↓(給個面子,別笑)整個流程就是簡單的三步:爬取數據利用實時爬取數據生成詞雲利用熱點推薦新聞爬虫部分這次爬蟲主要利用多線程方式爬取新浪新聞+網易新聞所有欄目新聞信息。