大佬用Python爬取豆瓣電影——Top250,驚呆啦

2020-10-31 曉曉編程

前言:網際網路行業在迅速發展,尤其是程式語言「Python」,在各大行業都居於重要位置,有了它人們的辦公效率大大提高,下面看看它的威力有多大

用Python爬取豆瓣電影——top250,連最近最火的《我和我的家鄉》.《姜子牙》……都能足不出戶可以看到,Python威力是不是很大?


有了解python的小夥伴?自己整理了python相關PDF文檔及源碼,無償分享,感興趣的可以關注小編,私信【python】(是關注後私信哦)反正閒著也是閒著,不如學點東西啦

主要
1.利用lxml爬取豆瓣電影top250
https://movie.douban.com/top250
2.用xpath確定所爬取數據的位置
3.獲取數據,將數據寫到txt文檔中保存

實現步驟
1.網頁分析,進入網站


2.按F12打開開發者工具,找到Elements,進行網頁內容的分析



3.我們發現,網頁裡面有很多標籤,而且每一個標籤裡面都有一個電影的信息。我們想要的就是標籤裡面的文字信息。



4.所有的信息都在class屬性為info的div標籤裡,可以先把這個節點取出來 //*[@id=「content」]/div/div[1]/ol

使用實例

5.知道xpath的用法後,我們就可以輕鬆的拿到我們想要的信息了!!!
影片名稱 :
title
導演演員信息:info
評分:rate
評論人數:comCount

6.已經知道如何獲取電影信息了,現在的任務是找到請求網址,我們可以翻頁尋找網址的規律,看看第二頁,第三頁……網址是什麼樣的。


不難發現規律,只是每頁網址的start=發生變化。我們可以使用for循環來請求每頁網址

將爬取的數據存入Mysql資料庫
新建資料庫crawl,並在資料庫crawl中新建表doubanmovie,所建表如圖所示


運行結果如圖:


相關焦點

  • 驚呆!某大佬直接用Python爬取豆瓣top250,簡單粗暴
    首先需要安裝好爬蟲需要用到的python庫 開發工具使用的是pycharm1:request 網絡請求模塊2:lxml 取數據的模塊 這裡用的是xpath 沒有用bs43.xlwings 對Excel進行讀寫的模塊如果安裝失敗 或者安裝緩慢 可以參考之前的博客 將pycharm鏡像更換為清華大學鏡像一鍵直達 更換鏡像
  • Python爬取豆瓣電影——Top250,威力之大
    爬取豆瓣電影Top250,在家看熱門電影而且不用會員充值soup = BeautifulSoup(html.text, 'html.parser')這句代碼就是說用html解析器(parser)來分析我們requests得到的html文字內容,soup就是我們解析出來的結果。For循環豆瓣頁面上有25部電影,而我們需要抓取每部電影的標題、導演、年份等等信息。
  • Python爬取豆瓣電影評分Top250
    抓取第一頁的電影信息抓取信息如下:上一節已經學習過了 —>這是傳送門本節重點在如何抓取下一頁面的信息,使250個電影信息全部收集到。多頁抓取,搜集完整250部電影信息代碼寫法根據每個網頁的特點不同而不同,發現豆瓣網頁翻頁是通過/top250?start=xxx&filter= 更改xxx的值實現的,不像某些網站採用異步操作。那寫一個while循環即可。
  • 今天帶你一起爬取豆瓣電影Top250
    先打開我要爬取數據的網頁:豆瓣電影Top250我們先來分析一下這個網頁寫bug,調bug唄打開網頁豆瓣電影Top250按下 「f12」,看到下面這個界面那還用問啊,當然是方便啊,我總不能去網上下載jar包導進idea吧,那太low了,不符合我的氣質啊,所以你自己拿捏了哈,同學。創建maven工程具體的步驟我就不在這裡贅述了,網上教程一搜一大堆。
  • 完全小白篇-用python爬取豆瓣影評
    完全小白篇-用python爬取豆瓣影評打開豆瓣電影隨機電影的所有影評網頁跳轉邏輯分析影評內容獲取方法逐一正則提取影評針對標籤格式過於多樣的處理針對提出請求的頻率的限制存儲方式(本次sqlite3)附:豆瓣短評的正則提取邏輯
  • 利用Python 多協程和隊列爬取豆瓣圖書
    ,創建多任務執行保存為CSV文件格式私信小編01即可獲取Python學習資料爬取豆瓣圖書利用多協程和隊列,來爬取豆瓣圖書Top250(書名,作者,評分)並存儲csv 豆瓣圖書:https://book.douban.com/top250?
  • 零基礎Python爬蟲實戰:豆瓣電影TOP250
    我們曾經抓取過貓眼電影TOP100,並進行了簡單的分析。但是眾所周知,豆瓣的用戶比較小眾、比較獨特,那麼豆瓣的TOP250又會是哪些電影呢?我在整理代碼的時候突然發現一年多以前的爬蟲代碼竟然還能使用……那今天就用它來演示下,如何通過urllib+BeautifulSoup來快速抓取解析豆瓣電影TOP250。
  • Python爬蟲快速入門,靜態網頁爬取
    一、數據解析在爬取之前,我們需要檢測下響應狀態碼是否為200,如果請求失敗,我們將爬取不到任何數據:import requestsre = requests.get(&39;)if re.status_code == 200: print
  • 最簡單的Python爬蟲,僅3步11行代碼爬取豆瓣電影排名
    第一步:確定目標爬蟲的第一步是要確定爬取的目標,沒有目標就沒有方向,更無從寫代碼。我們的目標就是爬取豆瓣上電影排行,並且只爬取第一頁的數據。只要爬取到了第一頁,後面的頁就很容易實現了。這裡使用的瀏覽器是谷歌瀏覽器,也可以使用火狐瀏覽器,其他的不推薦。
  • 擺脫劇荒:教你用Python爬取豆瓣電影最新榜單
    作者 | 吹牛Z 來源 | 數據不吹牛【導讀】本文以豆瓣電影(非TOP250)為例,從數據爬取、清洗與分析三個維度入手,詳解和還原數據爬取到分析的全鏈路。閱讀全文大概需要5分鐘,想直接看結果或下載源碼+數據集的旁友可以空降到文末。旁友,暑假,已經過了一大半了。
  • Python 爬蟲實戰入門(上)
    官網可以進行下載https://www.python.org/downloads/release/python-365/安裝的時候注意選中把python3.6添加到path,然後點擊Customize installation
  • Python數據採集案例(3):豆瓣電影TOP250採集
    實現目標本案計劃實現:通過網絡請求,獲取豆瓣電影TOP250的數據,並存儲到Json文件中。確定數據所在Url在Chrome瀏覽器中打開豆瓣電影TOP250,其Url為:https://movie.douban.com/top250。
  • 網絡爬蟲——爬取豆瓣圖書
    作者:徐浩 來源:人工智慧學習圈3.2.1 目標目標地址:https://book.douban.com/top250?start=0任務:爬取豆瓣圖書TOP250,及其『書名』、『出版信息』、『評分』、『評價人數』四個數據3.2.2 分析URL首先先打開目標地址對url進行分析觀察第一頁豆瓣圖書如下:
  • 第53天,我找到Python代碼錯誤,終於成功爬取了豆瓣電影top250
    打開這個網址,我就驚呆了。色戒?竟然是色戒!沒錯,每個看過此片(尤其是未刪減版的,嘖嘖)的男人都承認,這片確實是經典。但是,但是,它不該是遍歷出的第一個結果啊。答案一下子就清楚了,怪不得到26就報錯了,因為再後面就超過250部電影,就沒了啊。數據溢出,自然就報錯了。試著把 for in 的範圍改一下,果然,程序運行就沒有問題了。所以,問題的根源就是,程序中的哪個位置,網址變成了《色戒》的?
  • Python 正則表達式實戰案例講解:爬取豆瓣數據
    t=1今天給大家展示Python中正則表達式在爬蟲中的應用,並用xlwt模塊存入到excel中,掌握這個技能後,就能從一些簡單的網站爬取想要的數據信息並存入到自己的資料庫中了。=ing) 表示:匹配字母開頭,ing結尾的字符(不包括ing)下面以豆瓣的出版社提供方網站(https://read.douban.com/provider/all)為例進行爬取,爬取所有的出版社網址、出版社名稱、出版社logo網址以及在售作品數量。
  • Python爬取中國大學排名,並且保存到excel中
    數據分析和Python ,作者岡坂日川今天發的是python爬蟲爬取中國大學排名,並且保存到excel中,當然這個代碼很簡單,我用了半小時就寫完了,我的整體框架非常清晰,可以直接拿去用,也希望有小白可以學習到關於爬蟲的一些知識,當然我也只是在學習中,有不好的地方還麻煩大佬們指正!
  • 用python爬取天氣並且語言播報
    一、 預備知識此案例實現功能:利用網絡爬蟲,爬取某地的天氣,並列印和語音播報 。「01」即可爬蟲是爬取網頁的相關內容我們寫的爬蟲一般會默認告訴伺服器,自己發送一個Python爬取請求,而很多的網站都會設置反爬蟲的機制,不允許被爬蟲訪問的。
  • 上映26年後,周星馳的《九品芝麻官》終於進入「豆瓣電影top250」
    《九品芝麻官》登上豆瓣top250,經歷了整整26年而今天要跟大家說的這部電影,也是周星馳眾多作品裡最被低估的存在。可是經過26年之後,終於在今年強勢殺入豆瓣top250榜單,它就是《九品芝麻官》。在上個世紀90年代,他的電影雖然票房成績很理想,可是在口碑上一直就不怎麼樣。而在各大獎項的評選上,周星馳更是不被業界認可。豆瓣評分開啟之後,周星馳的作品曾長時間處於尷尬位置自從電影屆開啟了豆瓣評分以來,電影的質量高低就直接跟評分掛鈎了。
  • 不用Python,Excel輕鬆抓取豆瓣TOP250
    之前寫了篇Python批量爬取網頁數據的文章,後來發現Excel隨著版本的迭代,已經完全支持多頁面抓取數據了,不用擼代碼,點點滑鼠就能抓取數據,讓我們一起看看吧~網頁解析在抓取數據之前,先對網頁進行一下解析,下圖中是豆瓣TOP250初始頁面,拉到最底部可以發現一共有10個頁面,每個頁面25部電影,一共250部電影。
  • python爬取數據存入資料庫
    昨天本來寫了一篇關於python爬取的文章,結果沒通過,正好今天一起吧。用python同時實現爬取,和存入資料庫,算是複習一下前面操作資料庫的知識。1、準備工作既然是爬取,那自然要連接到爬取的頁面,所以需要requests庫。