用Python爬取豆瓣電影——top250,連最近最火的《我和我的家鄉》.《姜子牙》……都能足不出戶可以看到,Python威力是不是很大?
有了解python的小夥伴?自己整理了python相關PDF文檔及源碼,無償分享,感興趣的可以關注小編,私信【python】(是關注後私信哦)反正閒著也是閒著,不如學點東西啦
主要
1.利用lxml爬取豆瓣電影top250https://movie.douban.com/top250
2.用xpath確定所爬取數據的位置
3.獲取數據,將數據寫到txt文檔中保存
實現步驟
1.網頁分析,進入網站
2.按F12打開開發者工具,找到Elements,進行網頁內容的分析
3.我們發現,網頁裡面有很多標籤,而且每一個標籤裡面都有一個電影的信息。我們想要的就是標籤裡面的文字信息。
4.所有的信息都在class屬性為info的div標籤裡,可以先把這個節點取出來 //*[@id=「content」]/div/div[1]/ol
使用實例
5.知道xpath的用法後,我們就可以輕鬆的拿到我們想要的信息了!!!
影片名稱 :title
導演演員信息:info
評分:rate
評論人數:comCount
6.已經知道如何獲取電影信息了,現在的任務是找到請求網址,我們可以翻頁尋找網址的規律,看看第二頁,第三頁……網址是什麼樣的。
不難發現規律,只是每頁網址的start=發生變化。我們可以使用for循環來請求每頁網址
將爬取的數據存入Mysql資料庫
新建資料庫crawl,並在資料庫crawl中新建表doubanmovie,所建表如圖所示
運行結果如圖: