豆瓣電影頁面爬蟲2020版

2020-09-10 10knet

豆瓣電影反爬蟲機制升級了,網上的Python爬蟲教程基本上都不能用了。以前直接requests.get()就能獲取的頁面現在是<Response [418]>錯誤。2020年正確的豆瓣電影爬蟲姿勢是怎樣的?

Request請求要帶Headers

Headers是什麼?就是你向豆瓣伺服器索要網頁時候附帶遞過去的名片,這裡記錄了你的全部個人信息。

怎樣搞到headers

瀏覽器每次向豆瓣伺服器發出請求的時候都會帶名片一起送過去,所以我們只要找到瀏覽器送的這張名片,用Python發送請求的時候也打包送過去,那麼就也能獲得數據。

使用谷歌瀏覽器Chrome,以我們要抓取的TOP250電影數據為例,https://movie.douban.com/top250,打開這個地址,頁面空白處【右鍵/檢查】打開開發工具面板,如下圖所示。


在開發工具面板點【Network】【top250(網頁地址最後一段)】,右側【Headers】下面就會有一組【Request Headers】內容,然後用滑鼠劃選全部,右鍵複製。

轉化Headers格式

然後使用下面的代碼把這段Headers字符變為可以使用的字典對象格式,{&39;:&39;,&39;:&39;...}。

header_str=&39;&39;&39;39;;&39;=&39;:&39;&39;\n&39;: &39;Content-Length&39;Content-Length&39;Accept&39;text/html..., &39;: &39;https://movie.douban.com/top250&39;Accept-Encoding&39;gzip, deflate, br&39;accept-encoding&39;gzip&39;https://movie.douban.com/top250&39;accept-encoding&39;br&39;https://movie.douban.com/top250&39;Content-Encoding&39;Content-Encoding&39;br&39;utf-8&34;item&34;item&39;div&39;item&39;div&39;item&39;accept-encoding&39;gzip&39;https://movie.douban.com/top250?start=&39;div&39;item&34;item&34;pic&34;&34;https://movie.douban.com/subject/1292720/&34;100&34;阿甘正傳&34;https://img9.doubanio.com/view/photo/s_ratio_poster/public/p1484728154.webp&34;&34;info&34;hd&34;https://movie.douban.com/subject/1292720/&34;&34;title&34;title&34;other&34;playable&34;bd&34;&34;star&34;rating5-t&34;rating_num&34;v:average&34;v:best&34;10.0&34;quote&34;inq&39;div&39;hd&39;a&39;\n&39;&34;NFKD&39;阿甘正傳 / Forrest Gump / 福雷斯特·岡普&39;div&39;bd&39;p&39;title&39;div&39;hd&39;a&39;daoyan&34;導演:\\s(.*_?)[\xa0\.\.\.]&39;導演:&39;&39;nianfen&39;\n&39;/&39;guojia&39;\n&39;/&39;leixing&39;\n&39;/&34;NFKD&39;\n&39;&34;導演:\\s(.*_?)[\xa0\.\.\.]&39;Movies250.xlsx')df

輸出如下:


相關焦點

  • 零基礎Python爬蟲實戰:豆瓣電影TOP250
    我們曾經抓取過貓眼電影TOP100,並進行了簡單的分析。但是眾所周知,豆瓣的用戶比較小眾、比較獨特,那麼豆瓣的TOP250又會是哪些電影呢?我在整理代碼的時候突然發現一年多以前的爬蟲代碼竟然還能使用……那今天就用它來演示下,如何通過urllib+BeautifulSoup來快速抓取解析豆瓣電影TOP250。
  • 一篇文章教會你利用Python網絡爬蟲實現豆瓣電影採集
    【一、項目背景】豆瓣電影提供最新的電影介紹及評論包括上映影片的影訊查詢及購票服務。可以記錄想看、在看和看過的電影電視劇 、順便打分、寫影評。極大地方便了人們的生活。今天以電視劇(美劇)為例,批量爬取對應的電影,寫入csv文檔 。用戶可以通過評分,更好的選擇自己想要的電影。
  • Python爬蟲框架:scrapy爬取迅雷電影天堂最新電影
    進入頁面是列表的形式就像豆瓣電影一樣這個頁面就是我們需要拿到的內容頁面,我們來看我們需要哪些數據(某些數據從第一個頁面就可以獲得,但是下載地址必須到第二個頁面)電影名稱電影信息電影內容劇情電影下載地址分析完成之後就可以首先編寫 items.py
  • 最簡單的Python爬蟲,僅3步11行代碼爬取豆瓣電影排名
    提到網絡爬蟲,很多人望而卻步,覺得非常難,其實非如此,哪怕沒有爬蟲基礎,也可以寫出一個簡單的爬蟲。萬丈高樓平地起,今天分享一個最簡單的爬蟲,目的是通過案例,使大家對爬蟲有一個直觀的認識。第一步:確定目標爬蟲的第一步是要確定爬取的目標,沒有目標就沒有方向,更無從寫代碼。
  • 豆瓣電影電腦版
    豆瓣電影電腦版 生活工具 大小: 12.79M 版本: 4.5.0
  • 誰說Java不能搞爬蟲的?今天帶你一起爬取豆瓣電影Top250
    的教程,也是從最基礎的網頁爬蟲開始,給大家講講網頁爬蟲的小技巧。先打開我要爬取數據的網頁:豆瓣電影Top250我們先來分析一下這個網頁寫bug,調bug唄打開網頁豆瓣電影Top250按下 「f12」,看到下面這個界面
  • Python 爬蟲實戰入門(上)
    基於這個原因,特意寫點適合小白看的,希望大家能對爬蟲有個小認知。工欲善其事必先利其器,既然要寫爬蟲,那第一步,就是環境準備,先來看看我們需要的基礎環境。作業系統:Windows 10Python版本:Python 3.6代碼編輯運行環境:個人推薦PyCharm社區版。
  • 知乎的電影頁面改版了,這是要搶豆瓣生意?
    知乎推出了「想法」功能,被人調侃稱要搶微博的生意,而最近,知乎又上線了電影評分和詳情功能,這次是要搶豆瓣生意了。知乎新版電影話題頁與豆瓣、貓眼等電影詳情頁類似,增加了評分、簡介、劇照、預告片等頁面,不過評分調用的是貓眼和IMDB,沒有上線自己的評分系統。
  • Python 爬蟲分析後疫情電影現狀:從低迷到穩定
    讓我們通過爬蟲數據分析來一探究竟。strftime('%Y%m%d')print(df.shape,days)except:print(days)days= (datetime.datetime.strptime(days, '%Y%m%d')+ datetime.timedelta(days=1)).strftime('%Y%m%d')pass 獲取豆瓣電影
  • 疑似王一博粉絲注水豆瓣「養號」豆瓣讀書:清除數據嚴厲打擊
    豆瓣電影11月2日回應調整原因是「為了在不影響用戶體驗的前提下反爬蟲、反水軍」。對於飯圈追星與豆瓣文化生態再一次衝突,豆瓣讀書表示:「希望更多的新朋友來到豆瓣,不是為了給自己偶像的作品刷分,而是為了分享你最真實的熱愛。這才是對作品的尊重,也是對你自己的尊重。」
  • 疑似王一博粉絲注水豆瓣「養號」,豆瓣讀書:清除數據嚴厲打擊
    豆瓣電影11月2日回應調整原因是「為了在不影響用戶體驗的前提下反爬蟲、反水軍」。對於飯圈追星與豆瓣文化生態再一次衝突,豆瓣讀書表示:「希望更多的新朋友來到豆瓣,不是為了給自己偶像的作品刷分,而是為了分享你最真實的熱愛。這才是對作品的尊重,也是對你自己的尊重。」
  • python寫一個豆瓣短評通用爬蟲並可視化分析
    然而我所在的組剛好遇到的是python爬蟲的小課題。心想這不是很簡單嘛,搞啥呢?想著去搞新的時間精力可能不太夠,索性自己就把豆瓣電影的評論(短評)搞一搞吧。分析對於豆瓣爬蟲豆瓣電影首頁這個首先的話嘗試就可以啦,打開任意一部電影,這裡以
  • Python 爬蟲分析後疫情電影現狀:從低迷到穩定
    讓我們通過爬蟲數據分析來一探究竟。數據獲取本文數據來源於貓眼票房,通過抓取2019年7月20日至9月22日,以及2020年7月20日至9月22日的票房數據,來分析並比較疫情下的影院行業現狀。圖2 豆瓣影評樣例# 獲取豆瓣電影IDdefcrawl_ID():data = pd.read_excel('票房數據.xlsx',sheet_name='上映') movies = list(data['電影名稱'].unique())for name
  • python爬蟲學習路線,一文從小白到大牛!
    數據的重要性相信大家都知道,在大數據時代,很多決策和方向都需要數據做支持,而爬取數據很多時候都將用到Python爬蟲技術。先說一下經常爬取數據的渠道:酷狗、網易雲音樂:爬取熱門歌曲評價,用戶評價關注點。豆瓣、淘票票等:抓取電影評論,用戶關注電影的點。
  • 程式設計師爬蟲竟構成犯罪?
    網站通過 Robots 協議告訴爬蟲哪些頁面可以抓取,哪些頁面禁止抓取。Robots 協議是搜尋引擎行業內公認的、應當被遵守的商業道德。網站一般採用的反爬蟲技術可以分為四個種類:通過 User-Agent 來控制訪問、通過 IP 限制來反爬蟲、通過 JS 腳本來防止爬蟲、通過 robots.txt 來限制爬蟲。下面我們通過幾個熱門站點分析下常見的反爬蟲機制:一、豆瓣很多的爬蟲新手都會爬取豆瓣來練手,但豆瓣並不是完全開放的態度。
  • Python爬蟲入門並不難,甚至進階也很簡單
    大部分爬蟲都是按「發送請求——獲得頁面——解析頁面——抽取並儲存內容」這樣的流程來進行,這其實也是模擬了我們使用瀏覽器獲取網頁信息的過程。掌握之後,你會發現爬蟲的基本套路都差不多,一般的靜態網站根本不在話下,小豬、豆瓣、糗事百科、騰訊新聞等基本上都可以上手了。
  • python爬蟲100個入門項目
    6爬取豆瓣排行榜電影數據(含GUI界面版)7多線程+代理池爬取天天基金網、股票數據(無需使用爬蟲框架)8一鍵生成微信個人專屬數據報告(了解你的微信社交歷史)9一鍵生成QQ個人歷史報告10微信公眾號文章爬蟲
  • 《豆瓣8.0,365部豆瓣高分電影片單推薦!》
    當2019開始進入「倒數」,「豆瓣電影日曆2020」也已上線發售。此刻,1999年這聽著就親切的日子已是20年前。而2020,這個頗具科幻氣質的年份卻已近在眼前。是時候了,我們真的要和這一年說再見了。2020年,是豆瓣電影日曆「誕生」的第4年,被稱為電影愛好者的年度期待。
  • Python爬蟲超詳細講解(零基礎入門,老年人都看的懂)
    start=&要爬取的網頁連結 34;豆瓣電影Top250.xls&當前目錄新建XLS,存儲進去 34;movie.db&當前目錄新建資料庫,存儲進去 2種存儲方式可以只選擇一種 爬取網頁def getData(baseurl): datalist = [] 調用獲取頁面信息的函數,10次 url = baseurl + str(i * 25)
  • PythonPython100個練手項目|github|瀏覽器|爬蟲|python|斷點_網易...
    2020-05-07 13:26:09 來源: 三河講Python 舉報