Python爬取知乎電影話題回答,採集提及次數前50的電影

2020-10-10 其實還好啦

如果在家無聊推薦幾部經典電影給你看看。

這裡用 Python 抓取知乎上的電影話題https://www.zhihu.com/topic/19550429/top-answers下回答人數多的幾個問題,並提取回答中提及電影次數前50的電影。


問題:如果給你30秒讓你說出三部你覺得最好的電影,會是哪三部,13202個回答中提及電影次數最高前50的電影為:


問題:有哪些你看過五遍以上的電影?,22664個回答中提及電影次數最高前50的電影為:



問題:有哪些電影一定要趁年輕看?,5355個回答中提及電影次數最高前50的電影為:



問題:有哪些好看到讓人無法自拔、久久不忘的電影?,12240個回答中提及電影次數最高前50的電影為:


問題:如果讓你向別人推薦十部電影,你會推薦哪十部?,5820個回答中提及電影次數最高前50的電影為:


問題:有哪些爆笑惡搞能把人笑爆炸的電影值得推薦 ,1685個回答中提及電影次數最高前50的電影為:

問題:有哪些好看的韓國電影值得推薦 ,843個回答中提及電影次數最高前50的電影為:


問題:你認為哪些華語電影是被嚴重低估的 ,972個回答中提及電影次數最高前50的電影為:


問題:有哪些搞笑又發人深省的電影,436個回答中提及電影次數最高前50的電影為:

問題:有沒有一部電影讓你在深夜中痛哭,19105個回答中提及電影次數最高前50的電影為:

問題:有哪部電影讓你受益良多?,2374個回答中提及電影次數最高前50的電影為:

最後將上面所有問題提及的電影生成的文件合併統計。


統計出前50的電影列表:

肖申克的救贖, 霸王別姬, 阿甘正傳, 海上鋼琴師, 怦然心動, 鐵達尼號, 當幸福來敲門, 教父, 這個殺手不太冷, 美麗人生, 大話西遊, 千與千尋, 星際穿越, 熔爐, 三傻大鬧寶萊塢, 楚門的世界, 盜夢空間, 活著, 素媛, 忠犬八公的故事, 被嫌棄的松子的一生, 辛德勒的名單, 無間道, 七號房的禮物, 情書, 讓子彈飛, 放牛班的春天, 初戀這件小事, 死亡詩社, 美國往事, 我不是藥神, 搏擊俱樂部, 心靈捕手, 西西里的美麗傳說,天堂電影院, 聞香識女人, 喜劇之王, 假如愛有天意, 傲慢與偏見, 綠皮書, 觸不可及, 功夫, 辯護人, 亂世佳人, 看不見的客人, 大魚, 東邪西毒, 低俗小說, 斷背山。

Python生成的餅圖可以看到電影《肖申克的救贖》以2951的提及次數遙遙領先,不愧為豆瓣電影 Top 250 排第一 ,緊隨其後的是張國榮《霸王別姬》。


相關焦點

  • python爬取44130條用戶觀影數據,分析挖掘用戶與電影之間的隱藏信息!
    明天就是大年初一,很多電影也上映,看電影前很多人都喜歡去『豆瓣』看影評,所以我爬取44130條『豆瓣』的用戶觀影數據,分析用戶之間的關係,電影之間的聯繫,以及用戶和電影之間最後採集了44130條數據(原本是4614個用戶,每個用戶大約有500~1000條數據,預計400萬條數據)。但是為了演示分析過程,只爬取每一個用戶的前30條觀影記錄(因為前30條是最新的)。
  • python爬蟲教程,爬取貓眼電影 ,一網打盡好電影
    點擊藍字「python
  • Python爬取某個18禁網站的電影資源
    最近在想著爬一些有趣的網站,豆瓣淘寶京東,這些網站大多都被爬爛了,然後就想著爬點簡單點的,例如某色網站啥的是吧,男生一般都會有幾個自己知道的網站
  • 票房和口碑稱霸國慶檔,用 Python 爬取貓眼評論區看看電影《我和我的家鄉》到底有多牛
    從上圖中我們可以看出《我和我的家鄉》在貓眼上目前有 29.6 萬人評分,總體評分 9.3,可以說是一個相當不錯的成績了,本文我們爬取該片的貓眼電影評論,一起分析下這部影片評論區的內容。爬取首先,我們來爬取貓眼電影評論數據,因 PC 端只能看到貓眼上的幾條評論,所以我們要藉助 APP 接口來爬取,接口格式為:http://m.maoyan.com/mmdb/comments/movie/movieid.json?
  • 手把手教你用Python爬中國電影票房數據
    DataFrame:DataFrame可以簡單理解為Excel裡的表格格式。sdate=' for i in range(5)],'date' :pd.date_range(20190114,freq = 'W-MON',periods = 5)})'''將網址相同的部分生成5次,並利用pandas的時間序列功能生成5個星期一對應的日期。
  • 電影《我和我的家鄉》到底有多牛?爬取貓眼評論數據,可視化數據
    爬取首先,我們來爬取貓眼電影評論數據,因 PC 端只能看到貓眼上的幾條評論,所以我們要藉助 APP 接口來爬取,接口格式為:http://m.maoyan.com/mmdb/comments/movie/movieid.json?
  • Python爬取視頻之日本愛情電影(嘿嘿嘿)
    環境 & 依賴Win10 64bit IDE: PyCharm Python 3.6 python-site-packegs: requests + BeautifulSoup + lxml + re + m3u8在已經安裝pip的環境下均可直接命令行安裝網站解析
  • 用python實現一個豆瓣通用爬蟲(登陸、爬取、可視化分析)
    然而我所在的組剛好遇到的是python爬蟲的小課題。心想這不是很簡單嘛,搞啥呢?想著去搞新的時間精力可能不太夠,索性自己就把豆瓣電影的評論(短評)搞一搞吧。之前有寫過哪吒那篇類似的,但今天這篇要寫的像姨母般詳細。本篇主要實現的是對任意一部電影短評(熱門)的抓取以及可視化分析。
  • Python爬蟲經典案例詳解:爬取豆瓣電影top250寫入Excel表格
    For循環豆瓣頁面上有25部電影,而我們需要抓取每部電影的標題、導演、年份等等信息。就是說我們要循環25次,操作每一部電影。for item in soup.find_all('div',"info"):就是這個意思。首先我們在豆瓣電影頁面任意電影標題【右鍵-檢查】(比如「肖申克的救贖」),打開Elements元素查看器。
  • Python 爬取 201865 條《隱秘的角落》彈幕,發現看劇不如爬山?
    這裡參考了「數據兔小白[2]的代碼,我又修改後實現分集爬取所有彈幕。共爬取得到201865 條《隱秘的角落》彈幕數據。我們統計一下演員們在彈幕中的出現次數,看看劇中的哪些角色大家提及最多。其核心的設計理念是通過經典的商業應用案例對數據爬取、數據存儲、數據清洗、數據建模的核心Python模塊做相應的介紹。本書的特點是強調數據科學帶來的商業價值理念,所以其可以作為高等學校數據科學、大數據管理與應用、統計或相關專業的教材,也適合從事數據分析的工作者和愛好者閱讀。
  • Python爬取並分析 201865 條《隱秘的角落》彈幕
    今天我們就來用Python爬一爬這部熱門劇的彈幕,看看大家都在聊什麼?由於《隱秘的角落》是在愛奇藝獨播,所以數據從愛奇藝下手最直接。除了愛奇藝,可以考慮使用豆瓣、微博、知乎(電視劇數據分析 · 萬能三件套)的數據。
  • python爬蟲—豆瓣電影top250及數據可視化!
    豆瓣電影top250榜單想必大家都不陌生,上榜的電影都是經過時間的沉澱留下來比較經典。本次教程就是利用requests庫實現對於top250榜單電影數據爬取,並對爬取的數據繪製圖表進行可視化,做簡單的數據分析。文章將分為兩個部分:top250數據爬蟲和數據可視化。
  • 不用代碼玩轉爬蟲實例(1) - 抓取貓眼電影信息
    使用它可以方便的僅僅通過滑鼠進行簡單配置,就可以爬取你所想要數據。例如電影信息、電商網站商品信息、知乎回答列表、微博熱門、微博評論等等。文章開始之前需要先安裝好web scraper,具體可以參考這篇文章:Web Scraper 使用教程(一)- 安裝話不多說,先上實例。
  • python爬蟲實戰:爬取全站小說排行榜
    新筆趣閣是廣大書友最值得收藏的網絡小說閱讀網,網站收錄了當前.我就不打廣告了(其他滿足下文條件的網站也行,之前已經有做過簡單爬取章節的先例了,但效果不太理想,有很多不需要的成分被留下了,來連結:http://python.jobbole.com
  • 多種方法爬取貓眼電影並分析(附代碼)
    想深入了解一些比較有意思的信息,比如:哪部電影的評分最高?哪位演員的作品數量最多?哪個國家/地區上榜的電影數量最多?哪一年上榜的電影作品最多等。接下來,修改main()函數來輸出爬取的內容: 1def main(): 2    url = 'http://maoyan.com/board/4?
  • python為什麼叫爬蟲?為啥那麼多人通過python兼職都能掙不少錢?
    Python能做什麼之前有很多文章介紹python能做什麼。今天介紹python爬蟲的學習。網絡爬蟲 網絡爬蟲,也叫網絡蜘蛛(Web Spider)。爬蟲是根據網頁地址(URL)爬取網頁上的內容,這裡說的網頁地址(URL)就是我們在瀏覽器中輸入的網站連結。例如:https://www.baidu.com/,這就是一個URL。
  • 用Python爬取糗事百科段子,可視化後結果發現
    selenium爬取段子信息這次我們利用selenium來實現翻頁爬取段子信息!browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": """Object.defineProperty(navigator, 'webdriver', {get: () => undefined})"""})def get_data(page):     # 爬取數據函數
  • 爬取電影天堂的最新電影
    主要工作兩個:第一,實例化出一個dytt8Moive對象,然後開始爬取信息。第二,等爬取結束,將數據插入到資料庫中。            'm_level' varchar(100),            'm_language' varchar(30),            'm_subtitles' varchar(100),            'm_publish' varchar(30),            'm_IMDB_socre' varchar(50
  • 手把手教你用Python分析豆瓣電影——以《我不是藥神》《邪不壓正》為例
    本文通過爬取《我不是藥神》和《邪不壓正》豆瓣電影評論,對影片進行可視化分析。截止7月13日:《我不是藥神》豆瓣評分:8.9 分,貓眼:9.7 分,時光網:8.8 分 。截止7月13日: 《邪不壓正》 豆瓣評分:7.2 分,貓眼:7.4 分,時光網:7.3 分 。
  • Python爬取10529條《三十而已》熱評,看看大家都說了些啥
    為了了解吃瓜群眾們對這部劇的看法,我爬了爬騰訊視頻關於這部劇的評論,並做了簡單文本可視化分析。01 數據獲取1.分析評論頁面騰訊視頻評論要點擊查看更多評論才能加載更多數據,很明顯是一個動態網頁,評論內容使用了Ajax動態加載技術。