盜墓熱再起!我爬取了6萬條《重啟》的評論,發現了這些秘密

2020-09-05 Python職場圈

前些日子潘老師領銜主演的《鬼吹燈之龍嶺迷窟》,讓盜墓題材的影視劇再次熱起來,這股熱乎勁還沒過去多久,緊接著,這些天,又另一盜墓小說《盜墓筆記》改編的電視劇《重啟之極海聽雷》又跟大家見面了。


同樣是盜墓題材類的影視劇,而且主角是當紅演員朱一龍。豆瓣上給出了7.8分的評分,說明製作上和演員的表演也是過關的。今天小編就帶領大家來爬取一下大家對這部劇的評論,看一下大家是如何看待這部電視劇的。


1

數據的抓取


首先是對於數據的抓取,小編獲取的是愛奇藝下每集電視劇中,觀影者對於該集的評價,小編爬取了前五集的一共6萬條評論。我們首先需要明確該去如何獲取數據呢,如下所示:

我們首先需要根據動態加載的評論,按鍵盤的F12,打開開發者模式,在開發者模式的network裡找到評論的json數據,然後根據其請求的url連結來構建我們的爬蟲程序。小編根據上述步驟,寫出了對應的爬蟲層序,其部分核心程序如下圖所示:


上述程序中,首先需要根據基礎的url連結,構建實際的爬蟲連結,然後獲取返回的json數據,並對json數據進行解析,獲取我們需要的數據。這裡,小編獲取到的是評論者的用戶名、性別、評論內容,被點讚數和評論的時間等信息。一共有6萬條數據。


2

數據分析


在獲取到數據之後,接下來就是對於數據的分析了,從數據中,我們能夠獲取到非常多的有趣的內容。首先,由於朱一龍的存在,所以我們首先要看的就是評論者的性別分布,如下所示:

可以看到,忽略0.8%的性別未知的觀眾,評論這部影視劇的女性遠遠超過了男性,女性評論者數量達到了男性的四倍以上,而這裡裡面的女性評論者絕大部分都是衝著男主朱一龍來的,這裡我們在後面的詞雲分析中也能看出。


對於每一位評語,我們可以看到,絕大多數人的評語都沒有收穫到點讚,這也符合我們的認知,因為愛奇藝只會將精彩的評論置頂,因此絕大部分評論都不會有觀影者特地去點讚。收到0條點讚也是正常的。


對於每集評論數量的分布,可以看到,隨著劇集的發展,每一集的評論數量也隨之緩慢的下降,當然,這也跟電視劇播出的時間是有很大的關係的,畢竟播出時間早的劇集,評論的人數概率上比後播放的人數自然要多。

對於每天的評論數和點讚數,如下圖所示:

可以看到,從8月5日到8月9日的這五天時間裡,評論數量發生了巨大的波動,從8月7日開始,評論數量出現了巨大的滑坡,但是點讚數量已經保持著穩定的水平。

對於大家的評論,我們來看一下是如何大家的看法:

對於這部電視劇,很大一部分觀眾是衝著男主角朱一龍來的,無論是他本人還是飾演的「吳邪」角色。這與前面關於觀影者以女性居多相呼應。此外這部劇大家的評論也是不錯的,認為比較好看,喜歡這部電視劇。



以上就是小編為大家帶來的關於《重啟之極海聽雷》這部影視劇的數據抓取和詞雲分析,歡迎大家留言吱一聲,說一下你心中關於這部電視劇的評論。小編也正在追這部劇,個人認為是比較不錯的,也會持續的追下去,嘿嘿。

相關焦點

  • Python爬取冰冰B站評論
    Python爬取 ==冰冰== 第一條B站視頻的千條評論,繪製詞雲圖,看看大家說了什麼吧醬醬醬,那就開始吧==B站當日彈幕獲取== 冰冰B站視頻彈幕爬取原理解析查看數據點擊preview即可發現評論數據在這裡
  • 爬取了陳奕迅新歌《我們》10萬條評論數據發現:原來,有些人只適合遇見
    「我最大的遺憾,就是你的遺憾,與我有關」,下面就和「戀習Python」一起來感受一下吧。這首歌是《後來的我們》中的主題曲,網易雲音樂上線當天便席捲千萬+播放量,現如今光是網易雲上面的評論就馬上突破了10萬條。網易雲音樂一直是我嚮往的「神壇「,聽音樂看到走心的評論的那一刻,高山流水。於是今天戀習Python來抓取一下歌曲的熱門評論。
  • 電影《我和我的家鄉》到底有多牛?爬取貓眼評論數據,可視化數據
    》在貓眼上目前有 55.5 萬人評分,總體評分 9.3,可以說是一個相當不錯的成績了,本文我們爬取該片的貓眼電影評論,一起分析下這部影片評論區的內容。爬取首先,我們來爬取貓眼電影評論數據,因 PC 端只能看到貓眼上的幾條評論
  • 我爬取了3W條評論 | 長安十二時辰
    就拿《長安十二時辰》如火如荼的評論大戰來說。這裡,就有一個程式設計師爬完了《長安十二時辰》的30000條評論,發現了一個不一樣的世界。我們從《長安十二時辰》首播平臺優酷網獲取到了1到16集的評論數據32903條(時間:2019年7月7日12時),來看看大家都是怎麼說。優酷給《長安十二時辰》打出了8.8的高分(首播時為9.0分)。該劇在豆瓣、IMDB、時光網等平臺分別收穫了8.6、8.5、8.4分,這足以說明該劇總體評價還是不錯的。
  • Python 爬取 394452 條《都挺好》彈幕數據,發現彈幕比劇還精彩?
    劇很精彩,但追劇界有句俗話說得好:「彈幕往往比劇更精彩」,為了讓精彩延續下去,我終究沒能忍住對(騰訊視頻)彈幕下手。經過一番折騰,發現彈幕是 JSON 格式動態加載的,而且加載得非常有規律,30 秒一發(80-100 條),多出的會隱藏。共計爬取了 394452 條彈幕(雨露均沾,每集平均 8575 條,每 30s 的間隔爬取),來挖一挖彈幕這個寶藏。
  • 爬了35940條評論,看韓國人如何評價《寄生蟲》
    下圖中可以看到,目前有36360條評價,我們想要獲取的數據是黑框中的內容。包括每條留言的評論人暱稱、評論時間、評分、評論內容以及這條評論得到的贊或踩。下面開始爬取評論數據。利用requests和pyquery爬取數據,展示部分源碼,完整見文末。
  • 爬取豆瓣短評,劉若英導演的電影《後來的我們》發現愛情原來是這樣
    要點:用selenium 爬取數據數據清洗並存入Mongodb用echart可視化分析用jieba分詞用WordCloud做雲圖通過試探知道:豆瓣影評設置權限,沒有登陸的話,只能夠看到前面的幾十條短評,並且登錄的時候需要輸入驗證碼。
  • python爬取44130條用戶觀影數據,分析挖掘用戶與電影之間的隱藏信息!
    明天就是大年初一,很多電影也上映,看電影前很多人都喜歡去『豆瓣』看影評,所以我爬取44130條『豆瓣』的用戶觀影數據,分析用戶之間的關係,電影之間的聯繫,以及用戶和電影之間為了獲取用戶,我選擇了其中一部電影的影評,這樣可以根據評論的用戶去獲取其用戶名稱(後面爬取用戶觀影記錄只需要『用戶名稱』)
  • Python 爬取周杰倫《Mojito》MV 彈幕,這個評論亮了!
    杰倫的上一首單曲《說好不哭》是在2019.9發布的,這首歌是與老搭檔方文山搭檔的歌曲,當時這首歌在QQ音樂上的銷量超過了1500萬張,創造歷史新高。而新歌《Mojito》則是與另外一位搭檔黃俊郎合作的單曲,相信這首歌肯定也會有不錯的銷量。好了回歸到正題,既然這首歌大家反應這麼大,那麼大家都是怎麼評論這首歌曲的呢?我們爬取了B站上面的彈幕數據,看看粉絲們都說了什麼。
  • 用Python爬取糗事百科段子,可視化後結果發現
    大家好,我是小五🐶生活真是太苦了,需要找點快樂的精神食糧支撐社畜生活,聽說糗事百科段子挺多,今天就來看一看!selenium爬取段子信息這次我們利用selenium來實現翻頁爬取段子信息!browser.execute_cdp_cmd("Page.addScriptToEvaluateOnNewDocument", {"source": """Object.defineProperty(navigator, 'webdriver', {get: () => undefined})"""})def get_data(page):     # 爬取數據函數
  • Python 爬取了 121.3 萬條大眾點評,告訴你哪裡的小龍蝦才是一絕!
    獲得數據本次數據我們爬取了大眾點評中所有打上小龍蝦標籤的餐廳。我們此次總共爬取到了225個城市,6758個餐廳,121.3萬條評論。我們以帶有「小龍蝦」標籤的餐廳評論總和作為最終的對比依據,得到的TOP20城市如下:
  • Python爬取並分析 201865 條《隱秘的角落》彈幕
    這裡參考了「數據兔小白[2]的代碼,我又修改後實現分集爬取所有彈幕。共爬取得到201865 條《隱秘的角落》彈幕數據。這次我採用的是stylecloud,它算是wordcloud詞雲包的升級版,看起來美觀多了。
  • Python 爬取 201865 條《隱秘的角落》彈幕,發現看劇不如爬山?
    這裡參考了「數據兔小白[2]的代碼,我又修改後實現分集爬取所有彈幕。共爬取得到201865 條《隱秘的角落》彈幕數據。每篇的詞雲都儘量跟上篇文章不同,這次我採用的是stylecloud,它算是wordcloud詞雲包的升級版,看起來美觀多了。
  • 用Python抓取了「相關數據」,發現了這些秘密......
    因此,我用Python爬取了《大秦賦》的相關數據,進行了一波分析。於是,我準備用Python爬取豆瓣上的短評數據以及一些評論時間信息、評價星級信息。2)關於反扒說明對於豆瓣的爬取,其實找到真實的短評連結,是極其容易的。但是這裡有一點我必須說明,你可以不登陸爬取數據,但是只能是操作一段時間,過一段時間,會檢測到你是爬蟲。因此,你一定要登陸後,攜帶cookie去進行數據的爬取。如果你有時候不知道請求頭中,該放一些什麼,那麼就請都加上,等有空再慢慢總結。
  • 分析完110萬+條網易雲評論,我找到了在線寫詩的精髓
    最近在知乎刷到幾個蠻有趣的問題,諸如「網易雲音樂裡有哪些打動你的評論」之類,於是一時興起,寫了一個爬蟲爬取熱門評論來看看它們都傳遞了什麼內容。一、Top30熱評列示將熱評按照點讚數由高到低進行排序,取前30條熱評,這些熱評點讚數均在50萬以上,列示如下:
  • Python爬了下天貓的杜蕾斯評論
    這裡我想要爬取的是杜蕾斯。因此我們直接搜索「杜蕾斯」。由於「杜蕾斯」的賣家有很多,這裡我們只選取頁面的第一個圖片,進行其中的「評論數據」的爬取。  點擊第一個圖片,進入到我們最終想要爬取數據的網頁。可以看到該頁面有很多評論信息,這也是我們想要抓取的信息。
  • 爬取了《悲傷逆流成河》15195 條貓眼數據,滿分好評背後靠的是什麼?
    本篇文章將帶你爬取貓眼電影《悲傷逆流成河》短評,用數據告訴你這部刷屏朋友圈的電影之所以幾乎100%好評背後的數據解讀。測試表分析上面數據變化,可以大致猜測出:offset表示該接口顯示評論開始位置,每個頁面15條,比如:15,則顯示15-30這中間的15條評論; startTime表示當前評論的時間,固定格式(2018-10-
  • 我們分析了2.6萬件胸罩,發現了中國女性內衣的秘密
    1995年,維多利亞的秘密在紐約廣場飯店舉辦了第一場時尚內衣秀,之後的每一年冬季,提到「翅膀」、「夢幻」、「性感」、「天價」、「超模」這些詞,人們都會不由自主的想到維密內衣秀。
  • 一位初中生在B站跳宅舞,引來了6萬條勸學評論!
    短短六天時間,這條視頻已經有410萬的點擊量以及6萬條評論。令人難以置信的是該up主只是一個萌新,該條視頻也只是她的第一條視頻!然而更讓人百思不得其解的是,該視頻6萬條評論有一大半都是中國各大高校官方帳號,並且都有著統一的格式,問題卻是五花八門,有工程、有財經、有農業、有物理、有化學……一眼望下去極為壯觀!
  • 票房和口碑稱霸國慶檔,用 Python 爬取貓眼評論區看看電影《我和我的家鄉》到底有多牛
    從上圖中我們可以看出《我和我的家鄉》在貓眼上目前有 29.6 萬人評分,總體評分 9.3,可以說是一個相當不錯的成績了,本文我們爬取該片的貓眼電影評論,一起分析下這部影片評論區的內容。爬取首先,我們來爬取貓眼電影評論數據,因 PC 端只能看到貓眼上的幾條評論,所以我們要藉助 APP 接口來爬取,接口格式為:http://m.maoyan.com/mmdb/comments/movie/movieid.json?