Python爬取10529條《三十而已》熱評,看看大家都說了些啥

2020-08-27 愛數據網

文末領取【pandas題庫】

上篇文章→:3個套路帶你玩轉Excel動態圖表

繼《隱秘的角落》後,又一部「爆款劇」——《三十而已》獲得了口碑收視雙豐收,王漫妮、顧佳、鍾曉芹三個女主角的故事線頻頻登上微博熱搜。該劇於2020年7月17日在東方衛視首播,並在騰訊視頻同步播出。為了了解吃瓜群眾們對這部劇的看法,我爬了爬騰訊視頻關於這部劇的評論,並做了簡單文本可視化分析。

01 數據獲取

1.分析評論頁面

騰訊視頻評論要點擊查看更多評論才能加載更多數據,很明顯是一個動態網頁,評論內容使用了Ajax動態加載技術。因此,我們需要找到真實URL,然後再請求數據。

找到真實URL其實不難,按照以下步驟即可找到。當然,你也可以使用抓包工具fiddler,同樣可以輕鬆找到。

2.尋找參數規律

我們多刷新幾次,找幾個真實的URL看看這些參數有什麼變化。下圖是我刷新了3次得到的真實的URL:

第1次刷新:https://video.coral.qq.com/varticle/5572751505/comment/v2?callback=_varticle5572751505commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6689895369036463828&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=132&_=1595994099261

第2次刷新:https://video.coral.qq.com/varticle/5572751505/comment/v2?callback=_varticle5572751505commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6689950633282796870&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=132&_=1595994099262

第3次刷新:https://video.coral.qq.com/varticle/5572751505/comment/v2?callback=_varticle5572751505commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6690046095919619518&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=132&_=1595994099263

很顯然,只有cursor=?和_=?有變化,_=?為公差為1的等差數列,而cursor=?貌似沒有什麼規律。根據以往經驗,這類參數有可能藏在上一個真實URL中。我們嘗試將第1個URL在瀏覽器中打開,然後搜索第2個真實URL的中的cursor值。

還真有!一般情況下,我們還要多試幾次,對我們的猜想進行驗證。既然規律已經找到,接下來就很簡單了。限於篇幅,以下給出部分代碼:

def main: 初始待刷新頁面的cursor=? lastId="0" for i in range(1,1000): time.sleep(1) html = get_content(page,lastId) 獲取下一輪刷新頁ID lastId=get_lastId(html) page += 1

if __name__ == '__main__': main

02 數據處理

1.導入相關包

分詞庫import jiebaimport re 繪製詞雲圖text1 = get_cut_words(content_series=df1['評論內容'])stylecloud.gen_stylecloud(text=' '.join(text1), max_words=1000, collocations=False, font_path='演示悠然小楷.ttf', icon_name='fas fa-heart', size=653, palette='matplotlib.Inferno_9', output_name='./評論.png')Image(filename='./評論.png')

通過對一萬多條熱評內容繪製詞雲圖,我們很容易看出大家對《三十而已》的喜歡,以及對主要角色和演員的關注。家庭與工作如何兼得?婚姻與愛情如何共處這些問題都被廣大觀眾所熱議。

2.評論類型分布

df2 = df1.groupby('評論類型')['評論內容'].countdf2 = df2.sort_values(ascending=False)regions = df2.index.to_listvalues = df2.to_listc = ( Pie(init_opts=opts.InitOpts(theme=ThemeType.CHALK)) .add("", zip(regions,values),radius=["40%", "70%"]) .set_global_opts(title_opts=opts.TitleOpts(title="評論類型佔比",subtitle="數據來源:騰訊視頻",pos_top="2%",pos_left = 'center')) .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%",font_size=18)) )c.render_notebook

從評論類型來看,以短評居多,佔比72.52%。另外,有4.15%的評論者給出了50字以上的評論,表達出自己對《三十而已》的獨到見解。

3.演員角色提及

df3 = df1.iloc[:,2:].sum.reset_index.sort_values(0,ascending = True)df3.columns = ['角色','次數']df3['佔比'] = df3['次數'] / df3['次數'].sum

c = ( Bar(init_opts=opts.InitOpts(theme=ThemeType.CHALK)) .add_xaxis(df3['角色'].to_list) .add_yaxis("",df3['次數'].to_list).reversal_axis 更改橫坐標字體大小 yaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(font_size=16)), #更改縱坐標字體大小 ) .set_series_opts(label_opts=opts.LabelOpts(font_size=16,position='right')) )c.render_notebook

童瑤及其飾演的顧佳被評論者提及的次數最多,都超過500次。江疏影,人氣也較高,獲得了300多次的評論。王漫妮和鍾曉芹提及次數相對少一些,隨著劇情的推進應該會有所提升。

4.對王漫妮的評論

王漫妮是眾人眼中的標準都市女性,大家普遍認為她長得好看又努力上進,甚至有人覺得她是完美的存在。身為櫃姐的她對顧客進行極致化服務,卻遭到現實的嘲諷。感情上,想要好好過日子的她卻遇到不該遇到的男人。

5.對顧佳的評論

顧佳作為一名全職太太,在觀眾看來是個優秀的居家女人。雙商在線能力強,將自己的孩子和丈夫的公司都打理得井井有條。與此同時,幸福的生活出現了入侵者,顧佳沒有被現實打倒,勇敢應戰。另外,顧佳因為長得像章子怡,也被眾多觀眾所提及。

6.對鍾曉芹的評論

鍾曉芹被認為是標準化的大多數,嫁給事業單位鐵飯碗的男人,安心做一個平凡妻子,過一個普通生活。卻因寫作愛好偶然賣出高價版權,家庭情況變得複雜,鍾曉芹面臨艱難抉擇。

04

聲明

  • 本數據分析只做學習研究之用途,評論數據範圍為第一集,提供的結論僅供參考

  • 作者與騰訊視頻無任何瓜葛,只是他家評論數據比較全面,大家也可以去豆瓣看看

  • 作者對影視行業了解甚微,相關描述可能存在不盡完善之處,請勿對號入座

長按下方海報添加微信領取【pandas題庫】

↓↓↓文末點擊閱讀原文獲取直播連結↓↓↓

· 愛數據每周免費直播 ·

直播主題:數據分析面試:如何應對業務問題

直播內容:

  • 數據分析師業務問題分類

  • 業務面問題舉例

  • 回答業務面的要點以及策略

  • 題目1:網站銷售額下降專題分析

  • 題目2:用戶流失專題分析

直播時間:8月6日周四20:30準時直播分享

球分享

球在看

相關焦點

  • Python分析《哈哈哈哈哈》47687條彈幕,看看大家都在說些啥!
    作為首個雙平臺聯播的超級網綜,給廣大觀眾帶來了無限歡樂,妥妥登上了綜藝熱搜榜第一。本文通過爬取騰訊視頻《哈哈哈哈哈》47687條彈幕,進行可視化分析和情感分析,完整代碼後臺回復「哈哈哈哈哈」即可自動獲取。《哈哈哈哈哈》目前已播出10期,本文爬取了第10期上下兩篇彈幕。
  • Python爬取某個18禁網站的電影資源
    最近在想著爬一些有趣的網站,豆瓣淘寶京東,這些網站大多都被爬爛了,然後就想著爬點簡單點的,例如某色網站啥的是吧,男生一般都會有幾個自己知道的網站
  • python爬取44130條用戶觀影數據,分析挖掘用戶與電影之間的隱藏信息!
    大家都在外奔波了一年,今天是除夕,大家也可以回家放鬆放鬆,陪陪家人,我在這裡祝看到這篇文章的朋友除夕快樂!同時也感謝大家對我的支持,新的一年裡我將持續輸出優質文章。明天就是大年初一,很多電影也上映,看電影前很多人都喜歡去『豆瓣』看影評,所以我爬取44130條『豆瓣』的用戶觀影數據,分析用戶之間的關係,電影之間的聯繫,以及用戶和電影之間
  • python爬蟲實戰:爬取全站小說排行榜
    新筆趣閣是廣大書友最值得收藏的網絡小說閱讀網,網站收錄了當前.我就不打廣告了(其他滿足下文條件的網站也行,之前已經有做過簡單爬取章節的先例了,但效果不太理想,有很多不需要的成分被留下了,來連結:http://python.jobbole.com
  • 用Python爬取糗事百科段子,可視化後結果發現
    大家好,我是小五🐶生活真是太苦了,需要找點快樂的精神食糧支撐社畜生活,聽說糗事百科段子挺多,今天就來看一看!selenium爬取段子信息這次我們利用selenium來實現翻頁爬取段子信息!).text   # 評論數        sheet.append([con, funny_num, comment_num])        logging.info([con, funny_num, comment_num])if __name__ == '__main__':    for i in range(1, 14):    # 翻頁爬取
  • Python爬取並分析 201865 條《隱秘的角落》彈幕
    今天我們就來用Python爬一爬這部熱門劇的彈幕,看看大家都在聊什麼?由於《隱秘的角落》是在愛奇藝獨播,所以數據從愛奇藝下手最直接。除了愛奇藝,可以考慮使用豆瓣、微博、知乎(電視劇數據分析 · 萬能三件套)的數據。
  • Python 爬取 394452 條《都挺好》彈幕數據,發現彈幕比劇還精彩?
    狂野男孩大強下線的第三天,想他,想他,想他……最近《都挺好》真的挺火。火到什麼程度?微博熱搜霸榜,辦公室評彈聲四起,大強輕鬆攻佔表情包,甚至連 N 年不追劇的「瘦宅」們也開始沉迷其中,大呼真香。劇很精彩,但追劇界有句俗話說得好:「彈幕往往比劇更精彩」,為了讓精彩延續下去,我終究沒能忍住對(騰訊視頻)彈幕下手。
  • Python爬取冰冰B站評論
    Python爬取 ==冰冰== 第一條B站視頻的千條評論,繪製詞雲圖,看看大家說了什麼吧醬醬醬,那就開始吧==B站當日彈幕獲取== 冰冰B站視頻彈幕爬取原理解析在這裡插入圖片描述解析數據大家可以將獲取的json 接下來就是正式的爬取工作了,和爬取百度圖片原理一樣,自己試試吧。
  • Python到底是個啥?為什麼這麼多人都要學?
    Hello,大家好,我是橘子呀~從今天開始跟大家一起學習Python,之後會不定期更新Python的相關文章。言歸正傳,今天我想跟大家分享一下python是什麼以及學習python對你有什麼幫助。一定要耐心看完喲~ 或許對現在的你有一定的啟發。
  • 用python實現一個豆瓣通用爬蟲(登陸、爬取、可視化分析)
    然而我所在的組剛好遇到的是python爬蟲的小課題。心想這不是很簡單嘛,搞啥呢?想著去搞新的時間精力可能不太夠,索性自己就把豆瓣電影的評論(短評)搞一搞吧。之前有寫過哪吒那篇類似的,但今天這篇要寫的像姨母般詳細。本篇主要實現的是對任意一部電影短評(熱門)的抓取以及可視化分析。
  • Python 爬取 201865 條《隱秘的角落》彈幕,發現看劇不如爬山?
    如果你沒看過,那可能會對朋友圈裡大家說的「一起去爬山」、「小白船」、「還有機會嗎」感到莫名其妙。暑期推薦旅遊(來源微博)小五在這個端午假期也趕緊刷完了本劇,必須要寫篇文章了。由於《隱秘的角落》是在愛奇藝獨播,所以數據從愛奇藝下手最直接。
  • python爬蟲教程,爬取貓眼電影 ,一網打盡好電影
    點擊藍字「python
  • 手把手教你用Python爬中國電影票房數據
    以上面的字典為例,想要快速知道周杰倫的年齡,就可以這麼寫:dict內部存放的順序和key放入的順序是沒有關係的,也就是說,"章澤天"並非是在"劉強東"的後面。DataFrame:DataFrame可以簡單理解為Excel裡的表格格式。
  • 人生苦短,我用Python
    2017年python排第一也無可爭議,比較AI第一語言,在當下人工智慧大數據大火的情況下,python無愧第一語言的稱號,至於C、C++、java都是萬年的老大哥了,在代碼量比較方面,小編相信java肯定是完爆其它語言的。
  • 我爬取了6萬條《重啟》的評論,發現了這些秘密
    》,讓盜墓題材的影視劇再次熱起來,這股熱乎勁還沒過去多久,緊接著,這些天,又另一盜墓小說《盜墓筆記》改編的電視劇《重啟之極海聽雷》又跟大家見面了。今天小編就帶領大家來爬取一下大家對這部劇的評論,看一下大家是如何看待這部電視劇的。
  • Python 爬取周杰倫《Mojito》MV 彈幕,這個評論亮了!
    好了回歸到正題,既然這首歌大家反應這麼大,那麼大家都是怎麼評論這首歌曲的呢?我們爬取了B站上面的彈幕數據,看看粉絲們都說了什麼。B站彈幕的爬取B站的網頁確實變化的很快,我還記得5月份的時候,彈幕的接口數據還找得到。然而今天我找了好久都沒有找到,難道是今天的狀態不行?沒關係,在網頁中雖然沒找的這個彈幕數據的接口,但是我們之前找到了,我們直接拿過來用就好了。
  • Python爬取視頻之日本愛情電影(嘿嘿嘿)
    上周我的好朋友狗子和我哭訴說自己常用的一個VPN終於也壽終正寢了,要和眾多的日本小姐姐說再見了。作為「外面人」,我還是要幫他一把……初探狗子給我的網站還算良心,只跳了五個彈窗就消停了。 然後看到的就是各種穿不起衣服的女生的賣慘視頻,我趕緊閉上眼睛,默念了幾句我佛慈悲。 Tokyo真的有那麼hot?
  • 票房和口碑稱霸國慶檔,用 Python 爬取貓眼評論區看看電影《我和我的家鄉》到底有多牛
    從上圖中我們可以看出《我和我的家鄉》在貓眼上目前有 29.6 萬人評分,總體評分 9.3,可以說是一個相當不錯的成績了,本文我們爬取該片的貓眼電影評論,一起分析下這部影片評論區的內容。爬取首先,我們來爬取貓眼電影評論數據,因 PC 端只能看到貓眼上的幾條評論,所以我們要藉助 APP 接口來爬取,接口格式為:http://m.maoyan.com/mmdb/comments/movie/movieid.json?
  • Python 分析到底是誰操縱《慶餘年》上了熱搜?
    慶餘年電視劇終於在前兩天上了,這兩天趕緊爬取數據看一下它的表現
  • Node.js爬蟲實戰 - 爬你喜歡的
    前言今天沒有什麼前言,就是想分享些關於爬蟲的技術,任性。來吧,各位客官,裡邊請...開篇第一問:爬蟲是什麼嘞?