3天破9億!上萬條評論解讀《西虹市首富》是否值得一看

2021-02-14 書圈

點擊上面圖片，查看Python教學方法

作者介紹：徐麟，目前就職於上海唯品會產品技術中心，哥大統計數據狗，從事數據挖掘&分析工作，喜歡用R&Python玩一些不一樣的數據

個人公眾號：數據森麟（ID:shujusenlin）,知乎同名專欄作者。

前言：

縱觀近幾年的國產電影市場，「開心麻花「似乎已經成為了票房的保證。從《夏洛特煩惱》、《羞羞的鐵拳》到最新上映的《西虹市首富》都引爆了票房。本期我們會根據從貓眼電影網爬取到的上萬條評論為你解讀《西虹市首富》是否值得一看。

數據爬取：

此次數據爬取我們參考了之前其他文章中對於貓眼數據的爬取方法，調用其接口，每次取出部分數據並進行去重，最終得到上萬條評論，代碼如下：

tomato = pd.DataFrame(columns=['date','score','city','comment','nick'])

for i in range(0, 1000):

j = random.randint(1,1000)

print(str(i)+' '+str(j))

try:

time.sleep(2)

url= 'http://m.maoyan.com/mmdb/comments/movie/1212592.json?_v_=yes&offset=' + str(j)

html = requests.get(url=url).content

data = json.loads(html.decode('utf-8'))['cmts']

for item in data:

tomato = tomato.append({'date':item['time'].split(' ')[0],'city':item['cityName'],

'score':item['score'],'comment':item['content'],

'nick':item['nick']},ignore_index=True)

tomato.to_csv('西虹市首富4.csv',index=False)

except:

continue

數據分析：

我們看一下所得到的數據：

數據中我們可以得到用戶的暱稱，方便後面進行去重。後面的部分主要圍繞評分、城市、評論展開。

首先看一下，評論分布熱力圖：

京津翼、江浙滬、珠三角等在各種榜單長期霸榜單的區域，在熱力圖中，依然佔據著重要地位。同時，我們看到東三省和四川、重慶所在區域也有著十分高的熱度，這也與沈騰自身東北人&四川女婿的身份不謀而合（以上純屬巧合，切勿較真）。

下面我們要看的是主要城市的評論數量與打分情況：

打出最高分4.77分的正是沈騰家鄉的省會城市哈爾濱（沈騰出生於黑龍江齊齊哈爾），看來沈騰在黑龍江還是被廣大父老鄉親所認可的。最低分和次低分來自於合肥和鄭州，今後的開心麻花可以考慮引入加強在中部地區的宣傳。

我們按照打分從高到底對城市進行排序：

在評論數量最多的二十個城市中，評分前七名的城市中東北獨佔四席，而分數相對較低的城市中武漢、合肥、鄭州都屬於中部地區，可見不同地區的觀眾對影評的認可程度有著一定差異。

我們把城市打分情況投射到地圖中：（紅色表示打分較高，藍色表示較低）

進一步，我們把城市劃分為評分較高和較低兩部分

較高區域：

較低區域：

可以看到對於「西紅柿」，南北方觀眾的評價存在一定差異，這與每年春晚各個地區收視率似乎有一些吻合知乎。沈騰本身也是春晚的常客，電影中自然會帶一些「春晚小品味」，這似乎可以一定程度上解釋我們得到的結果。

看過了評分，我們看一下評論生成的詞雲圖，以下分別是原圖和據此繪製的詞雲圖：

不知道大家的想法如何，至少在我看到了這樣的詞雲，搞笑、笑點、值得、開心、不錯，甚至是哈哈都會激起我強烈的看片欲望。同時，沈騰也被大家反覆提起多次，可以預見其在片中有著非常不錯的表演，也會一定程度上激發大家看片的欲望。

部分代碼展示：

熱力圖：

tomato_com = pd.read_excel('西虹市首富.xlsx')

grouped=tomato_com.groupby(['city'])

grouped_pct=grouped['score'] #tip_pct列

city_com = grouped_pct.agg(['mean','count'])

city_com.reset_index(inplace=True)

city_com['mean'] = round(city_com['mean'],2)

data=[(city_com['city'][i],city_com['count'][i]) for i in range(0,

city_com.shape[0])]

geo = Geo('《西虹市首富》全國熱力圖', title_color="#fff",

title_pos="center", width=1200,

height=600, background_color='#404a59')

attr, value = geo.cast(data)

geo.add("", attr, value, type="heatmap", visual_range=[0, 200],visual_text_color="#fff",

symbol_size=10, is_visualmap=True,is_roam=False)

geo.render('西虹市首富全國熱力圖.html')

折線圖+柱形圖組合：

city_main = city_com.sort_values('count',ascending=False)[0:20]

attr = city_main['city']

v1=city_main['count']

v2=city_main['mean']

line = Line("主要城市評分")

line.add("城市", attr, v2, is_stack=True,xaxis_rotate=30,yaxis_min=4.2,

mark_point=['min','max'],xaxis_interval =0,line_color='lightblue',

line_width=4,mark_point_textcolor='black',mark_point_color='lightblue',

is_splitline_show=False)

bar = Bar("主要城市評論數")

bar.add("城市", attr, v1, is_stack=True,xaxis_rotate=30,yaxis_min=4.2,

xaxis_interval =0,is_splitline_show=False)

overlap = Overlap()

# 默認不新增 x y 軸，並且 x y 軸的索引都為 0

overlap.add(bar)

overlap.add(line, yaxis_index=1, is_add_yaxis=True)

overlap.render('主要城市評論數_平均分.html')

詞云：

tomato_str = ' '.join(tomato_com['comment'])

words_list = []

word_generator = jieba.cut_for_search(tomato_str)

for word in word_generator:

words_list.append(word)

words_list = [k for k in words_list if len(k)>1]

back_color = imread('西紅柿.jpg') # 解析該圖片

wc = WordCloud(background_color='white', # 背景顏色

max_words=200, # 最大詞數

mask=back_color, # 以該參數值作圖繪製詞雲，這個參數不為空時，width和height會被忽略

max_font_size=300, # 顯示字體的最大值

stopwords=STOPWORDS.add('苟利國'), # 使用內置的屏蔽詞，再添加'苟利國'

font_path="C:/Windows/Fonts/STFANGSO.ttf",

random_state=42, # 為每個詞返回一個PIL顏色

# width=1000, # 圖片的寬

# height=860 #圖片的長

)

tomato_count = Counter(words_list)

wc.generate_from_frequencies(tomato_count)

# 基於彩色圖像生成相應彩色

image_colors = ImageColorGenerator(back_color)

# 繪製詞雲

plt.figure()

plt.imshow(wc.recolor(color_func=image_colors))

plt.axis('off')

票房預估：

最後我們來大膽預估下《西虹市首富》的票房，我們日常在工作中會選取標杆來對一些即將發生的事情進行預估。這次我們選擇的標杆就是《羞羞的鐵拳》：

基於以下幾點我們選擇《羞羞的鐵拳》作為標杆：

均是開心麻花出品、題材相似

演員陣容重合度高

豆瓣粉絲認可程度相似（評分均為6.9，處於喜劇片中位數水平）

貓眼粉絲認可程度相似（鐵拳評分9.1,西紅柿評分9.3）

我們看一下兩部影片前三天的走勢：

前三天兩部片子的票房走勢十分相似，基於之前我們的平均，我們可以嘗試性（比隨機準一點）預測一下「西紅柿」最終的票房。「西紅柿」票房預測值≈「鐵拳」總票房/「鐵拳」前三天票房*「西紅柿」前三天票房=22.13/5.25*8.62≈36，考慮到鐵拳上映是在國慶假期，西紅柿的票房預估需要相應的下調。

綜上所述，我們給出30億票房的預估。大家來和我們一起見證本公眾號「章魚保羅」般神奇的預測的or「球王貝利」般被啪啪打臉的預測。

需要數據集的朋友，在後臺回復【西紅柿數據集下載】，期待大家更多的發現！

本文詳細代碼如下：

"""

Created on Sun Jul 29 09:35:03 2018

@author: dell

"""

## 調用要使用的包

import json

import random

import requests

import time

import pandas as pd

import os

from pyecharts import Bar,Geo,Line,Overlap

import jieba

from scipy.misc import imread # 這是一個處理圖像的函數

from wordcloud import WordCloud, ImageColorGenerator

import matplotlib.pyplot as plt

from collections import Counter

os.chdir('D:/爬蟲/西紅柿')

## 設置headers和cookie

header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win32; x32; rv:54.0) Gecko/20100101 Firefox/54.0',

'Connection': 'keep-alive'}

cookies ='v=3; iuuid=1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; webp=true; ci=1%2C%E5%8C%97%E4%BA%AC; __guid=26581345.3954606544145667000.1530879049181.8303; _lxsdk_cuid=1646f808301c8-0a4e19f5421593-5d4e211f-100200-1646f808302c8; _lxsdk=1A6E888B4A4B29B16FBA1299108DBE9CDCB327A9713C232B36E4DB4FF222CF03; monitor_count=1; _lxsdk_s=16472ee89ec-de2-f91-ed0%7C%7C5; __mta=189118996.1530879050545.1530936763555.1530937843742.18'

cookie = {}

for line in cookies.split(';'):

name, value = cookies.strip().split('=', 1)

cookie[name] = value

## 爬取數據，每次理論上可以爬取1.5W調數據，存在大量重複數據，需要多次執行，最後統一去重

tomato = pd.DataFrame(columns=['date','score','city','comment','nick'])

for i in range(0, 1000):

j = random.randint(1,1000)

print(str(i)+' '+str(j))

try:

time.sleep(2)

url= 'http://m.maoyan.com/mmdb/comments/movie/1212592.json?_v_=yes&offset=' + str(j)

html = requests.get(url=url, cookies=cookie, headers=header).content

data = json.loads(html.decode('utf-8'))['cmts']

for item in data:

tomato = tomato.append({'date':item['time'].split(' ')[0],'city':item['cityName'],

'score':item['score'],'comment':item['content'],

'nick':item['nick']},ignore_index=True)

tomato.to_excel('西虹市首富.xlsx',index=False)

except:

continue

## 可以直接讀取我們已經爬到的數據進行分析

tomato_com = pd.read_excel('西虹市首富.xlsx')

grouped = tomato_com.groupby(['city'])

grouped_pct = grouped['score']

## 全國熱力圖

city_com = grouped_pct.agg(['mean','count'])

city_com.reset_index(inplace=True)

city_com['mean'] = round(city_com['mean'],2)

data=[(city_com['city'][i],city_com['count'][i]) for i in range(0,city_com.shape[0])]

geo = Geo('《西虹市首富》全國熱力圖', title_color="#fff",

title_pos="center", width=1200,height=600, background_color='#404a59')

attr, value = geo.cast(data)

geo.add("", attr, value, type="heatmap", visual_range=[0, 200],

visual_text_color="#fff", symbol_size=10, is_visualmap=True,

is_roam=False)

geo.render('西虹市首富全國熱力圖.html')

## 主要城市評論數與評分

city_main = city_com.sort_values('count',ascending=False)[0:20]

attr = city_main['city']

v1=city_main['count']

v2=city_main['mean']

line = Line("主要城市評分")

line.add("城市", attr, v2, is_stack=True,xaxis_rotate=30,yaxis_min=4.2,

mark_point=['min','max'],xaxis_interval=0,line_color='lightblue',

line_width=4,mark_point_textcolor='black',mark_point_color='lightblue',

is_splitline_show=False)

bar = Bar("主要城市評論數")

bar.add("城市", attr, v1, is_stack=True,xaxis_rotate=30,yaxis_min=4.2,

xaxis_interval =0,is_splitline_show=False)

overlap = Overlap()

# 默認不新增 x y 軸，並且 x y 軸的索引都為 0

overlap.add(bar)

overlap.add(line, yaxis_index=1, is_add_yaxis=True)

overlap.render('主要城市評論數_平均分.html')

## 主要城市評分降序

city_score = city_main.sort_values('mean',ascending=False)[0:20]

attr = city_score['city']

v1=city_score['mean']

line = Line("主要城市評分")

line.add("城市", attr, v1, is_stack=True,xaxis_rotate=30,yaxis_min=4.2,

mark_point=['min','max'],xaxis_interval=0,line_color='lightblue',

line_width=4,mark_point_textcolor='black',mark_point_color='lightblue',

is_splitline_show=False)

line.render('主要城市評分.html')

## 主要城市評分全國分布

city_score_area = city_com.sort_values('count',ascending=False)[0:30]

city_score_area.reset_index(inplace=True)

data=[(city_score_area['city'][i],city_score_area['mean'][i]) for i in range(0,

city_score_area.shape[0])]

geo = Geo('《西虹市首富》全國主要城市打分圖', title_color="#fff",

title_pos="center", width=1200,height=600, background_color='#404a59')

attr, value = geo.cast(data)

geo.add("", attr, value, visual_range=[4.4, 4.8],

visual_text_color="#fff", symbol_size=15, is_visualmap=True,

is_roam=False)

geo.render('西虹市首富全國主要城市打分圖.html')

## 前三天票房對比

piaofang = pd.read_excel('票房.xlsx')

attr1 = piaofang[piaofang['film']=='西虹市首富']['day']

v1= piaofang[piaofang['film']=='西虹市首富']['money']

attr2 = piaofang[piaofang['film']=='羞羞的鐵拳']['day']

v2= piaofang[piaofang['film']=='羞羞的鐵拳']['money']

line = Line("前三天票房對比")

line.add("西紅柿首富", attr1, v1, is_stack=True)

line.add("羞羞的鐵拳", attr2, v2, is_stack=True)

line.render('前三天票房對比.html')

## 繪製詞雲

tomato_str = ' '.join(tomato_com['comment'])

words_list = []

word_generator = jieba.cut_for_search(tomato_str)

for word in word_generator:

words_list.append(word)

words_list = [k for k in words_list if len(k)>1]

back_color = imread('西紅柿.jpg') # 解析該圖片

wc = WordCloud(background_color='white', # 背景顏色

max_words=200, # 最大詞數

mask=back_color, # 以該參數值作圖繪製詞雲，這個參數不為空時，width和height會被忽略

max_font_size=300, # 顯示字體的最大值

font_path="C:/Windows/Fonts/STFANGSO.ttf", # 解決顯示口字型亂碼問題，可進入C:/Windows/Fonts/目錄更換字體

random_state=42, # 為每個詞返回一個PIL顏色

)

tomato_count = Counter(words_list)

wc.generate_from_frequencies(tomato_count)

# 基於彩色圖像生成相應彩色

image_colors = ImageColorGenerator(back_color)

# 繪製結果

plt.figure()

plt.imshow(wc.recolor(color_func=image_colors))

plt.axis('off')

-END-

開講了！

全國高校Python數據分析課程高級研修班

（11月3-4日武漢）

課程目標

掌握Python語言基礎和編程方法，以及Python與其他語言的異同。

以Web新聞頁面的採集、內容提取、處理及分析為應用案例和主線，掌握網際網路大數據處理的關鍵技術和整個處理流程，使得參加培訓的教師具備網際網路大數據處理技術的知識體系。

學習掌握Web頁面採集的爬蟲技術架構及其Python實現方法，學習Web信息提取的技術原理，並掌握利用若干開源框架進行Web提取的方法。使參加培訓的教師可以開設Web大數據採集的專業核心課程，並具備網際網路大數據處理技術相關課程的實驗設計能力。

3天破9億!上萬條評論解讀《西虹市首富》是否值得一看

相關焦點

單日票房最快破3億的5部電影,西虹市首富墊底,第一名首日破5億

6天13億，《西虹市首富》票房能超《戰狼2》嗎？

西虹市首富票房破4億,王力宏驚喜亮相讓觀眾驚呼

西虹市首富沒了馬麗依舊火熱,2天創下3億票房,他倆是最大贏家

喜歡西虹市首富很丟人嗎?

《西虹市首富》口碑崩盤,豆瓣評分低至6.3,網友稱:low出新高度

1.5億成本,《西虹市首富》票房預計32億!開心麻花又穩了?

《西虹市首富》破13億,被罵得最慘的竟是她?網友:百思不得其解

《西虹市首富》火遍朋友圈背後:如果送給你10個億……

《西虹市首富》:錢是王八蛋卻「冒著」夢想的綠光

《西虹市首富》：王力宏客串3分鐘100萬片酬，那麼巴菲特要多少呢

《西虹市》周吸11億 10天突破20億影史排位第9

西虹市首富票房破12億,二爺二奶原來有這樣的感情線

五店市:原就是首富的西虹市啊.

電影《西虹市首富》,快餐式電影值得一看嗎?

首周票房近9億,《西虹市首富》成暑期檔名副其實的票房滅霸,專業預測總票房:26.30億

《西虹市首富》發插曲《需要人陪》王力宏唱出首富的秘密心事

《西虹市首富》口碑兩極化,因為它終於治了《藥神》的病!

沈騰的分水嶺，就是這部25.7億的《西虹市首富》

《西虹市首富》上映4天接近10億諷刺現實遠比喜劇更戳痛點

3天破9億!上萬條評論解讀《西虹市首富》是否值得一看

相關焦點

單日票房最快破3億的5部電影,西虹市首富墊底,第一名首日破5億

6天13億，《西虹市首富》票房能超《戰狼2》嗎？

西虹市首富票房破4億,王力宏驚喜亮相讓觀眾驚呼

西虹市首富沒了馬麗依舊火熱,2天創下3億票房,他倆是最大贏家

喜歡西虹市首富很丟人嗎?

《西虹市首富》口碑崩盤,豆瓣評分低至6.3,網友稱:low出新高度

1.5億成本,《西虹市首富》票房預計32億!開心麻花又穩了?

《西虹市首富》破13億,被罵得最慘的竟是她?網友:百思不得其解

《西虹市首富》火遍朋友圈背後:如果送給你10個億……

《西虹市首富》:錢是王八蛋 卻「冒著」夢想的綠光

《西虹市首富》：王力宏客串3分鐘100萬片酬，那麼巴菲特要多少呢

《西虹市》周吸11億 10天突破20億影史排位第9

西虹市首富票房破12億,二爺二奶原來有這樣的感情線

五店市:原就是首富的西虹市啊.

電影《西虹市首富》,快餐式電影值得一看嗎?

首周票房近9億,《西虹市首富》成暑期檔名副其實的票房滅霸,專業預測總票房:26.30億

《西虹市首富》發插曲《需要人陪》 王力宏唱出首富的秘密心事

《西虹市首富》口碑兩極化,因為它終於治了《藥神》的病!

沈騰的分水嶺，就是這部25.7億的《西虹市首富》

《西虹市首富》上映4天接近10億 諷刺現實遠比喜劇更戳痛點

《西虹市首富》:錢是王八蛋卻「冒著」夢想的綠光

《西虹市首富》發插曲《需要人陪》王力宏唱出首富的秘密心事

《西虹市首富》上映4天接近10億諷刺現實遠比喜劇更戳痛點