Python告訴你:從《入海》到《消愁》毛不易的歌裡都在唱些什麼?

2020-12-12 CDA數據分析師

【導語】：今天我們來聊聊——B站聯合毛不易發布的畢業季主題曲《入海》，以及背後不一樣的毛不易。Python技術部分請看第三部分。

Show me data，用數據說話！今天我們聊一聊毛不易的《入海》，沒錯，還是那個B站，在520這個既浪漫且有營銷價值的一天又「搞事情」了。

5月20日， B站聯合毛不易發布畢業季主題曲《入海》。這首歌主題是「獻給即將或已經畢業的人們」，歌曲MV中以主人公畢業的時候為原點，追憶過去，並用大量篇幅展現普通人畢業後的社會生活。

這首歌一經發布就在B站引爆了話題點，截止到5月24日在B站播放量達到了800萬+，收穫了5.2萬彈幕，最高全站日排行1名。

今天我們就帶你來解讀這首《入海》，以及背後不一樣的毛不易。

01、毛不易的歌裡，都喜歡唱些什麼？

毛不易，本名王維家。本來畢業於杭州師範大學護理專業的他一直有個歌手夢。在2017年，參加騰訊視頻選秀音樂娛樂節目《明日之子》，獲得全國總決賽冠軍，從而正式進入演藝圈。誰又能想到最後拿到冠軍是這個長相平平，沒有什麼優勢，甚至有點害羞憨厚的毛不易了。

隨著《消愁》《像我這樣的人》等歌曲的大火，毛不易這個名字也被越來越多的人知曉。同時在今年鵝廠的女團選秀節目《創造營2020》中，毛不易更是以導師的身份加入，呆萌的毛老師這次也收穫了不少的粉絲。

聽著《消愁》裡的「一杯敬朝陽，一杯敬月光「，大概是因為才華，毛不易在這個年紀能寫出人生的無奈和糾葛，這是一種大的勇氣。

那麼毛不易的歌裡都在唱些什麼呢？下面讓我們來盤一盤：

我們分析整理了毛不易在網易雲音樂的歌曲，一共83首，歌詞字數加起來45577字，我們用Python對這些歌詞進行分析。

歌曲時長分布

首先在歌曲時長方面，時長為4-5分鐘的最多高達43.9%，3-4分鐘為29.27%，2-3分鐘的為13.41%。要知道一般歌曲時長多為3分鐘左右，看來毛不易的歌時長還是偏長的。

歌曲正向情感得分

我們使用boson庫對每首歌的歌詞的情感進行打分，分數介於0～100分，高於50分為積極，分數越高，積極傾向性越高。從分布圖可以看出，在83首歌曲中，大部分的歌曲正向積極情感為主。

毛不易最喜歡的詞TOP15

毛不易最喜歡的歌裡最喜歡用哪些詞呢？我們分析整理得出了歌詞中出現頻率最高的TOP15。可以看到"等待"、"生活"、"時光"等詞出現頻率最高，位列前三。

"慢慢"、"遇見"、"江水"、"角落"等比較文藝的詞也上榜了。有意思的是"有錢"出現頻率也較高，位列第四。

02、《入海》全站日排名第一，這首獻給畢業季的歌好在哪兒？

我們使用Python獲取並分析了B站上《入海》這首MV的評論數據，經過去重之後得到19099條樣本，下面讓我們看到評論的具體分析。

評論用戶性別佔比

首先，在評論用戶性別佔比方面，男性用戶佔比略高，男性用戶佔比54.69%，女性用戶佔比45.31%。

評論用戶客戶端分布

那麼看《入海》的用戶在看視頻時都用的什麼行動裝置呢？經過分析發現，用iphone的用戶佔了很大的比例，遠超Andrio系統的用戶。第三位是使用ipad的用戶。

評論用戶等級分布

同時我們知道，b站上用戶因為參與程度等因素，等級從0-6分布，數字越大等級越高。在《入海》這首歌的評論用戶上，評論中5級的佔比最高為36.1%，其次是4級佔比26.31%，6級佔比僅為3.24%，這也是因為畢竟要成為六級大佬實在太難了。

各時段評論人數

在評論時間段方面，《入海》是在5月20日 8:30發布的，在發布後評論的人數越來越多，在12點左右評論達到最高峰，這個時段共有2萬7千餘人進行評論，遠高於其他時段，之後隨著時間推移評論人數也越來越少，趨於平緩。

評論關鍵詞TOP15

在評論中大家說得最多的是什麼呢？

經過分析整理可以看到，"畢業"是提到最多的詞，其次第二位是"後浪"，畢竟作為同樣聚焦在年輕人身上的話題，這次的《入海》很容易讓大家聯繫到5月4日B站發布的《後浪》視頻。

同時，"快樂"、"入海"、"大哭"等詞也被頻頻提到。

03、Python分析：B站《入海》評論數據

我們使用Python獲取並分析了B站上《入海》這首MV的評論數據。經過去重之後得到19099條樣本，來分析一下這周MV的用戶的評論信息。整個分析流程分為以下幾步：

數據獲取數據整理數據可視化

數據獲取

在獲取視頻評論之前，我們首要做的就是分析其網頁結構，尋找目標數據，也就是我們要評論的數據在哪裡。

經過抓包分析，在network-json選項卡下，很容易找到了數據傳輸的地址，經過分析和精簡，目標數據的url連結為：

https://api.bilibili.com/x/v2/reply?&type=1&oid=795637027&pn=1

其中oid是視頻的專屬oid,pn是頁面數。

由上圖可看出，其評論數據是以json數據形式存在於網頁端的，目前顯示的頁數是976頁，每頁20條評論，追評數據暫時不做抓取。

接下來，就爬取思路很明確，從第一頁的JSON文件開始，爬完20條評論，循環pn頁數，直到爬完所有的評論數據。

代碼如下：

# 導入所需包import requestsimport jsonimport pandas as pdimport timedef get_bili_comment_one(url): """ 功能：定義函數，獲取一頁的信息 """ # 添加headers headers = { 'Host': 'api.bilibili.com', 'Referer': 'https://www.bilibili.com/video/BV1YZ4y1j7s5', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.149 Safari/537.36' } # 添加cookies cookies = { "cookie": "複製您的瀏覽器cookie信息" } # 發起請求 try: r = requests.get(url, headers=headers, cookies=cookies, timeout=3) except Exception as e: print(e) r = requests.get(url, headers=headers, cookies=cookies, timeout=3) # 解析為字典 r_json = json.loads(r.text) # 提取信息 replies_data = r_json['data']['replies'] # 用戶名 user_name = [i['member'].get('uname') for i in replies_data] # 性別 sex = [i['member'].get('sex') for i in replies_data] # 籤名 sign = [i['member'].get('sign') for i in replies_data] # 用戶等級 current_level = [i['member']['level_info'].get('current_level') for i in replies_data] # 評論內容 content = [i['content'].get('message') for i in replies_data] # 用戶設備 device = [i['content'].get('device') for i in replies_data] # 評論時間 content_time = [i.get('ctime') for i in replies_data] # 回複數 reply_count = [i['rcount'] for i in replies_data] # 存儲數據 df = pd.DataFrame({ 'user_name': user_name, 'sex': sex, 'sign': sign, 'current_level': current_level, 'content': content, 'device': device, 'content_time': content_time, 'reply_count': reply_count }) return dfdef get_bili_comment_all(oid, num): """ 功能：定義函數，獲取B站視頻指定頁評論信息 """ # 循環構建URL df_all = pd.DataFrame() for page_num in range(1, num): try: # 構建URL url = 'https://api.bilibili.com/x/v2/reply?&pn={}&type=1&oid={}&sort=2'.format(page_num, oid) # 調用函數 df = get_bili_comment_one(url) # 判斷 if df.shape[0] == 0: break else: # 循環追加 df_all = df_all.append(df, ignore_index=True) # 列印進度 print('我正在獲取第{}頁的信息'.format(page_num)) except: break # 休眠一秒 time.sleep(0.5) return df_all# 《入海》bilibili X 毛不易 | 躍入人海，各有風雨燦爛df = get_bili_comment_all(oid='795637027', num=973)

獲取到的數據以DataFrame的形式存儲，格式如下：

# 讀入數據df.head()

數據集有19099個樣本，8個欄位，欄位名稱為：用戶名、用戶性別、用戶籤名、用戶等級、用戶評論、設備名稱、評論時間、點讚數。

df.info()

<class 'pandas.core.frame.DataFrame'>RangeIndex: 19099 entries, 0 to 19098Data columns (total 8 columns):user_name 19099 non-null objectsex 19099 non-null objectsign 9896 non-null objectcurrent_level 19099 non-null int64content 19099 non-null objectdevice 4159 non-null objectcontent_time 19099 non-null int64reply_count 19099 non-null int64dtypes: int64(3), object(5)memory usage: 1.2+ MB

數據整理

此處我們主要對以上獲取的數據集進行部分清洗工作以方便後續的處理：

重複值處理類型轉化時間戳數據處理評論數據jieba分詞處理-（代碼暫略）

# 導入包import numpy as np import pandas as pd# 讀入數據df = pd.read_excel('../data/B站評論數據-入海5.23.xlsx')# 去重df = df.drop_duplicates()# 轉換類型df['content'] = [str(i) for i in df.content] # 定義轉換時間def transform_timestamp(time_second): timeArray = time.localtime(time_second) otherStyleTime = time.strftime('%Y-%m-%d %H:%M:%S', timeArray) return otherStyleTime# 提取時間df['content_time'] = df['content_time'].apply(lambda x:transform_timestamp(x))

數據可視化分析

我們將進行以下部分的數據可視化分析，首先導入所需包，其中pyecharts用於繪製動態圖形，stylecloud用於繪製詞雲圖，關鍵代碼如下：

from pyecharts.charts import Bar, Pie, Line, WordCloud, Pagefrom pyecharts import options as opts from pyecharts.globals import SymbolTypeimport stylecloudfrom IPython.display import Image

評論性別佔比

# 總體評分分布sex_num = df['sex'].value_counts()sex_num.drop('保密', inplace=True) # 繪製餅圖data_pair = [list(z) for z in zip(sex_num.index.tolist(), sex_num.values.tolist())]# 繪製餅圖pie1 = Pie(init_opts=opts.InitOpts(width='1350px', height='750px'))pie1.add('', data_pair, radius=['35%', '60%'])pie1.set_global_opts(title_opts=opts.TitleOpts(title='評論用戶性別佔比'), legend_opts=opts.LegendOpts(orient='vertical', pos_top='15%', pos_left='2%'))pie1.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{d}%"))pie1.set_colors(['#EF9050', '#3B7BA9', '#6FB27C'])pie1.render()

用戶客戶端分布

device_num = df.device.value_counts(ascending=True) # 柱形圖bar1 = Bar(init_opts=opts.InitOpts(width='1350px', height='750px'))bar1.add_xaxis(device_num.index.tolist())bar1.add_yaxis('', device_num.values.tolist(), label_opts=opts.LabelOpts(position='right'))bar1.set_global_opts(title_opts=opts.TitleOpts(title='評論客戶端分布'), visualmap_opts=opts.VisualMapOpts(max_=3000))bar1.reversal_axis()bar1.render()

用戶等級分布

# 用戶等級level_num = df.current_level.value_counts()data_pair2 = [list(z) for z in zip(['LV' + i for i in level_num.index.astype('str').tolist()] , level_num.values.tolist())]# 繪製餅圖pie2 = Pie(init_opts=opts.InitOpts(width='1350px', height='750px'))pie2.add('', data_pair=data_pair2, radius=['35%', '60%'])pie2.set_global_opts(title_opts=opts.TitleOpts(title='評論用戶等級分布'), legend_opts=opts.LegendOpts(orient='vertical', pos_top='15%', pos_left='2%'))pie2.set_series_opts(label_opts=opts.LabelOpts(formatter="{b}:{c}({d}%)"))pie2.set_colors(['#EF9050', '#3B7BA9', '#6FB27C', '#FFAF34'])pie2.render()

評論時間走勢圖

# 時間數據處理df['time'] = df.content_time.str.split('-').str[1] + '-' + df.content_time.str.split('-').str[2]df['time'] = df.time.str.split(':').str[0]time_num = df.time.value_counts().sort_index()# 產生數據x1_line1 = time_num.index.values.astype('str').tolist()y1_line1 = time_num.values.tolist() # 繪製面積圖line1 = Line(init_opts=opts.InitOpts(width='1350px', height='750px'))line1.add_xaxis(x1_line1)line1.add_yaxis('', y1_line1, areastyle_opts=opts.AreaStyleOpts(opacity=0.3), markpoint_opts=opts.MarkPointOpts(data=[ opts.MarkPointItem(type_='max', name='最大值') ])) line1.set_global_opts(title_opts=opts.TitleOpts('各個時段評論人數'), xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate='30')) ) line1.set_series_opts(label_opts=opts.LabelOpts(is_show=False), axisline_opts=opts.AxisLineOpts() )line1.render()

評論詞雲圖

import stylecloudfrom IPython.display import Image # 用於在jupyter lab中顯示本地圖片stylecloud.gen_stylecloud(text=' '.join(word_num), # txt需要傳入str格式 collocations=False, font_path=r'C:\Windows\Fonts\msyh.ttc', icon_name='fas fa-graduation-cap', size=768, output_name='B站評論詞雲圖.png')Image(filename='B站評論詞雲圖.png')

CDA數據分析師出品

作者：Mika

數據：真達

後期：澤龍、Mika

Python告訴你:從《入海》到《消愁》毛不易的歌裡都在唱些什麼?

相關焦點

毛不易備受好評的6首歌曲,除了《消愁》和《借》,你還聽過幾首

毛不易:在囈語中感慨人生,在消愁中淹沒愁緒,在不染中洗盡鉛華

其貌不揚的毛不易,為什麼能寫出消愁等走心的歌曲

毛不易:只是剛好那500位評審團裡沒有薛之謙罷了

毛不易:《明日之子》冠軍出道,一曲《消愁》刷爆朋友圈,他真牛

毛不易《入海》歌詞完整 b站入海是什麼意思毛不易入海觀看地址

毛不易,求求你,別唱《一葷一素》了!|百家故事

毛不易一首《入海》再走紅,歌詞再現《像我這樣的人》的歲月如歌

毛不易為何能連當兩屆導師?

毛不易很真實很現實,不刻意表達正能量,寫的歌打動人心

毛不易最火的三首歌是哪三首?毛不易最好聽的歌曲推薦

從明日之子到歌手當打之年,毛不易一直都是贏家……

毛不易的「底色悲涼」,希望你永遠聽不懂

歌手兩次被淘汰,不擅長說話的毛不易怎麼就成了綜藝界新的寵兒?

毛不易的歌曲為啥那麼牛?這幾點會給你答案

母親去世,毛不易再不做男護士,《一葷一素》唱盡世間慈母情

88位明星合作新歌《一直到黎明》:王一博、李宇春、毛不易、何炅

毛不易《歌手》遭淘汰,但溫柔又深情的歌者,我記住你了

毛不易新歌43分鐘引轟動《小王日記》超長串燒唱到了網友心坎裡

終於知道為什麼毛不易火了,原來他每首歌裡都藏著自己的經歷

Python告訴你:從《入海》到《消愁》毛不易的歌裡都在唱些什麼?

相關焦點

毛不易備受好評的6首歌曲,除了《消愁》和《借》,你還聽過幾首

毛不易:在囈語中感慨人生,在消愁中淹沒愁緒,在不染中洗盡鉛華

其貌不揚的毛不易,為什麼能寫出消愁等走心的歌曲

毛不易:只是剛好那500位評審團裡沒有薛之謙罷了

毛不易:《明日之子》冠軍出道,一曲《消愁》刷爆朋友圈,他真牛

毛不易《入海》歌詞完整 b站入海是什麼意思 毛不易入海觀看地址

毛不易,求求你,別唱《一葷一素》了!|百家故事

毛不易一首《入海》再走紅,歌詞再現《像我這樣的人》的歲月如歌

毛不易為何能連當兩屆導師?

毛不易很真實很現實,不刻意表達正能量,寫的歌打動人心

毛不易最火的三首歌是哪三首?毛不易最好聽的歌曲推薦

從明日之子到歌手當打之年,毛不易一直都是贏家……

毛不易的「底色悲涼」,希望你永遠聽不懂

歌手兩次被淘汰,不擅長說話的毛不易怎麼就成了綜藝界新的寵兒?

毛不易的歌曲為啥那麼牛?這幾點會給你答案

母親去世,毛不易再不做男護士,《一葷一素》唱盡世間慈母情

88位明星合作新歌《一直到黎明》:王一博、李宇春、毛不易、何炅

毛不易《歌手》遭淘汰,但溫柔又深情的歌者,我記住你了

毛不易新歌43分鐘引轟動 《小王日記》超長串燒唱到了網友心坎裡

終於知道為什麼毛不易火了,原來他每首歌裡都藏著自己的經歷

毛不易《入海》歌詞完整 b站入海是什麼意思毛不易入海觀看地址

毛不易新歌43分鐘引轟動《小王日記》超長串燒唱到了網友心坎裡