最近在知乎刷到幾個蠻有趣的問題,諸如「網易雲音樂裡有哪些打動你的評論」之類,於是一時興起,寫了一個爬蟲爬取熱門評論來看看它們都傳遞了什麼內容。
一、Top30熱評列示
將熱評按照點讚數由高到低進行排序,取前30條熱評,這些熱評點讚數均在50萬以上,列示如下:
其實遍覽這30條熱評,筆者的心情也是跌宕起伏,剛剛還感動於人世間的美好與溫情,下一秒就被玩梗的評論逗笑。整體來看,上述熱評大致可以分為五類:
第一類是各種意外面臨與親人朋友的永別,這類故事最直擊人心,不忍細讀不敢琢磨;
第二類是歌曲原唱發表的評論,自帶主角光環所以點讚數較高;
第三類是各種玩梗、抖機靈、神反轉,讓人覺得有趣;
第四類講人生感悟、講正能量、講好消息,這類評論點讚數較多的話意味著大家都不吝嗇讚美、為他人感到高興、態度積極向上;
第五類專門給愛情分一類,暗戀、被拒、戀愛、分手、劈腿、結婚、離婚、終老,這些愛情裡亙古不變、反覆發生的話題與歌曲結合起來,經常帶給你初戀般的愉悅,又能讓你體會失戀時的悲傷。
二、熱評都在講什麼?內容分析
詞雲分析
將點讚數大於500的評論進行分詞,去除掉常見停用詞,畫出詞雲如下圖所示。不難發現,單從詞雲看,熱評內容可以分為如下幾類:
第一類是情感的表達,如「喜歡」、「大哭」、「希望」、「愛」、「孤獨」等,它們寄託了我們戀愛的感言、親情的感動、傷心的感慨、成功的感激;
第二類關於歌曲本身,如「好聽」、「歌詞」、「一首」、「網易」、「音樂」、「聲音」、「歌」等,表達了對歌曲的評價與喜歡;
第三類是回憶,如「想起」、「曾經」、「回來」、「記得」、「已經」等,共鳴的旋律、同感的歌詞打開聽者的心扉,塵封已久的記憶如同洪水猛獸襲來:過去的美好好像說不在就不在了。
特定詞詞頻分析
我們對熱評中某些特定詞出現的頻次進行了統計。
在親屬稱謂方面,「媽媽」出現的頻次最高,達到3929次;而「妹妹」出現的頻次最低,為1118次。
這說明對於多數人而言,無論是人生中的挫折,亦或是日常的小歡喜,媽媽在自己人生中扮演著最重要的角色。
值得注意的是,「爸爸」出現次數排在「女朋友」和「哥哥」之後,這可能是由於傳統的父愛表達方式與母愛不同,往往是低調地、無聲地付出,更為含蓄和內斂,
因此父親與子女間的感情更多在於相互體會、感受,在熱評中的出現頻率相對較少。
另外,「女朋友」出現的次數比「男朋友」更多,這是否在一定程度上表明廣大男性同胞對於女朋友的呼喚和渴望強烈於女性同胞呢?
在心情方面,「開心」和「快樂」出現的頻次大於「難過」、「哀傷」等代表消極情緒的詞語,說明人們遇到快樂的事情更傾向於與他人分享。
在教育相關特定詞中,「大學」可能給我們更多深刻的回憶,「高中」、「初中」也因為中學時代的純真、美好讓更多人提及。
在每個人的重要成長節點上,「高考」和「考研」被提及次數最多,備考的壓力和焦灼的情緒讓我們藉助音樂得以釋放和慰藉。
感情狀況方面,「結婚」和「分手」作為「戀愛」的兩個截然不同的結果,分別佔據榜一榜二。
至於「結婚」出現的次數為啥高於「分手」,筆者抽了兩支棒棒糖也沒想明白為啥,可能是由於戀愛成功的先結婚,戀愛失敗的先分手再戀愛再結婚吧。
「單身」作為「戀愛」的前奏、「分手」的結果,也經常被提及。「離婚」在現實生活中出現的比例本來就不高,出現的次數較少也符合常理。
另外,不得不說,這幾個詞彙之間錯綜的聯繫竟然和兩性關係一樣複雜難懂,筆者分析時也是不由自主地瞟了一眼窗外護眼的綠·葉。
熱評情感分析
接下來對熱評的情感進行分析並畫出密度圖。
圖中評論分布的數量越多,密度圖顏色越深,熱評的情感評分越接近1,說明評論的情感越正向;熱評的情感評分越接近0,說明評論的情感越負向。
從圖中可以看出,大部分的評論情感正向積極,但也有一部分的評論情感傾向為消極。
這種現象可能是由於,首先,用戶更願意將自己快樂、積極的情緒進行分享;其次,人們更加願意點讚一些正能量的評論,導致負向評論被淹沒;另外,出於一些平臺政策和相關規定,一部分消極的評論也不會被顯示。
因此,可以認為熱評的整體情感為正向,內容表達積極。
三、一條評論成為熱評的影響因素分析
時間的作用
按照不同的年份將點讚數大於40w的熱評進行統計得到下圖所示小提琴圖。
小提琴圖結合了箱型圖和密度圖的特徵,黑色盒型的範圍是下四分位點到上四分位點,中間白點表示中位數,外部形狀即為核密度估計。
從中位數來看,2014至2019年熱評點讚數基本呈現下降趨勢,這可能是由於評論發表時間越早,越有機會被更多人看到和點讚。
從分布上來看,2014年和2019年熱評點讚數分布較為集中,而2015~2018年熱評點讚數分布較為離散,特別是2017年,有著點讚數超高的離群值,點讚數接近157萬的top1熱評確實花落於此。
此外,網易雲音樂也在2015-2018年進入了用戶擴張期,這也可能是這幾年內熱評分布較為分散的成因之一,而2019年分布又相對扁平化了,這可能在某種程度上與網易近兩年艱難的運營環境有關,特別是版權資源被打壓的背景下,活躍用戶數增長不容樂觀。
再看熱評在不同年份和月份之間的分布熱力圖,顏色較深的部分代表熱評分布的數量越多。
2013和2014年是網易上線的前兩年,用戶數量還沒有起來,因此可能點讚數較高的熱評總體上而言也較少。
從分布月份角度來看,每年7月到11月熱力圖顏色較淺,說明夏秋兩季產生的熱評數量相對較少,其中原因較為複雜,這裡給出幾點猜測:
一是用戶層面,由於夏天人們較為懶散、秋天涼爽生活相對愜意,可能願意點點讚的小手不願意動了;
二是季節層面,可能萬物生長的春天和寒風凜冽的冬天更容易讓人感性;
三是歌曲創作者層面,還需要數據去分析是不是歌曲走紅的時間段有著季節性;
四是近期短視頻等具有超高流量的移動端很容易帶紅一些歌曲,這種某種意義上給歌曲的引流時常成為熱評誕生的不確定因素。
所在歌曲的熱度
本文將所在歌曲評論數作為歌曲熱度的度量指標,刻畫出所在歌曲評論數與熱評點讚數之間的關係,以探究所在歌曲的熱度對熱評點讚數產生的影響。
如下圖散點擬合圖所示:熱評點讚數與所在歌曲評論數呈正相關關係,即在平均意義上而言,所在歌曲熱度越高,熱評獲得的點讚數也越高,這是由於歌曲熱度帶來的流量會增加評論的曝光度,進而增加評論被點讚的機率。
評論者身份
大致瀏覽榜單可以看到,有一定比例的熱評是出自歌曲創作者本人之手。因此,本文將不同區間熱評中評論者為歌曲創作者本人的比例列示於下圖。
可以看到,在點讚數大於80w的熱評中,有15.8%的熱評評論者是歌曲創作者本人。
之後,評論者為歌曲作者本人的比例隨著熱評點讚數區間的下降而減少,這可能是由於隨著區間的下降,區間裡熱評的數量增多,導致分母變大,因此所佔比例數值變小。
雖然從這一角度可以反映出熱評點讚數呈現出金字塔形狀,即點讚數高的還是少數,但總體而言,有相當一部分熱評來自創作者本人,說明評論的「出生」也是很重要的呀。
四、結論
本文爬取了百萬條評論數據分析了熱評的內容以及一條普通評論成為熱評的原因,得出如下結論:
第一,評論是聽者情感的表達媒介,人們的經歷在這裡共鳴、悲歡在這裡相通。
第二,一般意義上而言,所有的關係中「媽媽」對自己最重要、心情最重要的是「開心」、「大學」是很多人最美好的回憶、「高考」是多數人的人生重要節點、「結婚」在感情狀況中最值得被提及。
第三,大部分的熱評都是正向積極的情感表達。
第四,一個評論的命運啊,自身的內容有東西固然很重要,但也要考慮發表的時間進程、還要藉助歌曲流量的助推,當然,有創作者本人的欽定是墜吼的!