文/哈士奇說喵
北半球的夏季,除了空調、西瓜和戀愛的氣息,最不能少的還有一樣:就是讓你燥起來的音樂和旋律。《中國有嘻哈》、《中國新歌聲》等一大波音樂綜藝的狂轟濫炸,更是推波助瀾。數據俠哈士奇說喵搜羅了網易雲音樂上30萬隨機用戶的音樂行為數據,帶你從情感共鳴到理性共振。
六度分割:從3億用戶裡選擇爬蟲樣本
我能想到最浪漫的事,就是在炎炎夏日:吃著西瓜吹著風,聽著小曲兒睡個鐘。
作為一個每天都在寫代碼的文藝青年,小曲兒聽得多了,我漸漸對音樂網站產生了興趣,就想知道大家在聽什麼小曲兒。
於是,我選擇了網易雲音樂作為樣本,來分析了這個夏天用戶們的聽歌潮流,甚至想為那些小眾歌手們,做一些微不足道的貢獻。
選擇網易雲音樂作為爬蟲樣本,一方面因為它數據較全,具有代表性——在2016年聯通的流量統計中,網易雲的流量遙遙領先三倍於第二名;另一方面也是因為它的界面比較「爬蟲友好」,且社交範圍廣,用戶粘度大。
3個月前,網銀雲音樂CEO朱一聞剛剛宣布,其用戶數已經突破3億大關。作為一個第三方爬蟲,我的伺服器顯然無法抓取所有的用戶數據。
所以我借鑑了六度分割的理論和廣度優先遍歷的方法爬取了一些「隨機」用戶。
(圖片說明:六度分割理論尋找網易用戶概念示意圖)
簡單的說,就是通過id獲取該id的粉絲和關注的人,再獲取關注的人的id,然後再次迭代循環,經過幾次迭代後,獲得一定數量的用戶數據。
我在選擇初始化種子時,儘可能覆蓋了各個區域和年齡層次,中間有加跳變參數和隔代跳變,還有遵循廣度優先遍歷的原則,最大程度上避免陷入局部圈子。
通過這種方式,我最終搜集了大概30萬用戶數量的樣本。
Remix大熱?別天真,哪種曲風都不好混
接著,我爬出了30萬用戶他們喜愛的歌曲列表數據,大概一共有500萬首中外名曲。對這500萬歌曲的名字進行了詞頻統計後,得出了以下詞雲圖:
(圖片說明:30萬歌曲題目詞雲圖)
圖上,Remix和Mix的字眼大的宛如我家吉娃娃的眼睛,閃閃發亮。
樣本中歌名含有Remix關鍵字的歌曲佔了總歌曲的10.41%,這個比例非常驚,看來大家很好這一口。
但啥是Remix?
Remix,即混音或重混,是一種創作音樂的方式,一般通過對原曲的音樂元素進行增加、刪減、混排等方式,創作出新的歌曲或者音頻。如果說原作是原汁原味的傳統菜,那重混版本就是各位名廚根據個人口味加入不同調料後的新派混搭菜,是歌曲的另一次「洗心革面」。
接下來,我把這麼多remix歌曲按收藏量列了出來。
下面這張圖裡,橫坐標代表歌曲的流行度(這裡統計的是收藏次數,假設一首歌被收藏次數為200次,那麼這首歌的流行度就是200),縱坐標代表對應流行度上的歌曲數量(即同為200流行度的歌曲有多少),當我們把所有Remix歌曲都放入這個坐標系,你可以看到一個更清晰的長尾分布——被收藏次數越多的歌曲,這類歌曲的數量就越少。
(圖片說明:網易雲音樂的Remix歌曲流行度長尾分布情況)
分布圖顯示,Remix歌曲的在各收藏量上均有分布,並出現「大部分集中於低收藏量」的分布情況,整體呈現出了一個長尾分布的特徵。
那對於所有歌曲來說,是不是也符合這個分布呢?
當我們把所有歌曲都放入這個坐標系,結果也是相似的:
(圖片說明:網易雲音樂的歌曲流行度長尾分布情況)
長尾效應本意說的是,這長長的尾巴聚合起來的商業價值不容小覷。但另一方面,對於在長尾中的個體而言,這也意味著很難脫穎而出。有大量歌曲依然停留在收藏量少的位置,而那些被大量收藏的永遠只是少部分歌曲,這是一個客觀現實。
其實也就是說,歌手如果想要靠製作Remix音樂出名,雖然看似很容易站在某個成名作的肩上,但這個方向,依然和走別的音樂路線一樣困難重重。
想要在音樂界一鳴驚人,你得先來首「驚喜」
很多時候,歌手要火需要的僅僅是一首令人驚喜的「主打歌」,比如當年《認真的雪》,我真的沒有在黑。
於是,我根據數據提出了「單曲驚喜度」,即在一個專輯中的單曲搶眼程度——這個靈感借鑑自常出現在推薦系統中的「驚喜度」概念。
這裡有兩個假設的前提條件:第一,我認為這首歌曲是受歡迎的;第二,這首歌在該專輯中表現非常突出。
粗糙的公式可以表示為如下:
這裡,K為專輯中某首單曲的熱度(這裡指熱度均指收藏數),Ki為專輯中第i首歌曲的熱度,μ是專輯中各歌曲的平均熱度。
簡單來說,單曲驚喜度就是某單曲熱度,和專輯熱度標準差的乘積。
我們知道標準差越大,說明越不穩定,但驚喜度恰恰是需要最不穩定的,所以單曲驚喜度可以用這兩者簡單相乘來代表。
對於那些希望橫空出世的歌手來說,一張專輯並不需要首首都是精品(客觀上這也非常難),只需要有一首驚喜度很高的作品,就足夠了。
例如,嗯,《演員》。
(圖片說明:薛之謙《演員》EP概念宣傳海報)
如下圖對比,通過計算得出《演員》的驚喜度和專輯標準差都達到了很高的程度。一方面來說,這首歌所屬專輯裡面的歌曲只有三首,作為其中熱度最高的單曲,《演員》很容易在專輯中被凸顯出來,形成衝擊感。
但是對於成熟歌手來說,他們的驚喜度就會相對較低。因為人們已經相對習慣這些歌手的風格,他們製作專輯的過程也會更加專業化,會均衡評估歌曲的質量。
比如,嗯,周杰倫。
雖然在專輯熱度上,周杰倫和薛之謙相差無幾,但在周董的兩張專輯《葉惠美》和《周杰倫的床邊故事》中,各自最熱的單曲《晴天》和《告白氣球》,驚喜度和專輯標準差都比《演員》低了不少。
一方面,周董專輯中的其他歌曲承接了一部分熱度,使得在專輯熱度總體較高的時候,單曲也未爆表;另一方面,周董的粉絲們也許非常了解周董專輯的質量,所以有更多的機會去點擊進入專輯,再去聽該專輯的其他歌曲。
其實,驚喜度包含了兩層意義:一層,聽眾只喜歡專輯中某一首歌的程度和驚喜度保持正相關,另一層,與驚喜度成負相關的是整個專輯的平均受歡迎程度。
簡單粗暴一點,驚喜度越高,說明專輯中有個別單曲越突出;驚喜度越低,說明專輯中各歌曲受眾較分散,無特別突出的曲目。
至於只想讓聽眾記得一首成名曲,還是想讓更多的不同愛好的人喜歡這個專輯?
個人認為從知名度提升角度走第一個(其他歌愛聽不聽,但有一首歌非常非常棒),從專業歌手銷售專輯角度走第二個(水平均勻,都比較好聽)。
這篇文章是我從數據視角觀察音樂的一個嘗試,某種程度上也算是音樂和數據的Remix吧。
作為一個吃瓜聽歌的群眾,我希望,這個夏天除了《中國新歌聲》和《中國有嘻哈》,我的「中國有數據」也可以在音樂領域稍微冒一個泡。
最後,對於那些在網易雲音樂中默默努力的歌手來說,我有一個小小的建議:
不妨按照數據的指引,從一首爆款歌曲開始,說不定你就是下一個薛之謙呢,科科。
文章僅代表作者觀點,想獲取本文數據俠提供的1萬條音樂數據,關注DT數據俠後臺回復「網易雲音樂」,獲取連結~
數據俠門派
數據俠哈士奇說喵,哈爾濱工程大學信息與通信專業研究生,數據實踐派的篤行者。興趣在於數據挖掘和機器學習,以及,哈士奇。
哦,對了,他還有另一個身份,就是傳說中【DT君Python學習小組】的課代表,我們的口號是「不學習就心慌」。別瞅了,想學Python不聯繫我們等啥呢?
加入數據俠
「數據俠計劃」由第一財經數據新媒體DT財經發起的數據人社群平臺,旗下有數據俠專欄、數據大咖及愛好者社群、線上線下「數據俠實驗室」系列活動等項目。