網易雲音樂首次披露推薦算法: 讓單身狗猶如過情人節的日推原來是...

2020-12-13 36kr

編者按:本文轉自微信公眾號「機器之能」,作者 宇多田;36氪經授權發布。

明知應該說聲節日快樂,但咱們也不能忘記在寒冷狗窩裡坐等國家分配的單身汪們(仿佛說的不是我自己)。

今天一早,當發現朋友圈撒的狗糧已經夠吃 1 年後,我還是打開了網易雲音樂,想在熱鬧的評論區尋找同類:另一群單身狗們。

沒想到,他們除了搞出個【單身元年特別訪談】,「每日推薦」給我推的第一首歌竟然是:

The Best Day of My Life(我人生中最好的一天)。

……

好吧,歌詞「我不會自暴自棄,不要喚醒我,這是我人生中最美好的一天」,讓我嚴重懷疑,網易雲音樂的個性推薦已經洞悉了所有單身狗用戶的生活常態:

「別總在評論區呆著了,請在下個元年來之前,找到自己的幸福。要不然,狗年一過,你的頭銜就會變成:『單身豬』。」

情人節快樂,狗年快樂。

在知乎上,「網易雲音樂的歌單推薦算法是怎樣的」與「網易雲音樂到底好在哪裡」這兩個問題,分別佔據了「網易雲音樂」熱門話題的第三與第八位。

而很大程度上,第一個問題成就了第二個問題。


或許網易雲音樂在知乎上好評一邊倒的原因五花八門(有人說僱了大量水軍,如果是這樣,那應該是筆重金投入。我不會告訴你兩個平臺的社群重合度很大的),但歌單質量硬,且個性推薦對比國內競品相對精準,是讓一部分用戶發展成為網易雲音樂死忠粉的關鍵原因之一。

以及,第一個問題也可以解釋,為何你在很多歌的評論區裡,都會看到像「日推第一」「日推第二」「日推+FM同時推薦」這類的大量評論。

然而,有人把網易雲音樂比作是「獨立且小眾音樂愛好者的天堂」其實並不十分貼切。將那些被大眾忽視的歌重新曝光於你的眼下,很多時候是技術在背後起的作用。

就像你今天下載了一首周杰倫的歌,系統第二天是推給你周杰倫另一首曲風類似的熱門歌曲,還是推一首曲風類似的冷門歌曲,更會讓你感到新奇?


這個答案有點真相

不過倒是讓人有點驚訝,網易雲音樂從來沒有官方披露過自己的推薦算法與產品應用細節。但這不妨礙大眾對其技術與產品融合的過程產生興趣。

因此,網易雲音樂裡的算法模型與 AI 應用,基本已經被知乎用戶們扒了個底朝天了。

你完全可以在「網易雲音樂的歌單推薦算法是怎樣的」這個知乎話題裡找到非常棒的解答與推測(裡面的高贊答案比媒體的報導簡直不要清楚太多,講的明白易懂)。

而我們之所以要拜訪網易雲音樂的數據挖掘工程師徐家與產品經理沈博文,與其說是揭開算法秘密,不如說是驗證此前(包括網絡上)的種種猜測,以及幫用戶們解答在使用網易雲音樂過程中產生的疑惑。

基礎算法:人以群分

實際上,網易雲音樂個性化推薦的算法與今日頭條、B 站還有很多 O2O 電商平臺應用的基礎推薦算法大同小異。這個得到了徐家的認證,就是我們熟知的那類基礎算法:

這個算法要歸功於亞馬遜工程師的「發明」——「一個客戶買了這個東西,那麼他也可能買另一個東西」。

簡單來說,該算法的預測標準取決於「人與人之間相似的消費模式」。譬如「我喜歡這兩首歌,而你的歌單裡也有這兩首歌,所以你歌單裡有可能存在其他我喜歡的歌」。

以上的說法只是便於理解。實際上,協同過濾算法其實應該分為兩類:「基於用戶」與「基於項目(單曲)」。

1、基於用戶:我與小明收藏的歌單相似度很高,那麼在判斷我們口味相似的基礎上,可以給小明推薦我歌單裡她沒收藏過的單曲。

基於用戶。圖片來源:數據挖掘工人

2、基於項目(單曲):就是將用戶對一首歌的偏好作為向量計算單曲之間的相似度,比對相似度後,根據這個用戶歷史偏好為另一位用戶推薦單曲。

舉個例子,小歆下載了《勇氣》《小情歌》兩首單曲,而小宜下載了《勇氣》《天黑黑》和《小情歌》,而小藝下載了《勇氣》…

那麼根據這些用戶的歷史偏好,網易雲音樂可以判斷《勇氣》與《小情歌》是相似的,喜歡《勇氣》的可能也會喜歡《小情歌》,那麼可以把《小情歌》推薦給小藝。

基於項目。圖片來源:數據挖掘工人

總之,如果你覺得對於「協同過濾」這種算法仍然理解困難,那可以只記住一個詞:

人以群分。

在這裡要歪個樓:正是這種本質上基於用戶偏好相似度的推薦模型,在無形中讓用戶在聽音樂中組成了一個個「彼此聊得來」的社群。

因此,沈博文並沒有把「以後可能會發展成全國最大的婚戀交友網站」看作是一個無釐頭的笑話。而是認為這種基於音樂喜好的社交趨勢,反而比當下的交友平臺更靠譜:

「好奇心日報之前曾做過一個調查——『人類找到靈魂伴侶的主要參考標準是什麼?』 是音樂品味。」

神經網絡模型下的「物以類聚」

可以看到,這種推薦算法絕對缺不了用戶歷史數據的支撐。在數據量龐大且足夠乾淨的時候,協同過濾算法是非常強大的。

那麼反過來想,假如我是一個新用戶,或者我使用網易雲音樂的頻率特別低。也就是說,在數據稀少的情況下,網易雲音樂該怎麼獲知我的口味?

這種冷啟動問題,意味著不同算法模型交叉使用的必然性。或許下面的第二大類算法能在一定程度上消除這個障礙。

這是以區分單曲內容實質為核心的推薦方式,就看做是「物以類聚」吧。

全球著名音樂流媒體平臺 Spotify 內容推薦模型的建立者之一 Sander Dieleman(現在是 DeepMind 研究科學家),曾在一篇名為《卷積神經網絡在音樂推薦裡的應用》的博文中具體闡釋了使用單一協同過濾算法會存在的誤差:

1、由於這種算法除了用戶及消費模式信息外,不涉及被推薦單曲本身的任何信息。因此,熱門音樂就比冷門音樂更容易得到推薦,因為前者擁有更多的數據。而這種推薦往往是很難讓人感到驚喜的。

2、而基於項目(單曲)的協同過濾,也有一個問題,就是相似使用模式下的內容異質。

例如你聽了一張新專輯裡面全部的歌,但除了主打歌,其他的一些插曲、翻唱曲以及混音曲可能都不是歌手的典型作品,那麼協同過濾在這個時候,就會因為這些「噪音」而產生偏差。

當然,它最大的問題便是「沒有數據,一切皆失效」。

因此,基於內容的推薦算法更像是對協同過濾算法以上缺陷的一種補充——假如沒有大量用戶數據,或者想聽冷門歌曲,我們就只能從音樂本身尋找答案了。

徐家與沈博文兩位專家明確表示,網易雲音樂針對這些問題採取了基於內容的複雜算法。但較為遺憾,二位對具體細節並沒有進行過多解釋。

因此,根據我們的猜測,他們運用的應該與 Spotify、Youtube 等流媒體平臺一樣的方法——利用深度學習建立基於音頻的推薦模型。

首先,如果要對比單曲與單曲之間的內容差異,那麼維度就太多了,譬如藝術家及專輯信息、歌詞、音樂本身的旋律及節奏、評論區裡的「誇誇其談」、VIP 下載歌曲、付費與否等等元素。

可以想像,這是一個多麼龐大的計算量。不過暴力全量計算不失為一種方法……

因此,要通過特徵 embedding 和降維方法,把這麼多特徵映射到低維的隱變量空間裡(如同下圖)。

可想而知,在這個空間裡,每首歌都可以有一個坐標,而坐標數值就是包括音頻特徵、用戶偏好在內的多重編碼信息。

那麼,假如我們直接預測了一首歌曲在這個低維空間中的準確位置,也就明確了這首歌的表徵(包括用戶偏好信息)。

這樣就能夠把它推薦給合適的聽眾,且並不需要歷史使用數據。

因此,掌握了大量歌曲數據源信息與用戶行為數據映射出來的隱含特徵,再以此建立基於音頻特徵的神經網絡預測模型,用短音頻片段訓練網絡,是很多流媒體正在採取的方式。

(具體方法可以去翻翻 Sander Dieleman 的論文,如果你懂這個,給我們來講一課!)

當然,在訓練網絡過程中,工程師門還是會通過「丟棄」(Dropout)等方法來降低過濾模型隱藏表徵與音頻預測之間的標準差(不能讓數據集離散度太高),而這樣做主要是為了降低歌曲人氣對推薦系統的影響。

沒錯,這就是你能夠收到更加小眾歌曲推薦的緣由。

當然,以上無論哪種算法,其實都會基於一定的「相似度」。

譬如網易雲音樂也同時應用了機器學習排序模型,這種模型仍然是基於用戶行為數據與相似度(也是很普遍的一種模型)。

體現在應用上,通俗來講,就是你的「每日推薦」歌單裡,第一首歌通常是系統認為與你的喜好匹配度最高的一首(很多人常常在評論區喊出的「日推第一」,其意義還是蠻大的)。

而知乎裡有大 V 提到的推薦模型「潛在因子矩陣」,徐家則認為已經過時了,「現在用的人已經很少」。

計算方法——我們歌單相似度到底怎麼算出來的?

據徐家透露,網易雲音樂則主要運用了兩種度量方式:

歐式距離與餘弦相似度。

CDSN 一位技術專家的博客已經把兩者之間的差異解釋的非常清晰了(下圖):

來自名為Ying的CDSN技術博客


前者是被看作坐標系中的兩個點,來計算兩點之間的距離。

譬如上圖數據 A 和 B 在坐標圖中當做點時,兩者相似度為兩點之間的絕對距離 dist(A,B)。

而後者是看成坐標系中兩個向量,來計算兩向量之間的夾角。

譬如圖中的 cosθ,夾角越小,相似度越高。

你會發現,仍然是在這張圖上,如果 B 的位置不變,A 點的位置沿 A 到原點這條線的反方向不斷延伸,A 與 B 的餘弦夾角就是永遠不變的,但兩點的絕對距離卻發生了變化。

這種差異,導致他們需要被用於不同的數據分析模型。

徐家解釋,能夠突出數值絕對差異的歐氏距離,在計算歌曲本身相似度時用的比較多。

舉個例子,A 歌曲 1 萬人喜歡,而 B 歌曲 2 萬人喜歡,由於樣本量足夠大了,可以把所有用戶對歌曲的喜好看成一樣的強度,那麼就可以直接用歐式距離來算。

在歐式距離下,用戶對歌曲的偏好都可以被認為是一樣的分數,可以簡化歌曲相似度的計算。

而餘弦相似度更多是從用戶偏好方向上區分差異。

譬如網易雲音樂可以用該方法,通過用戶對內容評分(有下載、收藏、搜索、不感興趣等不同評分權重)來區分用戶興趣的相似度。


總之,結合了上述算法與計算方式,網易雲音樂的個性推薦在大眾裡的口碑還不錯。

但這種「還不錯」,如果僅僅依靠技術就能達成,恐怕亞馬遜在中國的業務就不會這麼糟糕了(我其實在吐槽它的界面)。

坦白講,再牛逼的算法也有不足。

對於所有音樂產品,用戶體驗的分值都是由編輯及項目協作、界面設計喜好、音樂版權豐富程度以及音樂偏好預測、技術能力、問題反饋速度共同構成的。

這也是為何有人為網易雲音樂的推薦歌單瘋狂打 Call,而也有不少人稱「聽歌比較雜的人可能用網易雲音樂真的很心累」。

舉個例子,你是一個忠實的歐美音樂圈粉絲,但卻在最近偶爾下載了一首中文歌。

那麼我可以確定,你第二天的推薦歌單裡,一定會有一首中文歌。接下來只能不停地對出現在歌單裡的中文歌狂點「不感興趣」了。

(推薦算法設定了基於不同用戶行為的權重,「下載」最高,收藏、搜索、分享其次,此外你也可以點擊「不感興趣」,或許會避開這類歌)


人工不可缺少

除了算法推薦,在很大程度上,一個流媒體平臺也一定會承擔人工過濾職責,從產品及運營角度確立人工規則,篩除不符合條件的選項。

沈博文告訴我們,他們不只是依賴算法,而是希望通過一些人工的力量,來補償算法的一些不足。

因此,除了有單獨的算法團隊,網易雲音樂也有一個強大的編輯團隊。

一方面,他們幫助在一開始推薦內容上面做一層篩選,找出那些比較優質的內容,保證整一個推薦庫的健康。

而另一方面,他們也需要解決算法的一些收斂問題。

「因為如果純粹依靠算法推薦的話可能會對一些新內容響應較慢,我們也會用一些人工編輯的方式。去尋找出一些可能我們覺得非常優質的內容,然後推薦給大家,」沈博文表示。

此外,即便客服系統在一定程度上依賴AI技術,但由網易雲音樂客服部門與技術部門共同組成的「人工反饋小組」,才是讓用戶對網易雲音樂好感up的重要原因。

很多「秒回」的技術解決方案還被用戶戲稱為「原來網易雲音樂的小編真的是活的」。


在平臺發展初期,數據量尚不能滿足建立推薦算法模型時,就像知乎一位名叫沙克的網際網路作者描述的那樣:

「你之所以能得到高逼格推薦,很可能就是最早來源於一個名為「高逼格小清新」專業編輯推薦歌單。

他們有效地引導了興趣相投的用戶去發現這些音樂,大多跟你有相似品味的人都聽過並感覺不錯,再經過 fancy 的算法「沉澱」、「發酵」,繼而產生了很好的相似度,從而生成了了這麼優秀的推薦並推送了給了你。

最後,大家被「驚豔」到了,更多的新用戶加入,Perfect!」


相關焦點

  • 抖音、QQ音樂、網易雲音樂們,算法左右歌曲推薦,而不是用戶喜好?
    困擾著像筱佳這類對背景音樂較為敏感且「觀看口味」較多元的用戶。「這樣真的很煩,一直都是那幾首歌重複播放。短視頻又不像音樂APP會顯示歌名,你不打開聽,還不知道都是一樣的歌;一打開就被算法標記了,又把類似的視頻推薦給我,簡直惡性循環。」筱佳不滿地說。標籤一致的去前面無獨有偶,若紜在音樂平臺上也有過類似的遭遇。
  • 網易雲音樂校園開放日:網易式「地推」 | 獵雲網
    獵雲網3月26日報導(編輯:名揚)大約一年前,網易雲音樂發布。當時我一方面感嘆於丁磊買正版版權音樂的豪闊大手筆和網易雲音樂的精美;一方面圖樣圖森破地認為「網易來晚了」彎道超車沒有那麼容易。一年時間過去了。
  • 情人節快樂!又是一個沒有情人的情人節,一個單身狗的「祝福」!
    觀眾朋友們,情人節快樂!今天是2月14日,也是西方的「聖瓦倫丁節」,俗稱「情人節」。又到了情侶們秀恩愛的季節了!不過,由於今年情況特殊,希望各位情侶理性過節,最好是「雲約會」。接下來是軟核科普——1月14日:日記情人節。情侶們交換去年一整年的戀愛日記。2月14日:傳統情人節。互送巧克力等禮品,表達愛意。3月14日:白色情人節。
  • 「雲貝推歌」成傳播新方式《聽起來很好吃》登陸網易雲音樂飆升榜
    近日,網易雲音樂與旺旺公司達成合作,攜手舉辦以「聽起來很好吃」為主題的系列活動。用戶可用網易雲音樂的積分體系「雲貝」線下兌換旺旺商品。同時,雙方也聯合推出活動同名主題曲。活動上線後廣受用戶喜愛,其中,在用戶自發使用「雲貝推歌」功能的推薦下,主題曲《聽起來很好吃!》
  • 情人節2019單身狗過情人節?單身女不必偽裝單身萬歲!
    情人節2019單身狗過情人節?單身女不必偽裝單身萬歲!情人節這個甜蜜又殘忍的節日,總是把世人分成兩種,有伴侶的和單身的。屬於前者的,大概只需煩今年情人節去哪裡過、買什麼情人節禮物云云;單身的,就愛在朋友同事面前顯露一副單身萬歲的姿態,心底裡卻想在情人節正日足不出戶,或者是下班後趕快回家避世。其實一個人過情人節又有什麼好怕?為何要偽裝單身萬歲來騙自己?1.
  • 產品分析與改進建議:網易雲音樂,音樂的力量
    而日推附加的「音樂密友」功能是根據共同收藏的歌曲判斷音樂口味相似度,進而推薦用戶。雖然「音樂密友」功能是根據用戶提出來的「想和有相同音樂口味的用戶交流」需求而誕生的,但是卻不是讓用戶特別滿意。1)用戶為什麼喜歡日推?
  • 網易雲音樂分析報告 | 差異化,產品的持續生命力
    前面我們看到,網易雲音樂有相較其他總量排名前五的APP有更高的7日留存率和更高的卸載率。我們分析過,原因是網易雲音樂的版權問題。那麼,用戶粘度就能讓我們很清楚的看到所留存下來的用戶到底有多少是忠實粉。產品定位網易雲音樂主打歌單、社交、發現和分享,除了能夠了解自己的好友以及周圍人的喜好之外,應用還會通過用戶的使用習慣推薦給用戶一定量的歌曲,在算法的助力下,推薦功能的質量尚可。網易雲音樂區別於傳統音樂軟體的最大特點就是:將社交屬性融合了進去並擁有優質的評論區,讓用戶在聽音樂之外還有一些額外的享受。
  • 產品分析 | 網易雲音樂,音樂產品的視覺化探索之路
    產品架構由網易雲音樂產品架構圖可看出,網易雲以音樂屬性為核心,兼具社區屬性和個性化推薦音樂資源屬性。網易雲音樂以黑馬姿態迅速佔領市場,中國手機音樂客戶端行業規模基本形成三足鼎立的格局:騰訊音樂(TME,包含QQ音樂、酷我音樂、酷狗音樂)、網易雲音樂、阿里音樂(包含蝦米音樂和天天動聽)。網易雲音樂以音樂社區、音樂個性化推薦為切入點打入市場。
  • PRD:倒推網易雲音樂-私藏推薦產品需求文檔
    網易雲音樂在近期更新的5.9.1版本中,新推出了私藏推薦功能。本文將從私藏推薦PM的角度,倒推這個功能的產品需求文檔。一、產品特點網易雲音樂是一款主打發現和分享的社交型音樂的APP,通過日推、私人FM以及推薦歌單等個性化推薦的方式,滿足用戶的個性化聽歌需求。
  • 七夕節單身狗搞笑說說短句 單身一個人過七夕發朋友圈的話
    七夕的時候是很多小情侶秀恩愛的時候,但是我們還是應該對單身狗們善良一些的啊,我的天夏日炎炎,蔫呼呼的狗糧在臉上胡亂的拍。今天小編帶來了一些單身狗過七夕節發朋友圈的搞笑說說句子。  七夕節單身狗搞笑說說短句 單身一個人過七夕發朋友圈的話1、「認識你是喬燃,愛上你是初原」2、夜,總有一種忍不住想你的習性3、你靈氣,我傻氣;你秀氣
  • 第六期《歌手》歌單被曝,華晨宇再奪第一;網易雲音樂與騰訊音樂...
    我說:   而你,依舊你單身 歌曲名字叫《不染》,是由該歌曲的音樂總監邀請簡弘亦和海雷為毛不易量身定製的。在網易雲音樂獨家上線,因歌曲需要付費聆聽,就不放在文章內了。   針對這件事件,雖然需要付費收聽,但毛不易的歌聲一直深受大家喜歡,所以不一會網易雲音樂便有6000多條評論。
  • 一手締造網易雲音樂的王磊離職 加盟百度音樂任總經理
    網易雲音樂的成功與王磊的音樂從業經歷是分不開的。他在接受CSDN採訪時提到:「他(丁磊)找我做這個產品的時候,他也知道我的背景,我以前做過傳統媒體,在唱片公司也工作過,他需要一個有這方面經驗的人來做這樣的事情。
  • 產品分析報告 | 網易雲音樂,差異化路線打造高質量音樂社區
    但在圖七的用戶人均日運行時長中卻排名第一,也是唯一一款超過30分鐘的軟體。根據七麥數據,2020年3月9日至6月5日這三個月,網易雲音樂日下載量整體趨勢在QQ音樂和酷狗音樂之上,月用戶活躍量增速也處於第一。
  • 網易雲音樂推「音街」獨立APP 入局免費K歌市場
    【來源:快科技】2月13日消息,我們於網絡了解到,網易雲音樂近日推出一款名為「音街」的全新APP,這是網易雲音樂首次入局免費K歌市場,對標當前在K歌市場佔據較大份額的全民K歌等產品。據悉,在全新APP的推廣及內測方面,網易雲音樂依然呈現出標誌性的雲村文化。當前「音街」APP需要邀請碼才能進入,登錄界面中以網易雲音樂帳號作為主要登錄接口,同時還可以使用第三方帳號進行登錄。在音街主界面中,分為「發現」、「點歌臺」、「消息」和「個人中心」4個功能模塊,「發現」頁裡,會推薦其他用戶唱的歌,以及合唱部分。
  • 網易雲音樂在線聽歌下載
    網易雲音樂是一款由網易公司出品專注於發現與分享的音樂播放軟體,全國3億用戶推薦,匯集超全華語歐美日韓、電音ACG古風等超全音樂種類,超清音質、優質歌單、自動智能推薦音樂、海量逗趣樂評、精緻視覺交互。
  • QQ音樂、酷狗音樂、網易雲音樂,三大播放器PC端大PK!
    在近年來,如果有人問到什麼音樂軟體最好用,估計很多人都覺得是網易雲音樂,畢竟用戶口碑擺在那裡。現在用戶比較多的PC端播放器無外乎就是網易、QQ、酷狗、酷我、蝦米。今天咱們就來看看QQ音樂、酷狗和網易雲這三大PC端的播放器到底哪個好一點。
  • 情人節說說幽默句子 情人節搞笑說說單身狗朋友圈心情短語
    情人節到了,有愛人可以過個幸福的情人節,單身的孩子只能過個開心的單身狗情人節。情人節說說,送給大家,祝福大家情人節快樂,早日覓得有緣人。  2.老公深情地問老婆:寶貝,情人節希望我送你點啥?老婆含情脈脈地說:你送什麼我都喜歡。老公:那我送你回娘家吧……  3.今天就要見對方家長了,好緊張,畢竟是我先動手打他家兒子的。  4.大家情人節都準備送女朋友什麼禮物?我買了一個1T的移動硬碟,過節了,給女朋友換個大房子。
  • 網易雲音樂推出5.4版本,「哼唱識曲」功能重磅上線
    聽音樂已經成為大眾生活日常,但對於不少人來說可能經常遇到這樣的情況,偶然聽到一首好聽的音樂,卻不知道歌名也不記起歌詞,腦海中只有一些音樂旋律片段,再想要找到這首音樂猶如大海撈針。從即日起,使用網易雲音樂的用戶再也不用為此而發愁了:網易雲音樂正式推出5.4版本,重磅上線「哼唱識曲」功能,無需歌詞即可識別用戶對歌曲的哼唱。此次網易雲音樂5.4版本上線新功能除「哼唱識曲」外,還包括「鯨雲音效」、評論大表情、多多西西機器人等。
  • 網易雲音樂特推實用春節歌單 300金曲過大年
    網易雲音樂特別集結史上最全春節歌單。300首音樂幾乎包羅所有需求,給2015年新春加料。歌單。網易雲音樂官方下載地址網易娛樂2月12日報導 還有不到一周就是春節了。每逢過年,就又到了劉德華、卓依婷、中國娃娃等不斷轟炸的日子,《恭喜發財》、《恭喜你》、《賀新年》循環播放、人人會唱,商場、超市、大街小巷等到處都能聽到熟悉的旋律和歌詞。過年大魚大肉吃多了會膩,春節假期你也同樣需要多樣生活和多元音樂。
  • 網際網路產品 7.0 版本的意義,聽網易雲音樂的回答
    網易雲音樂7.0版本升級,其本質邏輯在於專注做音樂推薦,提升用戶發現音樂的效率,崇尚簡潔的用戶可以快速發現,愛好探索的用戶則又能深度沉浸。二、為什麼總是網易雲音樂在「帶節奏」?那麼問題來了,從歌單、樂評到現在的場景化推薦和分發,為什麼總是網易雲音樂在帶行業的節奏?