跨平臺的音樂推薦算法

2020-12-08 人民網傳媒

摘要

傳統的音樂推薦算法往往是根據用戶的聽歌記錄來對其進行推薦,但是對於一個新用戶傳統的推薦算法就無能為力了。在本文中,我們使用機器學習中典型關聯分析(CCA)技術期望能夠通過加入用戶的社會屬性(微博)來改進原始的推薦算法,從而更加精準的推薦給用戶他們喜歡聽的音樂,另外,相較於其他推薦算法,我們能夠實現推薦的冷啟動。即使用戶之前沒有聽過任何音樂,我們也能夠從他的微博數據中挖掘出他喜歡聽的音樂類型。

關鍵詞:

跨平臺 音樂推薦 機器學習

1. 簡介

21世紀是網際網路時代,人們已不可避免的被捲入了這樣一場網際網路全球化的浪潮中。人們利用網際網路買到自己心儀的東西,收聽自己喜歡的音樂,觀看自己欣賞的視頻等等。然而,與線下的世界不同,網際網路世界是一個信息過載的世界,這就增大了每個人從中獲取到對自己有用信息的難度。隨著時代的演變和技術的成熟,人們期望將計算機當作一個「服務員」的角色,通過推薦的手段幫助人們找到合適自己的信息,從而避免將時間浪費在從龐大繁雜的數據中尋找信息的過程中。這就要求我們計算機從業者尋找更好的算法以推薦給用戶更合適的信息。

實際上,推薦算法作為一個機器學習的分支出現要追溯到1995年,而它的蓬勃發展則是在2000年之後,因此它是一個相對比較創新的理論,由於用戶的喜好是一種感性的偏好,隨著時間、心情甚至周圍的環境不同而不同,因此現階段推薦算法的準確率並不高。然而,據美國巨頭Amazon公司的估計,推薦算法將每年為它們帶來多達20%的利潤,因此,對於推薦算法的研究和改進是十分有必要的,是能夠產生巨大的社會效益的。

本文的主要研究工作是跨平臺的音樂推薦。考慮到推薦系統無法獲知到一個新用戶的聽歌記錄,即所謂的「冷啟動」問題,我們期望通過跨平臺的技術來獲取用戶的偏好。在本實驗中,我們選用了微博平臺作為系統獲取用戶喜好的來源,通過跨平臺的信息來為用戶進行更好的音樂推薦。本文的主要貢獻點有:首先使用網易雲音樂和微博的數據建立了一套用於進行跨平臺音樂推薦的數據集,第二使用了CCA算法進行音樂推薦,並在一定程度上提升了推薦結果。

在接下來的部分,第2部分主要是對推薦算法的一些相關工作進行了描述,第3部分主要講述本文的主要算法,第4部分主要是對實驗的一些描述,第5部分是對本文的總結以及我們對未來的音樂推薦系統的展望。

2. 相關工作

2.1 傳統音樂推薦算法概述

傳統推薦算法主要分成兩類,一種是基於歷史數據的推薦算法[11],另一種是協同過濾算法[6]。基於歷史數據的推薦算法也是推薦算法的萌芽,我們將目標信息通過特徵提取作為輸入,用戶的喜好作為輸出構造一個分類器或者回歸器,然後預測時我們可以根據結果(可以是0/1的二分類,也可以是一個實數)選取排在前面的信息推薦給用戶,這種方法實際上是一個傳統機器學習的過程,這裡不再贅述。

這裡重點說一下協同過濾算法(Collaborative Filtering, CF),這是推薦系統中很有創新性的一個算法。我們以基於用戶的協同過濾算法為例,算法的思想很簡單,我們認為,如果兩個用戶興趣相似,則可以把這個用戶的信息偏好推薦給另一個用戶。計算兩個用戶的相似程度可以把他們在全部信息集上的偏好量化後定義一種距離(點積,歐幾裡得距離等),推薦時可以用最近鄰算法找到每個用戶鄰近的幾個與他興趣相似的用戶,把他們的信息偏好加權推薦給這個用戶。與之相對應的是基於物品(item)的協同過濾算法,只是將定義用戶的相似度變成了定義物品的相似度而已。

協同過濾相較於基於歷史數據的推薦算法而言優點在於它能更多的挖掘到用戶的隱藏屬性,也就是說,通過用戶的歷史數據挖掘不出來的屬性,不過,由於協同過濾涉及到構造一個全用戶數量乘以一個全信息數量的矩陣,對於大數據而言要求更高的計算速度,因此需要用到更多的計算資源和更好的矩陣運算優化策略,另外,協同過濾算法的另一個問題是矩陣的稀疏性,比如我們在做音樂推薦時,一個用戶聽過的歌曲畢竟是有限的,因此得到的用戶-音樂矩陣會十分稀疏,這不利於計算用戶之間的相似程度。

然而,無論是基於歷史數據的推薦算法還是協同過濾,都涉及到一個無法解決的問題,我們稱之為冷啟動問題。冷啟動問題是指,如果我們並不知道用戶曾經的數據,換句話說,該用戶是一個新用戶,沒有任何的先驗知識,那我們的預測過程就沒有辦法進行,推薦信息也就只能是隨機推薦了。基於上面這一些不足,在目前推薦算法的20年發展中,研究者們不斷提出了更準確,涉及特徵更廣,適用面更廣的算法,它們或是基於現有算法的改進,或是完全新的算法。我們在下一講中進行敘述。

2.2 跨平臺音樂推薦算法概述

2.2.1協同過濾衍生算法——空間分解算法[9,10,12]

與協同過濾一樣,我們要分析的是一個用戶×音樂的矩陣A,矩陣的每一項表示某用戶對某音樂的偏好程度,可以用0/1二分類表示,也可以是一個實數,之前提及過,這個矩陣是一個稀疏矩陣,大約只有0.1%左右的元素是被確認的。那麼,最簡單直接能被想到的方法是引入一個隱空間,將這個矩陣拆分成描述用戶特性和隱空間關係的矩陣U及隱空間和音樂特性關係的矩陣V,這個隱空間可以被理解為情感因素。我們要做的是讓矩陣積UV^T儘可能接近於原矩陣A,這個過程可以用最小二乘和梯度下降的方法解決。這樣,我們就可以用矩陣積UV^T去估計原矩陣A,從而也就能夠知道矩陣A中那些未知的元素。

當然,上面描述的只是這類方法中最基本的架構。在算法的實際應用中,為了增加算法的準確程度,我們往往利用「多媒體」這一因素,引入用戶-用戶關係(好友關係),音樂-音樂關係(音樂近似程度),擴展原來的用戶-音樂關係(用戶偏好),以運用更多的信息,那麼很自然的,可以用UU^T來估計用戶-用戶關係,VV^T來估計音樂-音樂關係,最終要達到的目標變成了使得這三個矩陣積分別近似於相對應的三種關係矩陣。當然,在這類方法的發展中,還有另外的一些變種,比如由單一的隱空間擴展為用戶隱空間和音樂隱空間等等,這些算法也在實際的應用中取得了非常不錯的推薦成功率。

而這類算法相對於傳統的協同過濾也解決了冷啟動等諸多問題,這些問題都可以用矩陣的形式化描述通過數學方法來解決,因此是一類前景非常不錯的算法。

2.2.2 基於知識圖譜的聯合超圖算法(Unified Hypergraph Algorithm)[8]

一個好的推薦算法不能只考慮到用戶的喜好,因為每個用戶都是社會人,他們的喜好或厭惡都或多或少的受到身邊人的影響,而這種社交網絡的引入會增加推薦算法的正確率。因此,如果我們在推薦算法中引入圖來描述這一過程,是最好不過的選擇。

在本算法中,我們用點表示一個信息的發出者,它可以是一個用戶,可以是一首音樂,可以是一位藝術家,亦可以是一張專輯等等,而我們用邊來表示信息發出者之間的關係。值的注意的是,這些邊不是普通的邊,而是一個超邊,它可能不止兩個端點,舉例來說,如果有N個用戶屬於同一個音樂群(或者說有著相同的音樂愛好),那麼我們會用一條超邊將這N個用戶相連,這些邊可以描述幾乎跟推薦相關的所有信息關聯,比如用戶好友關係,音樂相似程度,音樂與藝術家的關係,音樂與專輯的關係等等共9類關係。我們將每個節點都賦上一個實數權重,那麼應該會有如下兩個關係:

(1)同一條邊的端點權重應該趨於相同。

(2)端點權重應該與已知信息保持一致。

基於這兩點,我們可以用數學的方式來解這個圖模型,從而獲取到所有點的權重。完成了整個的推薦過程。

這個算法的優勢在於它不僅能夠向用戶推薦音樂,還能完成其他多種多樣的功能,比如像用戶推薦藝術家,專輯,還可以向用戶推薦相似的用戶等等,甚至還可以預測一首音樂會被哪些用戶所喜歡,這些信息通過圖模型完全的展示了出來,這也是它相較傳統推薦算法最為突出的一點。

2.2.3 多觀點學習算法(Multi-View Learning)[1]

這類推薦算法的最大特點是依託於除音樂本身的社交平臺,比如微博數據,用戶發過的圖片數據等等,這類方法跳出了音樂推薦這個相對狹窄的領域,它的基本觀點是:用戶的社交數據能夠體現用戶的性格或是一些內在的東西,從而我們可以跨平臺的了解一個用戶收聽音樂的行為,從而能夠更精準的推薦歌曲。這類算法通常會構造幾組不同平臺用戶的特徵向量,然後聯合學習這幾組特徵空間來推薦音樂,因此叫做多觀點學習算法,它探究的是不同特徵空間之間的關聯。

這類學習算法比較繁多,我們主要介紹CCA,HENN[5]和Corr-AE[2]算法,而前兩個算法正是本實驗中使用的算法,為簡化起見,在後文中我們都用兩組特徵來描述,一組是用戶的社交平臺數據(如微博文本特徵),另一組是用戶偏好的音樂特徵。

典型關聯分析(Carnonical Correlation Analysis, CCA)是一個十分經典的算法,它的思想是找到兩組變換,分別針對兩組特徵向量,把它們投影到同一預先定義好維度的隱空間中去,然後通過在隱空間中使用最近鄰算法做推薦。衍生算法有KCCA和DCCA[3],它們分別通過核變換方法和深度神經網絡方法將線性CCA變成非線性CCA。

HENN算法(Heterogeneity-Entropy based Neural Network)分為三個部分:降維-編碼-降維過程,第一個降維過程是利用信息熵,降低兩組向量的維度,保證降維後的兩組新向量儘可能相關,編碼過程是將兩組新向量通過神經網絡合成為一組向量,從而實現將兩組向量投影到同一空間中去。如果這個空間的維度依然很大,那麼會通過第二次降維過程把這一組向量降到一個更合適的維度,完成整個算法的運行。

Corr-AE算法利用了神經網絡中經典的AutoEncoder三層模型,它將兩組向量分別放進兩組AutoEncoder中,然後學習出兩組AutoEncoder的參數,保證兩組AutoEncoder的隱層關聯繫數最大。

總而言之,這三類辦法都是期望將兩組向量投影到同一空間或是可互相變換的兩組空間中去,然後基於這個空間做推薦。這個空間我們可以理解為用戶的內在因素。

這類算法最大的特點就是完美解決了冷啟動的問題,因為它們甚至不需知道用戶之前的音樂數據,只需知道用戶的社交平臺數據就可以輕鬆完成推薦。

3. 算法描述

另外,如果我們發現兩組向量的關係不是簡單的線性關係的時候,可以引入核函數的方法,這就是KCCA算法,而同樣如果訓練參數時使用了深度神經網絡的技術,就進階成為DCCA[3]算法。在本次實驗中我們所用的均為線性CCA算法。

(責編:溫靜、趙光霞)

相關焦點

  • 音樂也玩自媒體 跨平臺合作成大勢
    大家可以設想一下,如果世界沒有了音樂將會怎樣?世界將變的了無生機 ,那將會是黑暗的~生活也將變得非常無趣。好在這樣的事情不會發生,音樂是娛樂文化發展到一定階段出現的產物,但對於人們來說,這又是生活中不可或缺的一部分。
  • 這套神奇的算法,比網易雲音樂更懂你
    文/Sophia Ciocca隨著網易雲音樂的聽歌報告刷屏,音樂軟體背後的個性化推薦算法用開始被大家熱議。那麼現在,就讓我們先去看看其他音樂服務公司是如何推薦音樂的,然後再看看Spotify是如何做得更好的。
  • 除了QQ音樂等,騰訊還有個鮮為人知的音樂軟體,重點是免費
    眾所周知,騰訊旗下擁有酷我、酷狗和QQ音樂三大音樂軟體,近年來,隨著音樂版權意識的逐漸加強,騰訊在版權方面也越發強勢。但廣大粉絲對於騰訊這一行為也不得不買帳,畢竟愛豆的很多歌曲只有在QQ音樂才聽得到,前陣子周杰倫新歌首發,更是把QQ音樂都整崩潰了,周杰倫粉絲齊聚QQ音樂,那場面太過壯觀。
  • 常用推薦算法介紹 | 人人都是產品經理
    在本文中,作者主要是介紹了常見推薦算法的基本原理。基於內容的推薦基於內容的推薦是基礎的推薦策略。如果你瀏覽或購買過某種類型的內容,則給你推薦這種類型下的其他內容。以電影推薦為例。比如你之前看過《盜夢空間》,則系統會關聯資料庫中盜夢空間的信息。系統會推薦克里斯多福·諾蘭導演的其他作品,比如《致命魔術》;系統會推薦主演裡昂納多的其他作品,比如《第十一小時》。
  • 微生物組領域近十年最重要的8個軟體或算法
    (@劉永鑫) mothur:引用過萬跨平臺的擴增子分析流程 Applied and Environmental Microbiology [IF:4.077] mothur是第一款整合了多種主流算法的獨立擴增子分析流程,可實現從原始數據到
  • 谷歌更新了跨平臺SDK,實現VR和AR跨平臺的完美融合
    今天,谷歌發布了一款名為Resonance Audio的新型空間音頻軟體,這是一款基於現有VR Audio SDK技術的跨平臺工具,旨在讓移動和桌面平臺上面的VR和AR開發變得更加輕鬆。像這樣更廣泛的跨平臺支持意味著:開發者能夠為他們的體驗施行同一種聲音設計,聲音設計也將能夠在移動和桌面平臺上始終如一地執行。Resonance Audio類似於現有的VR Audio SDK,它能夠模擬複雜的聲音環境,允許開發者控制來自單個聲源的聲波傳播方向。每個聲源的寬度可以從單點到牆壁進行指定。SDK還能同時自動渲染用戶手臂範圍內的聲源的近場效果。
  • 協同推薦算法沒有這麼複雜,真的
    個性化推薦基本上是由兩個策略算法來進行演變的,一個是基於數據挖掘的關聯分析推薦,一個是基於協同過濾的方法。筆者將重點介紹什麼是協同過濾算法以及細分下的算法類型。John之前寫了一篇關於電商中的搜索和關聯推薦策略的文以及一篇《產品經理,如何理解並應用策略?》。有些讀者找到我說:太虛啦。
  • 網易雲音樂app下載安裝_音樂播放器_18183軟體下載
    網易雲音樂app下載安裝讓你發現好音樂,找到共同愛音樂的人,一起享受美好的動聽時光,時刻都縈繞在你的耳邊,是一個使用便捷,音樂俱全,播放多樣的掌上音樂app。
  • 歡快的背景音樂推薦 節奏歡快的背景音樂大全
    歡快的背景音樂有哪些?下面給大家推薦一些節奏歡快的背景音樂,接下來一起看看以下相關介紹吧,希望能夠對大家有所幫助!  歡快的背景音樂  1、canon卡農-各種版本  不錯,百度上可以找到n種版本……重點推薦八音盒版、鋼琴版、鋼琴合奏版、鋼琴原版、搖滾版、室內管弦版、豎琴版、童聲版……至於其他聽不聽就看你個人愛好了(總之偶電腦裡有n多)。
  • 推薦算法改版前的AB測試 | 實驗設計
    編輯導語:所謂推薦算法就是利用用戶的一些行為,通過一些數學算法,推測出用戶可能喜歡的東西;如今很多軟體都有這樣的操作,對於此系統的設計也會進行測試;本文作者分享了關於推薦算法改版前的AB測試,我們一起來看一下。
  • 酷我音樂會員尊享版_酷我音樂會員最新尊享版_18183軟體下載
    酷我音樂尊享版下載官方介紹:   酷我音樂是一款音樂播放器,提供免費在線音樂試聽、高音質正版音樂下載和MV播放等服務,酷我音樂2017官方版擁有最大最全曲庫,熱歌新歌想聽就聽,精選音樂內容,獨家為你奉送。更多精彩軟體,到18183軟體下載體驗,給你最全面最多的軟體體驗!
  • 從模型到部署,FPGA該怎樣加速廣告推薦算法
    機器之心專欄作者:雪湖科技 梅碧峰在這篇文章裡你可以了解到廣告推薦算法 Wide and deep 模型的相關知識和搭建方法,還能了解到模型優化和評估的方式。我還為你準備了將模型部署到 FPGA 上做硬體加速的方法,希望對你有幫助。閱讀這篇文章你可能需要 20 分鐘的時間。早上起床打開音樂 APP,會有今日歌單為你推薦一些歌曲。
  • 產品分析與改進建議:網易雲音樂,音樂的力量
    儘管用戶規模不是最大,雲音樂用戶活躍度卻常居第一。雲音樂在版權方面處於弱勢,但精準的推薦算法和高質量的UGC仍然深得用戶的心,用戶忠誠度高。同時也要看到,隨著大量大眾用戶的進入,雲音樂的高質量UGC正在被稀釋,商業化進程中的一些措施以及版權的持續缺失也導致了用戶許多不滿。
  • 黑色沙漠操作拉滿:免費領取、出新歌還開跨平臺對戰
    這一系列的操作也引發了網友的熱議,黑色沙漠大逃殺B測開啟、免費領取活動、新歌及跨平臺對戰紛紛上線。1.《影子戰場》公開測試(2月27號至3月8號)《影子戰場》是繼承了黑色沙漠世界觀的一款冷兵器類大逃殺遊戲。玩家可以在遊戲中通過擊殺怪物或其它玩家來獲得積分、升級裝備、爭取成為最後一個存活的玩家。
  • 一起學人工智慧:推薦算法並不難,相似性是基礎,來看看相似算法
    如果有一天A用戶去了一家新的餐廳,給出了高評價,那麼我們時候應該運用一定的推薦算法,把它推薦給B呢?偉大的古希臘數學家歐幾裡德提出,平面上兩個點的距離等於橫縱坐標的差的平方之和開根號。我們把這個算法應用評估兩個商品是否相近當中,上述例子,A用戶跟B用戶最終的相似度為sqrt((4-3)^2 + (5-4.5)^2 + (3-4)^2) = 1.5, 很顯然,歐幾裡德越小,說明越相似。
  • 超詳細丨推薦系統架構與算法流程詳解
    推薦算法的理解  如果說網際網路的目標就是連接一切,那麼推薦系統的作用就是建立更加有效率的連接,推薦系統可以更有效率的連接用戶與內容和服務,節約了大量的時間和成本。  如果把推薦系統簡單拆開來看,推薦系統主要是由數據、算法、架構三個方面組成。    數據提供了信息。
  • 算法推薦雙刃劍效應凸顯 如何把好人工智慧方向盤
    算法推薦這把雙刃劍如何因勢利導,趨利避害,值得思考。   算法推薦 「越用越懂你」   近年來,一些平臺開始使用「算法推薦」模型進行精確推薦。這一點在內容媒體平臺上尤為突出。   在今日頭條帶動下,目前,很多客戶端都加載了算法推薦功能。
  • 世間音樂|每日音樂推薦——《寫給黃淮》
    深耕音樂,熱愛不止,大家好,我是阿宗。今天給大家推薦的音樂是《寫給黃淮》,作詞作曲都是解憂邵帥一人完成,此曲收錄於2019年1月3日發行的專輯《寫給黃淮》中。歌曲在2018年11月悄無聲息爆紅,從黃淮學院開始傳播,瞬間席捲各大音樂榜單,播放量已破千萬,評論過萬,流行榜單位居前列。
  • 網易雲音樂推出官方歌單
    AI個性化智能推薦相結合的方式,幫助用戶發現更多優質好音樂。目前,官方歌單主要包括4大分類,包括通過個性化推薦算法挖掘好歌的私人定製系列、專業編輯精心挑選優質新歌的一周上新系列、覆蓋通勤助眠運動等多個生活場景的日常場景歌單系列和各種音樂流派的風格歌單系列等多個系列
  • 基於算法推薦的社會性反思:個體困境、群體極化與媒體公共性
    」與「推薦算法」相結合,實行兼具信息分發多樣化與個性化的混合推薦算法,將媒體公共性重建與個性化需求滿足有機結合,是破解算法推薦社會性困境的現實可行途徑。信息的無限性與個體注意力的有限性之間存在著必然的矛盾,為了解決這種矛盾,基於算法推薦的信息過濾服務成為必然選擇,而基於服務網絡收集的用戶數據可以成為個性化信息分發的基礎。 在個性化信息分發的過程中,算法推薦技術發揮著重要的作用。目前,「用於推薦系統的算法大致有以下幾類:基於流行度的算法、協同過濾的算法、基於內容的算法、基於模型的算法、混合算法」。