數據的偏態分布、噪聲等問題在機器學習中廣泛存在,極大的限制了模型的性能。自監督學習可能是緩解上述問題的有效途徑!微軟亞洲研究院、中國科學技術大學、新加坡國立大學的一眾大佬聯合提出了SGL模型,通過輔助的自監督任務來提高監督任務(推薦)的性能。通過簡單的自監督任務就可以極大的提升現有GNN推薦模型的效果。
推薦系統上的user-item圖的表示學習從單個ID發展到了通過高階鄰居來學習(例如經典的NGCF)。雖然這樣的模型很高效,但是卻有兩個限制:
(1)度數高的節點對表示學習的影響更大,從而減弱了度數低的節點對表示學習的影響。
(2)因為聚合鄰居機制會擴大邊的影響,所以模型對噪聲敏感
這項工作是為了增強原來推薦系統GCN的精確性和魯棒性的,中心思想是通過輔助的自監督任務來提高經典監督任務的性能。我們的模型叫做自監督圖學習(SGL),這個模型超過了之前先進的模型lightGCN,提高了精確度和魯棒性。
在user-item互動數據上進行表示學習,早期的模型比如MF將每個用戶或項的ID映射到embedding向量上。後續的研究將單個ID同互動歷史結合起來進行更好的表示。而現如今,表示學習已經發展為從高階連接中進行學習。這項技術是從GCN中得到靈感的。但是基於GCN的表示模型受到了一些限制:
(1)稀疏的監督信號 相比整個互動空間而言,觀察到的互動及其稀疏。這對於訓練模型是不充足的。
(2)偏態分布的數據 觀察到的互動通常遵循冪律分布,而度數小的節點則缺少監督信號,度數高的節點出現次數更多。所以模型受度數高的節點影響更大。
(3)噪聲的影響 大多數用戶提供的反饋是隱式而非顯式的,所以觀察到的互動通常含有噪聲。而GCN的鄰居聚集機制會擴大這種影響。
這裡提出了SSL模型來解決上述問題。有兩個關鍵的組成部分:
(1)數據增強 為每個節點生成多種視角
(2)對比學習 相對其他節點而言,最大化相同節點的不同視角的認同。
SGL模型可以用用於任何含有用戶embedding和項目embedding的模型。我們將它應用於lightGCN上,在精確度和魯棒性上獲得了提升。
圖1
SGL的總體框架。(1)第一層闡述了主要監督學習任務的工作流。(2)第二層和第三層展示了有增強ID embedding和圖結構的SSL模型的工作流
在聚集鄰居信息之前,要先進行ID embedding和圖結構的增強。即
建立了節點的增強視角之後,我們將相同節點的視角看做正例對,不同節點的視角看做負例對,有
我們還提出了多任務訓練策略來優化經典的推薦任務
我們在三個基準數據集上進行了實驗,對不同的模型進行了對比,得到了如下結果
可以看到,在大多數情況下,SGL表現優於lightGCN;其中SGL-ED的表現是最好的,我們將其歸因為SGL-ED可以捕獲圖結構的繼承模式;SGL-ND的穩定性比SGL-ED差很多,這是因為對邊進行了dropout;將模型從1層變為3層可以增強SGL模型的性能。
除此之外,SGL在long-tail推薦中表現很好,且訓練效率和魯棒性測試上均表現優異。
這項工作中,我們介紹了之前GCN模型的限制,並且提出了SSL來解決這些問題。我們提出了SGL來增強推薦任務的性能。通過embedding矩陣和基於GCN模型的圖結構,我們設計了四種數據增強來進行輔助對比任務。最後我們做了實驗,證明了模型的優越性。