簡單好用!推薦中的自監督圖神經網絡

2021-02-24 圖與推薦

數據的偏態分布噪聲等問題在機器學習中廣泛存在,極大的限制了模型的性能。自監督學習可能是緩解上述問題的有效途徑!微軟亞洲研究院、中國科學技術大學、新加坡國立大學的一眾大佬聯合提出了SGL模型,通過輔助的自監督任務來提高監督任務(推薦)的性能。通過簡單的自監督任務就可以極大的提升現有GNN推薦模型的效果。

推薦系統上的user-item圖的表示學習從單個ID發展到了通過高階鄰居來學習(例如經典的NGCF)。雖然這樣的模型很高效,但是卻有兩個限制:

(1)度數高的節點對表示學習的影響更大,從而減弱了度數低的節點對表示學習的影響。

(2)因為聚合鄰居機制會擴大邊的影響,所以模型對噪聲敏感

這項工作是為了增強原來推薦系統GCN的精確性和魯棒性的,中心思想是通過輔助的自監督任務來提高經典監督任務的性能。我們的模型叫做自監督圖學習(SGL),這個模型超過了之前先進的模型lightGCN,提高了精確度和魯棒性。

在user-item互動數據上進行表示學習,早期的模型比如MF將每個用戶或項的ID映射到embedding向量上。後續的研究將單個ID同互動歷史結合起來進行更好的表示。而現如今,表示學習已經發展為從高階連接中進行學習。這項技術是從GCN中得到靈感的。但是基於GCN的表示模型受到了一些限制:

(1)稀疏的監督信號 相比整個互動空間而言,觀察到的互動及其稀疏。這對於訓練模型是不充足的。

(2)偏態分布的數據 觀察到的互動通常遵循冪律分布,而度數小的節點則缺少監督信號,度數高的節點出現次數更多。所以模型受度數高的節點影響更大。

(3)噪聲的影響 大多數用戶提供的反饋是隱式而非顯式的,所以觀察到的互動通常含有噪聲。而GCN的鄰居聚集機制會擴大這種影響。

這裡提出了SSL模型來解決上述問題。有兩個關鍵的組成部分:

(1)數據增強 為每個節點生成多種視角

(2)對比學習 相對其他節點而言,最大化相同節點的不同視角的認同。

SGL模型可以用用於任何含有用戶embedding和項目embedding的模型。我們將它應用於lightGCN上,在精確度和魯棒性上獲得了提升。

圖1

SGL的總體框架。(1)第一層闡述了主要監督學習任務的工作流。(2)第二層和第三層展示了有增強ID embedding和圖結構的SSL模型的工作流

在聚集鄰居信息之前,要先進行ID embedding和圖結構的增強。即

 

 

建立了節點的增強視角之後,我們將相同節點的視角看做正例對,不同節點的視角看做負例對,有

 

我們還提出了多任務訓練策略來優化經典的推薦任務

 

我們在三個基準數據集上進行了實驗,對不同的模型進行了對比,得到了如下結果

可以看到,在大多數情況下,SGL表現優於lightGCN;其中SGL-ED的表現是最好的,我們將其歸因為SGL-ED可以捕獲圖結構的繼承模式;SGL-ND的穩定性比SGL-ED差很多,這是因為對邊進行了dropout;將模型從1層變為3層可以增強SGL模型的性能。

除此之外,SGL在long-tail推薦中表現很好,且訓練效率和魯棒性測試上均表現優異。

這項工作中,我們介紹了之前GCN模型的限制,並且提出了SSL來解決這些問題。我們提出了SGL來增強推薦任務的性能。通過embedding矩陣和基於GCN模型的圖結構,我們設計了四種數據增強來進行輔助對比任務。最後我們做了實驗,證明了模型的優越性。

相關焦點

  • 德克薩斯A&M大學在讀博士遊宇寧:自監督學習在圖卷積網絡中的研究...
    為了有效利用大量的無標籤數據,自監督學習通過設置合理的學習目標和定義前置任務,從數據本身中得到了監督信號。當前自監督學習已經被廣泛用於訓練卷積神經網絡(CNNs),有效地提高了圖像表示學習可傳遞性、泛化能力和魯棒性,並且已在語義分割、目標檢測、圖像分類、人體動作識別等實戰場景中展現出卓越效果。現在更多無需人工標註的前置任務訓練也被提出,如前景對象分割、圖像修補、圖像著色等。
  • 用於半監督學習的圖隨機神經網絡
    原標題:用於半監督學習的圖隨機神經網絡   導讀:在 NeurIPS 2020 上,清華大學聯合微眾銀行
  • 簡單圖神經網絡(GNN)的基礎知識
    在社交網絡分析等一些應用中,圖神經網絡已經得到了廣泛的應用。新加坡科技研究局(A*STAR)的研究者 Rishabh Anand 近日通過圖解的方式介紹了圖與圖神經網絡的基本概念,或許能幫助初學者更直觀地理解圖神經網絡的內涵和價值。
  • 為什麼要進行圖學習?談一談逆勢而上的圖神經網絡
    NeurIPS2020 | 解決不確定性問題—用於半監督學習的圖隨機神經網絡(代碼已經公開)ICLR 2020 | 兼顧效率與質量—基於譜方法的高效多級圖嵌入框架NeurIPS2020 | 用於半監督學習的圖隨機神經網絡NeurIPS2020 | 顯著超越STGCN: 方法簡單-效果顯著自適應構圖的時空圖網絡硬核 | TKDE2020
  • NeurIPS 2020|用於半監督學習的圖隨機神經網絡
    導讀:在 NeurIPS 2020 上,清華大學聯合微眾銀行、微軟研究院以及博世人工智慧中心提出了 Graph Random Neural Network (GRAND),一種用於圖半監督學習的新型圖神經網絡框架。
  • 73歲Hinton老爺子構思下一代神經網絡:屬於無監督對比學習
    Hinton 在此次報告中回顧了神經網絡的發展歷程,並表示下一代神經網絡將屬於無監督對比學習。Hinton 的報告主要內容如下:人工神經網絡最重要的待解難題是:如何像大腦一樣高效執行無監督學習。目前,無監督學習主要有兩類方法。第一類的典型代表是 BERT 和變分自編碼器(VAE),它們使用深度神經網絡重建輸入。
  • 使用Keras構建具有自定義結構和層次圖卷積神經網絡
    如何構建具有自定義結構和層次的神經網絡:Keras中的圖卷積神經網絡(GCNN)在生活中的某個時刻我們會發現,在Tensorflow Keras中預先定義的層已經不夠了!我們想要更多的層!我們想要建立一個具有創造性結構的自定義神經網絡!幸運的是,通過定義自定義層和模型,我們可以在Keras中輕鬆地執行此任務。
  • NAS-DIP: 基於神經架構搜索的自監督圖像補全算法
    From: Arxiv;編譯: T.R  與先前使用大規模監督數據進行訓練的算法不同,Deep Image Prior(DIP)利用隨機初始化的神經網絡模型和退化後的圖像進行自監督迭代,在無需大規模數據進行訓練的情況下,就能有效實現圖像去噪、超分辨和補全等任務。
  • SIGIR2020|圖靈獎得主Hinton:無監督對比學習將是神經網絡的未來
    【新智元導讀】7月27日上午,第43屆國際信息檢索大會(SIGIR 2020)線上開啟,圖靈獎得主Geoffrey Hinton作了主題演講,今天我們就跟隨Hinton一起走進「神經網絡的新時代」。人工神經網絡一直懸而未決的問題是如何像大腦一樣有效地進行無監督學習。
  • [獨家]25張圖讓你讀懂神經網絡架構
    VAE是生成器,用於在樣本中插入噪聲。而 AE 則僅僅是將它們得到的輸入映射到它們「記憶」中最近的訓練樣本!本文不詳細介紹每個不同構架內部如何工作。 雖然大多數縮寫已經被普遍接受,但也會出現一些衝突。例如RNN通常指復發神經網絡,有時也指遞歸神經網絡,甚至在許多地方只是泛指各種復發架構(包括LSTM,GRU甚至雙向變體)。AE也一樣,VAE和DAE等都被簡單的稱為AE。
  • 中科院計算所沈華偉:圖神經網絡表達能力的回顧和前沿
    在報告中,沈華偉老師提到:這幾年,雖然圖神經網絡在其他領域大量應用,但「內核」仍然停滯不前,目前設計新圖神經網絡(GNN)的兩種常用方式都在面臨理論上的瓶頸。沈華偉老師還對近幾年圖神經網絡表達能力的相關研究進行了梳理,他說:「GNN出現的早期,大家對它表達能力的認識是基於其在半監督學習,尤其是節點分類任務上的優秀表現,一些應用向的研究也只是對圖神經網絡表達能力經驗上的證明」。基於這個認知,在介紹完圖神經網絡的基本知識之後,沈華偉老師對圖神經網絡的表達能力給予了理論上的介紹。
  • 中科院計算所沈華偉:圖神經網絡表達能力的回顧和前沿
    在報告中,沈華偉老師提到:這幾年,雖然圖神經網絡在其他領域大量應用,但「內核」仍然停滯不前,目前設計新圖神經網絡(GNN)的兩種常用方式都在面臨理論上的瓶頸。沈華偉老師還對近幾年圖神經網絡表達能力的相關研究進行了梳理,他說:「GNN出現的早期,大家對它表達能力的認識是基於其在半監督學習,尤其是節點分類任務上的優秀表現,一些應用向的研究也只是對圖神經網絡表達能力經驗上的證明」。基於這個認知,在介紹完圖神經網絡的基本知識之後,沈華偉老師對圖神經網絡的表達能力給予了理論上的介紹。
  • 一份完全解讀:是什麼使神經網絡變成圖神經網絡?
    雖然卷積網絡很難對球面數據進行分類,但是圖網絡可以很自然地處理它。可以把它當做是一個處理工具,但在實際應用程式中會出現許多類似的任務。雷鋒網AI科技評論按:最近,Graph Neural Network(GNN)在很多領域日益普及,包括社交網絡、知識圖譜、推薦系統甚至於生命科學。GNN在對節點關係建模方面表現十分突出,使得相關的研究領域取得了一定突破。
  • 深度學習時代的圖模型,清華發文綜述圖網絡
    他們將現有方法分為三個大類:半監督方法,包括圖神經網絡和圖卷積網絡;無監督方法,包括圖自編碼器;近期新的研究方法,包括圖循環神經網絡和圖強化學習。然後按照這些方法的發展史對它們進行系統概述。該研究還分析了這些方法的區別,以及如何合成不同的架構。最後,該研究簡單列舉了這些方法的應用範圍,並討論了潛在方向。
  • 24歲博士小哥用圖神經網絡重新發現宇宙
    然而,似乎也存在一些使用簡單符號模型描述物理世界的例子。 從純機器學習的角度來看,符號模型也擁有許多優點: 它們緊湊,提供了明確的解釋,並且概括得很好。「符號回歸」就是這樣一種用於符號模型的機器學習算法: 它是一種有監督的技術,用組合分析來為數據集建模。
  • 斯坦福的神經網絡用這種激活函數,高保真還原圖像視頻
    蕭簫 發自 凹非寺量子位 報導 | 公眾號 QbitAI一個來自斯坦福團隊研究的、名為SIREN的簡單神經網絡結構,剛引爆了機器學習圈。不為別的,實在是因為它展現出來的音/視頻及圖像復原效果,太令人驚嘆了(效果展示中,Ground Truth為原始視頻、音頻或圖像數據)。
  • 頂會見聞系列:ICML 2018(下),能量、GAN、監督學習、神經網絡
    當前的模型(如深度神經網絡)需要大量的能量。從物理能量(建模)思想出發推導出深度學習的一個貝葉斯形式,能帶來(現實中)更能源高效的模型。最終這些事情都能一一連接起來。這裡有一個他關於該主題的另一個報告,與 ICML 的這個報告相比有較大不同。
  • 圖神經網絡越深,表現就一定越好嗎?
    數十層甚至數百層神經網絡的應用,是深度學習的重要標誌之一。但現實情況卻遠非如此:比如今年被視作機器學習領域最火熱的研究方向之一——圖神經網絡,大多數都只運用了寥寥幾層網絡。一般思路裡,我們會認為圖神經網絡越深,效果就會越好。
  • 初識人工神經網絡
    在人工神經網絡模型中使用單元節點模擬神經元,通過調整神經網絡內部大量節點(神經元)之間相互連接的權重來達到處理信息的目的。人工神經網絡的神奇之處在於不需要顯示的編程告訴計算機該如何處理信息,它可以像大腦一樣從已知數據信息中進行自我學習,然後對全新的輸入數據信息輸出正確的響應。人工神經網絡並非真正的大腦,它只是使用軟體模擬人腦,用軟體的方式使普通的電晶體像數億互聯的神經元細胞一樣工作。
  • 自監督、半監督和有監督全涵蓋,四篇論文遍歷對比學習的研究進展
    自監督學習意思是使用非人工標記數據進行學習。在機器學習中,比較著名的自監督方法就是自然語言處理中的 。由此可見,與無監督學習不同,自監督中仍然存在標記,只不過,這些標記不是人類參與生成的,而是從輸入數據中生成的,通常可以使用啟發式算法生成標記。