CIKM 2019 挑戰杯「用戶行為預測」冠軍方案:層次GNN模型在推薦中...

2020-12-05 雷鋒網

雷鋒網 AI 開發者按:近日,在中國北京舉辦 CIKM 2019 AnalytiCup 中,由來自浙江大學、中央財經大學、阿里巴巴等機構組成的團隊 WWG 摘得「用戶行為預測」賽道的桂冠。

CIKM 是中國計算機學會(CCF)推薦的資料庫/數據挖掘/內容檢索領域的 B 類會議。 CIKM AnalytiCup 挑戰賽是會議同期舉行的國際數據挖掘比賽,今年由 CIKM、阿里媽媽、阿里巴巴算法大學、阿里雲天池共同承辦,挑戰賽分為兩個賽道,用戶興趣高效檢索(Efficient User Interests Retrieval)和用戶行為多樣性預測(Predicting User Behavior Diversities in A Dynamic Interactive Environment)。

現雷鋒網(公眾號:雷鋒網) AI 開發者將 WWG 團隊冠軍方案整理如下,希望能給開發者們一些經驗與啟發。

冠軍團隊

本次冠軍團隊WWG成員分別來自浙江大學,中央財經大學,阿里巴巴等機構;兩位學生孟憲令和焦宇航在阿里巴巴搜索推薦事業部的商業賦能算法團隊實習期間,參與了該比賽;比賽過程中,團隊負責人李朝博士,以及兩位師兄潘旭明和鄒朋成在算法的創新和思路上給予了一定的輔導。

阿里巴巴搜索推薦事業部的商業賦能團隊,致力於通過對電商平臺的海量用戶和商品的精準理解,從需求側驅動供給側的新商業賦能,給平臺的消費者和賣家都提供更好的服務。

賽題簡介和分析

基本問題

根據歷史用戶-商品交互行為、用戶屬性和商品屬性,對給定用戶進行未來點擊預測,選出該用戶未來三天最可能點擊的商品 top50;其中,在複賽中需特別注意一點,即用戶歷史點擊商品並不在未來可能出現的點擊商品可選池中。

評估指標 Recall@50

其中為用戶在未來三天內的實際點擊商品集合,為用戶在未來三天內的預測點擊商品集合,此處需要注意,預測點擊商品集合的數量需滿足,即返回商品數量嚴格約束為 50 個。

簡要分析

僅僅看題目描述我們可以發現,這個題目本質上是一個召回預估問題。更具體的,這個問題應該以 u-i 對為輸入,經過一定模型的判斷,最終給出一個 u-i 對對應的分數,再根據每個 user 對應的 u-i 對分數從大到小的排序,取出 top50 的 item 作為最終得到預測點擊商品集合。

同時,考慮到規模問題,對於千萬級別的獨立 user 和 item,直接去做全集的 u-i 對預測顯然既不現實又不經濟,因此我們在結題初期就確定了「初篩-精排」兩階段求解框架,如圖 1 所示:

圖 1 「初篩-精排」兩階段求解框架

然而,這個題目的標題為用戶行為預測,在賽題官方的描述裡也多次提到 Graph 的概念。從這一角度思考,這個問題可以描述為 u-i 二部圖的 link prediction 問題,雖然從模型的角度來看可能和剛剛說到的類似,但這一特點似乎在暗示圖結構信息在這一比賽當中的重要性。

因此,我們決定從兩個角度對此問題進行分析和求解:傳統的基於靜態屬性信息的統計特徵工程,以及基於 u-i 二部圖的結構特徵工程。

解題思路

統計特徵的提取在我們的工作中相對簡略,因此在本節中,我們著重介紹我們對圖結構特徵的思考和使用。

算法動機

為了可以預測用戶未來的點擊行為,我們需要對用戶和商品進行更為精準的刻畫和表達,由於本次賽題的主視角是用戶視角(用戶會點哪些商品),所以我們認為,解決 u-i 對預測問題的核心思想是:如何更好的表達用戶的偏好。即什麼樣的商品用戶會點擊,歷史的交互行為所傳達出來的哪些信息對未來點擊的預測是有效的。

通過對用戶的行為進行思考和分析,我們發現用戶的偏好存在如下兩類的關係:

層次關係

更深入的,我們發現這兩類關係存在相對明晰的層次關係,如:

這兩類偏好關係廣泛存在與用戶的歷史行為中,具體如圖 2 所示;因此,如何合理捕捉這兩類層次特徵,是我們接下來算法的重點。

圖 2 層次偏好特徵表達示意圖

解決方案

在接下來的算法中,我們將基於類目的層次偏好稱為顯式層次偏好,將基於用戶興趣主題的層次偏好稱為隱式層次偏好。我們的解決方案一共包含以下四部分:

圖 3 解決方案大綱

數據預處理

由於數據集本身是存在不同日期,不同交互行為(點擊,購買,加購,收藏)的,我們首先通過引入時間衰減因子和行為衰減因子兩個超參數,對原始數據集進行處理,並構建完成 user-item 二部圖(如圖 4)。

與此同時,也根據 user 特徵數據集和 item 特徵數據集構建一系列統計特徵,以及 user 和 item 的屬性特徵。

圖 4 user-item 二部圖

顯式層次特徵提取

顯式層次特徵主要基於 item-cate-cate1 的層次關係,通過將歷史行為與 item 特徵進行匹配,可以分別構建出 user-item,user-cate,user-cate1 三張二部圖,對三個層次分別實現協同過濾算法,從而得出 user 對不同 item,不同 cate 以及不同 cate1 的相似性得分。我們可以看到顯性的層次特徵是只有 item 維度的。

圖 5 顯性層次特徵提取

隱式層次特徵提取

隱式層次特徵的提取相對困難,因為興趣主題並不像類目一樣,每個商品並沒有被標定一個顯式的興趣主題。為了比較好的解決這一問題,我們提出 Hierarchical Graph Neural Network(HGNN)算法,對圖結構進行表達。

具體的,我們對原始的 u-i 二部圖做 GraphSAGE 算法,以具有邊的 user,item 的向量表達相似(餘弦相似度)為目標(注意,這裡嚴格意義上應該區分兩個向量空間,在比賽中我們為了提高效率將兩個向量空間的維度設定成了相同的 16 維,因此可以實現餘弦相似度的計算),做無監督的 Graph Embedding 訓練。待網絡穩定後,我們可以得到每個 user 和 item 的向量表達。這一向量即為該 user/item 的一級隱式特徵。

為了表達出層次特性,我們根據 user/item 的一級隱式特徵,分別在 user 和 item 的向量空間中做聚類(比賽中採用 K-means 聚類),以聚類簇的平均特徵向量作為簇節點的向量,以簇間原始節點關聯關係的統計作為簇與簇之間的關聯(邊)。這樣,我們便通過聚類操作,將原始 u-i 二部圖粗化,變為了一個以主題用戶簇和主題商品簇為節點,節點數量更少的粗化圖。對粗化圖做和原始 u-i 二部圖相同基於 GraphSAGE 的 Graph Embedding 操作,我們便可以得到粗化隱式特徵,原始節點的二級隱式特徵即為其所屬簇的粗化隱式特徵。

對於每個 user/item,將其一級隱式特徵和二級隱式特徵級聯,即得到該節點的隱式層次特徵。在實際計算 u-i 對相似度時,將層次隱式特徵分級比較即可得到這一部分的相似分。我們可以看到隱性層次特徵是既有 user 維度,也有 item 維度的。

圖 5 隱性層次特徵提取

排序模型

在 Candidate Generation 階段(初篩階段),我們採用計算效率相對較高的顯式層次特徵(即採用協同過濾分)對所有商品進行初篩,對每個 user,保留其最有可能點擊的 2000 個商品進行 Ranking 階段的精排。需要注意的是,在初賽中歷史商品也可能在未來曝光並被點擊,所以歷史商品無需特殊處理。而複賽階段由於歷史商品不會在未來曝光,所以複賽階段在初篩階段的結尾要對歷史出現過的商品做篩除,以避免無效精排。

Ranking 階段基本上每個 user 要處理 2000 個左右的商品,因此我們的預測模型選擇了相對簡單高效的 LR 模型,將前置工作中得到的顯式層次特徵,隱式層次特徵和統計特徵進行不同階的特徵交叉後引入 LR 模型後,將 LR 模型的輸出作為排序分數, 取分數 top50 作為最終的預測結果進行輸出。

這裡交叉特徵的引入本質是一個 kernel 函數的思想, 輔助提高了 LR 模型的非線性能力,我們先後採用了顯性層次特徵和隱性層次特徵之間 2 階的特徵交叉以及 3 階特徵交叉; 分別對最後的模型效果有一定提升。

圖 6 排序模型圖

成果展示

以下是我們算法迭代過程中的一些重要節點:

圖 7 重要節點示意圖

可以發現,通過引入層次結構特徵,尤其是隱式層次結構特徵的提取,我們對這一問題進行了較好的求解,從結論上可以看出,結構特徵確實對整個預測準確度帶來了較大的性能提升,後續對結構特徵信息做了特徵交叉之後,性能也有了進一步的提高。

總結及未來計劃

本次比賽我們嘗試了 Hierarchical GNN 模型來獲取用戶和商品的隱性層次特徵,獲得了非常不錯的效果,由於比賽時間非常有限,我們的排序模型使用了 LR, 以便於快速迭代並調整相應參數,使用了 point-wise 的訓練方式。

如果還有足夠的時間,我們還會嘗試更多的排序模型,比如 xgboost, deepFM, wide&deep 等,並對模型做相應的融合,再採樣 pair-wise 的訓練方式,相信還會進一步提升模型效果。

圖 8 冠軍獲獎合影

更多信息請參考大賽官網:

https://tianchi.aliyun.com/markets/tianchi/cikm19_en_copy?spm=a2c22.265802.1380778.2.4cdb2b2cFZlc5l&wh_ttid=pc 

雷鋒網 AI 開發者

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • CIKM2019 挑戰杯冠軍方案:層次GNN模型在推薦中的應用
    雷鋒網(公眾號:雷鋒網) AI 開發者按:近日,在中國北京舉辦 CIKM 2019 AnalytiCup 中,由來自浙江大學、中央財經大學、阿里巴巴等機構組成的團隊 WWG 摘得「用戶行為預測」賽道的桂冠。CIKM 是中國計算機學會(CCF)推薦的資料庫/數據挖掘/內容檢索領域的 B 類會議。
  • 國內接收論文佔四成圖神經網絡大火,ACM CIKM2019最佳論文出爐
    「在學術研究取得一定進展之後,我們必須探討如何把這些新技術轉換到實際的問題中,」本屆大會主席、澳大利亞科學院院士、雪梨大學教授陶大程表示。「這可以解決工業界此前無法解決的問題。在產業界,我們也可以從新的角度發現問題。」
  • 「中國法研杯」相似案例匹配競賽結果出爐,冠軍方案關鍵點詳解
    :2019 年 10 月 19 日,第十八屆中國計算語言學大會「中國法研杯」相似案例匹配評測研討會在雲南昆明完美落幕。其中,基於大會開展的中國法研杯相似案例匹配評測競賽,由來自支付寶的 AlphaCourt 團隊摘得桂冠,這是一支致力於搭建屬於支付平臺的「網際網路法院」的隊伍。本次大賽中,他們充分運用了數據挖掘、深度學習、神經網絡等方法,實現了對「多篇法律文書的相似度計算與判斷」等任務的多模型融合、優化以及可視化探索,最終以 71.88 的優績,奪下了本次大賽冠軍!
  • 當CV碰上無人機:ICCV 2019 VisDrone挑戰賽冠軍解決方案解讀
    機器之心發布作者:羅志鵬近日,在 ICCV 2019 Workshop 舉辦的 Vision Meets Drone: A Challenge(簡稱:VisDrone2019) 挑戰賽公布了最終結果,來自深蘭科技北京 AI 研發中心的 DeepBlueAI 團隊斬獲了「視頻目標檢測」和「多目標追蹤」兩項冠軍。
  • Gartner預測2019年十大「數據和分析技術」趨勢:增強型分析成為...
    增強型數據分析,增強型數據管理,持續型智能,可解釋的 AI,數據結構,NLP/對話式分析,商業 AI 和 ML,區塊鏈和持久性內存伺服器共同構成了 Gartner 2019 年十大「數據和分析技術趨勢」。 最近兩天裡,2 月 18 日-19 日,在雪梨舉行的 Gartner 數據與分析峰會上,增強型數據分析和可解釋的人工智慧成為焦點。
  • 構建GNN 的「統一場」:從與 WL 算法、組合優化算法的聯繫看 GNN...
    這些問題包括化學信息學、推薦系統、問答系統、以及組合優化問題。Hamilton、Zhou、Wu 等人分別於 2017、2018、2019 年對 GNN 做了全面的綜述。儘管在許多領域中,GNN 在實驗中都取得了成功,但是 Xu 等人和 Morris 等人卻指出,GNN 不能夠區分一些圖對。這說明 GNN 不能使用任何參數正確地對這些圖進行分類,除非這些圖的標籤是相同的。
  • KDD Cup 2018 冠軍「 first floor to eat latiao」:為什麼取這個...
    作為目前數據挖掘領域最有影響力、最高水平的國際頂級賽事,KDD Cup 至今已舉辦 21 屆,每年都會吸引世界數據挖掘界的頂尖專家、學者、工程師、學生等前來參賽,被外界譽為大數據領域的「奧運會」。本次比賽共吸引了來自全球 4183 支隊伍,包括 49 個國家的 3000 多所學校或機構,北京郵電大學韓金棟、張前前、劉娟,中南大學羅賓理、蔣浩然組成的「first floor to eat latiao」團隊在該項賽事中取得第一名。
  • 「極客公開課·Live」5 分鐘帶你複習如何確立精準「用戶畫像」
    此公開課為極客公園策劃的「極客公開課•Live」第十四期。本次公開課,我們將邀請到友盟+首席數據架構師&數據委員會會長張金來為大家講解到底什麼是用戶畫像,快速建模框架,如何提高用戶精準畫像的的準確性,從理論到應用的一起了解用戶畫像。用戶畫像也叫用戶標籤, 是基於用戶行為分析獲得的對用戶的一種認知表達,也是後續數據分析加工的起點。
  • 基於用戶畫像與新聞詞向量的個性化新聞推薦模型
    ,預測用戶對新聞的行為——點擊、不點擊,從而將點擊概率較高的新聞推薦給用戶,提高推薦效果,可廣泛應用於新聞門戶網站,如人民網、網易新聞等。 針對上述問題,本文提出一種基於用戶畫像和內容詞向量融合特徵的個性化新聞推薦模型,分析用戶的信息和歷史行為數據構建用戶畫像,並使用改進的Word2Vec詞向量訓練算法對新聞內容進行訓練,有效衡量新聞之間的相似性,進而採用高效分類算法預測用戶對其推薦內容的行為——點擊、不點擊,並按照用戶點擊概率進行排序,將點擊概率較高的新聞內容推薦給用戶,這樣避免衡量用戶高維稀疏數據之間的相似性並能對新聞內容進行有效的特徵提取
  • 不只是智能投研,「超對稱技術」想成為所有B端用戶的「外腦」
    自2015年開始,量化基金在中國進入爆發式增長,行業的難點集中體現在:不同基金的數量模型中的因子過於同質化。對於每一隻基金來說,要想在投資組合裡尋找到更多的超額收益 - alpha,就要找到新的因子,或者擁有更強的處理因子的能力。
  • 預測未來?Google 用 AI 模型實現了「近乎實時」的天氣預報
    對人類來說,時間一直是最大的敵人,超越時間一直是人類的夢想,「預測未來」就是人類想要超越時間的一種方式。天氣預報就是生活中最常見的一種「預測未來」,但就像剛才說的,預測天氣同樣也是非常困難的一件事。▲ 圖片來自:British Council Learn EnglishGoogle 最近在官方的博客中分享了一項新的研究,該研究聲稱 Google 實現了「近乎實時」的天氣預報。
  • 【論文導讀】DLP-KDD2019|BST---使用Transformer進行序列推薦
    文章最主要的內容就是「通過Transformer模型在用戶行為序列中捕獲序列信息來進行推薦」。其餘內容與其他Embedding&MLP的模型沒有本質上的變化。本文主要聚焦於推薦系統中排序階段的任務,「即可以把它看作是一個CTR預估任務」。
  • 你為何而轉:微博用戶轉發行為預測模型的構建與影響因素探究
    轉發行為的實踐有助於建立起一個會話生態系統。在此系統中,會話是通過用戶基於共享上下文而進行交流的。同時,轉發行為也使得新的,原作者陌生的用戶參與特定的話題討論[[5]]。 雖然轉發行為被看作是微博平臺上信息擴散的關鍵機制,但目前仍不清楚為什麼有些微博比另一些更容易被轉發。本研究的第一個研究目的,即構建模型對用戶轉發行為進行預測。
  • CVPR 2019 | 奪取6項冠軍的曠視如何築起算法壁壘
    相比於在 iNaturalist 挑戰賽上的突破,曠視研究院檢測組負責人俞剛帶隊獲得自動駕駛挑戰賽三項冠軍更像是「常規操作」。在去年 CVPR 上,俞剛帶隊就獲得了自動駕駛識別挑戰賽實例視頻分割(Instance-level Video Segmentation)的冠軍。
  • 2019NextWorld | 混沌大學創新領教李雲龍:存量時代下,6大思維模型...
    2019年12月18日,「增長進化論第四屆2019NextWorld峰會」如期而至,大會上,混沌大學創新領教&開放平臺負責人李雲龍,分享了思維模型「六脈神劍」,直擊用戶留存,破局增長的秘密。
  • ...知識計算解決方案,讓鋼企一年省2000萬,合金成分預測精準度超 95%
    「AI 只有進入企業核心生產系統才能真正創造價值。」去年開始,AI 行業投資就有遇冷的趨勢,越來越多的觀點認為,並不是「AI 涼了」,而是「AI 行業」其實是一個偽概念,AI 未來的發展趨勢一定是「行業 + AI」,只有進入行業中推動行業變革,AI 才能發揮自身價值。
  • 2020-2021「AI中國」機器之心年度獎項揭榜(上)
    在這風雲變幻的這一年, AI與各行各業深度融合,在實體世界中體現出巨大價值,為科技強國戰略注入了更大的發展動能。本屆「AI 中國」機器之心 2020 年度評選,為順應產業變化,體現產業趨勢,在傳統的六大榜單之外,新增設「新基建領軍企業」、「產業數智化領軍企業」、「最強技術生態」及「智能國民應用」四大分榜,共計形成十大榜單200個獎項。
  • 從模型到部署,FPGA該怎樣加速廣告推薦算法
    圖 1:某美食 APP 的推薦頁面這些 APP 都會有類似「猜你喜歡」這類欄目。在使用時會驚嘆「它怎麼直到我喜歡這個」,當然,也會有「我怎麼可能喜歡這個」的吐槽。其實這些推送都是由機器學習搭建的推薦系統預測的結果。今天就介紹一下推薦系統中的重要成員 CTR 預估模型,下面先讓大家對 CTR 預估模型有一個初步認識。
  • ...的「統一場」:從與 WL 算法、組合優化算法的聯繫看 GNN 的表達...
    這些問題包括化學信息學、推薦系統、問答系統、以及組合優化問題。Hamilton、Zhou、Wu 等人分別於 2017、2018、2019 年對 GNN 做了全面的綜述。儘管在許多領域中,GNN 在實驗中都取得了成功,但是 Xu 等人和 Morris 等人卻指出,GNN 不能夠區分一些圖對。這說明 GNN 不能使用任何參數正確地對這些圖進行分類,除非這些圖的標籤是相同的。
  • 2019年小人物創業指南之「事」
    你也許會想到先做市場調研,再做市場分析與用戶分析,後做產品設計,然後再拉融資、搭團隊、做產品、搞傳播、鋪渠道、幹銷售、搞運營……但這是2019年,不是1999年。舊產品、有中資源的多元細分的「專門」新市場;舊產品、有小資源的專一細分的「利基」新市場;舊產品、有高能力的專一細分的「利基」新市場。