CIKM2019 挑戰杯冠軍方案:層次GNN模型在推薦中的應用

2020-11-29 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 開發者按:近日,在中國北京舉辦 CIKM 2019 AnalytiCup 中,由來自浙江大學、中央財經大學、阿里巴巴等機構組成的團隊 WWG 摘得「用戶行為預測」賽道的桂冠。

CIKM 是中國計算機學會(CCF)推薦的資料庫/數據挖掘/內容檢索領域的 B 類會議。 CIKM AnalytiCup 挑戰賽是會議同期舉行的國際數據挖掘比賽,今年由 CIKM、阿里媽媽、阿里巴巴算法大學、阿里雲天池共同承辦,挑戰賽分為兩個賽道,用戶興趣高效檢索(Efficient User Interests Retrieval)和用戶行為多樣性預測(Predicting User Behavior Diversities in A Dynamic Interactive Environment)。

現雷鋒網 AI 開發者將 WWG 團隊冠軍方案整理如下,希望能給開發者們一些經驗與啟發。

冠軍團隊

本次冠軍團隊WWG成員分別來自浙江大學,中央財經大學,阿里巴巴等機構;兩位學生孟憲令和焦宇航在阿里巴巴搜索推薦事業部的商業賦能算法團隊實習期間,參與了該比賽;比賽過程中,團隊負責人李朝博士,以及兩位師兄潘旭明和鄒朋成在算法的創新和思路上給予了一定的輔導。

阿里巴巴搜索推薦事業部的商業賦能團隊,致力於通過對電商平臺的海量用戶和商品的精準理解,從需求側驅動供給側的新商業賦能,給平臺的消費者和賣家都提供更好的服務。

賽題簡介和分析

基本問題

根據歷史用戶-商品交互行為、用戶屬性和商品屬性,對給定用戶進行未來點擊預測,選出該用戶未來三天最可能點擊的商品 top50;其中,在複賽中需特別注意一點,即用戶歷史點擊商品並不在未來可能出現的點擊商品可選池中。

評估指標 Recall@50

其中為用戶在未來三天內的實際點擊商品集合,為用戶在未來三天內的預測點擊商品集合,此處需要注意,預測點擊商品集合的數量需滿足,即返回商品數量嚴格約束為 50 個。

簡要分析

僅僅看題目描述我們可以發現,這個題目本質上是一個召回預估問題。更具體的,這個問題應該以 u-i 對為輸入,經過一定模型的判斷,最終給出一個 u-i 對對應的分數,再根據每個 user 對應的 u-i 對分數從大到小的排序,取出 top50 的 item 作為最終得到預測點擊商品集合。

同時,考慮到規模問題,對於千萬級別的獨立 user 和 item,直接去做全集的 u-i 對預測顯然既不現實又不經濟,因此我們在結題初期就確定了「初篩-精排」兩階段求解框架,如圖 1 所示:

圖 1 「初篩-精排」兩階段求解框架

然而,這個題目的標題為用戶行為預測,在賽題官方的描述裡也多次提到 Graph 的概念。從這一角度思考,這個問題可以描述為 u-i 二部圖的 link prediction 問題,雖然從模型的角度來看可能和剛剛說到的類似,但這一特點似乎在暗示圖結構信息在這一比賽當中的重要性。

因此,我們決定從兩個角度對此問題進行分析和求解:傳統的基於靜態屬性信息的統計特徵工程,以及基於 u-i 二部圖的結構特徵工程。

解題思路

統計特徵的提取在我們的工作中相對簡略,因此在本節中,我們著重介紹我們對圖結構特徵的思考和使用。

算法動機

為了可以預測用戶未來的點擊行為,我們需要對用戶和商品進行更為精準的刻畫和表達,由於本次賽題的主視角是用戶視角(用戶會點哪些商品),所以我們認為,解決 u-i 對預測問題的核心思想是:如何更好的表達用戶的偏好。即什麼樣的商品用戶會點擊,歷史的交互行為所傳達出來的哪些信息對未來點擊的預測是有效的。

通過對用戶的行為進行思考和分析,我們發現用戶的偏好存在如下兩類的關係:

如果一名用戶點擊了某個商品,那麼該用戶對該商品所在類目的商品具有一定程度的偏好,如:iPhone,Mate 30->MI MIX Alpha(智慧型手機類目);如果一名用戶點擊了某個商品,那麼該用戶對該商品所在主題的商品具有一定程度的偏好,如:沙灘褲,太陽眼鏡->防曬霜(沙灘旅行主題)。層次關係

更深入的,我們發現這兩類關係存在相對明晰的層次關係,如:

基於類目的層次偏好:iPhone,Mate 30->MI MIX Alpha(智慧型手機)->Canon EOS 相機(電子產品);基於用戶興趣主題的層次偏好:沙灘褲,太陽眼鏡->防曬霜(沙灘旅行)->運動鞋(戶外旅行)。這裡的沙灘旅行和戶外旅行都是用戶興趣層面的表達。這兩類偏好關係廣泛存在與用戶的歷史行為中,具體如圖 2 所示;因此,如何合理捕捉這兩類層次特徵,是我們接下來算法的重點。

圖 2 層次偏好特徵表達示意圖

解決方案

在接下來的算法中,我們將基於類目的層次偏好稱為顯式層次偏好,將基於用戶興趣主題的層次偏好稱為隱式層次偏好。我們的解決方案一共包含以下四部分:

圖 3 解決方案大綱

數據預處理

由於數據集本身是存在不同日期,不同交互行為(點擊,購買,加購,收藏)的,我們首先通過引入時間衰減因子和行為衰減因子兩個超參數,對原始數據集進行處理,並構建完成 user-item 二部圖(如圖 4)。

與此同時,也根據 user 特徵數據集和 item 特徵數據集構建一系列統計特徵,以及 user 和 item 的屬性特徵。

圖 4 user-item 二部圖

顯式層次特徵提取

顯式層次特徵主要基於 item-cate-cate1 的層次關係,通過將歷史行為與 item 特徵進行匹配,可以分別構建出 user-item,user-cate,user-cate1 三張二部圖,對三個層次分別實現協同過濾算法,從而得出 user 對不同 item,不同 cate 以及不同 cate1 的相似性得分。我們可以看到顯性的層次特徵是只有 item 維度的。

圖 5 顯性層次特徵提取

隱式層次特徵提取

隱式層次特徵的提取相對困難,因為興趣主題並不像類目一樣,每個商品並沒有被標定一個顯式的興趣主題。為了比較好的解決這一問題,我們提出 Hierarchical Graph Neural Network(HGNN)算法,對圖結構進行表達。

具體的,我們對原始的 u-i 二部圖做 GraphSAGE 算法,以具有邊的 user,item 的向量表達相似(餘弦相似度)為目標(注意,這裡嚴格意義上應該區分兩個向量空間,在比賽中我們為了提高效率將兩個向量空間的維度設定成了相同的 16 維,因此可以實現餘弦相似度的計算),做無監督的 Graph Embedding 訓練。待網絡穩定後,我們可以得到每個 user 和 item 的向量表達。這一向量即為該 user/item 的一級隱式特徵。

為了表達出層次特性,我們根據 user/item 的一級隱式特徵,分別在 user 和 item 的向量空間中做聚類(比賽中採用 K-means 聚類),以聚類簇的平均特徵向量作為簇節點的向量,以簇間原始節點關聯關係的統計作為簇與簇之間的關聯(邊)。這樣,我們便通過聚類操作,將原始 u-i 二部圖粗化,變為了一個以主題用戶簇和主題商品簇為節點,節點數量更少的粗化圖。對粗化圖做和原始 u-i 二部圖相同基於 GraphSAGE 的 Graph Embedding 操作,我們便可以得到粗化隱式特徵,原始節點的二級隱式特徵即為其所屬簇的粗化隱式特徵。

對於每個 user/item,將其一級隱式特徵和二級隱式特徵級聯,即得到該節點的隱式層次特徵。在實際計算 u-i 對相似度時,將層次隱式特徵分級比較即可得到這一部分的相似分。我們可以看到隱性層次特徵是既有 user 維度,也有 item 維度的。

圖 5 隱性層次特徵提取

排序模型

在 Candidate Generation 階段(初篩階段),我們採用計算效率相對較高的顯式層次特徵(即採用協同過濾分)對所有商品進行初篩,對每個 user,保留其最有可能點擊的 2000 個商品進行 Ranking 階段的精排。需要注意的是,在初賽中歷史商品也可能在未來曝光並被點擊,所以歷史商品無需特殊處理。而複賽階段由於歷史商品不會在未來曝光,所以複賽階段在初篩階段的結尾要對歷史出現過的商品做篩除,以避免無效精排。

Ranking 階段基本上每個 user 要處理 2000 個左右的商品,因此我們的預測模型選擇了相對簡單高效的 LR 模型,將前置工作中得到的顯式層次特徵,隱式層次特徵和統計特徵進行不同階的特徵交叉後引入 LR 模型後,將 LR 模型的輸出作為排序分數, 取分數 top50 作為最終的預測結果進行輸出。

這裡交叉特徵的引入本質是一個 kernel 函數的思想, 輔助提高了 LR 模型的非線性能力,我們先後採用了顯性層次特徵和隱性層次特徵之間 2 階的特徵交叉以及 3 階特徵交叉; 分別對最後的模型效果有一定提升。

圖 6 排序模型圖

成果展示

以下是我們算法迭代過程中的一些重要節點:

version1 基於協同過濾+統計特徵version2 基於顯性層次特徵+統計特徵version3 基於顯性/隱形層次特徵+統計特徵version4 基於二階結構特徵交叉+統計特徵version5 基於三階結構特徵交叉+統計特徵

圖 7 重要節點示意圖

可以發現,通過引入層次結構特徵,尤其是隱式層次結構特徵的提取,我們對這一問題進行了較好的求解,從結論上可以看出,結構特徵確實對整個預測準確度帶來了較大的性能提升,後續對結構特徵信息做了特徵交叉之後,性能也有了進一步的提高。

總結及未來計劃

本次比賽我們嘗試了 Hierarchical GNN 模型來獲取用戶和商品的隱性層次特徵,獲得了非常不錯的效果,由於比賽時間非常有限,我們的排序模型使用了 LR, 以便於快速迭代並調整相應參數,使用了 point-wise 的訓練方式。

如果還有足夠的時間,我們還會嘗試更多的排序模型,比如 xgboost, deepFM, wide&deep 等,並對模型做相應的融合,再採樣 pair-wise 的訓練方式,相信還會進一步提升模型效果。

相關焦點

  • CIKM 2019 挑戰杯「用戶行為預測」冠軍方案:層次GNN模型在推薦中...
    現雷鋒網(公眾號:雷鋒網) AI 開發者將 WWG 團隊冠軍方案整理如下,希望能給開發者們一些經驗與啟發。冠軍團隊本次冠軍團隊WWG成員分別來自浙江大學,中央財經大學,阿里巴巴等機構;兩位學生孟憲令和焦宇航在阿里巴巴搜索推薦事業部的商業賦能算法團隊實習期間
  • 國內接收論文佔四成圖神經網絡大火,ACM CIKM2019最佳論文出爐
    論文連結:http://www.cikm2019.net/attachments/papers/p821-cohen-shapiraA.pdf摘要:近來,非機器學習人士也希望能夠使用相關的算法進行應用。其中一個主要的挑戰是,他們需要選擇算法並用它來解決問題。
  • 挑戰杯|劉闖 「挑戰杯」001號獲獎者
    自1989年首屆競賽舉辦以來,「挑戰杯」競賽始終堅持「崇尚科學、追求真知、勤奮學習、銳意創新、迎接挑戰」的宗旨,在促進青年創新人才成長、深化高校素質教育、推動經濟社會發展等方面發揮了積極作用,在廣大高校乃至社會上產生了廣泛而良好的影響,被譽為當代大學生科技創新的「奧林匹克」盛會。競賽獲獎者中已經產生了兩位長江學者,6位國家重點實驗室負責人,20多位教授和博士生導師。
  • 圖鴨科技 CVPR 2019 CLIC 圖像壓縮挑戰賽冠軍方案全解讀
    2019 CLIC 圖像壓縮挑戰賽中,圖鴨科技所提出的算法 TucodecSSIM 奪得了 MS-SSIM 和 MOS 兩項指標的冠軍,算法 TucodecPSNR 奪得了 PSNR 指標的冠軍,算法 TucodecPSNR40dB 則奪得高碼點圖像壓縮 Transparent Track 的冠軍。
  • 層次分析法在生活垃圾處理項目選址中的應用
    本文結合某城市的生活垃圾綜合處理項目的選址為例,對其進行了綜合的研究,從而構建了生活垃圾綜合處理項目選址的層次分析法相關評判模型,再使用相適應的軟體對相關模型採取分析與求解,以此最終得出這種方案具有比較強的優勢:採用層次分析方法來綜合處理生活垃圾選址,能夠有效降低人們的主觀隨意性,最終使得結果更加科學化與數據化。
  • 當CV碰上無人機:ICCV 2019 VisDrone挑戰賽冠軍解決方案解讀
    機器之心發布作者:羅志鵬近日,在 ICCV 2019 Workshop 舉辦的 Vision Meets Drone: A Challenge(簡稱:VisDrone2019) 挑戰賽公布了最終結果,來自深蘭科技北京 AI 研發中心的 DeepBlueAI 團隊斬獲了「視頻目標檢測」和「多目標追蹤」兩項冠軍。
  • 層次分析法建立層次結構模型分為哪些層次?
    層次分析法建立層次結構模型分為哪些層次? 2019-03-19 12:11  來源:  字體:大小  列印 【試題】 層次分析法建立層次結構模型分為哪些層次?
  • 基於Matlab GUI層次分析法的實現和應用
    是將與決策總是有關的元素分解成目標、準則、方案等層次,在此基礎之上進行定性和定量分析的決策方法。層次分析法的主要流程分為四步:一是建立層次分析結構模型,二是構造成對比矩陣並計算權向量,三是做一致性檢驗,四是計算組合權向量(作組合一致性檢驗)。層次分析法的基本思想是把複雜問題分解為若干層次,在最底層次通過兩兩對比得出各因素權重,通過由低到高的層層分析計算,最後計算出各方案對總目標的權數,權數最大的方案即為最優方案。
  • 新聞速遞 | 記第二十屆「挑戰杯」學生課外學術論文競賽指導講座
    2020年12月30日下午15:00,政府管理學院第二十屆「挑戰杯」學生課外學術論文競賽指導講座於騰訊會議平臺召開。,表明了研究方法對於理論構建而言需要有針對性;結構與規範上,應當注重創新點與層次、思路明晰;具體寫作方面,做到摘要凝練、風格簡潔、邏輯清晰、格式規範,此外,還要善於繪製各類圖表以增強可視化。
  • 劉闖 由「挑戰杯」開啟的人生
    挑戰杯「001號」證書,那薄薄一張紙,開啟了這位女地理學家整個後半生充滿自信的學術之路   「挑戰杯」之路   1989年,首屆「挑戰杯」大學生課外科技活動成果展覽暨技術交流會頒獎大會在人民大會堂隆重舉行。這次盛會中,唯一的一等獎作品就是北京大學地理學博士劉闖關於地理學信息化在土地類型評價中的應用的論文《在地理信息系統中土地評價模型的建模研究》。
  • AutoML在IEEE-ISI World Cup 2019競賽中的應用:冠軍團隊DeepBlue...
    雷鋒網 AI 科技評論按,近日,IEEE ISI 2019 國際大數據分析競賽結果出爐,今年的競賽包括企業投資價值評估和法律訴訟類型預測兩個賽題,來自深蘭科技北京 AI 研發中心的 DeepBlueAI 團隊分別取得了一項冠軍和一項季軍的優異成績,本文作者羅志鵬(深蘭科技北京 AI 研發中心),他為雷鋒網 AI 科技評論獨家撰寫了該團隊在企業投資價值評估賽題中的算法思路與技術細節分享
  • 祝賀:寧波大學在2020「挑戰杯」中斬獲5金1銀2銅,全國第2,牛!
    寧大人捷報頻傳,第十二屆「挑戰杯」中國大學生創業計劃競賽全國決賽中,寧波大學獲5金1銀2銅,金獎總數、參賽得分雙雙並列全國第二,取得「挑戰杯」中國大學生創業計劃競賽設立「挑戰杯」「優勝杯」獎項以來的歷史最好成績。
  • 深度CTR預估模型在應用寶推薦系統中的探索
    本文旨在以深度CTR預估模型為基礎,探索在應用寶推薦場景下的算法優化。文章作者:趙程,騰訊算法研發工程師。 一、業務背景 點擊率(click-through rate, CTR)預估的本質是對用戶/商品建模,進而計算用戶的點擊概率。
  • CIKM 2020最佳論文出爐!NUS和RMIT同獲最佳長論文獎
    作者 | 陳大鑫  10月19日-10月23日,第29屆國際計算機學會信息與知識管理大會(CIKM 2020)在線上召開,官網:https://www.cikm2020.org/ 。  CIKM是CCF推薦的B類國際學術會議,是信息檢索和數據挖掘領域頂級學術會議之一。
  • 劉闖「挑戰杯」獲獎者——001號
    雖已年至六旬,劉闖一舉一動一顰一笑間,當年手捧首屆「挑戰杯」全國大學生科技競賽唯一一等獎的001號獎狀、蓬勃利落的女博士生形象仍舊清晰。似乎往事並未隨著時間的滌蕩蒙上塵土,反而在歲月的打磨下日漸沉澱出智慧與經驗的結晶,散發著深邃的光芒。
  • 西電人工智慧學子斬獲2019 IGARSS數據融合競賽冠軍
    由西電人工智慧學院焦李成教授指導的兩支學生隊伍在2019IEEEGRSS數據融合競賽中獲得了優秀成績,其中,連彥超、馮拓、周金柳隊伍獲得了3D點雲分類挑戰賽冠軍,賈美霞、李艾瑾、吳兆陽隊伍獲得了同賽道亞軍。兩支隊伍均受邀在大會上作專題報告。第39屆國際地球科學與遙感大會競賽專場報告由圖像分析與數據融合技術委員會主席Dr.
  • ICCV 2019 Tiger Pose Detection 冠軍團隊技術分享
    2019 Workshop 舉辦的 CVWC2019 公布了最終結果,來自深蘭科技北京 AI 研發中心的 DeepBlueAI 團隊斬獲了 Tiger Pose Detection 賽道冠軍。我們可以通過這篇文章來了解一下 DeepBlueAI 團隊的解決方案。
  • 技術前沿 | 工業4.0三維層次模型!
    工業4.0參考結構架構模型(RAMI 4.0)通過對生產技術資產的研發和在生產中的利用及維護乃至取自市場的整個技術解決方案空間的合理完整的描述,來確保其在應用中的共同使用性。在該工業4.0空間的三維參考結構架構模型中可對應用以及相關的技術規定在產品生命周期、功能的等級和架構等級中進行三軸定位。這樣,沿著這些確定的軸便能夠清楚的確定所有重要的信息和工業4.0系統的結構,並且能夠將其透明的展示出來。
  • 2019年諮詢工程師方法與實務第一章考點:層次分析法
    2019年諮詢工程師考試教材和考試大綱已經公布,想要報考2019年諮詢工程師考試的小夥伴們近期要抓緊時間開始備考了。建設工程教育網將持續為大家分享2019年諮詢工程師考試考點知識點,助力學員2019年諮詢工程師考試!
  • 2019年漢鍾精機中低溫產品冷庫應用解決方案研討會成功舉辦
    2019年11月20日,上海漢鍾精機股份有限公司在上海新暉大酒店成功舉辦了「2019年漢鍾精機中低溫產品冷庫應用解決方案研討會」。一、《冷凍冷藏壓縮機及節能應用方案》為了讓大家更加了解漢鍾精機不同系列冷凍冷藏產品的特點,製冷產品部謝鵬經理為大家帶來了《冷凍冷藏壓縮機及節能應用方案》,在演講中,分別對不同冷凍冷藏壓縮機的能效特點及適用範圍和漢鍾精機冷凍冷藏產品特點及案例介紹進行介紹、對不同系列產品的應用範圍性能應用特點以及實際案例