KDD Cup 2020比賽冠軍技術方案及在美團廣告的實踐

2020-09-22 美團技術團隊

ACM SIGKDD (國際數據挖掘與知識發現大會,簡稱 KDD)是數據挖掘領域的國際頂級會議。


美團到店廣告平臺搜索廣告算法團隊基於自身的業務場景,一直在不斷進行前沿技術的深入優化與算法創新。團隊的堅強、胡可、漆毅、曲檀、明健、博航、雷軍與中科院大學唐興元共同組建參賽隊伍Aister,參加了Debiasing、AutoGraph、Multimodalities Recall三道賽題,最終在Debiasing賽道中獲得冠軍(1/1895),在AutoGraph賽道中也獲得了冠軍(1/149),並在Multimodalities Recall賽道中獲得了季軍(3/1433)。本文將介紹Debiasing賽題的技術方案,以及團隊在廣告業務中偏差消除的應用與研究。

背景

KDD Cup比賽是由SIGKDD主辦的數據挖掘研究領域的國際頂級賽事,從1997年開始,每年舉辦一次,是目前數據挖掘領域最具影響力的賽事。該比賽同時面向企業界和學術界,雲集了世界數據挖掘界的頂尖專家、學者、工程師、學生等參加,為數據挖掘從業者們提供了一個學術交流和研究成果展示的平臺。KDD Cup 2020共設置五道賽題(四個賽道),分別涉及數據偏差問題(Debiasing)、多模態召回問題(Multimodalities Recall)、自動化圖學習(AutoGraph)、對抗學習問題和強化學習問題。

圖1 KDD 2020會議

在廣告系統中,如何對數據偏差進行消除是最具挑戰性的問題之一,也是近年來學術界的研究熱點。隨著產品形態與算法技術的持續演進,系統會不斷積累偏差。搜索廣告算法團隊在數據偏差問題取得了突破,帶來了較顯著的業務效果提升。特別是在Debiasing賽題中,團隊基於偏差消除問題的技術積累,從全球1895支隊伍的激烈角逐中取得第1名,並在最終評測指標(ndcg_half)領先第2名6.0%。下面我們將介紹Debiasing賽題的技術方案,以及團隊在廣告業務中偏差消除的應用與研究,希望對從事相關研究的同學能夠有所幫助或者啟發。

附:技術方案開原始碼地址:https://github.com/aister2020/KDDCUP_2020_Debiasing_1st_Place

圖2 KDD Cup 2020 Debiasing 比賽TOP 10榜單

賽題介紹與問題分析

偏差消除問題概述

大多數電子商務和零售公司利用海量數據在其網站上實現搜索和推薦系統,從而來促進銷售,隨著這樣的趨勢發展以及流量的大量增加,對推薦系統產生了各式各樣的挑戰。其中一個值得探索的挑戰是推薦系統的人工智慧公平性(Fairness)問題[1,2],即如果機器學習系統配備了短期目標(例如短期的點擊、交易),單純朝短期目標進行優化將會導致嚴重的「馬太效應」,即熱門的商品受到更多的關注,冷門商品則愈發的會被遺忘,產生了系統中的流行度偏差[3],並且大多數模型和系統的迭代依賴於頁面瀏覽(Pageview)數據,而曝光數據是實際候選中經過模型選擇的一個子集,不斷地依賴模型選擇的數據與反饋再進行訓練,將形成選擇性偏差[3]。

上述流行度偏差與選擇性偏差不斷積累,就會導致系統中的「馬太效應」越來越嚴重。因此,人工智慧公平性問題對於推薦系統的不斷優化至關重要,並且這將對推薦系統的發展以及生態環境產生深遠的影響。

由於不是一個定義充分的優化問題,偏差消除是當前推薦系統非常具有挑戰性的問題,也是當前學術界的一個研究熱點。本次KDD的賽題也是圍繞偏差問題展開,基於電子商務中用戶下一次點擊商品預測(Next-Item Prediction)的問題,進行無偏估計。

賽題官方提供了用戶點擊數據、商品多模態數據、用戶特徵數據。其中用戶點擊數據提供了用戶歷史點擊的商品以及點擊的時間戳,商品多模態數據主要為商品的文本向量以及圖片向量,用戶特徵數據有用戶的年齡、性別、城市等等。數據涉及超過100萬次點擊,10萬商品和3萬用戶。並根據時間窗口劃分數據階段,一共分為十個階段,最終評分以最後3個階段為準。

為了關注於消除偏差問題,本次賽題提供的評測指標包括NDCG@50_full,NDCG@50_half,hitrate@50_full,hitrate@50_half。採用NDCG@50_full,NDCG@50_half兩項指標進行評估。

  • NDCG@50_full:與常規推薦系統評價指標NDCG一致,在整個評測數據集上評估了每次用戶請求所推薦的前50個商品列表的平均排序效果,該評測集我們稱之為full評測集。
  • NDCG@50_half:關注於偏差問題,從整個full評測數據集中取出一半歷史曝光少的點擊商品,對這些商品的推薦列表進行NDCG指標評估,該評測集我們稱之為half評測集。

評分首先通過NDCG@50_full篩選出前10%的隊伍,然後在這些隊伍中使用NDCG@50_half來進行最終排名。在最終的評估中NDCG@50_half將對Top名次的差異,在長尾數據預測更重要的評測方式能夠更好地評估選手們對於數據偏差的優化。不同於傳統的封閉數據集點擊率預估問題(CTR預估),上述數據特點與評測方式側重於偏差的優化。

數據分析與問題理解

數據分析與問題:用戶特徵數據中一共有35444個用戶,但只有6789個用戶有特徵,故而特徵覆蓋率只有19.15%,由於覆蓋率較低且只有年齡、性別、城市等三個特徵,我們發現這些特徵對我們的整個任務而言是無用的。商品特徵數據中一共有117720個商品,有108916個商品擁有文本向量及圖片向量,覆蓋率高達92.52%,可以根據向量去計算商品間的文本相似度及圖片相似度,由於用戶信息及商品信息的缺少,如何利用好這些商品多模態向量對於整個任務而言是極其重要的。

選擇性偏差分析:如表1所示,我們對基於i2i(item2item)點擊共現以及基於i2i向量相似度兩種Item-Based協同過濾的方法所召回的商品候選集做對比,由於系統的性能限制,我們將候選集長度最大值限制到1000,我們發現兩種召回方法在評測集上都有一個較低的hitrate,則不管使用哪種方法系統都存在著一個較大的選擇性偏差,即推薦給用戶的樣本是根據系統來選擇的,而不是所有候選集合,真實的候選集合大大超過了推薦給用戶的樣本,導致訓練數據帶有選擇性偏差。

進一步的,我們發現基於i2i點擊共現在full評測集上相對於half評測集有更高的hitrate,說明其更偏好於流行商品,而基於i2i向量相似度在full和half的評測集上hitrate相差不大,說明其對於流行度無偏好,同時兩種方式召回的候選集只有4%的重複率,故而我們需要去結合點擊共現和向量相似度兩種商品關係來生成更大的訓練集,從而緩解選擇性偏差。

表1 i2i點擊共現與i2i向量相似度的召回hitrate

如圖3所示,我們對商品的流行度進行了分析,其中橫坐標商品點擊頻數,即商品流行度,縱坐標為商品個數。圖中我們對流行度做了截斷,橫坐標最大值本應為228。可以看出,大部分商品的流行度較低,符合長尾分布。圖中的兩個箱型圖分別是full評測數據集商品流行度的分布,以及half評測數據集商品流行度的分布。從這兩個箱型圖可以看出,流行度偏差存在於數據集中,整個full評測集中有一半評測數據是基於流行度較低的商品,而另一半評測數據商品的流行度較高,直接通過點擊商品去構建樣本,會導致數據中擁有較多流行度高的正例商品,從而形成流行度偏差。

圖3 商品的流行度偏差

問題挑戰

該競賽的主要挑戰是消除推薦系統中的偏差,從上述數據分析中可以看出,主要存在兩種偏差,選擇性偏差(Selection Bias)和流行度偏差(Popularity Bias)。

  • 選擇性偏差:曝光數據是由模型和系統選擇的,與系統中的全部候選集不一致[4,5]。
  • 流行度偏差:商品歷史點擊次數呈現一個長尾分布,故而流行度偏差存在於頭部商品和尾部商品之間,如何解決流行度偏差也是賽題的核心挑戰之一[6,7]。

基於上述偏差,傳統的利用Pageview(曝光)->Click(點擊)的點擊預估建模思路並不能合理地建模用戶的真實興趣,我們在初步嘗試中也發現採用傳統建模思路效果較差。不同於傳統的用戶興趣建模思路,首先,我們通過u2i2i(user2item2item)建模轉換,採用側重於i2i的建模代替傳統CTR預估方式中的u2i(user2item)的興趣建模。並且,我們採用基於i2i圖的多跳遊走進行候選樣本生成,代替基於Pageview樣本生成思路。同時,在構圖過程、i2i建模過程我們引入了流行度懲罰。最終有效地解決了上面的偏差挑戰。

競賽技術方案

針對選擇性偏差和流行度偏差兩方面挑戰,我們進行了建模設計,有效地優化了上述偏差。已有的CTR建模方法可以理解為u2i的建模,通常刻畫了用戶在特定請求上下文中對候選商品的偏好,而我們的建模方式是去學習用戶的每個歷史點擊商品和候選商品的關係,可以理解為u2i2i的建模。這種建模方法更有助於學習多種i2i關係,並且可以容易地將i2i圖中的一跳關係拓展到多跳關係,多種i2i關係可以探索更多無偏數據來增大商品候選集和訓練集,達到了緩解選擇性偏差的目的。

同時,考慮到流行商品引起的流行度偏差,我們在構圖過程中對邊權引入流行度懲罰,使得多跳遊走時更有機會探索到低流行度的商品,同時在建模過程以及後處理過程中我們也引入了流行度懲罰,緩解了流行度偏差。

最終,我們形成了一個基於i2i建模的排序框架,框架圖如圖4所示。在我們的框架中商品推薦過程被分為三個階段,第一個階段是基於用戶行為數據和商品多模態數據構建i2i圖,並基於i2i圖進行多跳遊走生成i2i候選樣本;第二個階段是拆分用戶點擊序列,並根據i2i候選樣本構建i2i關係樣本集,基於i2i樣本集進行自動化特徵工程,以及使用流行度加權的損失函數進行消除流行度偏差的建模;第三個階段根據用戶點擊序列將i2i模型生成的i2i打分進行聚合,對打分的商品列表進行消除流行度偏差的後處理,從而對商品列表進行排序推薦。我們將詳細介紹這三個階段的方案。

圖4 基於i2i建模的排序框架

基於多跳遊走的i2i候選樣本生成

為了探索更多的i2i無偏候選樣本來進行i2i建模,從而緩解選擇性偏差,我們構建了一個具有多種邊關係的i2i圖,並在構邊過程中引入了流行度懲罰來消除流行度偏差。如下圖5所示,i2i圖的構建與多跳遊走i2i候選樣本的生成過程被分為三個步驟:i2i圖的構建、i2i多跳遊走以及i2i候選樣本的生成。

圖5 基於多跳遊走的i2i候選樣本生成

第一個步驟為i2i圖的構建,圖中存在一種結點即商品結點,兩種邊關係即點擊共現邊和多模態向量邊。點擊共現邊通過用戶的歷史商品點擊序列所構建,邊的權重通過以下的公式得到,其在兩個商品間的用戶歷史點擊共現頻數的基礎上,考慮了每次點擊共現的時間間隔因子,並加入了用戶活躍度懲罰以及商品流行度懲罰。時間間隔因子考慮到了兩個商品間的共現時間越短則這兩個商品有更大的相似度;用戶活躍度懲罰考慮了活躍用戶與不活躍用戶的公平性,通過用戶歷史商品點擊次數來懲罰活躍用戶;商品流行度懲罰考慮了商品的歷史點擊頻數,對流行商品進行懲罰,緩解了流行度偏差[8]。

多模態向量邊則通過兩個商品間文本向量及圖片向量的餘弦相似度進行構建,對一個商品的向量利用K最近鄰的方法去尋找最鄰近的K個商品,對這個商品與其最近鄰的K個商品分別構建K條邊,向量間的相似度即為邊權,多模態向量邊與流行度無關,可以緩解流行度偏差。

第二個步驟是通過多跳遊走探索多種i2i關係,我們通過枚舉不同的一跳i2i關係組合構成不同類型的二跳i2i關係,並且在構建好二跳i2i關係之後刪除原本的一跳i2i關係以避免冗餘。i2i關係包括基於點擊一跳鄰居構建i2i,基於向量一跳鄰居構建i2i,基於點擊-點擊二跳遊走構建i2i,基於點擊-向量二跳遊走構建i2i,基於向量-點擊二跳遊走構建i2i,一跳i2i關係得分由一跳邊權得來,多跳i2i關係得分則由以下公式得來,即對每條路徑的邊權相乘得到路徑分,並對所有路徑分求平均。通過不同邊類型多跳遊走的方式,更多的商品有更多的機會和其他商品構建多跳關係,從而擴大了商品候選集,緩解了選擇性偏差。

第三個步驟則基於每種i2i關係根據i2i得分對所有商品的候選商品集合分別進行排序和截斷,每個i2i關係間的相似度熱圖如下圖6所示,相似度是通過兩種i2i關係構造的候選集重複度所計算,我們可以根據不同i2i關係之間的相似度來確定候選商品集合的數量截斷,以得到每種i2i關係中每個商品的i2i候選集,供後續i2i建模使用。

圖6 i2i關係相似度熱圖

基於流行度偏差優化的i2i建模

我們通過u2i2i建模轉換,將傳統的基於u2i的CTR預估建模方式轉換為i2i建模方式,它可以容易地使用多跳i2i關係,同時我們引入帶流行度懲罰的損失函數,使得i2i模型朝著緩解流行度偏差的方向學習。

如下圖7所示,我們拆分用戶前置點擊行為序列,將每一個點擊的商品作為source item,從i2i graph中的多跳遊走候選集中抽取target item,形成i2i樣本集。對於target item集合,我們將用戶下一次點擊的商品與target item是否一致來引入該樣本的標籤。這樣,我們將基於用戶選擇的序列建模[9]轉變為基於i2i的建模,通過兩個商品點擊的時間差以及點擊次數間隔來從側面引入用戶的序列信息,強調了i2i的學習,從而達到消除選擇性偏差的目的。最終用戶的推薦商品排序列表可以基於用戶下的i2i打分進行target item的排序。

圖7 i2i訓練樣本生成

如圖8所示,我們利用自動化特徵工程的思想去探索高階特徵組合,緩解了偏差問題業務含義抽象的問題。我們通過人工構造一些基礎特徵例如頻數特徵、圖特徵、行為特徵和時間相關特徵等特徵後,將這些基本的特徵類型劃分為3種,類別特徵、數值特徵以及時間特徵,基於這些特徵做高階特徵組合,每一次組合形成的特徵都會加入下一次組合的迭代之中,來降低高階組合的複雜度,我們並且基於特徵重要性和NDCG@50_half進行快速的特徵選擇,從而挖掘到了更深層次的模式並節省了大量的人力成本。

圖8 自動化特徵工程

在模型上,我們嘗試了LightGBM、Wide&Deep、時序模型等等,最終由於LightGBM在tabular上的優異表現力,選擇了LightGBM。

在模型訓練中,我們使用商品流行度加權損失去消除流行度偏差[10],損失函數L如下式所示:

其中,參數α與流行度成反比,來削弱流行商品的權重,可以消除流行度偏差。參數β是正樣本權重,用來解決樣本不平衡問題。

用戶偏好排序

最終,用戶的商品偏好排序是通過用戶的歷史點擊商品來引入i2i,繼而對i2i引入的所有商品形成最終的排序問題。在排序過程中,根據圖7所示,target item集合是由每一個source item分別產出的,所以不同的source item以及不同的多跳遊走i2i關係可能會產出相同的target item。我們需要考慮如何將相同用戶的相同target item的模型打分值進行聚合,如果直接進行概率求和會加強流行度偏差,而直接取均值又容易忽略掉一些強信號。最終,我們對一個用戶多個相同的target item採用最大池化聚合的方式,然後對用戶的所有target item進行排序,可以在NDCG@50_half上取得一個不錯的效果。

為了進一步優化NDCG@50_half指標,我們對所得到的target item打分進行後處理,通過提高低流行度商品的打分權重來進一步打壓高流行度的商品,最終在NDCG@50_half上取得了一個更好的效果,這其實是一個NDCG@50_full與NDCG@50_half的權衡。

評估結果

在基於多跳遊走的i2i候選樣本生成過程中,各種i2i關係的hitrate如表2所示,可以發現,在相同長度為1000的截斷下對多種方法做混合有更高的hitrate提升,能引入更多無偏數據來增大訓練集和候選集從而緩解系統的選擇性偏差。

表2 不同i2i關係的hitrate

最終,由美團搜索廣告團隊組建的Aister在包括NDCG和hitrate的各項評價指標中都取得了第1名,如表3所示,NDCG@50_half比第二名高了6.0%,而NDCG@50_full比第二名高了4.9%, NDCG@50_half相較於NDCG@50_full有更明顯的優勢,說明我們更好地針對消除偏差問題進行了優化。

表3 不同參賽團隊解決方案的NDCG評估結果

廣告業務應用

搜索廣算法團隊負責美團與點評雙平臺的搜索廣告與篩選列表廣告業務,業務類型涉及餐飲、休閒娛樂、麗人、酒店等,豐富的業務類型為算法優化帶來很大空間與挑戰。

在搜索廣告業務問題中,數據偏差問題是個重要且具挑戰性的問題。廣告系統中有兩個重要的數據偏差——位置偏差與選擇性偏差,搜索廣告算法團隊也針對這兩個偏差問題進行了較多優化。位置偏差問題,即位置靠前的點擊率天然高於位置靠後的,不同於傳統的作為偏差的處理方式,我們引入一致性建模的思想,並通過靈活的深度網絡設計達到一致性目標,取得業務效果提升。

在選擇性偏差問題上,整個廣告系統投放過程呈現出了一個漏鬥圖,如圖9所示,系統分為Matching、Creative-Select、Ranking、Auction幾個階段。每一個階段的候選是由上一階段選擇。以排序階段為例(Ranking),線上系統排序的候選包含了匹配(Matching)階段輸出的所有候選,但是排序模型的訓練數據是根據模型選擇的曝光(Pageview)數據,僅為線上排序系統候選的一個小的子集,模型線上與線下輸入數據的差異違反了建模分布一致性假設,上述選擇性偏差會導致兩方面明顯的問題:

  1. 模型預估不準確:從曝光樣本中學習到的模型存在偏差且不準確,會導致線上預估效果較差,尤其對於同歷史曝光樣本分布差異大的候選樣本。
  2. 反饋鏈路循環影響廣告生態:由於模型選擇的樣本進行曝光,然後進入模型訓練進一步選擇新的曝光樣本,模型基於有偏樣本不斷學習,使得整體反饋環路不斷受到偏差影響,系統選擇面越來越窄形成「馬太效應」。

圖9 廣告系統的漏鬥圖

為了解決上面的預估與生態問題,我們通過樣本生成和多階段訓練兩方面進行算法優化。在樣本生成方面,我們進行三方面的數據生成與樣本選擇。首先,如圖10所示,我們採用基於Beta分布的Exploration算法,通過歷史點擊率和統計置信度生成Exploration候選,算法背後的假設是置信度越大點擊率的方差越小。

如下圖所示,橫軸代表預估點擊率,縱軸代表概率密度,在黃框中參數的Beta分布生成的樣本預估點擊率分布接近於真實的樣本分布,用於補充僅通過模型選擇的曝光數據;其次,我們結合隨機遊走進行負樣本優化,並通過採樣算法和Label優化來控制精度。最後,訓練樣本大多由系統主流量選擇,而在下一次模型優化全量後選擇的訓練樣本會發生較大變化,上述差異性也會導致在ABTest時小流量模型精度不符合預期,我們也針對上述不同模型挑選的數據分布差異進行數據選擇。

圖10 不同參數的Beta分布

並且,結合上述多種樣本分布的差異性,通過多階段訓練來優化模型,如圖11所示,我們基於樣本強度控制訓練順序與參數,使得訓練數據同線上真實候選分布更一致。最終不僅在CTR預估模型(Ranking階段)和創意優選模型(Creative-Select階段)兩個模塊均取得較顯著的業務效果提升,並且更一致的建模方式也使得了候選擴量等偏差較重問題的實驗由負向變正向,更紮實的驗證方式也為未來優化打下了堅實的基礎。

圖11 基於樣本強度的多階段訓練

總結與展望

KDD Cup是同工業界聯接非常緊密的比賽,每年賽題緊扣業界熱點問題與實際問題,其中歷年產出的Winning Solution對工業界也有很大的影響。例如,KDD Cup 2012獲勝方案產出了FFM(Feild-aware Factorization Machine)與XGBoost的原型,在工業界取得廣泛應用。

今年KDD Cup 的Debiasing問題也是當前廣告與推薦領域中最具挑戰性的問題之一,本文介紹了我們在KDD Cup 2020 Debiasing賽題上取得第1名的解決方案,解決方案不同於以往CTR預估方式等u2i的興趣建模方法,我們採用u2i2i方式將u2i建模轉換為i2i建模,並構建異構圖通過多跳遊走探索更多無偏樣本,從而緩解了選擇性偏差,在建模過程中對圖的構建、模型的損失函數以及預估值後處理等過程都引入了流行度懲罰來緩解流行度偏差,最終克服了選擇性偏差和流行度偏差兩個賽題挑戰。

同時本文也介紹我們在美團搜索廣告上關於數據選擇性偏差問題的業務應用,之前在廣告系統中已經針對偏差問題進行了較多優化,這次比賽也讓我們對偏差問題的研究方向有了更進一步的認知。我們希望在未來的工作中會基於本次比賽取得的偏差優化經驗進一步地去優化廣告系統中的偏差問題,讓廣告系統變得更加公平。

參考文獻

[1] Fairness in Recommender Systems

[2] Singh A, Joachims T. Fairness of exposure in rankings[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 2219-2228.

[3] Stinson C. Algorithms are not Neutral: Bias in Recommendation Systems[J]. 2019.

[4] Ovaisi Z, Ahsan R, Zhang Y, et al. Correcting for Selection Bias in Learning-to-rank Systems[C]//Proceedings of The Web Conference 2020. 2020: 1863-1873.

[5] Wang X, Bendersky M, Metzler D, et al. Learning to rank with selection bias in personal search[C]//Proceedings of the 39th International ACM SIGIR conference on Research and Development in Information Retrieval. 2016: 115-124.

[6] Abdollahpouri H, Burke R, Mobasher B. Controlling popularity bias in learning-to-rank recommendation[C]//Proceedings of the Eleventh ACM Conference on Recommender Systems. 2017: 42-46.

[7] Abdollahpouri H, Mansoury M, Burke R, et al. The impact of popularity bias on fairness and calibration in recommendation[J]. arXiv preprint arXiv:1910.05755, 2019.

[8] Schafer J B, Frankowski D, Herlocker J, et al. Collaborative filtering recommender systems[M]//The adaptive web. Springer, Berlin, Heidelberg, 2007: 291-324.

[9] Zhang S, Tay Y, Yao L, et al. Next item recommendation with self-attention[J]. arXiv preprint arXiv:1808.06414, 2018.

[10] Yao S, Huang B. Beyond parity: Fairness objectives for collaborative filtering[C]//Advances in Neural Information Processing Systems. 2017: 2921-2930.

作者簡介

堅強,明健,胡可,曲檀,雷軍等,均來自美團廣告平臺搜索廣告算法團隊。

---------- END ----------

招聘信息

美團廣告平臺搜索廣告算法團隊立足搜索廣告場景,探索深度學習、強化學習、人工智慧、大數據、知識圖譜、NLP和計算機視覺最前沿的技術發展,探索本地生活服務電商的價值。主要工作方向包括:

觸發策略:用戶意圖識別、廣告商家數據理解,Query改寫,深度匹配,相關性建模。

質量預估:廣告質量度建模。點擊率、轉化率、客單價、交易額預估。

機制設計:廣告排序機制、競價機制、出價建議、流量預估、預算分配。

創意優化:智能創意設計。廣告圖片、文字、團單、優惠信息等展示創意的優化。


崗位要求:

  • 有三年以上相關工作經驗,對CTR/CVR預估,NLP,圖像理解,機制設計至少一方面有應用經驗。
  • 熟悉常用的機器學習、深度學習、強化學習模型。
  • 具有優秀的邏輯思維能力,對解決挑戰性問題充滿熱情,對數據敏感,善於分析/解決問題。
  • 計算機、數學相關專業碩士及以上學歷。

具備以下條件優先:

  • 有廣告/搜索/推薦等相關業務經驗。
  • 有大規模機器學習相關經驗。

感興趣的同學可投遞簡歷至:tech@meituan.com(郵件標題請註明:廣平搜索團隊)。

相關焦點

  • KDD Cup 2020自動圖學習比賽冠軍方案及在美團的實踐
    美團到店廣告平臺搜索廣告算法團隊基於自身的業務場景,一直在不斷進行前沿技術的深入優化與算法創新。本文將介紹AutoGraph賽題的技術方案,以及團隊在廣告系統中圖表示學習的應用與研究,希望對大家有所幫助或者啟發。
  • KDD Cup 2020多模態召回比賽季軍方案與廣告業務應用
    在Multimodalities Recall賽道中,亞軍被美團搜索與NLP團隊摘得(2/1433),而季軍被美團搜索廣告算法團隊收入囊中(3/1433)。本文將介紹多模態召回賽道季軍的技術解決方案,以及在美團搜索廣告業務中的應用與實踐。希望能給從事相關工作的同學帶來一些幫助或者啟發。
  • KDD CUP 2020 大獎出爐,中國團隊包攬全部冠亞軍
    美團點評、北航、第四範式、東南大學、上海交大、國科大、清華大學包攬全部獎項的冠亞軍!:WinnieTheBest(國立臺灣大學)亞軍團隊:MTDP_CVA(美團點評 )季軍團隊:aister(美團點評) 冠軍思路冠軍思路包含三個步驟:預處理
  • KDD CUP 2020 大獎出爐,中國團隊包攬全部冠亞軍!
    作者 | 陳大鑫、青暮經過上千個國際頂級團隊幾個月的激烈角逐,KDD CUP 2020 大賽結果終於在其官網上公布,其中,來自中國的團隊如國立臺灣大學、美團點評、北航、第四範式、東南大學、上海交大、國科大、清華大學包攬全部獎項的冠亞軍!
  • KDD Cup 2020多模態召回比賽亞軍方案與搜索業務應用
    美團搜索廣告算法團隊最終在Debiasing賽道中獲得冠軍(1/1895),在AutoGraph賽道中也獲得了冠軍(1/149)。本文將介紹多模態召回比賽亞軍的技術方案,以及在美團搜索業務中的應用與實踐,希望能給從事相關工作的同學帶來一些幫助或者啟發。
  • 直播報名|美團技術沙龍:美團算法實踐——搜索、廣告、推薦專場
    從2020年9月起,美團技術沙龍還將打造一系列學術活動,包括頂會論文分享、學術熱點研討等,邀請產業界、學術界共同探討前沿問題。由於生活服務領域的複雜性和獨特性,美團搜索、推薦和廣告面臨著更大的挑戰。本次技術沙龍,將介紹美團在這三個方向的技術探索與實踐,希望能與業界技術同行一起交流學習。
  • KDD Cup 2017雙料冠軍是如何煉成的?我們向Convolution團隊討教了...
    今年,這場頂級賽事的排行榜幾乎全被中國團隊佔領,由微軟、美團和北航聯合組成的Convolution團隊更是一舉奪得兩個任務的雙料冠軍。雷鋒網 AI 科技評論第一時間聯繫了冠軍團隊隊長胡可,並詳細了解到其團隊的背景、解決問題的方法,並對比賽進行了相關討論。熱愛技術,經驗豐富,邏輯嚴謹,這是雷鋒網 AI 科技評論眼中的Convolution團隊。
  • 如何斬獲KDD Cup兩冠一季?美團廣告團隊公開解決方案
    機器之心發布機器之心編輯部在不久前結束的 KDD Cup 2020 競賽中,美團到店廣告平臺搜索廣告算法團隊在 Debiasing、AutoGraph,每個數據集的排行均保持較領先的水平,並避免過度擬合,從而在平均排行上取得第一,最終 aister 團隊在 KDD Cup 2020 AutoGraph 賽題上獲得冠軍。
  • 如何斬獲KDD Cup兩冠一季?美團廣告團隊公開解決方案
    機器之心發布機器之心編輯部在不久前結束的 KDD Cup 2020 競賽中,美團到店廣告平臺搜索廣告算法團隊在 Debiasing、AutoGraph、Multimodalities Recall 三道賽題中獲得了兩冠一季的成績。本文將介紹該隊伍的解決方案。
  • 中國力量佔領KDD:包攬「大數據領域世界盃」全部冠亞軍
    上,能看見各位來自中國的學者一展風採,在素有「大數據領域世界盃」之稱的KDD Cup 2020上,也能感受到來自中國團隊的力量。最終冠軍由來自美團點評、中國科學院大學和清華大學(aister)的團隊獲得,亞軍為南京大學
  • 中國企業包攬主辦權,獎金池 12 萬美金,KDD Cup 2020 開賽
    同時,ACM SIGKDD 和 KDD 2020 組委會也表示,將以參會者和志願者的健康、安全為首要考慮,在現行慣例之外,採取有效措施,根據疫情變化,探索可用方案,以保證賽事的有序進行。在每次比賽中,攻擊模型將首先修改圖,而防禦模型則將修改後的圖分類,比賽系統將記錄每次比賽的準確性。最後,每支球隊都會獲得兩個模型的準確性報告,然後以此作為排名依據。
  • KDD CUP 2019 實錄:野心盡露的數據挖掘「奧林匹克」
    其中 1200 支的活躍隊伍(總數超過 5000 人)提交了約 17000 份解決方案。與這些「熱鬧」的數據相對的是,大會現場則要「冷靜」很多。也許是宣傳力度有所欠缺,再加上部分獲勝隊伍美籤未能成功批下,所以當 AI 開發者記者今早來到大會現場時,人數要比想像中的少一些。
  • KDD CUP 比賽結果出爐,支付寶安全團隊、滴滴、京東等獲獎
    在最適合的交通方式推薦中,冠軍為螞蟻金服的支付寶安全團隊,亞軍團隊來自上海微盟、趨勢科技、滴滴、北京郵電大學、華南理工大學、京東等。在開放研究/應用挑戰中,冠軍為日本 NTT DOCOMO 公司,亞軍則來自東南大學。自動機器學習競賽由第四範式贊助,獲得冠軍的是 DeepBlueAI 和北京大學團隊,亞軍是來自新加坡國立大學的團隊。
  • 中國軍團稱霸KDD:清華北大中科大華為等榜上有名
    評估足球運動員在比賽中的個人行為表現對比賽結果的影響,是球員招募過程中的考察重點。然而,大多數傳統指標在解決此任務時都不盡如人意,因為它們要麼專注於單獨的鏡頭畫面和目標行為,要麼不考慮球員做出某一動作的環境背景。
  • KDD 2020阿里巴巴論文一分鐘秒讀
    大家是否意猶未盡想看更多呢,這裡還有阿里巴巴在 kdd 2020 發布的更多論文的「秒讀」供大家體驗!視頻連結:https://www.aminer.cn/conf/kdd2020系統利用神經機器翻譯系統,解決了英文文獻閱讀難的問題,將提取出來的描述文本自動轉譯為中文,然後利用人工智慧和音視頻處理技術,生成形象直觀的可視化論文解讀視頻。
  • 超谷歌微軟,支付寶獲得KDD CUP 2019冠軍
    原標題:超谷歌微軟,支付寶獲得KDD CUP 2019冠軍   作為大數據領域的國際頂級賽事,KDD CUP每年都會吸引世界數據挖掘界的頂尖學者、工程師前來參賽。今年共有全球1600餘支隊伍參加,其中還包含有谷歌、微軟、Facebook等全球科技大佬。
  • 數據科學界最重要的會議——ACM SIGKDD,不可錯過的知識發現與數據...
    同時為了更加便捷的進行學習,來自亞馬遜、谷歌、微軟、英偉達、Github等等機構的研究人員們將為與會人員準備好便捷的雲服務,通過雲或者jupyter就可以方便的接入進行實踐。 如果有興趣,可以到這裡找想學習的教程開始操練吧: http://www.kdd.org/kdd2018/hands-on-tutorials 除此之外,conference tutorials提供了更為詳細的理論學習,其內容覆蓋了圖論、 數據挖掘理論、行為分析、健康計算、網絡結構、大規模計算、數據交互等方面,涵蓋了目前學術界和工業界的新方法和技術
  • 深蘭科技:我們是如何拿下今年 KDD CUP AutoML 賽道冠軍的?
    今年的 KDD CUP 共設有三個賽道,分別為 Regular ML、AutoML 與 Humanity RL ,最終結果顯示,三個賽道的冠軍皆由華人隊伍奪得。作為 AutoML 賽道的冠軍隊伍,深蘭科技在儀式結束後接受了 AI 開發者專訪,不嗇分享其在賽事中奪魁的點滴。
  • 直播報名|美團技術沙龍:知識圖譜實踐—CIKM2020專場
    【美團技術沙龍】由美團技術團隊和美團科協主辦,每期沙龍邀請美團及其他網際網路公司的技術專家分享來自一線的實踐經驗,覆蓋各主要技術領域。從2020年9月起,美團技術沙龍還將打造一系列學術活動,包括頂會論文分享、學術熱點研討等,邀請產業界、學術界共同探討前沿問題。
  • 成功挑戰極端數據集 深蘭科技自研AutoML奪冠KDD Cup 2019
    本屆KDD Cup AutoML競賽的Top10隊伍均開源了解決方案,其中有許多優秀的思路和方法在競賽中得以驗證,也共同推進了AutoML的發展。此外,由深蘭科技領銜的以空氣品質預測為主題的論文被KDD 2019 ADS track錄取為Oral Paper。