作者 | 陳大鑫、青暮
經過上千個國際頂級團隊幾個月的激烈角逐,KDD CUP 2020 大賽結果終於在其官網上公布,其中,來自中國的團隊如國立臺灣大學、美團點評、北航、第四範式、東南大學、上海交大、國科大、清華大學包攬全部獎項的冠亞軍!
ACM SIGKDD,被中國計算機學會(CCF)推薦為A類國際學術會議,至今已舉辦26屆。其中KDD CUP是由ACM知識發現和數據挖掘特別興趣小組(領先的數據科學家專業組織)組織的年度國際數據挖掘和知識發現競賽。素有「大數據領域世界盃」之譽,是目前數據挖掘領域最高水平、最具影響力、規模最大的國際頂級賽事。
由於各種數據科學競賽類型的日益普及,KDD CUP今年一共開設三個項目共四個賽道的比賽,分別是:
1、常規機器學習競賽軌道(ML賽道1) 「現代化電子商務平臺挑戰」(Challenges for Modern E-Commerce Platform)
2、常規機器學習競賽軌道(ML賽道2) 「學術圖上的對抗性攻擊和防禦」(Adversarial Attacks and Defense on Academic Graph)
3、AutoML機器學習競賽軌道(AutoML賽道) 「用於圖表徵學習的AutoML」(AutoML for Graph Representation Learning)
4、強化學習競賽賽道(RL賽道) 「在移動點播平臺上學習調度和重定位」(Learning to Dispatch and Reposition on a Mobility-on-Demand Platform)
1
常規機器學習賽道一
機器學習賽道一「現代化電子商務平臺挑戰」由阿里巴巴、阿里巴巴達摩院、杜克大學、清華大學和UIUC贊助,競賽選手需要通過考慮不同類型的複雜信息來學習高質量的跨模態表示,以及模態之間的緊密關係。然後,所學習的表示可以用於計算表示之間的相似度得分,並選擇與文本相關的圖像/視頻。最後,將在測試數據集上評估每個提交的解決方案,該數據集將評估檢索到的產品與真實值之間的對應關係。
該賽道有兩個任務:
任務1:現代化電子商務平臺挑戰:多模態召回(Multimodalities Recall )
任務2:現代化電子商務平臺挑戰:去偏差(Debiasing)
關鍵字:學習表示,遷移學習,圖像,視頻和文本處理
主辦單位: 阿里巴巴達摩院
平臺:天池
總獎金:40,000美元
任務1獲獎團隊
冠軍團隊:WinnieTheBest(國立臺灣大學)
亞軍團隊:MTDP_CVA(美團點評 )
季軍團隊:aister(美團點評)
冠軍思路
冠軍思路包含三個步驟:預處理、訓練模型架構和後處理。其中,預處理構建了用於模型訓練的特徵,後處理對模型進行集成,模型應用了兩種類型的架構,分別是MCAN和VisualBERT。MCAN全稱Deep Modular Co-Attention Networks,模型由幾個級聯MCA層構成。在VisualBERT中,圖像塊和查詢中的單詞被組合作為Transformer的輸入。
任務2獲獎團隊
冠軍團隊:aister(美團點評)
亞軍團隊:DeepWisdom(深度賦智 )
季軍團隊:TheAvengers(北京航空航天大學)
2
常規機器學習賽道二
機器學習賽道二「學術圖上的對抗攻擊和防禦」由BienData贊助。該賽道要求參賽者提交原始數據集的修改版本,以作為一種攻擊形式,其外觀應與原始圖相似,但在基準模型上分類準確性較低。參賽者應準備好數據及並保存在比賽系統的後端。然後,所有團隊都必須提交攻擊和防禦的解決方案。組織者將與所有團隊的所有進攻方案和防禦方案進行比賽,並得出排行榜。
關鍵詞:生成對抗網絡(GAN),圖結構化數據,圖嵌入
贊助商:Biendata.com
平臺:Biendata
總獎金:19,000美元
獲獎團隊
冠軍團隊:SPEIT-卓工 (上海交通大學、上海交大-巴黎高科卓越工程師學院)
亞軍團隊:ADVERSAIRES (中山大學、杭州電子科技大學 )
季軍團隊:DaftStone ( 中國科學技術大學)
冠軍思路
攻擊方案包含兩個步驟,第一步是對抗鄰接矩陣生成,第二步是增強特徵梯度攻擊。其中,第一步基於圖數據的拓撲性質,從而可以實現更加一般的攻擊,並且僅需要一次生成,在大規模圖的攻擊上更加高效;第二步會訓練一個替代模型作為目標,這裡利用了攻擊可遷移性,使用的訓練方法是對對抗損失進行反向傳播,並使用Adadelta優化器。
防禦方案包含三個步驟,第一步是特徵去噪,第二步是特徵轉換,第三步是訓練拓撲適應GCN。在第二步中,會改變特徵空間以減輕遷移攻擊;在第三步中,GCN實現了很高的分類準確率,並且對於其它模型生成的對抗圖具有魯棒性。
3
AutoML機器學習賽道
AutoML機器學習賽道 「用於圖表徵學習的AutoML」由第四範式、ChaLearn、史丹福大學和Google共同協辦,該賽道邀請參賽者部署用於圖表示學習的AutoML解決方案,其中節點分類作為評估學習的表示形式的質量的任務。
每個團隊都有五個公共數據集來開發AutoML解決方案。組織方提供了五個反饋數據集,以使參與者能夠評估他們的解決方案。這些解決方案將在沒有人為幹預的情況下使用五個新的數據集進行評估,優勝者將根據表現的最終排名進行選擇。
關鍵字:圖表示學習,圖結構化數據,圖嵌入,AutoML
贊助商:第四範式
平臺: CodaLab
總獎金:33,500美元
獲獎團隊
冠軍團隊:aister(美團點評、中國科學院大學、清華大學 )
亞軍團隊:PASA_NJU(南京大學)
季軍團隊:qqerret(螞蟻金服)
冠軍方案整體框架圖示:
方案採用了多級魯棒集成方法:
4
強化學習賽道
強化學習賽道 「在移動點播平臺上學習調度和重定位」由滴滴出行與DiDi AI Labs合作贊助,該賽道要求參與者應用機器學習工具來確定新穎的解決方案,用於在移動點播(MoD)平臺上的訂單分派(訂單匹配)和車輛重新定位(車隊管理)。具體地說,競賽著眼於如何應用機器學習解決方案來提高MoD平臺的效率。
關鍵字:強化學習,按需機動性,車輛重定位
贊助商: 滴滴出行
平臺:Biendata
總獎金:30,000美元
今年 ,KDD Cup 2020 強化學習挑戰賽(RL Track)難度陡增,與去年KDD Cup強化學習挑戰賽的分類問題以及過往多應用在體育競技類比賽性質不同,此次挑戰賽聚焦於更加真實且問題極為複雜的業務場景,以解決共享出行領域優化難題——智能化按需共享出行平臺。主辦方希望參賽團隊嘗試應用強化學習解決方案提出智能算法策略,在確保用戶體驗的基礎上,進一步提高出行效率和司機收入,將強化學習的價值進一步放大。
此次比賽主辦方共設計了訂單分配和車輛調度兩個任務,參賽團隊需設計開發算法來指定在派單窗口內的訂單和司機的匹配,並指引一批空閒司機開往指定目的地。最終結果排名以所有司機的平均日均收入為評判標準。
此次挑戰賽邀請了全球上千支參賽團隊,其中不乏國際頂尖高等院校以及科技巨頭的身影。最終,北京航空航天大學童詠昕教授研究組與第四範式聯合團隊以巨大的分數優勢斬獲KDD Cup 2020強化學習挑戰賽Dispatch冠軍,這也是國內AI公司首次染指該項賽事的冠軍。
Dispatch任務獲獎團隊
冠軍:Polar Bear(北京航空航天大學、第四範式)
亞軍:EM(中山大學)
季軍:Team Hail Mary ( Lyft )
冠軍思路
為了最大化平臺上所有司機日均收入,在計算每個訂單的收益時,北航聯合第四範式團隊採用基於強化學習的方法,不僅能考慮當前時刻的收入,還能兼顧未來可能的收益。同時,結合剪枝與C++實現的高效二分圖匹配算法,能夠在2秒的規定時限內,及時找到合適的訂單分配方案,保證乘客的用戶體驗。最終團隊以2359108.54的高分在Dispatch任務上奪冠。
方案圖示
Repopsition任務獲獎團隊
冠軍團隊:TLab(普渡大學、東南大學)
亞軍團隊:wait a minute(南京大學LAMDA組)
季軍團隊:NTTDOCOMO LABS(日本NTTdocomo實驗室)
冠軍思路:
參賽者需要解決網約車平臺的訂單匹配與車輛調度問題,其中訂單匹配任務需要每兩秒鐘進行一次匹配,車輛調度任務則需要在成都8000餘個六邊形網格內進行運力調度。相關算法可將乘客潛在出行需求與合適的司機相匹配,從而更高效地利用空置車輛,提高車輛周轉率,提升用戶體驗與司機收入水平,優化系統運營效率。
現有的多智能體強化學習方法將每一輛車看作是一個智能體,在進行仿真時,車輛按照調度算法前往目的地或者進行有偏隨機遊走,並沒有考慮司機的偏好。針對現有方法的不足,劉志遠指導的TLab團隊(成員包括劉洋博士、吳凡優博士、呂呈碩士))對現有方法進行了系統、全面的優化,進一步設計了一種更符合邏輯的單智能體深度強化學習方法。
例如,該方法 將單智能體作為智能「調度中心」 ,車輛發出調度請求後,「調度中心」進行全局運力調度。結合此前在大規模時空預測中的經驗,進一步對研究區域進行篩選並自定義了一個N×N的網格,將全局信息(整個城市訂單、車輛、價值的時空分布)和局部信息(車輛當前位置等)作為state。採用了一個經過剪枝的全局action space, 防止車輛陷入局部最優 。(本段內容來自東南大學官網&公眾號)
參考連結:
https://www.kdd.org/kdd2020/kdd-cup
https://kddvirtual2020.vfairs.com/
https://www.kdd.org/kdd2020/files/KDD_Cup_Day_Program.pdf
https://mp.weixin.qq.com/s/vqLw9Wj7qqAa19x8y2BAfA
https://www.seu.edu.cn/2020/0803/c17406a341189/page.htm
[博文視點贈書福利]
AI科技評論聯合博文視點贈送周志華教授「森林樹」十五本,在「周志華教授與他的森林書」一文留言區留言,談一談你和集成學習有關的學習、競賽等經歷。
AI 科技評論將會在留言區選出15名讀者,每人送出《集成學習:基礎與算法》一本。
活動規則:
1. 在「周志華教授與他的森林書」一文留言區留言,留言點讚最高的前 15 位讀者將獲得贈書。獲得贈書的讀者請聯繫 AI 科技評論客服(aitechreview)。
2. 留言內容會有篩選,例如「選我上去」等內容將不會被篩選,亦不會中獎。
3. 本活動時間為2020年8月23日 - 2020年8月30日(23:00),活動推送內僅允許中獎一次。