KDD CUP 2019 實錄:野心盡露的數據挖掘「奧林匹克」

2020-12-25 雷鋒網

雷鋒網 AI 開發者按:KDD 2019 至今邁入第三天,在經歷了首日 Tutorial Day 、次日 Workshop Day 的知識轟炸以及精彩的 Keynote 演講後,我們終於迎來了大會的高潮時刻——被譽為數據挖掘領域「奧運會」的 KDD CUP。

今年的特別之處,在於 KDD CUP 2019 擁有了專屬的完整、獨立議程,不再感覺只是大會的附屬。同時,KDD CUP 2019 也破天荒首次設立三個賽道,供世界數據挖掘界的頂尖專家、學者、工程師、學生等前來參賽。而賽事結果也讓人感到驚喜——三個賽道的冠軍悉數被華人面孔拿下。

KDD CUP 有了屬於自己的 DAY

AI 開發者從官網獲取的最新議程顯示,作為 KDD 2019 「Main Conference Day」的重頭戲之一,KDD CUP DAY與今年的應用數據科學 Invited Talks和Research Track 論文 Oral 兩大議程重疊,舉行時長几乎橫跨全日。

揉碎了細看,KDD CUP DAY 如今擁有主席致辭、頒獎儀式、大會演講、Spotlight、Panel 等一系列完整的閉環議程,從中也反映了 KDD CUP 在整個 KDD 大會中的分量。按此往下發展,KDD CUP 在未來完全擁有進一步自主獨立的可能(搞事情!)。


KDD CUP DAY 完整議程

今年的 KDD CUP 一共獲得來自 39 個國家 230 所學術/研究機構一共 2800 多支隊伍的註冊。其中 1200 支的活躍隊伍(總數超過 5000 人)提交了約 17000 份解決方案。

與這些「熱鬧」的數據相對的是,大會現場則要「冷靜」很多。也許是宣傳力度有所欠缺,再加上部分獲勝隊伍美籤未能成功批下,所以當 AI 開發者記者今早來到大會現場時,人數要比想像中的少一些。

今年的KDD CUP 賽事共有三位聯合主席,他們是 Taposh Dutta-Roy(下圖右)、Wenjun Zhou(下圖左)以及 Iryna Skrypnyk(下圖中),分別供職於 Kaiser Permanente (KP)、田納西大學和Pfizer 。

KDD CUP 這 20 年

KDD CUP DAY 的一開始是組委會致辭環節。

首先打頭陣的是 Iryna Skrypnyk,她深情回顧了 KDD CUP 自 1997 年舉辦以來的賽題,以及這些賽題是如何與當時的社會風潮緊密結合的。她表示,自己親身參加了第一屆 KDD CUP 競賽,至今依然感謝 KDD CUP 帶給她的指導意義。

為了讓讀者更清晰地看到 KDD CUP 的歷年賽題變化,AI 開發者特地做了完整梳理:

  • forecasting of air quality indices (2018), 

  • highway tollgates traffic flow prediction (2017), 

  • measuring impact of research institutions via prediction of scientific research papers acceptance rates and citations (2016),

  • prediction of course drop-outs for college students (2015),

  • prediction of fulfilled requests on educational materials made by school teachers to improve funding outcomes (2014),

  • resolving author-name ambiguity in scientific publications (2013),

  • prediction of followers and click-through rate to improve user engagement with the online content in social networks (2012),

  • identification of user tastes in music for Yahoo! music recommendation (2011),

  • prediction of student’s performance for improvements in education quality (2010),

  • prediction of customer relationship for personalization in CRM (2009), 

  • early breast cancer detection from medical imaging (2008), 

  • user rating prediction to improve Netflix movie recommendation (2007), 

  • pulmonary embolism detection from medical imaging data (2006), 

  • categorization of search queries from an internet search engine (2005), 

  • plus protein homology prediction in particle physics (2004),

  • prediction of paper citations and building citations graph for arXive (2003), 

  • detect experimental evidence of gene expression from microbiology research papers for Flybase using their gene-expression curation criteria (2002), 

  • prediction of molecular bioactivity and plus protein locale for drug design (2001), 

  • clickstream analysis for online retailer web-site (2000), 

  • prediction of attack type in network intrusion detection (1999), 

  • identify response to the mailing in direct marketing for profit optimization (1998, 1997)

此外,她也分享了賽事在經過這 20 多年發展後所經歷的變化,其中包括:

  • 面臨的問題複雜化

  • 關注焦點從機器學習轉向特徵工程筆記

  • 數據工程開始佔據主導地位

  • 鼓勵開原始碼

  • 湧現新的應用領域

  • 防洩漏成重要議題

  • 更複雜的評分功能

  • 採用更多比賽平臺

  • 代碼提交問題

緊接著發言的 Taposh Dutta-Roy,先用一張 PPT 提出一個很有意思的問題:最早通過競賽方式組織人群解決問題的賽事是哪個?隨後公布的答案顯示,是英國經度委員會於 1714 年組織的「測定海上船隻經度」賽事。

他想藉此說明舉辦賽事的價值與意義。

他補充,賽事如今已深刻影響著業內的個體、企業與研究機構。

首設 3 個賽道

Wenjun Zhou 在接下來的致辭中,代表組委會分享了今年在選擇賽題上的考量。分享中她一再強調,如何讓賽事在具有挑戰性之餘,同時在可控範圍之內,是本次組委會考慮得最多的事情。

最終組委會確立了 Regular ML、Auto-ML、Humanity RL 三個賽道,分別由百度、第四範式以及 IBM 承辦。

百度以「智能出行」為主題布置了兩大任務,分別為「場景感知的多模態出行推薦」與「開放應用挑戰賽」。

AutoML 的參賽者需要利用時序關係數據,設計一個能夠自主(無人為幹預)實現監督學習的 AutoML 電腦程式。

Humanity RL 賽道的參賽者需要為順序決策制定任務開發出一套高性能工具,從而形成可能影響撒哈拉以南非洲瘧疾政策的解決方案。

此外,她也以分享了組委會最終決定設立三個賽道的原因。如下圖所示,排在第一位的原因,是提案數的暴增,由此可見 KDD CUP 對於業內企業的吸引力。其中強化學習賽道為 KDD CUP 首創,值得一提的是,上午大會環節專門安排了一場與強化學習相關的主題演講,可見強化學習在當下的受歡迎程度。

接下來公布的數據從側面反映了 KDD CUP 逐年壯大的趨勢,其中今年的獎金池整體超過了 10 萬美金。

獎金池與參賽隊伍數量都是歷年之最!

尷尬卻不失禮貌的頒獎環節

KDD CUP 2019 所有賽道的結果早已在官網公布,今早的頒獎環節,更多的是強調一種儀式感,讓參賽者們也能擁有屬於自己的舞臺。

然而令人尷尬的是,由於很多參賽者因為這個或那個原因未能到場(美籤未被批是主要原因),導致相關環節只能匆匆結束。

不過頒獎環節依然有值得一提內容,比如三個賽道的冠軍悉數被華人隊伍拿下:

Shiwen Cui, Changhua Meng, Can Yi, Weiqiang Wang, Xing Zhao, Long Guo(螞蟻金服) 

* Regular ML 賽道完整獲獎名單:https://www.kdd.org/kdd2019/docs/Winners_Regular_Baidu.pdf

Zhipeng Luo(深蘭科技),Jianqiang Huang(北京大學),Mingjian Chen,Bohang Zheng(深蘭科技)

* Auto-ML 賽道完整獲獎名單:https://www.kdd.org/kdd2019/docs/Winners_AutoML_4Paradigm.pdf

Zi-Kuan Huang, Jing-Jing Xiao, Hung-Yu Kao, 國立成功大學

* Humanity RL 賽道完整獲獎名單:https://www.kdd.org/kdd2019/docs/Winners_Humanity_RL_IBM.pdf

他們也大多都有代表到場領獎:

Auto-ML 賽道的冠軍隊伍

Regular ML 賽道的冠軍隊伍

而作為百度承辦的 Regular ML 賽道頒獎人代表,熊輝教授分享了一個有意思的數據,那就是百度今年提供的賽事獎金池為 KDD CUP 的歷年之最,其中任務一的優勝隊伍將能獲得高達 10 000 美金的獎金!

後記

從單獨設立 KDD CUP DAY、突破記錄的參賽隊伍與獎金池來看,KDD CUP 的影響力早已毋庸置疑。然而首創三賽道、首設強化學習賽道,也讓我們看到今年的組委會並未固步自封,而是願意不斷挑戰自己,在為業界解決系列重要問題之餘,也樹立起了新的數據科學賽事標杆。

這讓人忍不住期待,擁有了自己獨立議程後的 KDD CUP,往後又會給我們帶來哪些驚喜。

雷鋒網 AI 開發者雷鋒網(公眾號:雷鋒網)

雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 【乾貨】2010-2017最全KDD CUP賽題回顧及數據集下載
    >>> 大賽官網介紹http://www.kdd.org/kdd-cup/view/kdd-cup-2010-student-performance-evaluation/Intro>>>> 大賽數據集http://www.kdd.org/kdd-cup/view/kdd-cup-2010-student-performance-evaluation/Data
  • 中國企業包攬主辦權,獎金池 12 萬美金,KDD Cup 2020 開賽
    近日,ACM SIGKDD 公布了 KDD Cup 2020( 國際知識發現和數據挖掘競賽)的賽事安排。任務及評審標準:ML Track 1「現代電子商務平臺挑戰」賽項,要求參賽者通過考慮不同類型的複雜信息和模式之間的緊密聯繫,學習高質量的跨模式表達;然後,學習表示可用於計算表示之間的相似度得分,並選擇與文本相關的圖像/視頻;最後,每一次提交都將在測試數據集上進行評估,該數據集評估檢索到的產品與事實之間的對應關係。
  • 工學院研究生蔡恆興率領隊伍「一個師的兵力」在KDD Cup 2017國際競賽中取得優異成績
    2017年度國際知識發現和數據挖掘競賽(KDD Cup 2017)近日落下帷幕。
  • KDD 2019 投稿要求出爐:結果出爐前不得發表 arXiv ,鼓勵公開研究...
    此外,只有那些在文章中公開研究代碼和數據的論文才有資格競選「最佳論文」一獎。內容截自官網今年官網將「可重現性」作為重點列為「重要政策」的首條,鼓勵作者們在文中公開研究代碼和數據、匯報方法在公開數據集上的實驗結果,並儘可能完整描述所使用的算法和資源
  • KDD CUP 2020 大獎出爐,中國團隊包攬全部冠亞軍!
    其中KDD CUP是由ACM知識發現和數據挖掘特別興趣小組(領先的數據科學家專業組織)組織的年度國際數據挖掘和知識發現競賽。素有「大數據領域世界盃」之譽,是目前數據挖掘領域最高水平、最具影響力、規模最大的國際頂級賽事。
  • 數據科學的「小地方」安克雷奇迎來KDD2019開幕
    KDD 2019 之所以能在這裡開辦,少不了當地的數據科學土壤的支持,而且也是對這裡的數據科學相關方面發展的不小的激勵。大會聯合主席致辭兩位大會聯合主席中的 Ankur Teredesai 接著上臺演講。
  • 谷歌的KDD 2017:九篇錄用+雙料博士論文獎,超百位員工參與
    作為數據科學、信息檢索、數據挖掘和機器學習的頂級會議,KDD 為學術界和工業界提供了一個寶貴的交流機會。以下是谷歌深度參與或介入的 KDD 活動議程全名單,雷鋒網(公眾號:雷鋒網)AI科技評論編譯如下:組織委員會Panel 主席: Andrew Tomkins 研究程序委員會主席: Ravi Kumar 應用數據科學程序委員會主席: Roberto J.
  • 韓家煒在數據挖掘上開闢的「小路」是什麼
    文章中還會多次遇到,這是這次演講內容的一張「地圖」,也是數據挖掘領域的一張「地圖」韓家煒認為要想將現有的無結構的 Big Data 變成有用的 Knowledge,1.3 數據挖掘三部曲韓家煒認為他們做數據挖掘的研究工作可以總結為三部曲:(1)從文本數據中挖掘隱藏的結構。
  • [KDD Cup 2020(共6道題)]KDD Cup 2020(賽題更新)
    1.文本搜圖(Multimodalities Recall)地址:https://tianchi.aliyun.com/competition/entrance/231786/introduction任務:本次比賽,我們準備了來自國內最大的電子商務平臺之一的移動淘寶的真實場景多模態數據
  • 沃林老師「數據挖掘」答疑 18 問
    至於幾個 G 的情況大多數是晶片的 CEL 文件了,這類數據建議直接通過 GEO2R 進行分析。問題 2 :GEO 資料庫平臺文件裡沒有「gene. symbol」信息,怎麼解決呢?回  答:如果是晶片測序的話可以直接搜索晶片對應版本的注釋信息,如果是高通量測序的話找個在線 ID 轉換工具就可以解決了,比如「webgenestalt」或者 R 包「clusterprofiler」。
  • KDD Cup 2018 冠軍「 first floor to eat latiao」:為什麼取這個...
    提到 KDD Cup,相信數據挖掘領域的同學並不陌生。作為目前數據挖掘領域最有影響力、最高水平的國際頂級賽事,KDD Cup 至今已舉辦 21 屆,每年都會吸引世界數據挖掘界的頂尖專家、學者、工程師、學生等前來參賽,被外界譽為大數據領域的「奧運會」。
  • KDD 2020最佳論文揭曉!杜克大學陳怡然組獲最佳學生論文獎
    受疫情影響,今年第26屆國際數據挖掘頂會 ACM SIGKDD 於8月23日-27日以虛擬線上方式召開。近日,KDD 2020公布了最佳論文獎、最佳學生論文獎等多個獎項。Learning Interpretations」。
  • 祝賀東南大學交通學院劉志遠教授團隊劉洋博士、呂呈碩士喜獲KDD CUP兩項大獎
    ACM SIGKDD Conference on Knowledge Discovery and Data Mining(簡稱KDD)是國際數據挖掘領域的最高級別的學術會議[2]。其中KDD CUP是ACM SIGKDD組織的年度賽事,有數據挖掘領域「世界盃」之稱,是目前數據挖掘領域最高水平、最具影響力、規模最大的國際頂級賽事。本次比賽由百度公司承辦,賽題和智能出行相關。
  • 除了Kaggle,這裡還有一些含金量高的數據科學競賽哦
    Kaggle 是很有名的數據科學競賽平臺。這個在線社區有 10 萬多註冊用戶,這些用戶有新手也有專家。但除了 Kaggle,還有一些其它值得了解和研究的數據挖掘競賽平臺。InnoCentive:https://www.innocentive.com/our-solvers/TunedITTuneIT 最初是華沙大學(University of Warsaw)的一個理科博士項目,其目的是幫助數據挖掘科學家進行可重複的實驗並輕鬆評估數據驅動算法
  • KDD 2020最佳論文揭曉!杜克大學陳怡然組獲最佳學生論文獎,清華入選論文實力霸榜
    獲獎論文大賞:谷歌研究者獲最佳論文,杜克大學陳怡然組獲最佳學生論文最佳論文 最佳論文獎由來自谷歌研究院的Walid Krichene和Steffen Rendle獲得,獲獎題目為「On Sampled Metrics for Item Recommendation」
  • KDD 2018精華大放送,不可錯過的知識發現與數據科學盛宴(附Papers&Tutorials下載)
    數據科學界最重要的會議——ACM SIGKDD(知識發現與數據挖掘會議)已經在倫敦召開了,將從8月19號持續到23號,來自相關領域的研究人員將在數據科學、人工智慧、機器學習和數據挖掘以及大數據等相關主題進行深入的討論和交流。
  • 數據挖掘頂級會議KDD2017大獎公布,KDD Cup全被中國人給包了
    記者 | 周翔8 月 13 日至 8 月 17 日,國際數據挖掘領域的頂級會議 ACM SIGKDD 2017 在加拿大的 Halifax 召開。此次大會共有 1144 篇提交論文(中國佔 13%),但最終只有 216 篇被收錄。
  • 天津大學斬獲「大數據世界盃」KDD CUP2019全球季軍
    這一培養模式,在近期結出碩果:由經管學部信息管理系主任張兮教授、青年骨幹趙洪科博士帶領,天大信管系團隊參加了2019年「國際知識發現和數據挖掘競賽」(KDD-CUP,Knowledge Discovery and Data Mining),並斬獲Task2
  • KDD 2017獲獎論文公布:數據挖掘領域的頂級研究與應用成果
    KDD 的英文全稱是 Knowledge Discovery and Data Mining(知識發現與數據挖掘),由美國計算機協會 ACM 下的數據挖掘分會舉辦,是國際數據挖掘領域的頂級會議。在本文中,我們探索了學習簡單結構表示的可行性和價值,特別是在「問題模式」上,其中規定了產品的目的與達到目的使用的機制。我們的方法整合了眾包模式與循環神經網絡來提取產品描述中的目的和機制的向量表示。我們證明了,這些學習的向量可以讓我們比傳統信息檢索方式更快、更準確地找到類比。
  • 乾貨| 2019 AI 國際頂級學術會議一覽表
    雷鋒網 AI 科技評論按:2017 -2018 年兩年間,AI 科技評論秉承「洞見學術前沿,連接產業未來」的宗旨,走遍美國、加拿大、澳大利亞、法國、新加坡等多個國家,兩度親歷 10 餘個國際頂級學術會議,為大家帶來了一系列現場精彩報導。2019 年,這些國際頂級學術會議將如約與大家見面,而 AI 科技評論也將前往現場繼續新一年的學術會議報導。