雷鋒網 AI 開發者按:KDD 2019 至今邁入第三天,在經歷了首日 Tutorial Day 、次日 Workshop Day 的知識轟炸以及精彩的 Keynote 演講後,我們終於迎來了大會的高潮時刻——被譽為數據挖掘領域「奧運會」的 KDD CUP。
今年的特別之處,在於 KDD CUP 2019 擁有了專屬的完整、獨立議程,不再感覺只是大會的附屬。同時,KDD CUP 2019 也破天荒首次設立三個賽道,供世界數據挖掘界的頂尖專家、學者、工程師、學生等前來參賽。而賽事結果也讓人感到驚喜——三個賽道的冠軍悉數被華人面孔拿下。
KDD CUP 有了屬於自己的 DAY
AI 開發者從官網獲取的最新議程顯示,作為 KDD 2019 「Main Conference Day」的重頭戲之一,KDD CUP DAY與今年的應用數據科學 Invited Talks和Research Track 論文 Oral 兩大議程重疊,舉行時長几乎橫跨全日。
揉碎了細看,KDD CUP DAY 如今擁有主席致辭、頒獎儀式、大會演講、Spotlight、Panel 等一系列完整的閉環議程,從中也反映了 KDD CUP 在整個 KDD 大會中的分量。按此往下發展,KDD CUP 在未來完全擁有進一步自主獨立的可能(搞事情!)。
KDD CUP DAY 完整議程
今年的 KDD CUP 一共獲得來自 39 個國家 230 所學術/研究機構一共 2800 多支隊伍的註冊。其中 1200 支的活躍隊伍(總數超過 5000 人)提交了約 17000 份解決方案。
與這些「熱鬧」的數據相對的是,大會現場則要「冷靜」很多。也許是宣傳力度有所欠缺,再加上部分獲勝隊伍美籤未能成功批下,所以當 AI 開發者記者今早來到大會現場時,人數要比想像中的少一些。
今年的KDD CUP 賽事共有三位聯合主席,他們是 Taposh Dutta-Roy(下圖右)、Wenjun Zhou(下圖左)以及 Iryna Skrypnyk(下圖中),分別供職於 Kaiser Permanente (KP)、田納西大學和Pfizer 。
KDD CUP 這 20 年
KDD CUP DAY 的一開始是組委會致辭環節。
首先打頭陣的是 Iryna Skrypnyk,她深情回顧了 KDD CUP 自 1997 年舉辦以來的賽題,以及這些賽題是如何與當時的社會風潮緊密結合的。她表示,自己親身參加了第一屆 KDD CUP 競賽,至今依然感謝 KDD CUP 帶給她的指導意義。
為了讓讀者更清晰地看到 KDD CUP 的歷年賽題變化,AI 開發者特地做了完整梳理:
forecasting of air quality indices (2018),
highway tollgates traffic flow prediction (2017),
measuring impact of research institutions via prediction of scientific research papers acceptance rates and citations (2016),
prediction of course drop-outs for college students (2015),
prediction of fulfilled requests on educational materials made by school teachers to improve funding outcomes (2014),
resolving author-name ambiguity in scientific publications (2013),
prediction of followers and click-through rate to improve user engagement with the online content in social networks (2012),
identification of user tastes in music for Yahoo! music recommendation (2011),
prediction of student’s performance for improvements in education quality (2010),
prediction of customer relationship for personalization in CRM (2009),
early breast cancer detection from medical imaging (2008),
user rating prediction to improve Netflix movie recommendation (2007),
pulmonary embolism detection from medical imaging data (2006),
categorization of search queries from an internet search engine (2005),
plus protein homology prediction in particle physics (2004),
prediction of paper citations and building citations graph for arXive (2003),
detect experimental evidence of gene expression from microbiology research papers for Flybase using their gene-expression curation criteria (2002),
prediction of molecular bioactivity and plus protein locale for drug design (2001),
clickstream analysis for online retailer web-site (2000),
prediction of attack type in network intrusion detection (1999),
identify response to the mailing in direct marketing for profit optimization (1998, 1997)
此外,她也分享了賽事在經過這 20 多年發展後所經歷的變化,其中包括:
面臨的問題複雜化
關注焦點從機器學習轉向特徵工程筆記
數據工程開始佔據主導地位
鼓勵開原始碼
湧現新的應用領域
防洩漏成重要議題
更複雜的評分功能
採用更多比賽平臺
代碼提交問題
緊接著發言的 Taposh Dutta-Roy,先用一張 PPT 提出一個很有意思的問題:最早通過競賽方式組織人群解決問題的賽事是哪個?隨後公布的答案顯示,是英國經度委員會於 1714 年組織的「測定海上船隻經度」賽事。
他想藉此說明舉辦賽事的價值與意義。
他補充,賽事如今已深刻影響著業內的個體、企業與研究機構。
首設 3 個賽道
Wenjun Zhou 在接下來的致辭中,代表組委會分享了今年在選擇賽題上的考量。分享中她一再強調,如何讓賽事在具有挑戰性之餘,同時在可控範圍之內,是本次組委會考慮得最多的事情。
最終組委會確立了 Regular ML、Auto-ML、Humanity RL 三個賽道,分別由百度、第四範式以及 IBM 承辦。
百度以「智能出行」為主題布置了兩大任務,分別為「場景感知的多模態出行推薦」與「開放應用挑戰賽」。
AutoML 的參賽者需要利用時序關係數據,設計一個能夠自主(無人為幹預)實現監督學習的 AutoML 電腦程式。
Humanity RL 賽道的參賽者需要為順序決策制定任務開發出一套高性能工具,從而形成可能影響撒哈拉以南非洲瘧疾政策的解決方案。
此外,她也以分享了組委會最終決定設立三個賽道的原因。如下圖所示,排在第一位的原因,是提案數的暴增,由此可見 KDD CUP 對於業內企業的吸引力。其中強化學習賽道為 KDD CUP 首創,值得一提的是,上午大會環節專門安排了一場與強化學習相關的主題演講,可見強化學習在當下的受歡迎程度。
接下來公布的數據從側面反映了 KDD CUP 逐年壯大的趨勢,其中今年的獎金池整體超過了 10 萬美金。
獎金池與參賽隊伍數量都是歷年之最!
尷尬卻不失禮貌的頒獎環節
KDD CUP 2019 所有賽道的結果早已在官網公布,今早的頒獎環節,更多的是強調一種儀式感,讓參賽者們也能擁有屬於自己的舞臺。
然而令人尷尬的是,由於很多參賽者因為這個或那個原因未能到場(美籤未被批是主要原因),導致相關環節只能匆匆結束。
不過頒獎環節依然有值得一提內容,比如三個賽道的冠軍悉數被華人隊伍拿下:
Shiwen Cui, Changhua Meng, Can Yi, Weiqiang Wang, Xing Zhao, Long Guo(螞蟻金服)
* Regular ML 賽道完整獲獎名單:https://www.kdd.org/kdd2019/docs/Winners_Regular_Baidu.pdf
Zhipeng Luo(深蘭科技),Jianqiang Huang(北京大學),Mingjian Chen,Bohang Zheng(深蘭科技)
* Auto-ML 賽道完整獲獎名單:https://www.kdd.org/kdd2019/docs/Winners_AutoML_4Paradigm.pdf
Zi-Kuan Huang, Jing-Jing Xiao, Hung-Yu Kao, 國立成功大學
* Humanity RL 賽道完整獲獎名單:https://www.kdd.org/kdd2019/docs/Winners_Humanity_RL_IBM.pdf
他們也大多都有代表到場領獎:
Auto-ML 賽道的冠軍隊伍
Regular ML 賽道的冠軍隊伍
而作為百度承辦的 Regular ML 賽道頒獎人代表,熊輝教授分享了一個有意思的數據,那就是百度今年提供的賽事獎金池為 KDD CUP 的歷年之最,其中任務一的優勝隊伍將能獲得高達 10 000 美金的獎金!
後記
從單獨設立 KDD CUP DAY、突破記錄的參賽隊伍與獎金池來看,KDD CUP 的影響力早已毋庸置疑。然而首創三賽道、首設強化學習賽道,也讓我們看到今年的組委會並未固步自封,而是願意不斷挑戰自己,在為業界解決系列重要問題之餘,也樹立起了新的數據科學賽事標杆。
這讓人忍不住期待,擁有了自己獨立議程後的 KDD CUP,往後又會給我們帶來哪些驚喜。
雷鋒網 AI 開發者雷鋒網(公眾號:雷鋒網)
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。