5月8日上午,首屆全國大學生數據挖掘邀請賽複賽答辯環節在中國科學技術大學東校區管理科研樓1018室舉行,來自中國科學技術大學、北京大學、浙江大學、復旦大學等全國多所著名高校和中國科學院自動化所的16支參賽隊伍,從參加初賽的300多支隊伍中脫穎而出,參加了本次複試答辯。
我校研究生在複賽中進行答辯
由我校計算機學院語義計算與數據挖掘實驗室負責人陳恩紅教授指導,以寶騰飛、向彪,劉淇三位博士生為主力的RecSys1隊獲得了研究生組第一名的優異成績。同時,該實驗室的徐童、曽廣翔等研究生同學所組成的數據掘金隊,以及解浚源等同學組成的LightSpeed隊,分獲研究生組和本科生組第三名。
此外,來自我校少年班學院和管理學院的同學還獲得了本科生組第六、七名。至此,歷時五周的首屆全國大學生數據挖掘邀請賽正式落下帷幕。我校以一項一等獎、兩項三等獎、兩項入圍獎的成績,名列各參賽高校之首。
研究生組排名
本科生組排名
首屆全國大學生數據挖掘邀請賽由中國科學技術大學管理學院、中國人民大學統計學院和統計之都(COS)網站聯合舉辦,交友網站「世紀佳緣」暨上海花千樹信息科技有限公司贊助並提供技術支持。該項賽事是國內首個關於數據挖掘技術的全國性競賽,體現了網際網路領域新的技術熱點和應用需求。同時,該項賽事也為來自不同學校、不同學科背景的同學提供了一個交流的平臺。
本次比賽分設研究生組和本科生組,參賽人數眾多,影響範圍廣泛。本次比賽的主題為大型交友網站的個性化推薦系統,要求通過構造有效的統計評分模型,評估特定會員的受歡迎程度,並預測用戶在面對被推薦會員時可能的瀏覽行為。算法預測結果以特定用戶待選會員集評分結果前十名的實際瀏覽行為進行評估,即NDCG@10。由於本次比賽的數據存在稀疏性及冷啟動問題,給各參賽隊的數據處理和算法設計工作帶來了較大的困難,這也是現有推薦算法所面臨的主要難點,體現了本項賽事與實際應用緊密結合的特點。
面對激烈的競爭,中國科大學生體現出積極的比賽風貌和紮實的實戰技能。雖然在比賽的五個星期內排名更迭頻繁,但我校的多支參賽隊一直保持在排行榜的前列,其中RecSys1隊曾連續近兩周處於研究生組排行榜首位。針對稀疏數據和冷啟動的數據特性,來自語義計算與數據挖掘實驗室的同學們嘗試了包括基於最近鄰的協同過濾算法、PageRank排序算法、E-Greedy排序算法、關聯規則挖掘在內的多種經典算法,最後,在RankSVM和Bayesian Regression Tree等算法的基礎上引進了簡單投票算法,有效地提升了預測結果,在提交結束時的40%驗證數據集上排名研究生組第二名,最後憑藉算法優秀的穩定性和精確性,在完整的測試數據集上成功超越了對手,最終摘取桂冠。
(計算機學院)