報告人:中國科學技術大學楊周旺教授
報告時間:10月20日 上午9:30-10:30
報告地點:數學樓一樓第一報告廳
報告題目:Sparse Deep Neural Networks Through L_{1,\infty}-Weight Normalization
報告摘要:
We study L_{1,\infty}-weight normalization for deep neural networks to achieve the sparse architecture. Empirical evidence suggests that inducing sparsity can relieve overfitting, and weight normalization can accelerate the algorithm convergence. In this paper, we theoretically establish the generalization error bounds for both regression and classification under the L_{1,\infty}-weight normalization. It is shown that the upper bounds are independent of the network width and sqrt(k)-dependence on the network depth k, which are the best available bounds for networks with bias neurons. These results provide theoretical justifications on the usage of such weight normalization. We also develop an easily implemented gradient projection descent algorithm to practically obtain a sparse neural network. We perform various experiments to validate our theory and demonstrate the effectiveness of the resulting approach.
報告人簡介:
楊周旺,中國科學技術大學數學科學學院教授,博士生導師,現任大數據學院副院長。本科、碩士、博士(分別是1997年、2000年、2005年)畢業於中國科學技術大學數學系。曾在韓國首爾國立大學從事博士後研究,在美國喬治亞理工學院工業與系統工程系進行學術訪問研究。長期從事應用數學領域的研究,綜合運用計算幾何、統計學、最優化等理論為解決相關問題建立新的數學模型,發展新方法。主要研究方向包括:數據驅動的最優化建模、稀疏優化、機器學習理論、宏觀經濟大數據建模分析、視頻智能解析算法等。曾主持和參加國家自然科學基金項目8項,授權和申請發明專利20多項,在國際學術期刊發表論文60多篇。2012年入選教育部新世紀優秀人才支持計劃。2014年獲得教育部自然科學獎二等獎(第三完成人)。2016年榮獲中國運籌學會科學技術獎運籌應用獎(每四年頒發一屆)。2017年榮獲中國數學會計算數學分會第二屆「青年創新獎」。楊周旺教授所在的數據科學團隊與企業機構開展了多項大數據聯合研究項目,已有部分成果產業化並進入實際工業應用。