大數據文摘出品
當地時間6月12日,ICML 2019於美國長灘市公布了本屆大會最佳論文結果。
谷歌大腦、MaxPlanck和蘇黎世聯邦理工學院合作的《挑戰無監督分離式表徵的常見假設》,以及劍橋大學的一篇《稀疏變分高斯過程回歸的收斂速率》作為最佳論文摘得桂冠。另外,還有七篇論文獲得提名獎。
今年的論文錄取競爭異常激烈,ICML 2019共提交了3424篇論文,其中錄取774篇,論文錄取率為22.6%。錄取率較去年ICML 2018的25%有所降低。
ICML 2019接收論文貢獻數排名前50的機構(學界機構和業界機構)
論文錄取結果地址:
https://icml.cc/Conferences/2019/AcceptedPapersInitialfbclid=IwAR0zqRJfPz2UP7dCbZ8Jcy7MrsedhasX13ueqkKl934EsksuSj3J2QrrRAQ
第一篇最佳論文的作者來自蘇黎世聯邦理工學院(ETH Zurich)、MaxPlanck 智能系統研究所及谷歌大腦。
深度學習的一個重要挑戰是用無監督學習的方式理解現有數據。目前主要提出的方法是一個利用分離式表徵 (disentangled representation) 的模型,它可以捕捉到各種相互獨立的特徵,如果其中一個特徵改變了,其他特徵不會受到影響。
而該團隊測試了12,000個模型之後,對現有無監督分離式表徵學習研究發出了嚴重的質疑。
首先,並沒有發現任何經驗證據,顯示無監督方法可以學到可靠的分離式表徵,因為隨機種子和超參數似乎比模型的選擇更重要。也就是說,就算訓練了大量的模型,一部分可以得出分離式表徵,也很難在不看標籤的情況下就把這些表徵找出來。
其次,在參加評估的模型和數據集上,分離式表徵並不一定對後續任務有幫助,結果表明用了分離式表徵也不等於說AI就可以用更少的標註來學習。
最後,論文給研究者提出建議,因為根據檢測結果,不帶歸納偏置 (Inductive Biases) 的無監督學習的分離式表徵是不可能實現的,未來的研究應該清楚地描述出歸納偏置,以及隱式和顯式的監督方式。
論文地址:
http://proceedings.mlr.press/v97/locatello19a/locatello19a.pdf
這篇最佳論文是來自英國劍橋大學和機器學習平臺Prowler.io的研究。論文名稱為《稀疏高斯過程回歸變分的收斂速度》(Rates of Convergence for Sparse Variational Gaussian Process Regression)。此論文的工作是證明了稀疏GP回歸變分近似到後驗變分近似的KL發散的界限,該界限僅依賴於先驗核的協方差算子的特徵值的衰減。
論文地址:
https://arxiv.org/pdf/1903.03571.pdf
這篇論文的第一作者是來自劍橋大學信息工程系的博士研究生David Burt,其主要研究領域是貝葉斯非參數和近似推理。另一位作者是Mark van der Wilk,劍橋大學機器學習專業的在讀博士研究生,主要的研究領域是貝葉斯推理、強化學習、高斯過程模型等。
除了2篇最佳論文外,還有7篇論文獲得最佳論文提名,分別為:
1、Analogies Explained: Towards Understanding Word Embeddings(愛丁堡大學)
論文地址:
https://arxiv.org/abs/1901.09813
2、SATNet: Bridging deep learning and logical reasoning using a differentiable satisfiability solver(CMU、南加州大學等)
論文地址:
https://arxiv.org/abs/1905.12149
3、A Tail-Index Analysis of Stochastic Gradient Noise in Deep Neural Networks(巴黎薩克雷大學等)
論文地址:
https://arxiv.org/abs/1901.06053
4、Towards A Unified Analysis of Random Fourier Features(牛津大學、倫敦過國王學院)
論文地址:
https://arxiv.org/abs/1806.09178
5、Amortized Monte Carlo Integration(牛津大學等)
論文地址:
http://www.gatsby.ucl.ac.uk/~balaji/udl-camera-ready/UDL-12.pdf
6、Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning(MIT、DeepMind、普林斯頓)
論文地址:
https://arxiv.org/abs/1810.08647
7、Stochastic Beams and Where to Find Them: The Gumbel-Top-k Trick for Sampling Sequences Without Replacement(荷蘭阿姆斯特丹大學等)
論文地址:
https://arxiv.org/abs/1903.06059
首先來回顧一下2018年ICML最佳論文;
第一篇是:
Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples
Anish Athalye (MIT), Nicholas Carlini (UCB), David Wagner(UCB)
論文地址:
https://arxiv.org/pdf/1802.00420.pdf
第二篇是:
Delayed Impact of Fair Machine Learning
Lydia Liu, Sarah Dean, Esther Rolf, Max Simchowitz, Moritz Hardt (全員UCB)
論文地址:
https://arxiv.org/pdf/1803.04383
從兩年的最佳論文評選結果來看,ICML似乎對於質疑性的研究特別中意。
2018年第一篇最佳論文質疑了當時普遍使用的構建防禦對抗樣本,增加神經網絡魯棒性的方法——它們都可以被更強大的優化攻擊擊敗。
加入了肉眼看不見的擾動,這張貓的圖片就可以欺騙 InceptionV3 分類器,使其分類為「鱷梨醬」
並且它們使用ICLR 2018接收論文中的防禦對抗樣本論文作為研究對象,成功攻破了8 篇有關防禦對抗樣本的研究中的7篇。
而第二篇同樣也是質疑了機器學習在採用歷史數據集時,會產生「偏見」的問題,從而影響到模型對現在的分析或者對未來的預測是否是中立的,會不會對弱勢群體存在忽略。
而今年的則貌似更「過分」,來自谷歌的最佳論文則質疑了幾乎所有同行在無監督分離式表徵學習研究方向的努力。論文提出,在數據集和模型沒有歸納偏置 (Inductive Biases) 的情況下,試圖通過無監督的方法學習到可靠分離式表徵,從而來讓機器學習系統去應對沒有遇到過的場景,這是無法實現的。
今年,國內企業在 ICML 會議上的成果則顯得較為低調,據目前公開資料統計,僅有少量的研究成果,其中,騰訊、阿里巴巴等科技公司依然領跑。其中騰訊的數量為10篇,阿里被收錄5篇,百度有一篇。
論文數量排名前五的公司分別是谷歌、谷歌大腦、微軟、DeepMind、Facebook,論文數量分別為:82、42、35、29、23。
ICML 2019接收論文貢獻數排名前50的業界機構
從高校的角度看,中國有四所大學進去TOP50,其中清華大學15篇,北京大學11篇,而南京大學和香港中文大學分別是8篇和7篇。值得一提的是,排名第一的麻省理工論文數量為47篇。
將業界和學界分開來看,純學術研究論文有452篇(58.4%);僅有60篇論文純粹是由業界研究機構完成的;既包含業界也包含學界作者的論文有262篇(33.9%)。總結學界和業界對所有論文的相對貢獻可以得到:
實習/全職編輯記者招聘ing
加入我們,親身體驗一家專業科技媒體採寫的每個細節,在最有前景的行業,和一群遍布全球最優秀的人一起成長。坐標北京·清華東門,在大數據文摘主頁對話頁回復「招聘」了解詳情。簡歷請直接發送至zz@bigdatadigest.cn