不被Hinton認同,否定同行成果,谷歌這篇研究拿下ICML最佳論文

2020-12-16 量子位

曉查 慄子 安妮 發自 凹非寺量子位 出品 | 公眾號 QbitAI

ICML 2019最佳論文來了!

今年,共有3424篇論文提交到這場一年一度的機器學習國際頂會上,大會共接收了774篇。有兩篇論文,從千軍萬馬中脫穎而出,成為ICML 2019最佳論文。

這份大獎花落誰家?谷歌等一篇名為《挑戰無監督分離式表徵的常見假設》的論文,表明 (沒有歸納偏置的) 無監督方法學不到可靠的分離式表徵 (Disentangled Representations) 。

這項極富智慧和勇氣的研究,幾乎全面否定了現有的同行成果,也證明Hinton曾經的觀點有問題:

另一篇為《稀疏變分高斯過程回歸的收斂速率》,作者為劍橋大學的3位研究人員。

詳細看今年的最佳研究:

最佳論文1:分離式表徵,沒法無監督學習

先用一句話概括一下:谷歌大腦、ETH蘇黎世、馬普所組成的團隊測試了12,000個模型,對現有的無監督分離式表徵學習研究,發出了嚴重的質疑。

理解高維數據,用無監督的方式,把知識蒸餾成有用的表徵,是深度學習的一個重要挑戰。

一種方法是利用分離式表徵 (disentangled representation) :

模型可以捕捉到各種相互獨立的特徵,如果其中一個特徵改變了,其他特徵不會受到影響。

這樣的方法一旦成功,就可以做出真實世界裡也能用的機器學習系統,不論是給機器人,還是給自動駕駛車,以便應對訓練中沒見過的場景。

不過,在無監督的分離式表徵學習上,新近的研究都很難看出這些方法到底有多好,局限又有多大。

谷歌AI團隊給各種新近的成果,做了一個大規模的評估。評估結果對現有研究提出了嚴肅的挑戰。並且給分離式學習日後的研究,提供了一些建議。

什麼叫大規模的評估?谷歌團隊訓練了12,000個模型,覆蓋了目前最重要的方法,以及評估指標。

重要的是,評估過程中用到的代碼,以及10,000個預訓練模型,都已經放出了。

它們共同組成了一個巨大的庫,叫做disentanglement_lib。讓後來的研究人員,可以輕鬆站到前人的肩膀上。

大規模測試過後,谷歌發現了兩個重大的問題:

1、並沒有發現任何經驗證據,顯示無監督方法可以學到可靠的分離式表徵,因為隨機種子和超參數似乎比模型的選擇 (Model Choice) 更重要。

也就是說,就算訓練了大量的模型,一部分得出了分離式表徵,也很難在不看ground truth標籤的情況下把這些表徵找出來。

除此之外,好用的超參數值,也並沒有在多個數據集裡都好用。

谷歌團隊說,這些結果吻合了他們提出的定理:

在數據集和模型沒有歸納偏置 (Inductive Biases) 的情況下,用無監督的方法學習分離式表徵是不可能的。

換句話說,必須要在數據集和模型上,加個前提。

2、在參加評估的模型和數據集上,並沒有證實分離式表徵對下遊任務有幫助,比如:沒有證據表明用了分離式表徵,AI就可以用更少的標註來學習。

給後來者的建議是:

1、鑑於理論結果證實,不帶歸納偏置 (Inductive Biases) 的、無監督學習的分離式表徵是不可能實現的,未來的研究應該清楚地描述出歸納偏置,以及隱式和顯式的監督方式。

2、為跨數據集的無監督模型選擇,找到好用的歸納偏置,是一個非常關鍵的問題。

3、用了分離式表徵學習之後的產生的具體優勢,應該要證明出來。

4、實驗,應該有可以復現的實驗設定,在多種多樣的數據集裡適用。

順便提一句,這是一項中選了ICLR 2019 workshop的研究,卻最終成了ICML的最佳論文。

最佳論文2:稀疏變分高斯過程回歸的收斂速率

今年ICML的第二篇最佳論文是來自英國劍橋大學和機器學習平臺Prowler.io的研究。

之前已經有人開發出了一種高斯過程後驗的極好變分近似。避免出現數據集大小為N,計算時間複雜度為O(N3)的情況,將計算成本降低到O(NM2),其中M是一個遠小於N的數。

雖然計算成本對於N是線性的,但算法的真正複雜度取決於如何增加M以確保一定的近似質量。

本文通過描述向後KL散度(相對熵)上界的行為來解決這個問題。研究者證明,若M比N增長得更慢,KL散度很有可能會變得任意小。一個特例是,對於在具有常見的平方指數核的D維正態分布輸入的回歸,只要M = O(logD N)就足夠保證收斂了。

結果表明,隨著數據集的增長,高斯過程後驗概率可以被非常容易地近似,並為如何在連續學習場景中增加M提供了一種具體的規則。

研究者證明了,從稀疏廣義回歸變分近似到後驗廣義回歸的KL散度的邊界,它只依賴於之前核的協方差算子特徵值的衰減。

這個邊界證明訓練數據集中在一個小區域的光滑核允許高質量、非常稀疏的近似。當MN時,真正稀疏的非參數推斷仍然可以提供對邊界似然性和逐點後驗的可靠估計。

本文作者在最後指出,具有非共軛可能性的模型的擴展,尤其是在Hensman等人的框架中由稀疏性引入的附加誤差,為未來的研究提供了一個有前景的方向。

這篇文章的第一作者是來自劍橋大學信息工程系的博士研究生David Burt,他的主要研究領域是貝葉斯非參數和近似推理。

作者之一Mark van der Wilk是Prowler.io的研究者,他也是劍橋大學機器學習專業的在讀博士研究生,主要的研究領域是貝葉斯推理、強化學習、高斯過程模型等。

7篇最佳論文提名

除了2篇最佳論文外,還有7篇論文獲得最佳論文提名,分別為:

1、Analogies Explained: Towards Understanding Word Embeddings(愛丁堡大學)

論文地址:

https://arxiv.org/abs/1901.09813

2、SATNet: Bridging deep learning and logical reasoning using a differentiable satisfiability solver(CMU、南加州大學等)

論文地址:

https://arxiv.org/abs/1905.12149

3、A Tail-Index Analysis of Stochastic Gradient Noise in Deep Neural Networks(巴黎薩克雷大學等)

論文地址:

https://arxiv.org/abs/1901.06053

4、Towards A Unified Analysis of Random Fourier Features(牛津大學、倫敦過國王學院)

論文地址:

https://arxiv.org/abs/1806.09178

5、Amortized Monte Carlo Integration(牛津大學等)

論文地址:

http://www.gatsby.ucl.ac.uk/~balaji/udl-camera-ready/UDL-12.pdf

6、Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning(MIT、DeepMind、普林斯頓)

論文地址:

https://arxiv.org/abs/1810.08647

7、Stochastic Beams and Where to Find Them: The Gumbel-Top-k Trick for Sampling Sequences Without Replacement(荷蘭阿姆斯特丹大學等)

論文地址:

https://arxiv.org/abs/1903.06059

國內多所高校上榜

和往常相比,今年的ICML格外熱鬧。

德國博世公司抓取了ICML 19官網上的接收數據,將論文的接受比例、貢獻最多的機構以及貢獻最大的個人作者統計了出來。不少國內高校和學者榜上有名。

原統計地址:

https://www.reddit.com/r/MachineLearning/comments/bn82ze/n_icml_2019_accepted_paper_stats/

今年,共提交了3424篇論文,接收了774篇,接收率為22.6%。2018年,ICML的論文提交量為2473篇,接收621篇,接收率為25%。

和去年相比,今年論文提交論文數量增長不少,但錄取率降低。

那麼,在這麼多投稿機構中,誰是其中貢獻度最高的那一個?

博世統計了接收論文的機構,排名標準是衡量一個機構貢獻的論文總量,最終統計結果如下:

上圖紅色表示每個機構包含的第一作者,綠色為最後包含的排名最後的作者

結果顯示,科技巨頭Google貢獻最多,MIT第二,加州大學伯克利分校奪得季軍。

其中,清華大學、北京大學、南京大學、香港中文大學、上海交通大學、阿里巴巴等多個中國高校和公司榜上有名。

在這些接收論文中,來自學術界的論文數量遠多於工業界,論文來源構成如下:

452篇論文(58.4%)為純學術研究60篇論文(7.8%)來自純產業界研究機構262篇論文(33.9%)的作者同時隸屬於學術界和工業界總體來看,學術界貢獻了77%的論文,產業界貢獻了23%。

在這麼多投稿的作者中,哪些作者的貢獻度最高?博世同樣對此進行了統計。

結果顯示,加州大學伯克利分校的機器學習大牛Michael Jordan參與論文數量最多,EPFL(洛桑聯邦理工學院)教授Volkan Cevher位列第二,加州大學伯克利分校的Sergey Levine排名第三。

也有不少中國學者戰績頗佳,清華大學計算機科學與技術系的教授朱軍、微軟亞洲研究院的劉鐵巖、清華大學軟體學院的龍明盛等都在ICML 2019發表了4篇論文。

傳送門

最後,附上今年的ICML 2019大會官網:

https://icml.cc/

相關焦點

  • ICML 2019最佳論文出爐 ETH、谷歌、劍橋分獲大獎
    新智元原創來源:Twitter、Reddit等編輯:金磊、小芹【新智元導讀】今日,國際機器學習頂會ICML公布2019年最佳論文獎:來自蘇黎世聯邦理工大學、谷歌大腦等的團隊和英國劍橋大學團隊獲此殊榮。另外,大會還公布了7篇獲最佳論文提名的論文。
  • ICML 2019最佳論文:谷歌質疑現有無監督分離式表徵學習
    ICML 2019接收論文貢獻數排名前50的機構(學界機構和業界機構)最佳論文一:谷歌幾乎全面否定了現有的同行成果第一篇最佳論文的作者來自蘇黎世聯邦理工學院(ETH Zurich)、MaxPlanck 智能系統研究所及谷歌大腦。
  • ICML 2019最佳論文:測試12000個模型後,谷歌質疑現有無監督分離式表徵學習
    第一篇最佳論文的作者來自蘇黎世聯邦理工學院(ETH Zurich)、MaxPlanck 智能系統研究所及谷歌大腦。這篇最佳論文是來自英國劍橋大學和機器學習平臺Prowler.io的研究。而今年的則貌似更「過分」,來自谷歌的最佳論文則質疑了幾乎所有同行在無監督分離式表徵學習研究方向的努力。論文提出,在數據集和模型沒有歸納偏置 (Inductive Biases) 的情況下,試圖通過無監督的方法學習到可靠分離式表徵,從而來讓機器學習系統去應對沒有遇到過的場景,這是無法實現的。
  • ICML 2019收錄774篇論文:谷歌153篇,清華北大26篇
    論文數量排名前五的公司分別是谷歌、谷歌大腦、微軟、DeepMind、Facebook,論文數量分別為:82、42、35、29、23。谷歌及其子公司佔據了前五名中的三席,總共有153篇論文被收錄。中國被收錄論文最多的公司是騰訊,數量為10篇。另外,阿里被收錄5篇、百度1篇。
  • 擁有解耦表徵無監督學習是不可能的!硬核ICML 2019最佳論文出爐
    本屆大會共收到3424篇論文投稿,其中774篇被接收(接收率為22.6%)。今日,大會放出了最佳論文。值得關注的是,ETH Zurich、谷歌大腦等機構的論文《挑戰無監督學習中解耦表徵的一般假設》提出了一個與此前學界普遍預測相反的看法:對於任意數據,擁有相互獨立表徵(解耦表徵)的無監督學習是不可能的!在大會上,獲獎論文的部分作者也現場進行了演講。
  • ICML 2019 最佳論文公布:繼霸榜後,谷歌再添重磅獎項!
    據 ICML 2019 前不久公布的論文結果,今年大會共收到 3424 篇有效投稿論文,最終收錄的論文數量為 774 篇,接收率為 22.6%。而今天,萬眾矚目的 ICML 2019 最佳論文結果最新出爐,將會議推向了高潮。
  • ICML進行時|一文看盡獲獎論文及Google、Facebook、微軟、騰訊的最新科研成果
    今天,第35屆 ICML 大會在瑞典的斯德哥爾摩正式召開,與大家一同分享這一領域在這一年裡的突破。ICML 2018 共有 2473 篇論文投稿,共有 621 篇論文殺出重圍入選獲獎名單,接受率接近25%。其中 Google 強勢領跑,Deep Mind 、FaceBook和微軟也是精彩紛呈;而在高校中 UC Berkeley 和 Stanford 、CMU 以近 30 篇榮登 Top 榜。
  • ICML 2019論文接收結果可視化:清華、北大、南大榜上有名
    儘管谷歌、微軟、IBM等業界巨頭貢獻了很大一部分論文,但ICML 2019仍然是一場學術會議。統計後可以發現: 純學術研究論文有452篇(58.4%); 僅有60篇論文純粹是由業界研究機構完成的; 既包含業界也包含學界作者的論文有262篇(33.9%)。
  • ICML 2017首日公布兩大獎項:史丹福大學獲最佳論文獎
    據統計,ICML 2017 共評審了 1676 篇論文,接收了 434 篇,錄取率為 25.89%。在機器之心之前報導的論文中,也有眾多為 ICML 2017 所接收,比如百度有關 Deep Voice、Gram-CTC 的論文。據機器之心了解,騰訊 AI Lab 也有四篇論文入選 ICML 2017。
  • 一文速覽ICML2020高引論文與華人作者
    :據官方統計,ICML 2020 共提交 4990 篇論文,投稿數量再創新高,而最終接收論文 1088 篇,接收率 21.8%。接下來讓我們看看截至目前引用量較高的本次 ICML 會議論文以及中國機構和華人的表現吧。ICML AMiner:https://www.aminer.cn/conf/icml2020ICMl2020高引用量的論文Aminer 開發的 ICML 2020 頂會系統給出了本屆會議引用量排名靠前的論文。
  • 不僅是白金贊助商,谷歌更是ICML 2017 的重量級參與者(附59篇收錄...
    在之前的文章中,雷鋒網 AI 科技評論就介紹過434篇 ICML 收錄論文中有多達44篇都出現了谷歌的名字,谷歌的在機器學習領域的投入與成果之多可見一斑。今天谷歌也正式給出了自己的收錄論文名單,署名的谷歌的就有42篇,其中有4篇是在幾個 workshop 中。根據我們前兩天的報導,署名DeepMind的收錄論文也有25篇之多。
  • ICML 2019必看!87頁超強幹貨博士筆記總結
    本屆大會共收到3424篇有效投稿論文,最終收錄774篇,接收率為 22.6%,低於去年接收率25%(ICML 2018共收到2473篇有效投稿論文,最終收錄論文621篇)。提交論文最多的子領域分別是:深度學習、通用機器學習、強化學習、優化等論文數量排名前五的公司分別是谷歌、谷歌大腦、微軟、DeepMind、Facebook,論文數量分別為:82、42、35、29、23。最終谷歌獨攬153篇,成為ICML論文收錄第一。
  • 幾個主要機構在ICML 2019投遞的論文中重點關注的方向
    緊隨其後的就是以史丹福大學、MIT、CMU、UC伯克利為首的一流高校,他們都保持著論文高產的穩定趨勢。另外,歐洲的一些研究機構也榜上有名,比如 ETH、EPFL、INRIA 等學術機構。 通過上圖的統計還可以發現, ICML 會議論文的主要貢獻者還是學術研究機構,谷歌僅憑一己之力難以跟高校隊對抗,這和對整體情況的分析保持一致。
  • 清華大四本科生2篇一作論文入選ICML 2020,後浪果然翻湧
    入選論文創新高,共有1088篇論文突出重圍。然而,接收率卻是一年比一年低,這次僅為21.8%(去年為22.6%,前年為24.9%)。從整個榜單上看,谷歌仍為最強實力機構,共有138篇收錄(數據包含谷歌大腦、DeepMind)。
  • ICML 2020 放榜:北理工碩士一作拿下傑出論文獎,清華大學佔據國內...
    組委會表示:「在過去的十年中,這篇論文對機器學習社區產生了深遠的影響,包括方法本身、使用的證明技術和實驗結果都經受住了考驗。 兩篇傑出論文獎,一篇時間檢驗獎都講了啥? 論文標題:Gaussian Process Optimization in the Bandit Setting:No Regret and Experimental Design 論文連結:https://icml.cc/Conferences/2010/papers/422.pdf 這篇文章十年前發表在
  • 機器學習頂會ICML 2018:復旦大學副教授獲最佳論文亞軍 騰訊清華...
    ICML官網上提前公布了最佳論文名單,來自MIT和UC Berkeley的研究人員摘得最佳論文的桂冠。復旦大學大數據學院副教授黃增峰獨立署名的論文《Near Optimal Frequent Directions for Sketching Dense and Sparse Matrices》和來自DeepMind、史丹福大學的兩篇論文共同位居最佳論文亞軍行列。
  • 西安電子科技大學團隊論文被機器學習頂會ICML2020錄用
    未來網高校頻道6月30日訊(記者 楊子健 通訊員 馮毓璇)第37屆國際機器學習大會(International Conference on Machine Learning,https://icml.cc/)將於07月13日—07月18日,通過線上舉行。
  • 美國霸榜ICML,佔據3/4被接收論文,中國論文數不到美國兩成
    在國際機器學習大會上發表文章是非常困難的,因此更引人注目的是這幾位作者在會議上發表了多篇文章。Masashi Sugiyama來自理化學研究所和東京大學,他有高達11篇文章被會議接收。排在他後面的有來自DeepMind的Michal Valko和加州大學伯克利分校的Michael Jordan以及谷歌/阿爾伯塔大學的Dale Schuurmans。
  • ICLR 入選 oral paper 的 15 篇論文、53 位作者中,只有這三張華人...
    在這個深度學習會議舉辦之前,雷鋒網也將圍繞會議議程及論文介紹展開一系列的覆蓋和專題報導,敬請期待。本次 ICLR 2017 共有 490 篇投遞論文,其中 15 篇當選 oral paper。雷鋒網AI科技評論研究了一番作者名單後,發現 53 位作者中只有三位華人,而他們的履歷同樣不俗。Chiyuan Zhang(張馳原)
  • 為數百篇研究論文付費 谷歌深陷「學術獻金」醜聞
    核心閱讀《華爾街日報》日前報導稱,谷歌通過資助哈佛大學、加州大學伯克利分校等高校教授的研究項目來影響輿論以及公共政策制定,為其所面臨的市場監管辯護。過去10年來,谷歌出資5000美元至40萬美元不等的「好處費」,資助了數百篇研究論文。這一「學術獻金」醜聞,使得谷歌再次成為輿論關注的焦點。