Goodfellow:同行評議才是現今AI會議論文水平下降的元兇!

2020-12-12 電子發燒友

Goodfellow:同行評議才是現今AI會議論文水平下降的元兇!

李倩 發表於 2018-07-31 09:58:14

Ian Goodfellow 今天發推表示,他懷疑正是同行評議機制導致了如今AI會議論文下降,評審人質量參差不齊是主要原因,浮誇的論文被選中,真正的好論文反而被埋沒。作為科學界一貫以來的雙盲同行評議機制,正在遭遇一場前所未有的災難。

如果你讓一位科學家只選一個科學界引以為傲的標準,估計不少人都會說「同行評議」。

同行評議是大多數國際期刊和會議對投稿論文進行篩選的其中一個過程。很多時候,期刊編輯或學術會議會邀請某一特定研究領域的專家,對文章進行評價,幫助決定投稿論文是否值得發表。

更廣泛地說,同行評議是專家學者對本專業領域的學術成果的評價,包括著述的發表出版、評論、評獎、評職稱、論文引用、論文鑑定等等。

同行評議是科學界能夠「自我糾正」「自我完善」的光榮傳統:以同行評議為核心的科學評價體系旨在清除不同形式的欺騙、實驗誤差或研究者的失誤,防止和發現自欺行為和偏見。

但是,今天谷歌研究員、GAN的發明人 Ian Goodfellow 卻發布一條推文:他懷疑,實際上正是同行評議造成了如今機器學習裡的一些怪現象!

尤其是機器學習和AI會議論文的一些同行評議結果,不但沒有保持科學界的優良傳統,反而導致一些華而不實的論文被發表,而真知灼見則往往因為評審人自身水平低、沒看懂而拒稿遭到埋沒。

現在的頂會評審,真是出了大問題。

Goodfellow:同行評議才是現今AI會議論文水平下降的元兇!

Goodfellow在推文中表示,作為頻繁出任會議領域主席並且管理一支小型科研團隊的研究者,他經常能看到很多人(包括他自己團隊在內)工作的評審意見。

對於實證研究來說,最多的(拒稿)意見是沒有「理論」,但評審人並沒有針對某個特定問題去要理論,而是將其當做一種輕鬆的拒稿理由——Goodfellow 這樣形容,「他們掃了一遍論文,沒看到炫酷的公式」,好,拒掉吧,原因?寫「缺乏理論」就好。

而投稿人為了應對這樣的評審,最簡單的方法之一,就是在論文中加入許多無用的數學推理和公式。評審人一般不會認為這些公式沒用,相反,這樣做還通過他們心目中「我掃了一遍,看到了炫酷的公式或者不明覺厲的理論名稱」這個測試標準。

類似地,Goodfellow 指出,對於那些提出一種新方法取得更好性能的論文,評審人往往讀過一篇,然後拒稿,理由是論文沒有闡釋為什麼這種方法表現更好。而當論文有解釋的內容時,無論說得多不靠譜,甚至根本不被證據支持,心軟一些的評審人也會讓其通過。

此外,評審人看見通過實證觀察去理解一個系統工作原理的論文時,往往反饋「沒有新算法」。這時候怎麼辦?扔一個新方法進去就行了唄,管它相不相關呢。

評審人一般不怎麼喜歡純科學論文(science papers),那理論研究怎麼投稿?好辦,象徵性地加點新的工程方法進去就行啦。

Goodfellow 指出,也有個別科學論文全憑實力得到高分,但通常也是被拒稿多次以後才有幸遇到了真正能看懂的評審人。

總之,Goodfellow 說:「機器學習如今的怪現象裡,有一些可能不是同行評議造成的,但評審人要求增加數學(公式)、增加虛假的解釋和虛假的原創性,我已經司空見慣了。」

Goodfellow 指出,同行評議作為一種機制是經過時間檢驗的科學評價標準,但具體實施仍然要謹慎。

NIPS 2018初審結果出爐,哀聲遍野:評審人不專業!

Goodfellow 提到的「機器學習怪現象」,實際上就是 ICML 2018 的一場辯論。CMU 助理教授 Zachary C.Lipton 攜手斯坦福研究員 Jacob Steinhardt,撰寫了一篇《機器學習令人擔憂的趨勢》(Troubling Trends in Machine Learning Scholarship),引發了熱烈的討論。

Lipton 和 Steinhardt 在文中指出,如今的機器學習論文存在幾大問題:

無法區分客觀闡述和推測;

無法確定取得更好結果的原因,例如,當實際上是因為對超參數微調而獲得好效果的時候,卻強調不必要的修改神經網絡結構;

數學公式堆積:使用令人混淆的數學術語而不加以澄清,例如混淆技術與非技術概念;

語言誤用,例如使用帶有口語的藝術術語,或者過多使用既定的技術術語。

如此看來,也難怪 Goodfellow 會懷疑,正是現今的同行評議,造成了AI和機器學習會議論文水平下降!

看到 Goodfellow 的推文後,Lipton 也表示贊同。他回復推文說,確實,如今同行評議水平下降,以及由此導致投稿人心態扭曲,也是造成機器學習怪現象的原因之一。

實際上,前幾天正好 NIPS 2018 的初審結果公布,社交網絡上哀鴻遍野。對評審結果的抱怨,很大程度上就是 Goodfellow 指出的那些:沒有數學公式、缺乏結果解釋……

其中,最嚴重的問題,或許是評審人本身不專業,根本沒有看懂論文!

中科院計算所的一位博士生導師告訴新智元,他們組這次提交的一篇 NIPS 2018 論文,反饋意見還不算太差,6、6、8(6=marginal accept,8=accept)。

其中,認為該接受的那位評審,確實是看懂了論文,提出了很多有針對性的具體問題和意見。而其他兩位認為拒也可收也可的評審,只給出了非常簡略的反饋,諷刺的是,其中一位的理由恰好就是「沒有解釋結果原因」。

這位博士生導師說:「很明顯,那兩名評審要麼就是沒有細看論文,要麼就是對領域不熟。」

「我告訴學生,好好rebuttal,還是有希望的。」

論文數量激增,ICML、NIPS等頂會評審陷入困境

NIPS 2017,微軟亞洲研究院劉鐵巖組中了 4 篇論文。新智元在採訪現任微軟亞洲研究院副院長的劉鐵巖博士時,後者也曾提到,近年來機器學習和 AI 會議論文數量激增,是好事,也是壞事。

與 Goodfellow 一樣,同樣是機器學習頂會領域主席常客的劉鐵巖博士說,由於很難在短時間內找到足夠多的嚴謹合格的評審人,權威評審人/領域主席的時間和精力有限,也只能看那麼多篇論文,剩下的就只能找稍微次一些的評審,這些評審人很可能因為自己的水平有限,無法覺察優秀論文的創新和意義而直接拒稿。

另一方面,這些評審往往會被一些包裝得很華麗、結果很漂亮,但對領域發展並沒有那麼大作用的論文所吸引,因此現在 NIPS 整體論文水平參差不齊。

但是,論文整體質量下降也並非單純由於近年來論文數量激增、評審人質量下降造成。

NIPS 2014 做了一個實驗,將當年投稿的10%(共166篇論文)同時交給兩個不同的評審委員會評審,每個委員會由大會組委會的一半成員構成。評審結果令人吃驚:兩個評審委員會對其中 42 篇論文(約25%)的評審意見相左。由於兩個委員會都把論文錄用率控制在 22.5% 左右,委員會一錄用的 21 篇論文會被組委會二拒稿,而組委會二錄用的 22 篇論文被組委會一拒稿!

也就是說,被其中一個評審委員會錄用的論文,其中大約 57%會被另一個評審委員會拒稿。這樣,從理論上講,如果重新審稿,NIPS2014年錄用的一半以上的文章將被拒稿!

上述實驗表明,當錄用率很低時,質量居中的論文錄用的隨機性將大大提高。比如在上述例子中,約7.5%肯定被錄用,50%以上的文章肯定被拒稿,其餘中間 47% 左右的論文是否被錄用則有很強的隨機性。

相對而言,NIPS 2014 的投稿遠沒有 NIPS 2018 多,因此上述評審人問題至少不會那麼嚴重。

論文錄取這件事,本身就有很強的隨機性。

成也Arxiv,敗也Arxiv:AI會議論文未來該如何評審?

目前,期刊和會議會採取不同的同行評議方式,有單盲、雙盲、公開同行評議和發表後再進行同行評議等方式。不論採取哪種模式,同行評議的主要目的都是為了驗證研究結果,保證所發表的工作具有全球性的影響。

ACL 已經採用了雙盲評審機制,而且規定研究人員不能在一定期限內將論文上傳到 arXiv,很大一個原因便是以 arXiv 為代表的預印版論文庫幹擾了同行評議,尤其是雙盲評議。

CVPR 2019 程序主席、微軟研究院首席研究員華剛博士此前在接受新智元專訪時表示,ArXiv 雖然是一個非同行評議論文庫,但其活躍度讓如今大多數研究人員都把它作為一個定期跟蹤的信息源。

但是,身為多個學術會議的主席以及多本學術期刊的編委,華剛博士在肯定 arXiv 加速學術交流的同時,一針見血地指出,「arXiv讓學術會議的雙盲評審形同虛設」,arXiv上的論文質量也是「魚龍混雜」。

但如今,NIPS的雙盲評審也暴露出種種問題。有人呼籲,強烈建議將「學生評審」加入到審稿人中來——與其邀請不合格的博士生甚至本科生,還不如明確地加入「學生評審」,讓學生評審人先閱讀論文,然後教授等高級評審人評論作為輔助信息,提供給最終評審,這在很大程度上可以擺脫目前審稿人質量參差不齊的災難。

僅僅舉辦 5 年便被譽為「深度學習頂會」的ICLR,率先採用 Open Review 論文評審機制,評審和 rebuttal 全部公開,或許也是一種解決之道。

你認為呢?

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • SCI論文評審,如何做好同行評議
    接受國際期刊的審稿任務,是同行的認定和信任當然是很光榮的任務,而實際上內心十分忐忑。首先,要尊重作者的汗水與努力,多數學者的學術生涯都經歷過數不勝數的拒稿、大修、小修,內心悽涼只有同行理解;而,另外一方面要確保公開發表學術論文的價值,這也是每個學者責無旁貸的使命。
  • 論文同行評議中或普遍存在性別偏見
    ——論文同行評議中或普遍存在性別偏見&nbsp&nbsp&nbsp&nbsp本報記者 劉 霞 綜合外電&nbsp&nbsp&nbsp&nbsp在很多科學領域,女性發表論文的數量明顯少於男性,被列為第一作者的可能性更小,也不太可能從導師那兒收到措辭亮眼的推薦信。
  • 學術發表中同行評議的倫理基礎
    國際學界普遍認為,同行評議既可以提高期刊的辦刊水平,「還可以反過來對研究者提供幫助,如可以為研究者提供反饋讓其修正完善已有的研究工作,激勵研究人員生產出最好的論文」。但與國際期刊高度重視同行評議的採稿流程不同,國內期刊(指國內中文人文社會科學學術期刊)實行同行評議的並不十分普遍,這可能跟國內學術期刊主要以約稿為主有關。
  • 解密 NIPS2016 論文評議內幕(附 DeepMind 8 篇論文下載)
    來源:NIPS官網譯者:聞菲、胡祥傑【新智元導讀】備受推崇的頂級會議NIPS預計12月舉行,但從4月起議論就沒有停,尤其是圍繞論文。Twitter 上相關信息有很多,這裡選幾個有代表性的,比如分數不低但仍被拒絕的(#NIPS2016 is crazy, 6 reviews, avg: quality 3.5, novelty 3, impact 3.33, clarity 4 ---> rejected),還有「結果出來了,準備好開罵了嗎」(#nips2016 reviews are out!
  • Ian Goodfellow 談 GANs 論文評審:有這些跡象的論文要懷疑
    作為一直以來投入了大量精力在 GANs 上的研究者,以及作為參與了許多論文評審的審稿人, Ian Goodfellow 自然為 GANs 的進步感到開心,但他現在也同樣對領域內的現狀有諸多憂慮。雷鋒網 AI 科技評論把相關內容整理如下。「越是好論文,越是資深審稿人在看」我想談談學術會議的論文評審的事。
  • Ian Goodfellow線上直播實錄:關於GANs的那些不為人知的事兒
    /MIT Technology Review: https://www.technologyreview.com/lists/innovators-under-35/2017/inventor/ian-goodfellow/ https://www.technologyreview.com/s/610253
  • 公開同行評議,你支持嗎?
    於是,有人認為同行評議內容可以公開,以發揮更大的作用;也有人認為審稿人應當尊重同行評議的保密性。編譯作者:沈浠琳 / 浙江大學原文作者:Schiermeier, Q.論文推薦人:沈浠琳 / 浙江大學圖文編輯:李江 / 浙江大學註:圖片來源於Publons官網主頁同行評議很重要,但科學家並不會為此獲得回報一直以來,同行評議是科學家們最重要的工作之一。科學家需要付出很多,但獲得的回報卻很少。
  • MIT在讀博士生質疑ICLR 2018防禦論文很水?Ian Goodfellow跟帖回應
    他稱這樣的「欺騙性圖像」很容易使用梯度下降法生成。其餘的七篇論文無論是有意還是無意都在依賴於「混淆梯度」。一般的攻擊利用梯度下降法使給定圖像網絡損失最大化,從而在神經網路上產生對抗樣本,這種優化方法需要有用的梯度信號才能成功。基於混淆梯度的防禦會破壞這種梯度信號,並導致優化方法失效。Anish Athalye 等人定義了三種基於混淆梯度的防禦方式,並構建了繞過每一種攻擊的方法。
  • 人工智慧(AI)同行評審的時代來了
    Giuliano Maciocci 在英國劍橋《eLife》雜誌上帶領一個新團隊,她認為 UNSILO 是一個有趣的解決方案,能夠解決同行評議中一些令人頭疼的問題,但是 eLife 不會考慮採用它。「在我們這樣一個非常重視專家管理的期刊上,這個工具可能用途不大。」Wizdom.ai 的董事 Worlock 注意到,市面上出現了很多類似的工具。
  • 用好同行評議 營造學術清風
    而不管是評職稱、發論文,還是選拔人才、評估學科,如今眾多評價都繞不開四個字——「同行評議」。有媒體最近調研發現,有人憂慮在現有學術生態下,同行評議會演變為學術權威的一言堂,還有人擔心「清理了『唯論文』,迎來了『唯關係』」。 在「破五唯」和「立新標」的過程中,學術同行評議被學術界寄予了「學術守門人」的厚望,然而現實層面上,這一機制的建設卻任重道遠。
  • 專訪Ian Goodfellow:不積跬步無以成就GAN
    在他們的對話中,深度學習研究員、GAN之父Goodfellow回顧了自己當年的科研經歷,簡要介紹了自己對於科研、行業和未來發展的一些看法。Sanyam Bhutani:您好,GAN之父,感謝您願意接受我的採訪。Ian Goodfellow:非常歡迎!
  • 同行評議欺詐:自己給自己「審稿」的作者
    疑問的對象並不是論文本身,而是對該論文進行的同行評議。這些評議內容本身並沒有什麼特別之處:其中對文亨仁的研究論文作出了總體積極的評價,並提出了一些可以改進之處。它不尋常的地方在於反饋時間特別迅速:評議人從收到論文到完成評議的時間往往連24個小時都不到,這樣的速度實在是太快了。因此,期刊主編克勞迪烏•蘇普蘭(Claudiu Supuran)開始產生了懷疑。
  • 斯坦福發布2019全球AI報告:中國論文數量超美國,但論文影響力比美國低50%
    地址:http://arxiv.aiindex.org/search總體來說,研究發現: 1、AI技術研發成果從1998年到2018年,經同行評議的AI論文數量增加了300%,佔全部期刊論文總數的3%,學術會議發表論文總數的9%。
  • Goodfellow說,聊失敗才不是秀優越……
    Ian Goodfellow是來自谷歌大腦的科學家。作為GAN的爸爸,他也是MIT科技評論選中的「35 under 35」中的一員。不過,背著金光閃閃履歷的他,就是愛講自己的被拒史。大概,也是想給失落的人類一些虛無的希望吧。
  • 學者:「中國學者不愛參加國際同行評議,等於放棄話語權」
    【觀察者網綜合報導】同行評議(peer reviews)是國際學術領域一個不可或缺的環節。參與者不僅可以提高自身科研水平,建立自己在全球的科研學術網絡,還可儘快了解國際同行的最新動向,意義重大。 但中國學者似乎不怎麼喜歡參與。
  • 本科畢業生成為NIPS 2018論文同行評審
    在 NIPS 2018 大會論文接收即將結束之時,一名本科剛剛畢業的學生成為大會論文同行評審的消息引起了人們的熱烈討論。以色列 Bar Ilan 大學的計算機科學高級講師 Yoav Goldberg(他曾在去年 6 月撰文批評過 arXiv 的不良風氣,並與 LeCun 論戰)對此評論道:「請搞清楚,這是『同行評議』,而不是找『評論過五個 TensorFlow 教程的人』。」
  • 英國「科研卓越框架」同行評議制度的改革及啟示
    「同行評議」進行了嚴格的定義:「由從事該領域或接近該領域的專家來評定一項研究工作的學術水平或重要性的一種方法。」英國是同行評議制度的發源地, 1665年英國皇家學會創立了《哲學會刊》,採用由會員對論文手稿進行審查的機制,開創了全世界同行評議的先河。同行評議制度從此成為英國科研評價的模板。
  • IanGoodfellow撰文總結:谷歌的ICLR2017碩果纍纍
    雷鋒網消息,谷歌大腦團隊的IanGoodfellow今日在研究院官網上撰文,總結了谷歌在ICLR2017上所做的學術貢獻。雷鋒網編譯全文如下,未經許可不得轉載。本周,第五屆國際學習表徵會議(ICLR2017)在法國土倫召開,這是一個關注機器學習領域如何從數據中習得具有意義及有用表徵的會議。
  • 會議論文和期刊論文的區別
    一、會議論文,要看會議主辦單位,有一些學術會議,在會前出論文集,會後不再出版論文集;有一些學術會議,在會後正式出版論文集,具有出版社和ISBN號。會議論文不是期刊,肯定沒有期刊號。二、針對某個學術會議投稿一定是會議論文,並且由學術會議的會務組決定是否錄用,期刊論文肯定是針對某學術期刊投稿,而且是期刊編輯部決定是否錄用,而不是審稿專家,審稿專家只是審稿並返回意見,真正決定錄用權在期刊編輯上。
  • 讓論文投稿出版的過程不再神秘丨Cell Stem Cell編輯詳述同行評議背後的故事
    原文丨Jonathan P.