別再SOTA了,Science發文炮轟論文灌水

2021-01-08 澎湃新聞

金磊 發自 凹非寺

量子位 報導 | 公眾號 QbitAI

AI算法的發展,真有那麼迅猛嗎?

為了一探究竟,來自MIT的研究人員,便對81種AI算法做了橫測,結果令人大跌眼鏡:

沒有明確證據表明,這些算法在10年內,對任務效果有明顯改善。

針對類似的問題,Science最近也發文表示:

人工智慧在某些領域的進步引人注目,但這並不是真正的進步。

那麼,這到底是怎麼一回事?

「是微調,不是核心創新」

MIT研究人員橫測的對象,是81種剪枝算法。

這類算法簡單來說,就是對神經網絡的連接做「修修剪剪」,以此來提高效率。

然而,這種算法的發展現狀,正如Science發文作者Matthew Hutson所說:

很多科研工作者就在此之上,做了些許「微調」,然後就宣稱自己的算法具有優勢。

因此,MIT的研究人員便對這些算法做了元分析,還提出了一種框架——ShrinkBench,用來促進剪枝算法的標準化評估。

真正的好算法,需要經得起考驗,那麼結果又如何呢?

第一輪考驗:剪枝 vs 架構

研究人員基於ImageNet,繪製了剪枝後模型的準確率和壓縮/加速水平,以及沒有做過剪枝、不同架構的相同指標,結果如下圖所示。

不難看出,一個給定架構經過剪枝後,可以改善其時間/空間與精度之間的權衡,有時候還可以提高精度。

但剪枝的效果,通常不如換個架構效果來得好。

第二輪考驗:「同行」算法比較

這一維度的考慮,是因為研究人員發現,許多工作都高舉「SOTA」旗幟,然而比較的對象卻不全。

很明顯的現象就是,缺少與2010年之前提出的算法的比較,甚至都沒有跟其它號稱SOTA的算法做對比,如下圖所示。

第三輪考驗:數據集和架構的組合

在81篇論文中,ImageNet和VGG-16的組合最為常見,並且,在前六種最常見的組合中,有三種涉及MNIST。

但MNIST與其它主流圖像分類數據集有很大的區別:它的圖像是灰度的,大部分是由0組成,用簡單的模型進行分類,準確率就可以達到99%以上。

第四輪考驗:度量指標

還有五花八門的度量指標,啥也不說了,直接上圖。

當然,還有諸如數據預處理、調參策略等一系列問題,都會導致結果的不同。

研究一作Davis Blalock表示:

這些改進都是所謂的「微調」,而不是科研人員聲稱的「核心創新」,甚至有些改進方法可能根本就不存在。

於是乎,MIT的研究人員便開發了一套方便開發、標準化評價神經網絡的剪枝方法。

ShrinkBench提供了標準化和可擴展的功能,可以用於訓練、剪枝、微調、計算度量和繪圖,而且都是使用標準化的預訓練模型和數據集。

正如另一位作者John Guttag所說:

如果你不能衡量某種東西,就很難讓它往好的方向發展。

好了,現在要是再想在剪枝算法上,稍微搞個小進展就水一篇論文,可能不再那麼容易了。

Science發文炮轟水論文

最近,Science也針對「水論文」一事發表文章,認為人工智慧領域中的許多分支,其發展都是不穩定的:

2019年,對搜尋引擎中使用的信息檢索算法進行的一項元分析,得出了一個「高水位線」(high-water mark),然而,它早在2009年就有了;

同樣是2019年,另外一項研究復現了7個神經網絡推薦系統,結果,其中6個系統的表現,還沒有多年前開發的更簡單的非神經網絡算法好;

今年2月,卡內基梅隆大學的計算機科學家Zico Kolter在arXiv發表論文,他發現早期的對抗訓練方法PGD,只需要用簡單的小技巧增強一下,就能達到目前所謂更新、更複雜方法的效果;

今年3月,康奈爾大學的計算機科學家Kevin Musgrave,在arXiv上發表了一篇論文研究了損失函數,在一項涉及圖像檢索的任務中,他對其中十幾個算法進行了平等的比較,結果發現,與這些科研工作者的說辭恰巧相反,自2006年以來,準確率就沒有提高過。

正如Musgrave表示:

炒作浪潮一直存在。

反觀那些經久不衰的算法,像LSTM,自1997年被提出後,在語言翻譯任務中取得了重大突破。

如果LSTM得到適當的訓練,它的性能就能和20年後(現在)的算法相當。

類似的還有像2014年提出的GAN,大幅提高了生成圖像的能力。在2018年的一篇報告稱,只要有足夠的計算量,原有的GAN方法可以與後來的方法相媲美。

對此,Kolter認為,研究人員應當熱衷於開創全新的算法,讓這個新算法達到SOTA效果,而不是對現有算法做調整。

那麼,如今這種論文灌水背後的原因,又是什麼呢?

其中一個因素,便是MIT研究人員所指出的評估標準問題——數據集不同、調整方法不同、性能指標和基線都不同,這種比較是不可行的。

而另外一個原因,便是AI領域的爆炸性增長,論文數量遠超有經驗的審稿人數,評審人員應當堅持跟一個合理、科學的基準,做更好的比較。

比論文灌水更可怕的,是造假

以為學術亂象只有這些?

不,還有一股「造假風」。

5月20日,國外網友便曝出了一個學術造假大事件:

8篇文章,不同作者,不同醫院,不同癌症種類,不同蛋白表達,愣是完全一樣的結果,發了8篇論文。

UAB醫學院糖尿病中心博士後研究員、營養學博士,微博網友「晨光us」對此表示:

如此喪心病狂的造假,簡直讓人看得窒息。

然而,更令人悲哀的是,論文作者全部來自中國……

而且從文章署名來看,從一線醫生到主任副主任醫師、醫院副院長,還有多篇是國家自然科學基金資助。

如此造假,簡直不簡單。

網友也表示:

突破了我對學術造假的所有認知。

無獨有偶,前不久在知乎中還曝出南京郵電大學教授,三年半發表300篇IEEE論文,一時成為熱議話題。

其弟子「黃同學」論文造假、冒充北大學生,也一併上了熱搜。

……

如此學術亂象,你怎麼看?

傳送門:

ShrinkBench項目地址:

https://github.com/jjgo/shrinkbench

ShrinkBench論文地址:

https://arxiv.org/abs/2003.03033

參考連結:

https://www.sciencemag.org/news/2020/05/eye-catching-advances-some-ai-fields-are-not-real

https://weibo.com/roger1130?referflag=0000015010&from=feed&loc=nickname&is_hot=1#_rnd1591086111501

https://twitter.com/MicrobiomDigest/status/1266140721716719616

https://www.zhihu.com/question/397548354/answer/1248933002

— 完 —

特惠福利 | 一站式音視頻解決方案

想趕上直播電商、在線教育、小程序直播的風口?騰訊雲音視頻解決方案為您助力!

騰訊雲推出9.9元產品體驗包,包括雲點播、雲直播、實時音視頻,總有一款適合你。識別二維碼即可體驗:

量子位 QbitAI · 頭條號籤約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態

原標題:《別再SOTA了,那叫「微調」!Science發文炮轟論文灌水》

閱讀原文

相關焦點

  • 鳥屎+石墨烯=SCI論文,華人學者用實驗數據硬核諷刺論文灌水
    一篇權威期刊論文。這不是在開玩笑,而是已經發生的事實。1月14日,一篇新鮮出爐的鳥屎論文登上了納米材料權威期刊ACS NANO。crap一詞可謂是生動傳神,一語雙關,此處可以品味一秒鐘:為什麼要發這樣一篇論文?
  • 如何評價 AI 領域灌水之風?馬斯克:90% 學術論文都毫無用處
    實際上,圍繞學術論文「實用性」的爭議由來已久,就像在地球上有眾多人吃不飽飯的情況下,為何要從事探索外太空的研究。人工智慧領域,中國的影響力在一定程度也是體現在各個學術頂會上華人學者發表的論文數量。那麼,AI 學術論文價值幾何?新智元專家在微信群裡發表了各自的意見。正好知乎也有問題「AI領域的灌水之風如何破局」,新智元在取得授權後,附上清華大學教授劉知遠、南京大學副教授俞揚等人的回答。
  • 2020年7月內地高校再添17篇Nature & Science發文!
    本月15所內地高校作為通訊作者單位在Nature & Science發文2020年7月,Nature和Science(後文簡寫為N&S)兩期刊總計刊出原創論文(類型為Article的論文)
  • 西湖學者萬蕊雪和西湖大學博士後白蕊等Science發文,報導剪接體...
    論文連結:https://science.sciencemag.org/content/early/2020/11/24/science.abe8863圖1 論文截圖這篇題為《ATP水解酶/解旋酶Prp2及其激活因子Spp2催化剪接體激活過程中結構重塑的分子機理
  • 微軟發文炮轟Google壟斷 號召受害企業申訴
    首頁 > 動態 > 關鍵詞 > 微軟最新資訊 > 正文 微軟發文炮轟Google壟斷 號召受害企業申訴
  • 「黴黴」泰勒·斯威夫特再發文炮轟川普:為保住權力,你「公然...
    (原標題:泰勒·斯威夫特再發文炮轟川普:為保住權力你「公然作弊」,並將數百萬美國人生命置於危險之中) 【免責聲明】上遊新聞客戶端未標有「來源:上遊新聞-重慶晨報」或「上遊新聞LOGO、水印的文字、圖片、音頻視頻等稿件均為轉載稿。如轉載稿涉及版權等問題,請與上遊新聞聯繫。
  • 別了,SCI論文數量英雄的時代,唯SCI的罪魁禍首是環化生材
    因為這些專業,最容易發論文,最容易發SCI,也最容易發NSC(nature,science,cell)三大頂級期刊。這些專業發論文,那sci刷的叫一個多,影響因子叫一個高啊。因此把整個大學的科研風氣全帶壞了。
  • 2020上半年內地高校Nature & Science發文再創歷史!
    本月21所內地高校作為通訊作者單位在Nature& Science發文2020年6月,Nature和Science(後文簡寫為N&S)兩期刊總計刊出原創論文(類型為Article的論文)135篇,其中Nature刊出76篇,Science刊出59篇。
  • 2020年1月31日Science期刊精華,我國科學家同期發表一篇Science論文
    相關研究結果發表在2020年1月31日的Science期刊上,論文標題為「Monosomes actively translate synaptic mRNAs in neuronal processes」。
  • Science背靠背|再添實證,北京大學白凡/徐濤發現馬兜鈴酸是致癌的...
    2020年10月2日,北京大學白凡及徐濤共同通訊在Science 在線發表題為「Macroscopic somatic clonal expansion in morphologically normal human urothelium」的研究論文,該研究調查了形態正常人尿路上皮(MNU;膀胱和輸尿管襯裡的上皮)的體細胞克隆事件,並確定了宏觀克隆擴增。
  • 追蹤Science論文被撤:為何另一通訊作者拒絕撤稿?—新聞—科學網
    朱斌連續5年(2014-至今)進入中國高被引學者榜單(Elsevier能源類),在材料和能源等國際頂級期刊發表論文300多篇、引用7500多次,H-因子46。 對於此次Science論文被撤,朱斌通過郵件向《中國科學報》表示,他本人與另一位共同第一作者,以及另外兩位參與作者(分別來自東南大學、湖北大學和英國拉夫堡大學),都不同意撤稿。
  • 這本2分+的SCI期刊,真就容易灌水麼?
    該雜誌發表文章類型主要包括研究論文、病例報導、資料庫文章、評論類文章、應用軟體文章、研究方案和技術進步文章。2歷年發文量BMC Complement Altern Med在創刊初期發文量比較少,前10年的年發文量均不過百。隨著發展,2011-2017年的發文量呈上升趨勢,且逐漸穩定在200-600篇。
  • 迪麗熱巴用蔡徐坤表情包遭粉絲炮轟 求生欲滿滿發文道歉:是我蠢了
    迪麗熱巴用蔡徐坤表情包遭粉絲炮轟 求生欲滿滿發文道歉:是我蠢了時間:2020-09-12 14:28   來源:今日頭條   責任編輯:沫朵 川北在線核心提示:原標題:迪麗熱巴用蔡徐坤表情包遭粉絲炮轟 求生欲滿滿發文道歉:是我蠢了 9月12號0點,迪麗熱巴和往年一樣,她總是在第一時間發文為師姐、老闆楊冪慶生,這次熱巴發文非常幽默有趣
  • 2020年8月中國內地高校Nature&Science論文統計
    本月12所內地高校作為通訊作者單位在Nature發文 2020年8月,Nature和Science(後文簡寫為N&S)兩期刊總計刊出原創論文(類型為Article的論文)150篇,其中Nature刊出81篇,Science刊出69篇。
  • Bik博士新發現:中國412篇論文或來自一家「論文工廠...
    她曾在bioRxiv雜誌發文指出:目前有大約35000篇生物醫學領域文章可能存在圖片造假問題需要被撤回!,也缺乏專業的培訓,一個簡單迅速的方法就是直接買論文,所以他們也成了「論文工廠」的主要客戶。非常值得關注的是,有些期刊甚至積極主動的和這些「論文工廠」合作,偽造論文,然後把這些論文賣給大批的渴望完成學位的醫學博士,目前,雖然沒有直接的證據證明,但令人震驚的是,期刊上發表的幾十篇相似的論文,期刊編輯能沒有絲毫察覺?
  • 非「三高論文」不得報銷,網友:首先把北大和南大核心期刊幹掉!
    ,而是鼓勵廣大科技工作者回歸初心,不要去急功近利盲目跟風追熱點,可以潛心踏實地去做科研,對於基礎科研,SCI還是重要的指標,看重的是代表作,畢竟一名基礎科研工作者經歷有限,如果每一位基礎科研人員能在自己的領域有重大突破,對於中國的科技發展都是基石,而現實中很多的基礎科研工作者卻追求數量,招募大量研究生,灌水幾百篇膚淺的SCI論文,不如踏實的一篇高水平SCI論文。
  • 夢百合董事長兩次發文:炮轟萬華化學 指責上遊漲價殺雞取卵
    來源:中國證券報原標題:「炮轟」別家上市公司!這家上市公司董事長兩次發文,指責上遊漲價殺雞取卵一石激起千層浪!今日,倪張根再次發文,回應網友爭議。公開斥責上遊漲價昨日,倪張根在雪球上公開發文表示,近期海綿原料漲價問題的始作俑者是萬華化學,並指出「這種殺雞取卵的行為最終只有被市場唾棄」、「某些人的一己私利總是在傷害行業」。
  • 抗日神劇《雷霆戰將》慘遭炮轟停播!魏千翔:不喜歡別看
    畢竟號稱是「亮劍3」的《雷霆戰將》因為不尊重歷史,激怒群眾而引發群嘲,人民日報也發文痛批「別把偶像劇套路用在抗日題材上」。現已被全網下架。由高偉光飾演的郭勳魁,還在戰場上悠閒喝咖啡抽雪茄,而打鬥的畫面更加令觀眾無力吐槽,像是在看武俠片,問題這是戰爭劇啊,沒一點軍事常識!在接受採訪的時候,劇方對此也做出解釋。
  • 機器人能力再進化,20分鐘裝好宜家椅子|Science Robotics論文
    論文中介紹說,這樣的硬體配置「反映了人類』硬體』的泛型」。這套設備組裝的椅子,就是我們前面圖中顯示的那個普通的斯第芬。用作者們的原話來講,就是「從當地宜家店獲取了一套普通的STEFAN椅子套件,椅子的部件都是為人類組裝而設計的,沒有為機器人組裝做特殊的準備」。