Science:AI領域那麼多引人注目的「進展」,竟是無用功

2021-01-11 機器之心Pro

選自Science

作者:Matthew Hutson

機器之心編譯

參與:魔王

近日,一篇 Science 社論文章梳理了近年來 AI 各子領域的進展,發現看似紅紅火火的領域實際上毫無進展。在人工智慧技術風起雲湧的今天,這篇文章的觀點或許值得我們思考。

人工智慧看似越來越聰明:晶片越來越快,數據越來越多,算法性能也比之前更好。但是一些改進來自於微調,而不是其創造者所說的核心創新,甚至有些改進根本不存在,MIT 計算科學與人工智慧實驗室博士 Davis Blalock 如是說。

Blalock 及其同事對比了數十種神經網絡改進方法,發現「看完五十篇論文,愈發不明白當前最優性能是什麼樣了」。

他們一共評估了 81 種剪枝算法,即通過修剪不必要的連接提高神經網絡效率的方法。所有這些算法都聲稱自己具備更優秀的表現,但是它們甚至很少得到恰當的對比。這項研究將它們進行對比評估後,發現在過去十年中沒有明確證據可以表明算法性能出現提升。

相關研究《What is the State of Neural Network Pruning?》令 Blalock 的導師、MIT 計算機科學家 John Guttag 感到震驚,他表示,不公平的對比或許可以解釋這一停滯現象。「老話說得好,如果你無法衡量一件事,就很難讓它變得更好。」

近年來,研究人員發現多個 AI 子領域的進展實則「搖搖欲墜」。

2019 年,一項針對搜尋引擎所用信息檢索算法的元分析發現,「高水位線早在 2009 年就已確立」。

2019 年的另一項研究在 18 種推薦算法中僅成功復現了 7 種,而且其中 6 個在性能上無法超越多年前開發的更簡單的非神經算法。

而在今年三月的一篇 arXiv 論文《A Metric Learning Reality Check》中,康奈爾大學計算機科學家 Kevin Musgrave 對損失函數進行了評估。他以公平的方式在圖像檢索任務中對十幾種損失函數進行對比,發現與損失函數發明者所聲稱的相反,自 2006 年以來模型準確率並未因此得到提升。Musgrave 表示:「總是會有這樣的炒作。」

CMU 計算機科學家 Zico Kolter 表示,機器學習算法的性能提升來自於架構、損失函數或優化策略的基礎改變,而對它們進行微調也能帶來性能提升。Kolter 致力於研究免受「對抗攻擊」影響的圖像識別模型。早期的對抗訓練方法叫做投影梯度下降(PGD),即在真實和欺騙性樣本上訓練模型,該方法後來似乎被一些更複雜的方法超越。

但在今年 2 月的一篇 arXiv 論文《Overfitting in adversarially robust deep learning》中,Kolter 及其同事發現,在使用簡單的 trick 對這些方法進行增強後,所有方法的性能幾乎相同。

「這個結果令人吃驚,我們之前從未發現過這一點。」Kolter 的博士生 Leslie Rice 表示。Kolter 稱該研究表明 PGD 這類創新很難實現,也很難出現實質性的改進。「很顯然,PGD 就是正確的算法,這是顯而易見的,但人們想要找到更複雜的解決方案。」

另外一些重要的算法改進似乎經受住了時間的考驗。1997 年長短期記憶(LSTM)的誕生帶來了極大突破。在經過恰當訓練後,LSTM 與其誕生二十年後看似更先進的架構性能相當。

另一個機器學習突破出現在 2014 年,它就是生成對抗網絡(GAN)。2018 年的一篇論文《Are GANs Created Equal? A Large-Scale Study》稱,只要有充足的計算量,原版 GAN 方法的能力可與近年來的新方法媲美。

Kolter 表示,研究人員更願意開發新算法並進行微調,使之超越原有的 SOTA 結果。原有的方法看起來沒那麼新穎,因此「更難據此寫出論文」。

Guttag 認為,即使算法的發明者也很難全面地對比自己的工作與其他方法,因為萬一其突破並不像他們以為的那樣呢。「太認真地對比會有風險」,而且實現難度頗大:AI 研究者使用不同的數據集、調試方法、性能度量指標和基線。「要做到一一對應的比較很不現實。」

一些誇大的性能表述可能要歸因於該領域的爆炸式發展,論文數量比有經驗的評審還要多。「其中大量論文讀起來是種煎熬,」Blalock 說道。他敦促審稿人使用更多的對比方法來進行評判,並表示更好的工具或許能起到一定的幫助。今年初,Blalock 的共同作者、MIT 研究人員 Jose Gonzalez Ortiz 推出了一款名為 ShrinkBench 的軟體,可以更便捷地比較剪枝算法。

研究人員指出,即使新方法本質上不如舊方法好,但它們實現的調整說不定也可以用到之前的方法上。偶爾也會出現真正突破性的新算法。「這很像是一個風險投資組合,」Blalock 說道。「即使一些投資不賺錢,但總有能夠獲得回報的。」

原文連結:https://science.sciencemag.org/content/368/6494/927

相關焦點

  • Science評論「抵制Nature子刊」事件:AI研究者熱愛arXiv?
    該新興領域越來越多地轉向會議論文和免費的公開評審網站,迴避傳統渠道。這種傾向在對高調 AI 期刊 Nature Machine Intelligent 的抵制運動中表現得淋漓盡致。這份由多位 AI 領域的著名學者籤署的請願書,不僅僅是對開放獲取的學術環境的呼籲。它不僅譴責了封閉式獲取的訂閱期刊(例如 NMI),還包括那些向作者收取費用的出版社:開放獲取的期刊是免費閱讀的,但需要研究者付費才能發表文章。而籤署者呼籲更多的「零成本」開放獲取期刊。
  • 幼兒園課程竟是「無用之功」?!
    >幼兒園課程竟是「無用之功」?!一些專家認為,幼兒園的教科內容中,至少有三分之一的內容是「無用」的。  事例1:5歲孩子一周有5個特色班  近年來,幼兒教育「小學化」的現象越來越多,孩子的作業多、報的特色班多,在家長看來是很正常的事情。在中原區一些幼兒園,當孩子進入幼兒園中班以後,就需要寫作業了。而在幼兒園大班和一些學前班,報特色班的情況也很普遍。
  • 你這「功」太差了...到底怎麼去定義芭蕾的「功」?全面秒懂芭蕾的...
    那頭貼屁股的,功真好! 就是就是「有能力,有軟度」!說得好! 於是乎,舞蹈訓練標準立馬跨越到了競技體育的範疇!假如和競技體育比,舞蹈的這些「有能力,有軟度」簡直就是雕蟲小技!
  • 你的英語啟蒙還在做無用功嗎?這些方法早該拋棄了!
    英語啟蒙的周期本身就比較長,如果還浪費時間做無用功,不僅僅讓家長感到倦怠,孩子也會慢慢失去興趣,最後讓英語啟蒙無疾而終。那麼,在英語啟蒙裡,什麼做法可以稱得上是在做「無用功」呢?況且記背下來的知識,很快就會忘,相當於邊輸入邊丟失,短暫的記憶並不是真正的習得,所以稱之為無用功。正確的做法應該是把英語當做語言來學習,按照聽說讀寫的語言學習順序,而不要當做應試型學習。2.缺乏理解性的輸入不理解的語言,不管聽多少都沒有意義,無效輸入的聲音無異於一種噪音。所以,有的家長說,不是要多聽嗎?
  • 對比人工翻譯及自然語言處理翻譯,ai翻譯存在哪些優勢?
    ai的核心問題是如何「產生」,不管是imagenet還是svd,都是一種「訓練」過程,這種練習的價值基於特徵提取完成後對目標的預測。那麼這些特徵能不能「產生」呢?根據經驗,是的。舉個簡單的例子,微博上一般都是這樣子對話的:這種對話很好「產生」,因為人的語言翻譯一般很難做出來,從整體上描述了人對話過程,這樣就完成了對話的設計和「模仿」。當然,單這麼說也不嚴謹,可能有的翻譯有點細節交流上的錯誤。另外,比如歌詞有時也可以通過一些對比的對話(bingquery)自動生成,原因在於歌詞是「不可編碼」的。這麼理解,也就沒問題了。
  • 印度天才數學家拉馬努金留下的3000+神奇公式,交給AI來「證明」!
    但有些問題仍有待解決,其中一個是關於 「Apery 常數」的問題,Apery 常數在物理學中有重要應用。「最後一個結果,也是最令人興奮的一個,但是沒有人知道如何證明」,物理學家 Ido Kaminer 說,「但是算法自動創造的推測可以指引數學家們找到人們不知道存在的數學分支之間的聯繫」。
  • AI 在安全、可靠性方面到底取得了哪些進展?斯坦福 AI 實驗室進行...
    在第一種情況下,要求研究人員展示,如果「Intruder」從左側接近,那麼系統將建議「Ownship」向右急轉彎。在上圖中,如果這隻白狗的像素點正是使得該神經網絡將其識別為狗,那麼系統就非常合理。讓我們來看看另一個詞配對:「他」對應的是「兄弟」,那「她」對應著的是什麼?同樣,任何五歲的孩子都可以回答說「他」對應「兄弟」,那麼「她」對應「姐妹」。我們有一個良好的開端,但正如你在下圖中看到的那樣,事情開始急速轉折。
  • 「末日天啟」等主題,AI寫下3萬字!
    三個主題,AI文思泉湧,已寫出了3萬多字作者根據自己的喜好設計了三個主題:瘟疫、凱撒、世界末日。他選擇「瘟疫」是因為這具「熱點性」,畢竟現在世界正處於疫情期間;而「世界末日」則是宗教領域一個非常熱門的話題了;至於「凱撒」,那是作者最喜歡的歷史人物之一,而且聖經中也提到過這個名字。目前,AI已經寫出了3萬多字。
  • 機器人爆發,能從「潮玩」開始嗎?
    前述行業人士表示,「機器人無論是 To B 還是 To C,現在都遠遠不夠完美。但更關鍵的是場景和成本的不匹配。」「機器人領域很多技術高度密集。」九號機器人聯合創始人兼總裁王野曾在極客公園內部分享活動上說。
  • 2018 公開課盤點應用篇:面向 AI 開發者,「猿桌會」帶你看各路大神...
    本堂課乾貨滿滿,受到了 AI 研習社粉絲們的歡迎,成為 2018 年度觀看量最高的「猿桌會」公開課。南洋理工大學顧玖強:從 NLP 到 CV+NLP:計算機視覺和自然語言處理結合介紹公開課回看地址:http://www.mooc.ai/open/course/441內容簡介:自然語言處理幫助人們研究如何使得機器「說
  • 專做廢品的手工耿走紅,短視頻有「無用之用」
    超高人氣的短視頻博主手工耿,總是遭到粉絲威脅「有用就取關」。原因是他的作品都有個共同特點,製作精美,創意滿分,最重要的特點是——沒用。正是這些無用之用,讓他收穫了大量粉絲。打工青年回鄉做博主這位手工耿,人稱「保定愛迪生」「手工樊少皇」,上傳的短視頻主要講解、製作不鏽鋼物件。
  • 清華大學劉知遠:在 NLP 領域「做事」兼「發聲」
    「作為一名工作繁忙的高校教師,劉知遠哪有時間回答那麼多問題呢?」這是雷鋒網 AI 科技評論筆者在調研的時候,大家最好奇最關心的問題之一。在清華大學 FIT 樓,雷鋒網 AI 科技評論有幸與清華大學的劉知遠助理教授進行了一次對話,他向筆者分享了他工作、生活的點點滴滴。
  • 校長是學校的靈魂,為什麼現在的校長熱衷做那麼多無用功?
    實際作為一名老師,我也是很不明白,為什麼現在的領導熱衷做那麼多的無用功?對教學沒有任何意義的工作?並且樂此不彼?為什麼?第一:學校的美篇宣傳。不知從何時起,每個單位都有了專屬的公眾號,既然有公眾號,定期就要更新文章。
  • 雅思刷分過程中,應該避免做哪些「無用功」?
    雅思備考方法有效得各不相同,但備考「無用功」卻無用得整整齊齊。如果你投入了大量精力、時間,但分數不但沒提多少,反而降了點(尤其是口語和寫作),那這就是做了「無用功」的典型表現之一。首先我們要明確的是,造成這些負面影響的原因是你做了「無用功」,換句話說就是在學習方法上誤入歧途了,而不是因為你的智商,語言天賦等自身方面的問題。所以:先自信起來!然後,來看看「無用功」具體有哪些進而去規避它們。這裡一共列舉了8條,一起來看看。
  • 2019 年 1 月 AI 最佳網文榜單最新出爐!
    「當收到的大部分正面反饋都是挖苦的時,研究人員很難對深度學習算法進行訓練。」1.當 AI 在繪畫時,它在想什麼?>https://towardsdatascience.com/aifortrading-2edd6fac689d
  • Science​:​學術「自嗨」還是開創性的發現? 聚焦「相分離」研究引發的學術爭議
    「相分離」(液液相分離)本是高分子物理學中的概念,近年來卻在生物醫學領域引起前所未有的重視
  • 潘建偉、陸朝陽團隊實現量子優越性:原型機九章登Science
    論文連結:https://science.sciencemag.org/content/early/2020/12/02/science.abe8770量子優越性是指量子計算擁有的超越所有經典計算機的計算能力,即可以解決經典計算機不能解決的問題或比經典計算機有顯著的加速(一般是指數加速)。
  • 將製作20周年紀念TV動畫「愛·天地無用」!
    將製作20周年紀念TV動畫「愛·天地無用」!   此前經營狀況研究,赤字嚴重的AIC動畫公司在經過重組之後再次開始活動,根據最新情報透露,AIC將負責製作動畫「天地無用」20周年紀念TV動畫「愛·天地無用」,動畫公式展預計將在今年夏季上線,動畫則將在
  • 「智能」的產生,本質上是非結構化數據結構化的過程
    以下是嘉賓分享部分內容:「客戶交互」智能化的四個市場階段企業的「客戶交互」數據,既包括用戶使用網站或者 App 的行為數據,也包括電話溝通、視頻會議、在線 IM 溝通以及線下的當面溝通數據,但大部分數據都是非結構化的,「智能」的產生,本質上是非結構化數據結構化的過程。
  • 10月新番「愛·天地無用」發表全新人設
    10月新番「愛·天地無用」發表全新人設 動漫 178動漫頻道 ▪ 2014-09-03 15:38:38