ICLR最佳論文:MIT科學家提出彩票假設,神經網路縮小10倍並不影響結果

2020-12-04 新智元

新智元報導

來源:MIT

編輯:元子

【新智元導讀】MIT CSAIL近期發表文章《彩票假設:尋找稀疏可訓練的神經網絡》認為神經網絡就像中彩票並不是每一張都有用,但應設法找到最能中獎的那個,因此可通過消除神經網絡結構件不必要的連接(也稱修剪)適應低功率設備,在一系列條件下不斷重複該過程,神經網絡可縮小10%到20%,但並不影響準確率,甚至比原始網絡跟快。

根據齊魯晚報報導,最近威海一彩民獲得了1219萬大獎,可以說是非常幸運了,看的一眾神經網絡「煉丹師」們羨慕不已。

訓練深度神經網絡的感覺就像買彩票

HackerNews網友opwieurposiu就吐槽,做DNN其實根本和買彩票沒什麼區別:先是收集訓練數據,然後寫一個python腳本,支付大約1美元的GPU時間,跑一下。所不同的是,你盯著的不是輪盤的轉針,而是損失函數圖。

95%的時間都是廢的,但是每隔一段時間你就會得到很大的回報。中獎的時候,你可能覺得自己真是個天才!但復盤的時候又發現,你根本不知道為什麼A方式有效而B就不行。這種感覺,跟壓彩票非常相似。

1美元的神經網絡很小了。為了更好地學習,神經網絡就必須非常大,需要海量數據集,整個訓練過程可能要持續好多天。投入100美元、1000美元、10000美元……的時候,你可能感受到的不僅僅是經費在燃燒了。

可是,如果說,實際上神經網絡不一定要那麼大呢?

不修剪了,把沒用的部分直接砍掉!

MIT CSAIL的兩位研究人員Jonathan Frankle和Michael Carbin發表過一篇論文《彩票假設:尋找稀疏的、可訓練的神經網絡》剛剛被評為ICLR最佳論文。

論文指出,神經網絡剪枝技術可以在不影響精度的前提下,將訓練網絡的參數數量減少90%以上,降低存儲需求並提高推理的計算性能。然而,當前的經驗是,剪枝產生的稀疏架構從一開始就很難訓,然而同時也能提高了效率。

Frankle和Carbin發現,一個標準的修剪技巧可以自然的顯露出一個子網絡,初始化該網絡就能提高訓練效率。因此他們提出了 「彩票假設」(lottery ticket hypothesis):任何密集、隨機初始化的前饋網絡,都包含一個子網絡,以便在隔離訓練時可以在最多相同數量的訓練迭代中,匹配原始網絡的準確性。

然而,在成功的找到這個子網絡之前,必須經過多次訓練和「修剪」整個網絡。這就好像你去買了一大包彩票,然後從裡面找出中獎的那個。神經網絡的好處是,所有的彩票都在你的手中,你總能找出來中獎的那個。

如果能確切的定位到原始網絡中哪個子網絡跟最終預測相關,那麼也就用不著多次訓練和「修建」,直接砍掉無關的部分即可。這樣又進一步的降低了工作量,提高了效率。這就意味著,要通過一種技巧,使得每次買彩票必中!

彩票假設也可能遷移學習產生影響,在這種情況下,為圖像識別等任務訓練的網絡可以幫助完成不同的任務。

「打了折」的深度學習

感謝大家對神經網絡的過度熱捧,使得越來越多的人感嘆於神經網絡的神奇效果,但很少有人理解訓練一個神經網絡有多難。一來成本高昂,二來耗時漫長。所以研究人員必須做出許多讓步,在模型的大小、訓練耗時和最終表現等多個方面進行權衡。

包括今天兩位主角提出的「彩票假設」的驗證過程。他們首先採用一種通用的方法,用最低的「權重」「修剪」連接來消除受過訓練的網絡的不必要連接,使其適用於智慧型手機等低功耗設備。

「彩票假設」的關鍵創新,是發現經過網絡訓練之後,修剪連接可能根本就沒有必要。為了測試這個假設,他們嘗試再次訓練完全相同的網絡,但沒有修剪連接。

重要的是,他們將每個連接「重置」到訓練開始時分配的權重。這些初始權重對於幫助中獎來說至關重要,沒有它們,被修剪的網絡將無法學習。通過修剪越來越多的連接,最終確定了哪些是可以刪掉而不影響模型預測能力。

為了驗證這一假設,他們在各種條件下在許多不同的網絡上重複了這個過程數萬次。實驗結果顯示MNIST和CIFAR10的「中獎彩票」的規模,始終要小於幾個全連接架構和卷積前饋架構的10%-20%。這樣的話,不僅深度網絡在體積上打了折扣,成本、耗時都大打折扣。

下一步,該團隊計劃探索為什麼某些子網特別擅長學習,以及有效找出這些子網的方法。

Google已經用Python實現了彩票假設算法,並在Github上開源:

https://github.com/google-research/lottery-ticket-hypothesis

參考連結:

https://www.csail.mit.edu/news/smarter-training-neural-networks

相關焦點

  • 自「彩票假設」理論被授予2019 ICLR 最佳論文後,該領域又有了哪些...
    在本文中,我們會深入探討該假設,並回顧 Frankle 和 Carbin 在 ICLR 2019 上發表的那篇風光無限的最佳論文《THE LOTTERY TICKET HYPOTHESIS: FINDING SPARSE, TRAINABLE NEURAL NETWORKS》。
  • Uber AI 研究院深度解構 ICLR 2019 最佳論文「彩票假設」!
    年初,Frankle 和 Carbin 的論文「 The Lottery Ticket Hypothesis:Finding Sparse,Trainable Neural Networks」提出了一種生成稀疏的高性能網絡的簡單方法,可以有效進行網絡剪枝,這一突破性進展也讓這篇論文成為 ICLR 2019 最佳論文的得主之一。
  • ICLR-17最佳論文一作張弛原新作:神經網絡層並非「生而平等」
    今天新智元要介紹的論文是ICLR 2017最佳論文獎得主、《理解深度學習需要重新思考泛化》的作者張弛原和Samy Bengio等人的新作:ICLR 2017最佳論文《理解深度學習需要重新思考泛化》ICLR 2017那篇文章指出,傳統方法無法解釋大規模神經網絡在實踐中泛化性能好的原因,並提出了兩個新的定義——「顯示正則化」和「隱示正則化
  • 7 Papers|MIT學神開源微分太極;北大等提出沒有乘法的神經網絡
    二值網絡、加法網絡和卷積網絡在 CIFAR-10 與 CIFAR-100 數據集上的效果。ImageNet 上的分類結果。推薦:深度學習對算力要求太高,怎麼簡化計算複雜度呢?北大、華為諾亞方舟實驗室等提出完全用加法代替乘法,用 L1 距離代替卷積運算,從而顯著減少計算力消耗。
  • 「深度學習」這十年:52篇大神級論文再現AI榮與光
    過去十年中有哪些有影響力的深度學習論文?從「深度學習三巨頭」到何愷明,從谷歌到MIT,52篇神級論文帶大家回顧深度學習這十年。戳右邊連結上新智元小程序了解更多! 隨著2020年的到來,人類進入了一個嶄新的十年。回顧過去10年,深度學習領域取得的巨大進步。
  • 朱俊彥團隊提出GAN壓縮算法:計算量減少20倍,GPU、CPU統統能加速
    一舉將CycleGAN的計算量減少了20倍以上,將GauGAN的計算量減少了9倍,簡筆畫到實物圖的pix2pix也能駕馭,效果卻未差分毫。值得一提的是。論文已入選CVPR 2020,代碼也已開源。為了解決這個問題,作者提出了針對有效生成模型量身定製的訓練方案,並通過神經架構搜索(NAS)進一步提高壓縮率。
  • 深度學習盛會ICLR2017最佳論文出爐,雷鋒網帶你10min過重點附論文...
    別看它歷史不長,影響力卻不小,ICLR如今已成為深度學習領域一個至關重要的學術盛事。今年4月,雷鋒網也會親臨ICLR2017大會,為大家從法國帶來最新鮮的一手資料,讓你足不出戶就能感受到全球頂尖ML大牛的雄韜武略。據雷鋒網消息,ICLR論文評選結果於今日新鮮出爐。經過列為評委的火眼金睛,在507份論文中共有15篇論文成功進入口頭展示階段,181篇進入海報展示階段。
  • 中獎彩票,子網絡的覺悟
    但隨著對深度學習的要求越來越多,需要的網絡層數越來越深,參數越來越多,消耗的計算資源也隨之擴張,而這很大程度上阻礙了其產業化應用和推廣從上世紀 90 年代開始,Yan Lecun 等人【1】首先提出了神經網絡剪枝的思想,即將網絡中某些對輸出結果貢獻不大的參數進行剪除。這種方法可以大大提高模型運行速度,但同時會對模型準確度有一定影響。
  • ICLR 2020 匿名評審九篇滿分論文,最佳論文或許就在其中|模型|杜克...
    機器之心整理參與:思源、蛋醬、澤南從反傳的自動微分機制,到不平行語料的翻譯模型,ICLR 2020 這 9 篇滿分論文值得你仔細閱讀。早在去年12月,ICLR 2020的論文接收結果就已經出來了,其接收率達到了26.5%。
  • ICLR 2018最佳論文:基於梯度的元學習算法
    於 4 月 30 日開幕的 ICLR 2018 最近公布了三篇最佳論文,分別關注於最優化方法、卷積神經網絡和元學習算法。不出所料的是,這三篇最佳論文在 2017 年 11 月公布的評審結果中,都有很高的得分。機器之心以前已經介紹過關於修正 Adam 與球面 CNN 的最佳論文,本文將重點介紹第三篇關於元學習的最佳論文。
  • 【ICCV2017視覺盛宴概況】何愷明博士包攬最佳論文和最佳學生論文獎!Facebook成大贏家!
    Facebook成為最大贏家,其中Facebook 人工智慧實驗室研究科學家何愷明包攬最佳論文獎(Marr Prize)和最佳學生論文獎。賈揚清Caffe團隊獲得Everingham prize等。:https://arxiv.org/abs/1512.03385這篇文章提出了一個殘差學習的框架,以減輕網絡的訓練負擔,這是個比以往的網絡要深的多的網絡,並且明確地將層作為輸入學習殘差函數,而不是學習未知的函數,以應對更深的神經網絡往往更難以訓練的情況。
  • 周志華組最新論文提出「溯因學習」,受瑪雅文字啟發的神經邏輯機
    【新智元導讀】南京大學周志華教授等人在最新的一篇論文中提出了「溯因學習」(abductive learning)的概念,將神經網絡的感知能力和符號AI的推理能力結合在一起,能夠同時處理亞符號數據(如原始像素)和符號知識。
  • 數十篇滿分論文,接收率26.5%,ICLR2020接收結果,明年非洲見
    機器之心報導 機器之心編輯部 經歷了一系列審稿風波,ICLR 2020 的論文接收結果終於塵埃落定。今天,ICLR 2020 公布了論文接收結果。
  • ICLR 2020接收結果已出,明年非洲見
    機器之心機器之心報導經歷了一系列審稿風波,ICLR 2020 的論文接收結果終於塵埃落定。今天,ICLR 2020 公布了論文接收結果。今年的 ICLR 也不算風平浪靜,先是投稿數量爆炸導致審稿負擔急劇增加,結果被爆出一半審稿人根本沒在相關領域發過論文,輿論風向一度演化為「機器學習同行評審崩塌了」。之後,又有網友摘出某篇由滿分『8-8-8』轉為超低分『1-1』的論文,質疑 ICLR 評審結果的權威性。「頂會審稿水平到底行不行」這個話題再一次鬧得紛紛揚揚。
  • 「雲」頂會ICLR 2020來襲,RealAI朱軍教授團隊錄用論文數世界第二...
    根據此前發布的論文接收結果,RealAI首席科學家朱軍教授帶領的TSAIL團隊共發表 7 篇,位居世界第二,朱軍教授與喬治亞理工學院宋樂教授並列 ICLR 2020 華人貢獻榜首位。本文主要提出一種新的POMDP算法,稱為SVQN(SequentialVariational Soft Q-Learning Networks),該算法在統一的圖模型下能夠結構化隱性推理和最大熵強化學習(MERL) ,並對兩個模塊進行了聯合優化。本文也進一步設計了一個深度遞歸神經網絡以減少算法的計算複雜性。
  • 【一文打盡 ICLR 2018】9大演講,DeepMind、谷歌最新乾貨搶鮮看
    連同3篇最佳論文和9個邀請演講一起,新智元帶來本屆ICLR亮點的最全整理。 前10名餘下機構分別是:CMU、Facebook、微軟、牛津大學、IBM、多倫多大學、ETH。 以下帶來ICLR 2018的最佳論文的介紹,以及DeepMind和谷歌的論文概況。
  • 華為諾亞ICLR 2020滿分論文:基於強化學習的因果發現算法
    在此論文中,華為諾亞方舟實驗室因果研究團隊將強化學習應用到打分法的因果發現算法中,通過基於自注意力機制的 encoder-decoder 神經網絡模型探索數據之間的關係,結合因果結構的條件,並使用策略梯度的強化學習算法對神經網絡參數進行訓練,最終得到因果圖結構。在學術界常用的一些數據模型中,該方法在中等規模的圖上的表現優於其他方法,包括傳統的因果發現算法和近期的基於梯度的算法。
  • ACL 2019 論文:谷歌提出增強神經網絡機器翻譯魯棒性的新方法
    谷歌研究院的一篇 ACL 2019 論文提出了一種方法,使用生成的對抗性樣本來提高機器翻譯模型的魯棒性,防止輸入中存在的細小擾動度對其造成影響。結果表明,該方法提高了 NMT 模型在標準基準上的性能。在本文中,作者 Yong Cheng、 Lu Jiang 和 Wolfgang Macherey 對其在 ACL 2019 上發表的《具有雙對抗性輸入的魯棒神經機器翻譯》論文進行了介紹。
  • 歷年 CVPR 最佳論文盤點(2000 年——2018 年)
    該論文提出了「Taskonomy」——一種完全計算化的方法,可以量化計算大量任務之間的關係,從它們之間提出統一的結構,並把它作為遷移學習的模型。實驗設置上,作者首先找來一組一共 26 個任務,當中包括了語義、 2D、2.5D、3D 任務,接著為任務列表裡的這 26 個任務分別訓練了 26 個任務專用神經網絡。結果顯示,這些遷移後的模型的表現已經和作為黃金標準的任務專用網絡的表現差不多好。
  • 神經網絡在「生命遊戲」裡苦苦掙扎
    這款小遊戲在科學、計算和人工智慧中被熱烈討論,因為它代表了即使是簡單的規則,也可以產生非常複雜的結果。在最近的一篇論文中,斯沃斯莫爾學院和洛斯阿拉莫斯國家實驗室的人工智慧研究人員指出,儘管康威生命遊戲很簡單,但對人工神經網絡來說,這仍是個不小的挑戰。