別眨眼!這篇論文可能會顛覆你對神經網絡訓練的所有認知

2020-12-12 讀芯術

全文共2014字,預計學習時長4分鐘

現實生活中,機器學習模型訓練是數據科學中難度最大和計算成本最高的一種。幾十年以來,在單一公理假設訓練會覆蓋整個模型的影響下,人工智慧領域已經開發出了許多技術來提高機器學習模型的訓練。

最近,來自麻省理工學院的人工智慧研究員發表了一篇名為「Lottery Ticket Hypothesis(彩票假設)」的論文,在人工智慧領域備受關注。該論文關注模型分支,挑戰原先的假說並提出了一種更智能、更簡便的方法來訓練神經網絡。

機器學習模型訓練過程中,數據科學家往往需要在理論和現實解決措施的限制面前作出妥協。那些解決實際問題的神經網絡架構看似為最佳方法,但是由於訓練成本過高而不能充分執行下去。在起初訓練時,神經網絡一般需要大量數據集,同時需要昂貴的計算費用。而在此操作下,得出的是一張巨大的神經網絡結構,其中神經層和隱藏層之間互相連接,從而需要通過技術優化來移除其中一些連接並調整模型的大小。

幾十年來,有個問題一直困擾著人工智慧研究員們,即在開始訓練模型的時候,是否真的需要那些大型神經網絡結構。當然,假使連接架構中每個神經元,也許可以實現完成最初任務的模型,但是其中帶來的成本耗費是無法想像的。難道不能在一開始就組建更小更精簡的神經網絡架構嗎?這正是「彩票假設「討論的核心問題。

彩票假說

機器學習模型訓練就像賭博遊戲,通過購買所有可能中獎的彩票來博得大獎。但是如果我們知道如何中獎,難道就不能在挑選彩票的時候更加聰明一些嗎?

在機器學習模型中,訓練過程會產生與彩票同等大量的神經網絡結構。在第一次訓練後,模型需要進行技術優化,比如剪枝技術,在不損害神經網絡性能的前提下刪除神經網絡中不必要的部分以縮小模型。這就像在彩票袋裡搜尋那張中獎的彩票並且排除其他不會中獎的彩票一樣。

通常情況下,剪枝技術能將神經網絡結構的減少90%。自然而然,人們就會疑惑:如果可以減小神經網絡的大小,為了使得訓練更有效率,為什麼不去訓練更小的神經網絡結構呢?

自相矛盾的是,機器學習方案的實踐表明,修剪後的神經網絡結構起初更難以訓練,且訓練的精度比起原神經網絡更低。

麻省理工學院提出的「彩票假設「核心思想是大神經網絡會包含一些較小的子網絡,如果從起初就開始訓練,子網絡便可達到與原始網絡比肩的準確率。研究報告具體內容概括如下:

彩票假設理論:隨機初始化的密集神經網絡包含一個被初始化的子網絡。當單獨訓練該子網絡時,它可以在訓練之後,以最多相同的迭代次數匹配原始網絡的測試精度。

在本論文中,子網絡往往被指代為中獎彩票。

設定f(t, a, p) 形式的神經網絡,其中t =訓練時間,a =準確度,p =參數。現在考慮s是由修剪過程產生的原始結構的所有可訓練神經網絡的子集。「彩票假設」說明,某種程度上,一個F」(T」,A」,P」)s其中T」 <= T,A」> = a和p」 <= P。 簡單來說,傳統的剪枝訓練技術揭示了比原始網絡結構更小、更簡單的神經網絡結構。

如果「彩票假設「為真,顯而易見接下去需要找到確認中獎彩票的策略了。這個過程包含訓練和修剪的迭代過程,總結為以下五個步驟:

1. 隨機初始化一個神經網絡。

2. 訓練神經網絡直到其形成匯聚。

3. 對神經網絡進行剪枝訓練。

4. 要提取中獎彩票,請將網絡剩餘部分的權重重置為步驟(1)所示 (訓練開始前的初始值)。

5. 為了評估步驟(4)中產生的網絡是否確實是中獎票,訓練剪枝過且未經訓練的網絡並檢查其匯聚行為和準確性。

整個流程可以進行一次或多次。在一次性剪枝訓練中,神經網絡訓練為一次,對p%的神經網絡進行修剪並且重置餘留的權重。儘管一次性剪枝訓練一定有效,但是在n輪中迭代時,「彩票假設「才能出現最好的結果;每輪剪枝訓練在前一輪中餘留p1 / n%的權重。然而,一次性剪枝訓練通常產生非常可靠的結果,訓練也不需要昂貴的計算成本。

麻省理工學院的團隊在一組神經網絡架構中檢測了「彩票假設「理論,結果表明剪枝訓練技術不僅僅可以優化架構本身,還可以找到中獎的彩票。

結果中有兩點值得注意。中獎彩票沒有廣域網的剩餘冗餘,訓練速度更快。事實上,在合理範圍內,架構越小,訓練速度越快。但是,如果現在隨機重新初始化網絡權重(控制),生成的網絡比現在的完整網絡訓練速度更慢。因此,剪枝訓練不僅要找到正確的架構,還應該找到那個特別幸運的初始化神經網絡子組件——中獎彩票。

基於實驗結果,麻省理工學院的團隊對最初假設進行了擴展,提出彩票預測系統,表述如下:

彩票預測:回到最初的問題,將假設擴展為一個未經實證的猜想,即使用隨機梯度下降(SGD)尋找並訓練一個初始狀態良好的權重的自己。因為有更多可能的子網絡可從訓練中找到中獎票,密集、隨機、初始化的網絡比經過剪枝訓練產生的稀疏網絡更容易訓練。

這個猜想在概念上是說得通的,也就是說,經過剪枝訓練後的子網絡越大,找到中獎彩票的機率也就越大。

「彩票假設」理論可能成為近年來機器學習研究最重要的研究論文之一,因為它刷新了傳統神經網絡訓練的觀點。通常情況下,雖然我們採取的是通過訓練原始網絡,刪除連接和進一步微調來進行修剪,但是彩票假設告訴我們可以從一開始就學習最佳神經網絡結構。

留言 點讚 關注

我們一起分享AI學習與發展的乾貨

歡迎關注全平臺AI垂類自媒體 「讀芯術」

相關焦點

  • 麻省理工解讀神經網絡歷史,三篇論文剖析基礎理論
    深度學習事實上是名為神經網絡的人工智慧方法的新名字,神經網絡在流行與過時的起起伏伏間已經存在了 70 年之久。神經網絡由 Warren McCullough 和 Walter Pitts 於 1944 年首次提出,這兩位芝加哥大學的研究人員於 1952 年加入 MIT,並成為了首個認知科學系的創始成員。
  • 三篇論文,解讀神經網絡壓縮
    機器之心原創 作者:立早 編輯:H4O 本文是一篇關於神經網絡壓縮領域的論文解讀,通過對ICCV 2019中的三篇論文進行分析,讀者可以了解目前的發展趨勢
  • 百篇最值得一讀的「認知圖譜」經典論文
    經過我們對人工智慧領域國際頂會/期刊中「認知圖譜」相關關鍵詞論文的計算,以及熱心讀者徐菁博士的整理,AMiner 推出了 100 篇認知圖譜經典必讀論文。這些論文可以說基本都是經典中的經典,他們多是領域大佬+頂級會議的組合,讀完它們,相信你對認知圖譜的認認識肯定會有質的飛越。
  • Jeff Dean本科論文曝光!第一批90後出生時,他就在訓練神經網絡
    夏乙 李根 發自 凹非寺量子位 出品 | 公眾號 QbitAI22歲時,你在幹嘛?這兩天,現任Google AI掌門,傳奇一般的Jeff Dean,再次收穫膜拜和引發熱議。全因他的本科畢業論文首次曝光。這篇論文只有8頁。卻成為1990年的最優等本科論文,被明尼蘇達大學圖書館保存至今。
  • 這篇論文讓你無懼梯度消失或爆炸,輕鬆訓練一萬層神經網絡
    現在,加州大學聖地牙哥分校的研究者提出了一種名為 ReZero 的神經網絡結構改進方法,並使用 ReZero 訓練了具有一萬層的全連接網絡,以及首次訓練了超過 100 層的 Tansformer,效果都十分驚豔。深度學習在計算機視覺、自然語言處理等領域取得了很多重大突破。神經網絡的表達能力通常隨著其網絡深度呈指數增長,這一特性賦予了它很強的泛化能力。
  • ICCV 2019 提前看|三篇論文,解讀神經網絡壓縮
    機器之心原創作者:立早編輯:H4O本文是一篇關於神經網絡壓縮領域的論文解讀,通過對ICCV 2019中的三篇論文進行分析,讀者可以了解目前的發展趨勢。神經網絡壓縮方向是目前深度學習研究的一個熱門的方向,其主要的研究方向是壓縮,蒸餾,網絡架構搜索,量化等。在 ICCV2019 中,不少的研究單位和學者都發表了神經網絡壓縮方向的論文。本文主要以其中三篇論文來研究神經網絡壓縮的目前發展趨勢。
  • 尋找最佳的神經網絡架構,韓松組兩篇論文解讀
    第二篇則是利用強化學習自動尋找在特定 latency 標準上精度最好的量化神經網絡結構,它分別為網絡的每一層搜索不同 bit 的權值和激活,得到一個經過優化的混合精度模型。兩篇文章的相同之處在於,都直接從特定的硬體獲得反饋信息,如 latency,energy 和 storage,而不是使用代理信息,再利用這些信息直接優化神經網絡架構 (或量化 bit 數) 搜索算法。這也許會成為工業界未來的新範式。
  • 神經網絡訓練 trick 之 lr 設置
    論文內容增加 lr 短期可能會讓 loss 增大,但是長期來看對 loss 減少是有幫助的。長期以來,人們普遍認為,的神經網絡中包含很多局部極小值(local minima),使得算法容易陷入到其中某些點,這是造成神經網絡很難優化的原因,但是到 2014 年,一篇論文《Identifying and attacking the saddle point problem inhigh-dimensional non-convex
  • 最新6篇ICLR2021篇圖神經網絡論文推薦
    CCF-S級會議ICLR剛剛放榜~(小編要是中了ICLR能吹一年😱😱😱這裡推薦幾篇ICLR 2021接收的最新GNN論文~1.時序網絡中的利用因果匿名遊走的歸納表示學習2.具有自監督能力的圖注意力機制3.圖神經網絡的瓶頸及其實踐意義4.ADAGCN:將圖卷積網絡轉換為深層模型5.通過圖多層池化準確學習圖表示
  • 當神經網絡遇上量子計算:谷歌證明量子神經網絡可訓練圖像分類
    谷歌已經證明了量子計算也能解決傳統機器學習中的圖像分類問題,而且隨著技術發展,量子計算機將在在學習能力上超越經典的神經網絡。另外量子計算還能解決經典網絡中一些棘手問題,比如預防出現模型訓練中的梯度消失問題。量子神經網絡在第一篇論文中,谷歌構建一個神經網絡的量子模型,研究如何在量子處理器上執行神經網絡的分類任務。
  • ICLR 2019最佳論文揭曉!NLP深度學習、神經網絡壓縮成焦點
    兩篇最佳論文分別來自Mila/加拿大蒙特婁大學、微軟蒙特婁研究院和MIT CSAIL,主題分別集中在NLP深度學習模型和神經網絡壓縮。今天,ICLR 2019在官網公布了最佳論文獎!今年 ICLR 共接收 1578 篇投稿,相較去年 981 篇有了很大的增加,錄用結果如下:1.5% 錄用為 oral 論文(24 篇)、30.2% 錄用為 poster 論文(476 篇),58% 論文被拒(918 篇)、610% 撤回(160 篇)。
  • 神經網絡的性能竟然優於神經符號模型
    與之前的研究結論相反,研究人員認為,對於可以衡量高級認知功能並基於視覺的任務來說,基於分布式表示的神經網絡模型確實表現良好,並已經明顯勝過了現有的神經符號模型。    在論文中,作者描述了一種關於視頻的時空推理的體系結構,此結構可以學習到視頻中的所有成分,並且所有中間的表示都貫穿分布在整個神經網絡層中。
  • 人工神經網絡的原理與訓練
    有一些困難的東西,一是因為有些問題是無法避免,比如解釋一個CDO的結構,這確實需要思考;還一個原因是,在現在一個快餐網絡知識的時代,真正願意花時間仔細讀的人也不是多數。這次寫的這篇因為有一些數學上的東西,所以會難以避免的涉及一些麻煩的東西。但其實只要有線性代數的一定基礎,都是很容易理解的。
  • 被遺忘的圖靈:計算機、神經網絡、人工智慧……他是這一切之父
    在論文中,圖靈發明了一種他稱之為「B型非結構化機器」的神經網絡,包含人工神經元以及可以對神經元之間的聯結進行調節的設備。B型機器中的神經元可以是任意數量,也可以以任意模式相聯結,但依然神經元之間的聯結必須通過調節器。所有調節器都具有兩條訓練光纖。
  • Hinton一作新論文:如何在神經網絡中表示「部分-整體層次結構」?
    本人,這篇論文沒有介紹具體的算法,而是描繪了一個關於表示的宏觀構想:如何在神經網絡中表示部分-整體層次結構。 在這篇新論文中,Hinton又將為我們描繪出怎樣一幅圖景呢?論文連結:https://arxiv.org/pdf/2102.12627.pdf這篇論文沒有描述工作系統,而是單單提出了一個關於表示的想法。這個想法能夠把Transformer、神經場(neural fields)、對比表示學習、蒸餾和膠囊等先進觀點整合到一個名為「GLOM 1」的設想系統中。
  • 六篇 CIKM 2019 最新公布的【圖神經網絡(GNN)】長文論文
    CIKM 2019共計收到1030篇長文有效投稿,其中200篇論文被大會錄用,總錄用率約19.4%。圖神經網絡(GNN)相關的論文依然很火爆,小編在官網上查看了,CIKM專門有專題,大約10篇長文接受為GNN專題論文。為此,專知小編提前為大家篩選了六篇GNN 長文論文供參考和學習!
  • 訓練深度神經網絡失敗的罪魁禍首不是梯度消失,而是退化
    在這篇文章中,我將指出一個常見的關於訓練深度神經網絡的困難的誤解。人們通常認為這種困難主要是(如果不全是)由於梯度消失問題(和/或梯度爆炸問題)。「梯度消失」指的是隨著網絡深度增加,參數的梯度範數指數式減小的現象。
  • Softmax(假神經網絡)與詞向量的訓練
    假)深度學習訓練詞向量的原理」,今天就來測測各位同學對於sigmoid的理解程度啦~ 習慣性的交待一下前置鋪墊:1、詞袋模型、獨熱與詞向量概念掃盲2、sigmoid到softmax(至關重要)3、邏輯回歸4、邏輯回歸到神經網絡 總之,請務必清楚詞向量的概念,深刻理解softmax的概念和公式內的意義
  • 「等蹬等燈」...神經網絡訓練為何總是如此耗時?這三個原因為你...
    相信每個小夥伴都經歷過訓練算法時在電腦前默默苦等的日子,看著損失像烏龜一樣一點點的減小。很多時候不禁在想,訓練網絡怎麼會這麼久啊!這篇文章的作者從優化的角度道出了神經網絡訓練耗時的根源,並闡述了減小非線性優化問題串行複雜度的一系列障礙。
  • 貝葉斯神經網絡(系列)第一篇
    圖1:點估計作為權重的神經網絡 vs 概率分布作為權重的神經網絡。這篇文章是貝葉斯卷積網絡八個系列中的第一篇文章。 卷積神經網絡(CNN)是DNNs的一個變體,已經在圖像分類領域超越了人類的準確性。由於CNNs可以擬合各種非線性數據點,因此它們需要大量的訓練數據。這會導致CNN和一般的神經網絡經常在每類具有少量的訓練樣例上造成過擬合。神經網絡模型可以在訓練集上擬合的很好,但是不能很好的預測未曾出現的數據。