機器之心分析師網絡
作者:張雨嘉
編輯:H4O
本篇對彩票假說的發展及其擴展應用做了分析研究。
如今,深度學習在機器學習中佔有非常重要的地位。但隨著對深度學習的要求越來越多,需要的網絡層數越來越深,參數越來越多,消耗的計算資源也隨之擴張,而這很大程度上阻礙了其產業化應用和推廣
從上世紀 90 年代開始,Yan Lecun 等人【1】首先提出了神經網絡剪枝的思想,即將網絡中某些對輸出結果貢獻不大的參數進行剪除。這種方法可以大大提高模型運行速度,但同時會對模型準確度有一定影響。經過近 30 年的研究,現在的神經網絡剪枝技術可以減少訓練網絡時 90% 以上的參數,以減少存儲需求,提高模型的推理計算性能。通常的網絡剪枝步驟如下圖 1 所示,首先訓練一個大的、過參數化的模型,然後根據一定的準則對訓練過的模型參數進行修剪,最後將修剪過的模型微調以獲得失去的精度。
圖 1 經典網絡剪枝步驟
然而,既然一個網絡可以縮小規模,為什麼我們不直接訓練這個較小的體系結構,使訓練更有效率呢?但是人們通過長期實驗發現,網絡越稀疏,訓練越難、學習速度越慢,所以剪枝產生的稀疏體系結構網絡很難從一開始就進行訓練。
1. 提出「彩票假說」
隨著網絡剪枝研究的深入,Jonathan Frankle 等人【2】發表了一篇名為《The Lottery Ticket Hypothesis :Finding Sparse Trainable Neural Networks》的論文,並獲得了 2019 年 ICLR 最佳論文獎。他們發現了一種標準剪枝技術,可以從龐大的原網絡中自然地揭示出子網絡,並採用合適的初始化使它們能夠有效地訓練。這種可訓練的子網絡及其初始化參數被稱為「中獎彩票」,作者用 Lenet、Conv-2、Conv-4、Conv-6 結構驗證了「中獎彩票」(圖 2 實線)的優勢。橫軸代表網絡的稀疏性 Pm,例如 Pm=25 時 75% 的權值被修剪。中獎票可以較快進行訓練,並達到與原網絡相似的精度。
圖 2 不同網絡剪枝結果
基於此,作者提出了論文的核心思想——「彩票假說」。即隨機初始化的密集神經網絡包含一個初始化的子網絡(winning ticket),當它進行隔離訓練時可以與原始網絡的測試精度相匹配。與理論相對應的剪枝方法可以自動從全連接和卷積前饋網絡中找到這種可訓練的子網絡。其基本步驟為:
隨機初始化神經網絡 f(x;θ)訓練 j 次迭代網絡,得出參數θj對θj 中參數的 p% 進行修剪,生成掩碼。用θj 中的剩餘參數初始化結構,產生中獎票。從第三步可以看出,這種剪枝方法是一次性(one-shot)的:訓練一次網絡,修剪 p% 的權重,重置剩餘的權重。然而,作者將重點放在迭代(iteration)剪枝上(如圖 3),它反覆地訓練、修剪並重置網絡。實驗發現,當與原始網絡的精度相匹配時,迭代剪枝可以提取到較小的獲勝票,但重複訓練也意味著它們的查找成本很高。
圖 3 不同初始化和剪枝方法下的網絡性能
中獎票的初始化與中獎票結構同樣重要,從左圖可以看出,隨機初始化的網絡(Random Renit)比用原來網絡初始化(Winning Ticket)的學習速度慢,在修剪率很小時就失去了測試精度。
作者在全連接網絡 Lenet 上用 MNIST 數據集按迭代剪枝的方法進行訓練,結果見圖 4,繪製了訓練中獎彩票迭代修剪到不同程度時的平均測試精度,label 為不同修剪程度。當 Pm>21.1 時,網絡越修剪,學習速度變快(左圖)。當 Pm<21.1 學習速度減慢(中圖),當 Pm=3.6% 時,中獎彩票會回到原來網絡相似的表現。大部分中獎票的準確率明顯高於原始網絡,這意味著中獎彩票的訓練精度和測試精度之間的差距較小,泛化能力有所提高。
圖 4 不同修剪率下的 Lenet 測試精度
之後,作者還用 Cifar-10 數據集在卷積網絡上進行了相同的實驗,得到了與前面相同的結論。隨著網絡的修剪,中獎彩票與原始網絡相比,學習速度更快,測試精度更高,泛化能力更強。同時證明了 Dropout——2012 年 Hinton 等人【3】提出通過隨機禁用每次訓練中的一小部分(即隨機採樣一個子網絡)來提高測試精度——在中獎票的訓練中同樣適用。從圖 5 中看出,Dropout 可以提高初始測試精度,但學習速度變慢。所以需要以互補的方式同時採用迭代剪枝策略與 Dropout,以更快找到中獎彩票。
圖 5 Dropout 對網絡剪枝的影響
最後,為了證明在更深層網絡中中獎彩票的有效性,作者在 VGG 和 ResNet 網絡中找尋中獎票。與前面以相同比例分別修剪每一層的 Lenet 和 Conv-2/4/6 不同,ResNet-18 和 VGG-19 是在所有卷積層中修剪貢獻較低的權值(Global Pruning)。因為對於這些更深的網絡,有些層的參數遠多於其他層。如果所有層都以同樣的比例修剪,這些較小的層就會成為瓶頸,阻止我們找出結構最小的中獎票。
圖 6 不同學習率下的 VGG-19 剪枝
不過從實驗結果(圖 6)發現,在較高的學習率下,迭代剪枝找不到中獎票,並且性能比剪枝網絡隨機初始化時更差。但在較低的學習率時,可以得出與之前相同的結論:在 Pm≥3.5 時,子網絡比原網絡的精度始終高 1%。如果隨機重新初始化(rand reinit),子網絡又會失去準確性。
為了彌補學習率較高時中獎票低性能問題,作者提出了線性學習速率熱身(warmup)方法,即在 k 次迭代中從學習率 0 到初始值。從圖中綠線可以看出,warmup 提高了高學習率下的測試精度,使找到中獎彩票成為可能。不過在 ResNet 上的實驗結果卻說明,通過熱身訓練的中獎票雖然縮小了與未修剪網絡的準確性差距,但仍有可能找不到中獎票。不過這些實驗仍能給我們一些啟發,比如如何設計更好的網絡結構、進一步提高模型性能等。
2. 假說爭議探討
大膽的「彩票假說」理論一經發布,也引發了相關領域學者的注意。在 ICLR 上同年發表的另一篇名為《Rethinking the Value of Network Pruning》【4】的論文中,Liu 等人對「彩票假說」進行了重新實驗並提出了異議。
Liu 與 Jonathan Frankle使用相同的非結構化剪枝方法時,高學習率下的原網絡初始化對網絡剪枝沒有顯著影響,只在低學習率下對模型有些許提高(圖 7)。但 Facebook 的田淵棟團隊在論文《One ticket to win them all: generalizing lottery ticket initializations across datasets and optimizers》【5】中也指出 warmup 對高學習率下的網絡剪枝是非常必要的,而 Liu 等人在實驗中並沒有實現。
圖 7 不同學習率和初始化下網絡剪枝性能
並且對於隨機初始化的問題,Liu 也進行了進一步研究(圖 8)。中獎票只在非結構化剪枝下、初始學習率較小時有效,其餘時候不如隨機初始化的性能好。而且與大學習率相比,這種小學習率的準確性明顯較低。不過這組實驗只考慮了 One-shot 方法,至於在迭代剪枝上是否有相同結論還有待探討。
圖 8 一次剪枝下的網絡性能
3. 擴充並改進「彩票假說」
論文連結:https//arxiv.org/pdf/1903.01611.pdf
「彩票假說」最被人質疑的地方在於數據集,實驗只採用了 MNIST 和 Cifar-10 這種較小的簡單數據集,而對更普遍的 Cifar-100 和 ImageNet 數據集並沒有進行研究。不過,Jonathan Frankle 和田淵棟等人很快都進行了實驗補充。
Jonathan Frankle 在《Stabilizing the Lottery Ticket Hypothesis》【6】中對「彩票假說」進行了更深層次的研究。為了證明新的迭代剪枝方法(IMP)在大數據集的有效性,圖 9 顯示了在 ImageNet 數據集上執行不同代 rewinding 方法的效果。rewinding 是對剪枝網絡初始化的一種新方法,將修剪過的子網絡權重設為第 k 次迭代時的值,而不是像「彩票假說」中一樣將它們 resetting 為第 0 次迭代的值。
圖 9 rewind 對中獎彩票的影響
在這些大數據集支撐的更深層次的網絡上的實驗,IMP 沒有任何證據支持 Frankle 和 Carbin 在「彩票假說」裡的假設:rewind to 0 比隨機初始化(reinit)時能找到能力更好的子網絡。但是,rewinding 在訓練開始的幾代內,可以找到具有這些優良性能的子網絡。
從圖 9 也能看出,當隨機重新初始化(橙色線)或重置為 0 次迭代(虛線藍線)時,任何程度修剪的子網絡都會失去準確性,這說明 rewind 得到的權重是必不可少的。之後作者又引入了子網絡穩定性概念:同一子網絡受到兩個不同噪音影響時產生的差異。提高剪枝的穩定性意味著子網絡更接近原始網絡的最優情況,從而具有更高的準確性。而穩定性的衡量來源於兩方面:pruning,隔離訓練的子網絡權重與在較大網絡內訓練的同一子網絡權重之間的距離;data order,用不同順序的數據訓練的子網絡權重之間的距離。
圖 10 網絡穩定性比較
圖 10 中,在 VGG19 網絡上對 rewinding 對剪枝網絡穩定性影響的實驗中,橫軸為 rewinding 重設迭代的次數,procedure 為「彩票假說」中尋找中獎票的迭代剪枝(IMP)方法,random 則為隨機剪枝方法。第一行為 data order 距離,第二行為 pruning 距離。而 L2 距離是衡量穩定方法的一種,距離越小,網絡越穩定,性能越好。隨著 rewinding 次數增加,L2 距離大多減小,IMP 子網絡的穩定性與重設為 0 次迭代時的穩定性相比有了很大的提高。從第三行的實驗中,也可證明 IMP 發現的中獎票比隨機子網絡表現出更高的準確性。
總之,IMP 子網絡比 one-shot 方法更加穩定,可以達到更高的精度。Rewinding 比初始化為 0 代權值的方法找到的子網絡準確率更高。但「彩票假說」的核心思想依舊適用——在網絡訓練的早期進行剪枝;然而,這樣做最有效的時刻應該晚於初始化。
而田淵棟則從另一個方面證明了「彩票假說」在大數據上的有效性。他們用在一個數據集上生成的中獎票推廣到同一領域內的不同數據集上,包括 Fashion-MNIST,SVHN,Cifar-10,Cifar-100,ImageNet 和 Places365 數據集。從圖 11 的對比試驗中發現,在所有數據集上找到的中獎票應用於其他目標數據集上時,其性能與在目標數據集上生成的中獎彩票性能相近。這表明,中獎票所提供的優勢中有很大一部分是與數據集無關的(至少在同一領域內)。我們可以生成一次中獎票,但在不同的任務中多次使用,這樣可以大大減少尋找中獎票的時間。
圖 11 中獎彩票轉移實驗
而且在更大、更複雜數據集上生成的中獎票性能遠遠優於小數據集。例如在 ImageNet 和 Places365 數據集上生成的中獎票應用於其他數據集上時,都具有更強的競爭力。當大網絡非常過度參數化地處理小數據集時,比如將 VGG19 應用於 Fashion-MNIST 時,發現轉移中獎票的性能明顯優於在 Fashion-MNIST 本身產生的中獎票,這也為我們提供了另一種處理網絡過擬合的方法。
4. 假說的多領域應用
論文連結:https://arxiv.org/pdf/1906.02768.pdf
另有一些學者又提出了質疑:中獎彩票是否為自然圖像分類領域出現的特例,還是同樣適用於其他領域?Facebook 的田淵棟團隊在 2020 年 ICLR 上發布的論文《PLAYING THE LOTTERY WITH REWARDS AND MULTIPLE LANGUAGES: LOTTERY TICKETS IN RL AND NLP》【7】可能能解答這一疑惑。
他們發現「彩票假說」並不局限於對自然圖像的監督學習,而是代表了 DNN 中一個更廣泛的現象,存在於自然語言處理 (NLP) 和強化學習 (RL) 領域。對於 NLP,我們研究了經典的長短期記憶網絡(LSTM)模型和用於機器翻譯的 Transformer 模型;在 RL 領域則分析了一個經典控制問題和 Atari 遊戲。
首先,在 Wikitext-2 數據集上對 LSTM 模型的實驗中發現,在所有修剪程度上,有 last rewind(即 lr)的中獎票性能明顯優於隨機票(圖 12)。有趣的是,去除 lr(綠色線)對模型性能只有輕微的損壞。這表明對於 LSTM 語言模型來說,lr 方法不太重要。但是迭代修剪是必不可少的,比如使用一次修剪方法(one-shot)時,一旦 80% 的參數被修剪模型性能會急劇下降。這些結果共同驗證了中獎彩票在 LSTM 語言模型的有效性。
圖 12 LSTM 模型實驗
另外在強化學習的應用中,作者在經典控制中選擇了三個遊戲:Cartpole-v0、Acrobot-v1 和 Lunar Lander-v2,並使用了一個簡單三隱層的全連接模型。結論則與圖像分類的結果一致(圖 13),幾乎在所有剪枝程度上,中獎票的得分都超過隨機初始化的網絡。
圖 13 RL 控制模型實驗
因此,田淵棟團隊認為,彩票假說現象並不局限於有監督的圖像分類,而是代表了深層神經網絡訓練的一般特徵。但 Frankle 等人也提出,「彩票假說」的 IMP 方法沒有提出一種有效方法來在 rewinding 中找到那些性能優異子網絡(即中獎票)。而且採用的核心剪枝技術是非結構化的,與結構化剪枝沒有進行有效對比。
不過,大膽的「彩票假說」確實為網絡的早期剪枝提供了新視角和方法。暗示了未來技術以識別小的、可訓練的子網絡,並能夠匹配通常訓練的較大網絡的準確性為目標。通過網絡穩定性的研究,對人們開發新的技術來保持網絡剪枝時的穩定性有所益處。未來,也希望該理論可以在更深層次的網絡中有所表現,在更多的領域有所貢獻。
參考文獻
【1】Yann LeCun, John S Denker, and Sara A Solla. Optimal brain damage. In Advances in neural information processing systems, pp. 598–605, 1990.【2】Jonathan Frankle and Michael Carbin. The lottery ticket hypothesis: Finding sparse, trainable neural networks. In International Conference on Learning Representations, 2019.【3】Geoffrey E Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, and Ruslan R Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.【4】Zhuang Liu, Mingjie Sun, Tinghui Zhou, Gao Huang, and Trevor Darrell. Rethinking the value of network pruning. In International Conference on Learning Representations, 2019.【5】Morcos, Ari, et al. One ticket to win them all: generalizing lottery ticket initializations across datasets and optimizers. Advances in Neural Information Processing Systems. 2019.【6】Frankle, Jonathan, et al. "Stabilizing the Lottery Ticket Hypothesis." arXiv, page.2019.【7】Yu, Haonan, et al. Playing the lottery with rewards and multiple languages: lottery tickets in RL and NLP. arXiv preprint arXiv:1906.02768, 2019
分析師簡介:張雨嘉,現在西安理工大學攻讀模式識別方面的碩士學位,主要研究基於深度學習的圖像視頻處理方法,對機器學習也抱有極大的興趣。作為機器之心技術分析師的一員,希望能跟各位一起研究探討,共同提高學習。
關於機器之心全球分析師網絡 Synced Global Analyst Network
機器之心全球分析師網絡是由機器之心發起的全球性人工智慧專業知識共享網絡。在過去的四年裡,已有數百名來自全球各地的 AI 領域專業學生學者、工程專家、業務專家,利用自己的學業工作之餘的閒暇時間,通過線上分享、專欄解讀、知識庫構建、報告發布、評測及項目諮詢等形式與全球 AI 社區共享自己的研究思路、工程經驗及行業洞察等專業知識,並從中獲得了自身的能力成長、經驗積累及職業發展。