作者 | 楊宇喆
論文連結:https://openaccess.thecvf.com/content_CVPR_2020/papers/Guo_When_NAS_Meets_Robustness_In_Search_of_Robust_Architectures_Against_CVPR_2020_paper.pdf
源碼地址:https://github.com/gmh14/RobNets
為了提高深度神經網絡的對抗魯棒性,現有工作集中於研究對抗學習算法或損失函數來增強網絡魯棒性。
在這項工作中,我們從神經網絡結構的角度出發,研究了可抵抗對抗攻擊的神經網絡結構的模式。為了獲得本研究所需的大量網絡,我們採用了One shot神經網絡結構搜索(NAS),對一個super-net進行一次訓練,然後對從中採樣的子網絡進行了對抗微調。採樣的網絡結構及其魯棒性精度為我們的研究提供了豐富的基礎。
我們的「魯棒的神經網絡結構」研究揭示了一些有價值的觀察結果:
1)密集連接的網絡模式可提高神經網絡魯棒性;
2)在有限的模型容量預算下,將卷積運算添加到直連邊是更有效的;
3)FSP(Flow ofSolution Procedure,解決程序流程)矩陣流是檢驗網絡魯棒性的良好指標。
基於這些觀察,我們發現了一系列魯棒的網絡結構(RobNets)。在CIFAR,SVHN,Tiny-ImageNet和ImageNet等大量數據集上,RobNets表現出相比於其他廣泛使用的網絡結構(如ResNet,DenseNet)更高的魯棒性。值得注意的是,RobNets即使在參數數量較少的情況下,也能在白盒和黑盒攻擊下大幅提高魯棒性(絕對增益約為5%)。
深度神經網絡容易受到對抗樣本攻擊:在對抗攻擊下,自然數據(如圖像)會受到人類難以察覺的對抗噪聲幹擾,從而使得神經網絡產生完全錯誤的輸出。為了提高網絡的魯棒性,研究者們提出了大量對抗防禦的方法,其中的主要關注點包括對抗學習算法,損失/正則化函數,以及圖像預處理等。然而,還沒有相關研究探討過與現有防禦機制的一個正交的方面:神經網絡結構本身對其抵禦對抗樣本的影響。在這項工作中,我們嘗試從神經網絡結構的角度去系統地分析、理解神經網絡的對抗魯棒性。具體來說,我們旨在回答以下問題:
什麼樣的神經網絡結構模式是對於對抗魯棒性是至關重要的?
給定一定模型容量的預算,如何分配網絡結構的參數以有效地提高網絡的魯棒性?
魯棒的神經網絡結構的統計指標是什麼?
為了回答上述問題,我們需要訓練大量具有不同網絡結構的神經網絡,並評估其魯棒性以得出結論。然而,這個過程非常耗時,尤其當我們需要引入對抗訓練。針對這個問題,我們提出採用One shot神經網絡結構搜索(NAS)的方法,使得我們可以同時一次性在眾多網絡結構之間評估魯棒性。具體來說,我們首先訓練一個super-net,然後我們從中對網絡結構進行採樣,並對候選子網絡finetune幾個epoch,以在對抗攻擊下獲得較高的魯棒性。我們的研究與分析表明了魯棒的神經網絡具有以下的性質:
1)我們在搜索空間中對1,000個網絡結構進行了統計分析,發現網絡結構密度與對抗精度之間存在很強的相關性。這表明密集連接的模式可以顯著提高網絡的魯棒性。
2)我們在三種不同的模型容量預算下限制參數的數量,並通過實驗發現,在直連邊添加卷積運算對於提高模型的魯棒性更為有效,尤其是對於較小的模型容量預算而言。
3)我們發現原始數據和對抗樣本之間的FSP(Flow of Solution Procedure)的距離可以很好地指示網絡的魯棒性。
基於這些觀察,我們搜索並設計了一系列魯棒的網絡結構,稱為RobNets。我們在CIFAR,SVHN,Tiny-ImageNet和ImageNet等數據集上進行大量實驗,結構表明RobNets相比與廣泛使用的網絡結構,在對抗攻擊下具有更好的魯棒性。
1、 搜索框架
1)魯棒搜索空間
我們的工作與傳統NAS工作在搜索空間上的主要區別在於兩個方面:1)我們減少了搜索空間中候選操作總數,僅剩下:3×3 depth convolution,identity和zero三種操作。這有助於減輕對抗訓練的負擔,同時在搜索空間中保留足夠多的候選網絡結構。2)我們不限制兩個中間節點之間的最大操作數(可以多於一種操作,如同時有convolution和identity)。如圖所示,這種設計保證搜索空間能夠包含更多網絡結構,一些經典的人工設計結構也在其中,例如ResNet和DenseNet。
2)魯棒搜索算法
我們基於One shot NAS方法[1]開發了魯棒搜索算法。具體而言,我們將網絡結構參數α中的所有元素設置為1,以獲得包含所有可能網絡結構的super-net。在super-net的訓練階段,對於每批訓練數據,我們從super-net中隨機採樣候選子網絡結構(通過隨機將α中的某些元素設置為0),隨後通過PGD [2]生成對於採樣子網絡的對抗樣本,並進行對抗訓練以最大程度地減少對抗損失。這種機制可確保訓練過程中產生的對抗樣本並非僅由一個特定網絡結構產生。
3)魯棒性評價
經過上述訓練過程獲得supernet後,我們可以通過從supernet中隨機採樣並繼承權重來收集候選子網絡結構。我們發現,通過對抗訓練對候選子網絡finetune僅幾個epoch,其在驗證數據集上的性能就可以顯著提高。下圖展示了對1000個隨機採樣的候選子網絡結構進行finetune之前和之後的對抗精度對比。可以清楚地看到,魯棒性已經大大提高了。
4)魯棒網絡結構統計結果
我們對上述獲得的1000個候選子網絡進行了統計分析,首先將這1000個網絡結構按照對抗精度進行排序,然後將排序前300的網絡標為1,排序後300的網絡標為-1,針對網絡結構參數α分別進行了t-SNE和線性分類。如下圖所示,在兩個類別間,網絡結構參數α的低維空間映射具有清晰的邊界,同時線性分類器的所有權重參數值都大於0。
通過直接比較網絡結構密度與對抗精度之間的關係(如下圖),我們發現二者之間存在很強的相關性。這表明密集連接的模式可以顯著提高網絡的魯棒性。
2、不同預算下的結構策略
我們考慮三種不同的計算預算。由於每個cell中最大卷積操作數為14,因此我們將卷積總數小於7設置為小型預算,8到10個設置為中等預算,大於11設置為大型預算。對於每個預算,我們隨機抽樣100個網絡結構,並評估其對抗精度,並計算所有卷積中位於直連邊上的卷積個數的比例。如下圖所示,對抗精度在不同預算之間有明確的界限。此外,對於中小型預算,直連邊上卷積個數的比例與對抗精度呈正相關。這表明對於較小的計算預算,將卷積添加到直連邊可以有效地提高網絡的魯棒性。我們還注意到,對於大型預算,這種現象並不明顯。我們推測,對於預算較大的網絡結構,密集連接的模式將主導網絡魯棒性。根據以上結果,我們得出以下結論:在較小的計算預算下,將卷積運算添加到直連邊會更有效地提高模型的魯棒性。
受到TRADES [3]啟發,我們提出一種魯棒網絡結構的統計指標。TRADES是一種損失函數,該函數使對抗樣本與其對應的原始數據之間的logit分布的KL散度最小。該損失函數的值可用作網絡魯棒性與其原始數據精度之間差距的度量。我們不關注網絡的最終輸出,而是考慮網絡中間單元之間的特徵流。具體來說,我們計算網絡結構中每個cell上的Gramian矩陣,表示為FSP [4]。FSP矩陣計算如下:與之前類似,我們採樣不同的網絡結構,評估每個網絡結構在原始數據精度和對抗精度的差距,並計算了網絡中每個cell的FSP矩陣距離。如下圖所示, 我們可以觀察到,對於位於網絡較深位置的cell,其FSP距離與此網絡的原始數據精度和對抗精度的差值呈正相關。據此得出結論,魯棒的網絡在較深的網絡cell中具有較低的FSP矩陣距離。
通過上述三個發現,我們訓練並選擇一組具有代表性的RobNet模型進行評估。我們將訓練的RobNet系列模型與目前廣泛使用的人工設計模型進行比較,發現RobNets表現出更好的魯棒性;RobNets即使在參數數量較少的情況下,也能在白盒和黑盒攻擊下大幅提高魯棒性。在CIFAR10和ImageNet上的結果如下表,更多實驗結果詳見論文。
CIFAR10:
ImageNet:
參考文獻:
[1] Bender, G., Kindermans, P. J., Zoph, B., Vasudevan, V.,& Le, Q. Understanding and simplifying one-shot architecture search. In ICML 2018
[2] Madry, A., Makelov, A.,Schmidt, L., Tsipras, D., & Vladu, A. Towards deep learning modelsresistant to adversarial attacks. In ICLR2018.
[3] Zhang, H., Yu, Y., Jiao,J., Xing, E. P., Ghaoui, L. E., & Jordan, M. I. Theoretically principledtrade-off between robustness and accuracy. In ICML 2019
[4] Yim, J., Joo, D., Bae,J., & Kim, J. A gift from knowledge distillation: Fast optimization,network minimization and transfer learning. In CVPR 2017
作者:楊宇喆,MIT計算機科學與人工智慧實驗室博士生,研究方向為無線感知和機器學習。個人主頁:https://www.mit.edu/~yuzhe/
AI 科技評論希望能夠招聘 科技編輯/記者
辦公地點:北京、深圳
職務:以跟蹤學術熱點、人物專訪為主
工作內容:
1、關注學術領域熱點事件,並及時跟蹤報導;
2、採訪人工智慧領域學者或研發人員;
3、參加各種人工智慧學術會議,並做會議內容報導。
要求:
1、熱愛人工智慧學術研究內容,擅長與學者或企業工程人員打交道;
2、有一定的理工科背景,對人工智慧技術有所了解者更佳;
3、英語能力強(工作內容涉及大量英文資料);
4、學習能力強,對人工智慧前沿技術有一定的了解,並能夠逐漸形成自己的觀點。