對抗樣本的基本原理

2020-12-17 雷鋒網

雷鋒網(公眾號：雷鋒網)AI科技評論按：本文首發於「兜哥帶你學安全」微信公眾號。

概述

對抗樣本是機器學習模型的一個有趣現象，攻擊者通過在源數據上增加人類難以通過感官辨識到的細微改變，但是卻可以讓機器學習模型接受並做出錯誤的分類決定。一個典型的場景就是圖像分類模型的對抗樣本，通過在圖片上疊加精心構造的變化量，在肉眼難以察覺的情況下，讓分類模型產生誤判。

在原理上介紹對抗樣本，以經典的二分類問題為例，機器學習模型通過在樣本上訓練，學習出一個分割平面，在分割平面的一側的點都被識別為類別一，在分割平面的另外一側的點都被識別為類別二。

生成攻擊樣本時，我們通過某種算法，針對指定的樣本計算出一個變化量，該樣本經過修改後，從人類的感覺無法辨識，但是卻可以讓該樣本跨越分割平面，導致機器學習模型的判定結果改變。

如何高效的生成對抗樣本，且讓人類感官難以察覺，正是對抗樣本生成算法研究領域的熱點。

梯度算法和損失函數

對抗樣本其實對機器學習模型都有效，不過研究的重點還是在神經網絡尤其是深度學習網絡領域。理解對抗樣本算法，需要一定的神經網絡的知識。在深度學習模型裡面，經常需要使用梯度算法，針對損失函數的反饋不斷調整各層的參數，使得損失函數最小化。損失函數可以理解為理想和現實之間的差距，通常定義一個函數來描述真實值和預測值之間的差異，在訓練階段，真實值就是樣本對應的真實標籤和預測值就是機器學習模型預測的標籤值，這些都是明確的，所以損失函數是可以定義和計算的。在分類問題中，常見的損失函數包括binary_crossentropy和categorical_crossentropy。

binary_crossentropy亦稱作對數損失,

categorical_crossentropy亦稱作多類的對數損失

機器學習模型訓練的過程就是不斷調整參數追求損失函數最小的過程。梯度可以理解為多元函數的指定點上升的坡度。梯度可以用偏導數來定義，通常損失函數就是這個多元函數，特徵向量就可以看成這個多元函數的某個點。在訓練過程中，針對參數的調整可以使用梯度和學習率來定義，其中學習率也叫做學習步長，物理含義就是變量在梯度方向上移動的長度，學習率是一個非常重要的參數，過大會導致損失函數的震蕩難以收斂，過小會導致計算緩慢，目前還沒有很成熟的理論來推導最合適的學習率，經驗值是0.001-0.1之間,迭代更新參數x的方法為：

xk+1=xk+ϵ∗grad(x)

當我們求函數的最大值時，我們會向梯度向上的方向移動，所以使用加號，也成為梯度向上算法。如果我們想求函數的最小值時，則需要向梯度向下的方向移動，也成為梯度下降算法。所以使用減號，比如求損失函數最小值是，對應迭代求解的方法為：

xk+1=xk−ϵ∗grad(x)

我們通過一個非常簡單的例子演示這個過程，假設我們只有一個變量x，對應的損失函數定義為：

f(x)=x2+2

根據梯度的定義，可以獲得對應的梯度為：

grad(x)=∂f(x)/∂(x)=2x

我們隨機初始化x，學習率設置為0.1，整個過程如下：

def demo():
import random
a=0.1
x=random.randint(1,10)
y = x * x + 2
index=1
while index < 100 and abs(y-2) > 0.01 :
y=x*x+2
print "batch={} x={} y={}".format(index,x,y)
x=x-2*x*a
index+=1

整個迭代過程最多100步，由於我們預先知道函數的最小值為2，所以如果當計算獲得的函數值非常接近2，我們也可以提前退出迭代過程，比如絕對值相差不超過0.01。最後果然沒讓我們失望，在迭代20次後就找到了接近理論上的最小點。

batch=14 x=0.329853488333 y=2.10880332377
batch=15 x=0.263882790666 y=2.06963412721
batch=16 x=0.211106232533 y=2.04456584141
batch=17 x=0.168884986026 y=2.02852213851
batch=18 x=0.135107988821 y=2.01825416864
batch=19 x=0.108086391057 y=2.01168266793
batch=20 x=0.0864691128455 y=2.00747690748

Keras裡面提供相應的工具返回loss函數關於variables的梯度，variables為張量變量的列表，這裡的loss函數即損失函數。

from keras import backend as K
k.gradients(loss, variables)

Keras也提供了function用於實例化一個Keras函數，inputs是輸入列表列表，其元素為佔位符或張量變量，outputs為輸出張量的列表

k.function(inputs, outputs, updates=[])

在進行神經網絡訓練時，追求的是損失函數最小，因此每輪訓練時，通過訓練集數據與模型的參數進行矩陣計算，獲得預測值，這一過程成為正向傳遞。然後通過計算預測值與目標值的損失函數，通過鏈式法則，計算出梯度值，然後根據梯度下降算法調整模型的參數值，這一過程成為反向傳遞。經過若干輪訓練後，損失函數下降到可以接受的程度，模型的參數也完成了調整，整個訓練過程結束。

攻擊InceptionV3模型

一般的卷積層只是一味增加卷積層的深度，但是在單層上卷積核卻只有一種，這樣特徵提取的功能可能就比較弱。Google增加單層卷積層的寬度，即在單層卷積層上使用不同尺度的卷積核，他們構建了Inception這個基本單元，基本的Inception中有1x1卷積核，3x3卷積核，5x5卷積核還有一個3x3下採樣，從而產生了InceptionV1模型。InceptionV3的改進是使用了2層3x3的小卷積核替代了5x5卷積核。以攻擊InceptionV3模型為例，介紹生成攻擊樣本的基本原理。Keras內置了這個模型，我們直接使用就可以了。從模型中直接獲取第一層的輸入作為輸入層，最後一層的輸出為輸出層。

model = inception_v3.InceptionV3()
model_input_layer = model.layers[0].input
model_output_layer = model.layers[-1].output

然後加載我們攻擊的圖片，比如我們的小豬。這裡需要特別強調的是，NumPy出於性能考慮，默認的變量賦值會引用同樣一份內存，所以我們需要使用np.copy手工強制複製一份圖像數據。

img = image.load_img("../picture/pig.jpg", target_size=(299, 299))
original_image = image.img_to_array(img)
hacked_image = np.copy(original_image)

為了避免圖像變化過大，超過肉眼可以接受的程度，我們需要定義閾值。

max_change_above = original_image + 0.01
max_change_below = original_image - 0.01

下面我們要定義最關鍵的三個函數了，我們定義損失函數為識別為烤麵包機的概率，因此我們需要使用梯度上升算法，不斷追求損失函數的最大化，變量object_type_to_fake定義的就是烤麵包機對應的標籤，在InceptionV3中麵包機的標籤為859。

object_type_to_fake = 859

有了損失函數以後，我們就可以通過Keras的接口獲取到對應的梯度函數。最後通過K.function獲取一個Keras函數實例，該函數的輸入列表分別為輸入層和當前是訓練模式還是測試模式的標記learning_phase()，輸出列表是損失函數和梯度。關於K.function的使用建議閱讀Keras的在線文檔。

cost_function = model_output_layer[0, object_type_to_fake]
gradient_function = K.gradients(cost_function, model_input_layer)[0]
grab_cost_and_gradients_from_model =
K.function([model_input_layer,K.learning_phase()],
[cost_function, gradient_function] )

下面我們就可以開始通過訓練迭代最終獲得我們需要的圖片了，我們認為烤麵包機的概率超過60%即可，所以我們定義損失函數的值超過0.6即可以完成訓練。我們設置使用訓練模式，learning_phase()標記為0，使用梯度上升的算法迭代獲取新的圖片內容。為了不影響肉眼識別，超過閾值的部分會截斷，這部分功能使用NumPy的np.clip即可完成。

while cost < 0.60:
cost, gradients = grab_cost_and_gradients_from_model([hacked_image, 0])
hacked_image += gradients * learning_rate
hacked_image = np.clip(hacked_image, max_change_below, max_change_above)
hacked_image = np.clip(hacked_image, -1.0, 1.0)

我們輸出梯度的內容，便於我們理解。

[[ 2.29095144e-06 4.88560318e-07 -1.26309533e-06]
   [ -1.21029143e-06 -7.01245654e-06 -9.00149917e-06]
   [ -8.28917791e-07 -3.46928073e-06 3.33982143e-06]
   ...,
   [ -2.91559354e-06 -8.72657665e-07 6.22621087e-07]
   [ 2.66754637e-06 1.84044097e-06 -2.53160965e-06]
   [ -4.96620885e-07 3.94217068e-07 -7.95937069e-07]]]]

訓練完成後，保存圖片即可。這裡需要說明的是，圖像保存到NumPy變量後，每個維度都是0-255之間的整數，需要轉換成-1到1之間的小數便於模型處理。保存成圖像的時候需要再轉換回以前的範圍。

img = hacked_image[0]
img /= 2.
img += 0.5
img *= 255.
im = Image.fromarray(img.astype(np.uint8))
im.save("../picture/hacked-pig-image.png")

在我的Mac本經過接近2個小時3070次迭代訓練，獲得了新的家豬圖像，但是機器學習模型識別它為烤麵包機的概率卻達到了95.61%，我們攻擊成功。在GPU伺服器上大致運行5分鐘可以得到一樣的結果。

總結

本章介紹了對抗樣本的基本原理，並以最簡單的梯度下降算法演示了生成對抗樣本的基本過程，大家可能會因為它的效率如此低而印象深刻。後面我們將進一步介紹常見的幾種生成對抗樣本的算法。

參考文獻

https://medium.com/@ageitgey/machine-learning-is-fun-part-8-how-to-intentionally-trick-neural-networks-b55da32b7196
https://blog.csdn.net/u012223913/article/details/68942581
Ian J. Goodfellow, Jonathon Shlens & Christian Szegedy，EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES，arXiv:1412.6572

雷鋒網版權文章，未經授權禁止轉載。詳情見轉載須知。

對抗樣本的基本原理

概述

梯度算法和損失函數

攻擊InceptionV3模型

總結

相關焦點

神經網絡中的對抗攻擊與對抗樣本

深度 | 生成對抗網絡初學入門:一文讀懂GAN的基本原理(附資源)

原創對抗樣本與生成式對抗網絡

你真的懂對抗樣本嗎?一文重新思考對抗樣本背後的含義

對抗樣本攻擊與防禦,MindSpore是怎麼做的?

深度神經網絡中的對抗樣本與學習7篇文章

ACL2020|使用強化學習為機器翻譯生成對抗樣本

清華大學廖方舟:產生和防禦對抗樣本的新方法 | 分享總結

清華大學團隊包攬三項冠軍,NIPS 2017對抗樣本攻防競賽總結

L2正則化視角下的對抗樣本

對抗樣本的反思:僅僅設置更小的擾動閾值 ε,或許並不夠

文本也有攻防戰:清華大學開源對抗樣本必讀論文列表

ACL 2018 俄勒岡大學:HotFlip:文本分類的白盒對抗樣本

從GAN到WGAN:生成對抗網絡背後的數學原理(一)

一文詳解生成對抗網絡(GAN)的原理,通俗易懂

復旦大學李林陽:應用預訓練模型實現對抗樣本生成的高效方法

要讓GAN生成想要的樣本,可控生成對抗網絡可能會成為你的好幫手

如何用 Caffe 生成對抗樣本?這篇文章告訴你一個更高效的算法

深入淺出:GAN原理與應用入門介紹

新加坡國立大學在讀博士張景鋒:基於對抗學習的模型魯棒性研究...