在本文中,我們提出了一種新穎的隱式語義數據擴增 ISDA 方法,以補充諸如翻轉,平移或旋轉之類的傳統擴充技術。我們的工作受到有趣的屬性的啟發,即深層網絡擅長於線性化特徵,從而使深層特徵空間中的某些方向對應於有意義的語義轉換,例如添加陰影或更改背景。因此,在特徵空間中沿許多語義方向翻譯訓練樣本可以有效地擴充數據集以提高泛化能力。為了有效且高效地實現這一思想,我們首先對每個類別的深度特徵的協方差矩陣進行在線估計,以獲取類別內語義的變化。然後從具有估計協方差的零均值正態分布中提取隨機向量,以增強該類別中的訓練數據。重要的是,我們可以直接最小化增強訓練集上期望交叉熵(CE)損失的上限,而不是顯式地增強樣本,從而得到了一種高效算法。實際上,我們證明了所提出的 ISDA 可以最大程度地減少健壯 CE 損失,從而給正常訓練過程增加了可忽略的額外計算成本。儘管 ISDA 很簡單,但它不斷提高了流行的深度模型 ResNet 和 DenseNet 在各種數據集(例如 CIFAR 10,CIFAR 100 和 ImageNet)上的泛化性能。可在以下位置獲得用於重現我們結果的代碼:https://github.com/blackfeatherwang/ISDA-for-Deep-Networks。vZVEETC-電子工程專輯
數據增強是一種有效的技術,以緩解訓練深度網絡[1,2,3,4,5]中的過擬合問題。在圖像識別的背景下,這通常對應於在輸入樣本上應用保留內容的轉換,例如裁剪、水平鏡像、旋轉和顏色抖動。這些增強技術雖然有效,但不能進行語義轉換,例如改變對象的背景或前景對象的紋理。最近的工作表明,如果允許語義轉換(類標識保持),數據增強技術可能更強大[6,7,8]。例如,通過為訓練集中的每個類訓練一個生成性對抗網絡(GAN),就可以從生成器中採樣無限數量的樣本。不幸的是,這個過程在計算上是密集的,因為訓練生成模型並推斷它們以獲得增強樣本是不簡單的任務。此外,由於數據量的增加,訓練過程也可能會延長。vZVEETC-電子工程專輯
本文提出了一種用於訓練深度圖像識別網絡的隱式語義數據擴增(ISDA)算法。ISDA 是高效的,因為它不需要訓練/推斷輔助網絡或顯式地生成額外的訓練樣本。我們的方法是由最近的工作所做的有趣的觀察所驅動的,這些觀察表明網絡中的深層特徵通常是線性化的[9,10]。具體來說,在深層特徵空間中存在許多語義方向,使得沿著這些方向中的一個數據樣本被翻譯成一個特徵表示,對應於具有相同類標識但語義不同的另一個樣本。例如,某一方向對應於「戴眼鏡」的語義翻譯。當一個不戴眼鏡的人的特徵沿著這個方向被翻譯時,新的特徵可能對應於同一個戴眼鏡的人(新圖像可以使用適當的算法顯式重建,如[9]所示)。因此,通過搜索許多這樣的語義方向,我們可以有效地擴充訓練集,以補充傳統的數據增強技術。vZVEETC-電子工程專輯
然而,顯式地找到語義方向並不是一項簡單的任務,這通常需要大量的人工注釋[9]。相反,隨機採樣方向是有效的,但可能會導致無意義的轉換。例如,對」car」類應用」make-beaspeacled」轉換是沒有意義的。在本文中,我們採用了一種簡單的方法,在有效性和效率之間取得了很好的平衡。具體地說,我們對每個類的特徵協方差矩陣進行在線估計,從而捕獲類內的變化。然後,我們從零均值多元正態分布與估計的協方差中採樣方向,並將其應用於該類別中訓練樣本的特徵以擴充數據集。這樣,生成無意義的語義轉換的機率可以大大降低。vZVEETC-電子工程專輯
為了進一步提高效率,我們用所提出的數據增強方案導出了期望交叉熵(CE)損失的封閉形式上界。因此,我們可以直接最小化上界,而不是顯式地執行增強過程,這實際上是一種新的魯棒損失函數。由於不需要生成顯式的數據樣本,我們將我們的算法稱作隱式語義數據擴增(ISDA)。與現有的語義數據增強算法相比,我們所提出的 ISDA 可以在大多數深層模型之上方便地實現,而不需要引入輔助模型或額外的計算成本。vZVEETC-電子工程專輯
雖然 ISDA 算法簡單,但是它的有效性令人驚訝,並且很好地補充了現有的非語義數據擴增技術。我們對幾種有競爭力的圖像分類基準進行了大量的實證分析,結果表明,ISDA 能夠有效地提高常用深度網絡的泛化性能,特別是在訓練數據較少和傳統增強技術的情況下。vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
在本節中,我們簡要回顧了現有的相關課題研究。vZVEETC-電子工程專輯
數據擴增技術是一種廣泛應用於深度網絡訓練的方法。例如,在圖像識別任務中,應用諸如隨機翻轉、鏡像和旋轉等數據增強技術來增強卷積網絡中的某些不變性[4,5,3,11]。最近,提出了自動數據擴增技術,如 AutoAugment[12],以在大量候選對象中尋找更好的擴充策略。與我們的方法類似,具有邊緣化損壞特徵的學習[13]可以看作是一種隱式數據擴增技術,但它僅限於簡單的線性模型。另一方面,最近的研究表明,將類標識保持轉換(如改變對象背景或改變視角)應用於訓練數據的語義數據擴增技術也是有效的[14,15,6,8]。這通常是通過生成具有特殊深度結構的額外語義轉換訓練樣本來實現的,如 DAGAN[8]、域適應網絡[15]或其他基於 GAN 的生成器[14,6]。雖然這些方法是有效的,但由於需要預先訓練生成模型並在訓練過程中進行推斷,這些方法實現起來並不容易,而且計算成本也很高。vZVEETC-電子工程專輯
魯棒損失函數。如文中所示,ISDA 相當於最小化一個新的魯棒損失函數。因此,我們就這一課題的相關工作作一簡要回顧。近年來,人們提出了幾種用於深度學習的魯棒損失函數。例如,Lqloss[16]是由負 Box-Cox 變換導出的交叉熵(CE)損失和平均絕對誤差(MAE)損失的一種平衡噪聲魯棒形。focus loss[17]將高權重附加到稀疏的硬示例集上,以防止大量簡單樣本主導網絡的訓練。在[18,19,20]中提出了引入較大的 CE 損耗裕度的想法。在[21]中,將 CE 損失和對比損失結合起來,以學習更多的區分特徵。從相似的角度來看,中心損失[22]同時學習了每個類別的深層特徵的中心,並區別對待了特徵空間中樣本與它們對應的類別中心之間的距離,從而增強了類別內的緊湊性和類別間的可分離性。vZVEETC-電子工程專輯
深層特徵空間中的語義轉換。我們的工作源於這樣一個事實:由深卷積網絡學習的高級表示可以潛在地捕獲語義抽象[23,10]。事實上,在特定方向上翻譯深層特徵與對輸入圖像執行有意義的語義轉換相對應。例如,深度特徵插值[9]利用預先訓練的神經網絡對深度特徵的簡單插值來實現語義圖像轉換。基於變分自動編碼器(VAE)和生成對抗性網絡(GAN)的方法[24,25,26]建立了一個與圖像抽象相對應的潛在表示,可對其進行操作以編輯圖像的語義。一般來說,這些方法揭示了深層特徵空間中的某些方向對應於有意義的語義轉換,並可用於執行語義數據擴增。vZVEETC-電子工程專輯
眾所周知,深度網絡擅長於在深層特徵空間[4,5,9,27]中形成高層次的表示,樣本之間的語義關係可以通過特徵的相對位置來捕捉[10]。以往的研究表明,當特徵映射到輸入空間時,向特定方向轉換特徵對應於有意義的語義轉換[9,28,10]。在此基礎上,我們提出在特徵空間中直接擴充訓練數據,並將此過程整合到深層模型的訓練中。vZVEETC-電子工程專輯
隱式語義數據擴增(ISDA)包含兩個重要組成部分,即類條件協方差矩陣的在線估計和魯棒損失函數的優化。第一個組件的目標是找到一個分布,我們可以從中抽取有意義的語義轉換方向來進行數據擴增,而第二個組件可以避免顯式地生成大量額外的訓練數據,與現有的數據擴增技術相比,ISDA 具有顯著的效率。vZVEETC-電子工程專輯
如前所述,深層特徵空間中的某些方向對應於有意義的語義轉換,如「make-bespectacled」或「change-view-angle」。這促使我們通過在深層特徵上應用這種語義轉換來擴充訓練集。然而,對於大規模的問題,人工搜索語義方向是不可行的。為了解決這個問題,我們建議從一個零均值的正態分布和一個與類內協方差矩陣成比例的協方差中抽樣隨機向量來近似該過程,該協方差矩陣捕獲了該類樣本的方差,因此很可能包含豐富的語義信息。vZVEETC-電子工程專輯
直觀地說,person 類的特徵可能會沿著「make-bespectacled」的方向變化,而在「has puller」方向上幾乎沒有變化,這種變化只出現在其他類,如 plane 類中。我們希望每個類的協方差矩陣的主成分能很好地表示每個類的有意義變換對應的方向。vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
顯然,簡單實現在 M 很大的時候計算效率很低,因為特徵集會被放大 M 倍。下面,我們考慮 M 增長到無窮大的情況,並發現損失函數可以得到一個易於計算的上界,從而得到了一個高效的實現。vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
在這一部分中,我們在幾個廣泛使用的圖像分類基準,即 CIFAR-10、CIFAR-100[1]和 ImageNet[29]上對所提出的算法進行了實證驗證。我們首先在這些數據集上評估不同深度網絡架構下 ISDA 的有效性。其次,在標準基線增強的基礎上,我們應用了最近提出的幾種非語義圖像增強方法,並研究了 ISDA 的性能。第三,我們比較了最新的魯棒損失函數和基於生成器的語義數據擴增算法。最後,進行消融研究,以檢查每個成分的有效性。我們還藉助生成網絡在原始輸入空間中可視化增強樣本。vZVEETC-電子工程專輯
數據集。我們在實驗中使用了三個圖像識別基準。(1)兩個 CIFAR 數據集由 CIFAR-10 的 10 個類中的 32x32 彩色自然圖像和 CIFAR-100 的 100 個類中的 32x32 彩色自然圖像組成,其中 50000 個圖像用於訓練,10000 個圖像用於測試。在我們的實驗中,我們從訓練集中拿出 5000 幅圖像作為驗證集來搜索超參數 λ0。這些樣本在選擇最優 λ0 後也用於訓練,並報告了在測試集上的結果。採用通道均值和標準差對圖像進行歸一化預處理。對於訓練集的非語義數據擴增,我們遵循[30]中的標準操作:在圖像的每側填充 4 個像素,然後結合隨機水平翻轉進行 32x32 的隨機裁剪。(2)ImageNet 是 ILSVRC2012[29]提供的 1000 類數據集,提供 120 萬張用於訓練的圖像和 50000 張用於驗證的圖像。我們採用了[2,4,5]中相同的增強配置。vZVEETC-電子工程專輯
非語義增強技術。為了研究 ISDA 對傳統數據擴增方法的互補作用,應用了兩種最先進的非語義擴充技術,分別使用和不使用 ISDA。(1)Cutout[31]在訓練期間隨機屏蔽輸入的正方形區域,以使模型正則化。(2)AutoAugment[32]自動搜索最佳的擴充策略,以在目標數據集上獲取最高的驗證精度。所有超參數都與介紹它們的論文中聲明的相同。vZVEETC-電子工程專輯
基線。我們的方法與幾個基線進行了比較,包括最先進的魯棒損失函數和基於生成器的語義數據增強方法。(1)Dropout[37]是一種廣泛使用的正則化方法,它在訓練過程中隨機地靜音某些神經元。(2)Large-margin softmax loss[18]將用餘弦距離測量的大決策裕度引入標準 CE 損失。(3)Disturb label[38]是一種正則化機制,它在每次迭代中用不正確的標籤隨機替換一小部分標籤。(4)focus loss[17]將重點放在一組稀疏的硬示例上,以防止簡單樣本主導訓練過程。(5)Center loss[22]同時學習每個類的特徵中心,並最小化深度特徵與其對應的類中心之間的距離。(6)Lqloss[16]是一種噪聲-魯棒損失函數,採用負 Box-Cox 變換。(7) 對於基於生成器的語義擴充方法,我們訓練了幾個最先進的 GAN[39,40,41,42],然後使用這些 GAN 生成額外的訓練樣本進行數據擴增。為了公平比較,在可能的情況下,所有方法都使用相同的訓練配置來實現。超參數設置的詳細信息見附錄 B。vZVEETC-電子工程專輯
訓練細節。對於深層網絡,我們在 CIFAR 上實現 ResNet、SE-ResNet、Wide-ResNet、ResNeXt 和 DenseNet,在 ImageNet 上實現 ResNet、ResNeXt 和 DenseNet。附錄 B 給出了這些模型的詳細配置。ISDA 的超參數 λ0 根據驗證集的性能從集合{0.1,0.25,0.5,0.75,1}中選擇。在 ImageNet 上,由於 GPU 內存的限制,我們利用協方差矩陣的對角線來近似協方差矩陣,即特徵各維的方差。從{1,2.5,5,7.5,10}中選擇最佳超參數 λ0。vZVEETC-電子工程專輯
表 1 顯示了 ISDA 在具有最先進的深層網絡的大規模 ImageNet 數據集上的性能。可以看出,ISDA 顯著提高了這些模型的泛化性能。例如,通過使用 ISDA 進行訓練,ResNet-50 的 Top-1 錯誤率降低了 1.1%,接近 ResNet-101 的性能(21.9%v.s.21.7%),參數減少了 43%。同樣,ResNet-101+ISDA 的性能超過了 ResNet-152,參數減少了 26%。與 ResNets 相比,DenseNets 由於其架構設計而受到的過擬合影響較小,因此似乎從我們的算法中獲益較少。vZVEETC-電子工程專輯
我們在表 2 中報告了 CIFAR-10/100 上幾種具有和不具有 ISDA 的深度網絡的錯誤率。可以獲得類似於 ImageNet 的觀測結果。在 CIFAR-100 上,對於相對較小的模型,如 ResNet-32 和 ResNet-110,ISDA 將測試誤差降低了約 1%,而對於 Wide-ResNet-28-10 和 ResNeXt-29、8x64d 等較大模型,我們的方法比競爭基線的性能高出近 0.7%。vZVEETC-電子工程專輯
表 3 顯示了最近提出的強大的傳統圖像增強方法(即 Cutout [31]和 AutoAugment[32])的實驗結果。有趣的是,當這些技術存在時,ISDA 似乎更加有效。例如,在應用 AutoAugment 時,在 CIFAR-100 上,通過 Shake-Shake(26,2x112d)和 Wide-ResNet-28-10,ISDA 的性能分別提高了 1.34%和 0.98%。請注意,這些改進比標準情況更重要。對於這種現象,一個合理的解釋是,非語義增強方法有助於學習更好的特徵表示,這使得深層特徵空間中的語義轉換更加可靠。圖 2 中顯示了在使用 Wide-ResNet-28-10 的 CIFAR-100 上進行訓練時測試誤差的曲線。很明顯,在第三次學習率下降之後,ISDA 取得了顯著改善。在第四次下降之後,ISDA 表現出了更好的性能。vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
我們將 ISDA 與第 4.1 節中描述的一些競爭基線進行了比較,從魯棒損失函數到基於生成模型的語義數據擴增算法。結果總結在表 4 中,訓練曲線在附錄 D 中給出。可以觀察到 ISDA 與所有競爭的基線算法相比都有優勢。使用 ResNet-110,在 CIFAR-10 和 CIFAR-100 上,其他魯棒損失函數的測試誤差分別為 6.38%和 27.85%,而 ISDA 分別達到 6.23%和 27.11%。vZVEETC-電子工程專輯
在所有基於 GAN 的語義增強方法中,ACGAN 的性能最好,尤其是在 CIFAR-10 上。但是,這些模型在 CIFAR-100 上的性能通常會降低,因為 CIFAR-100 沒有足夠的樣本為每個類學習有效的生成器。相比之下,ISDA 在所有數據集上顯示出一致的改進。此外,基於 GAN 的方法需要額外的計算來訓練生成器,並在訓練過程中引入大量開銷。相比之下,ISDA 不僅導致較低的泛化誤差,而且更加簡單高效。vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
為了證明我們的方法能夠生成有意義的語義增強樣本,我們引入了一種將增強特徵映射回像素空間的方法,以明確顯示圖像的語義變化。由於篇幅的限制,我們延後了對映射算法的詳細介紹,並在附錄 C 中給出。vZVEETC-電子工程專輯
圖 3 顯示了可視化結果。第一列和第二列表示原始圖像和未經任何增強的重建圖像。其餘各列展示了所提出的 ISDA 的增強圖像。可以觀察到 ISDA 能夠改變圖像的語義,如背景、視角、汽車的顏色和類型、皮膚的顏色等,這對於傳統的數據增強技術來說是不可能的。vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
為了更好地理解 ISDA 中不同成分的有效性,我們進行了一系列的消融研究。具體來說,考慮了幾個變量:(1)單位矩陣是指用單位矩陣 ∑c 代替協方差矩陣。(2)對角線矩陣是指只使用協方差矩陣 ∑c 的對角元素。(3)單一協方差矩陣是指使用從所有類的特徵計算出的全局協方差矩陣。(4)常量 λ0 意味著使用一個常量 λ0,而不將其設置為訓練迭代的函數。vZVEETC-電子工程專輯
表 5 給出了消融結果。採用單位矩陣會使 CIFAR-10 的測試誤差增加 0.05%,使 CIFAR-100 的測試誤差增加近 0.56%。使用單一協方差矩陣也會大大降低泛化性能。原因很可能是它們都無法在深層特徵空間中找到正確的方向來執行有意義的語義轉換。採用對角線矩陣也會影響性能,因為它沒有考慮特徵之間的相關性。vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
本文提出了一種有效的隱式語義數據擴增算法(ISDA),以補充現有的數據擴增技術。與現有的利用生成模型來增加語義轉換樣本的訓練集的方法不同,我們的方法更有效,更容易實現。事實上,我們證明了 ISDA 可以表示為一個新的魯棒損失函數,它與任何具有交叉熵損失的深層網絡都兼容。在多個競爭圖像分類數據集上的大量實驗結果表明了該算法的有效性和效率。vZVEETC-電子工程專輯
A ISDA 實現細節vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
B 訓練細節vZVEETC-電子工程專輯
在 CIFAR 上,我們實現了 ResNet、SE-ResNet、Wide-ResNet、ResNeXt 和 DenseNet。採用具有 Nesterov 動量的 SGD 優化算法對所有模型進行訓練。訓練的具體超參數如表 6 所示。vZVEETC-電子工程專輯
在 ImageNet 上,我們使用與 CIFAR 相同的 L2 權重衰減和動量來訓練 300 個迭代的所有模型。初始學習率設置為 0.2,並用餘弦進行退火。批大小設置為 512。我們對 DenseNets 採用 λ0 =1,ResNet 和 ResNeXts 採用 λ0=7.5,ResNet-101 使用的是 λ0=5。vZVEETC-電子工程專輯
所有基線均採用上述相同的訓練配置。如果它在基本模型中沒有應用,則將 Dropout 率設置為 0.3,以便進行比較,遵循[37]中的說明。對於幹擾標籤中的噪聲率,在 CIFAR-10 和 CIFAR-100 數據集上的 Wide-ResNet-28-1 和在 CIFAR10 上的 ResNet-110 中採用 0.05,而 CIFAR100 上的 ResNet-110 使用 0.1。Focus loss 包含兩個超參數 α 和 γ。大量的組合已經在驗證集上進行了測試,我們最終選擇 α=0.5 和 γ=1 進行所有四個實驗。對於 Lqloss,雖然[16]指出 q=0.7 在大多數情況下都能達到最佳性能,但我們建議在我們的實驗中,q=0.4 更適合,因此採用 q=0.4。對於中心損失,我們發現它的性能很大程度上受中心損失模塊的學習率的影響,因此它的初始學習率設置為 0.5,以獲得最佳的泛化性能。vZVEETC-電子工程專輯
對於基於生成器的增強方法,我們採用了[39,40,41,42]]中引入的 GANS 結構來訓練生成器。對於 WGAN,在 CIFAR-10 數據集中為每個類訓練一個生成器。對於 CGAN、ACGAN 和 infoGAN,只需要一個模型就可以生成所有類的圖像。採用標準正態分布的 100 維噪聲作為輸入,生成與其標籤相對應的圖像。特別地,infoGAN 具有兩個維度的額外輸入,它們代表整個訓練集的特定屬性。合成圖像在每一個批處理中都有固定的比例。基於驗證集的實驗,將廣義圖像的比例設為 1/6。vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
C 反向卷積網絡vZVEETC-電子工程專輯
為了明確說明 ISDA 所產生的語義變化,我們提出了一種將深度特徵映射回像素空間的算法。一些額外的可視化結果如圖 5 所示。vZVEETC-電子工程專輯
圖 4 顯示了該算法的概述。由於卷積網絡(如 ResNet 或 DenseNet)沒有閉合形式的逆函數,映射算法的作用類似於[43]和[9],通過固定模型和調整輸入來找到與給定特徵相對應的圖像。然而,考慮到 ISDA 本質上增強了圖像的語義,我們發現直接優化像素空間中的輸入是無關緊要的。因此,我們添加了一個固定的預訓練生成器 G,它是通過訓練 wasserstein GAN[39]獲得的,以生成分類模型的圖像,並優化生成器的輸入。這種方法使得用增強語義有效地重建圖像成為可能。vZVEETC-電子工程專輯
映射算法可分為兩個步驟:vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
所提出的算法是在單個批處理上執行的。在實際應用中,採用 ResNet-32 網絡作為卷積網絡。 我們採用標準梯度下降(GD)算法進行 10000 次迭代來解決 Eq.15 16。對於步驟一和步驟二,初始學習速率分別設置為 10 和 1,每 2500 次迭代除以 10。我們應用了 0.9 的動量和 1e-4 的 l2 重量衰減。vZVEETC-電子工程專輯
D 附加實驗結果vZVEETC-電子工程專輯
最新方法和 ISDA 的測試誤差曲線如圖 6 所示。ISDA 的性能一直優於其他方法,並且在所有情況下都表現出最好的泛化性能。值得注意的是,ISDA 在 CIFAR-100 中降低了測試誤差,這表明我們的方法更適合於樣本較少的數據集。這一觀察結果與本文的結果一致。除此之外,在 CIFAR-10 上,中心損失方法與 ISDA 相比具有一定的競爭力,但它並不能顯著提高 CIFAR-100 的泛化能力。vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
vZVEETC-電子工程專輯
本文由南京大學 ISE 實驗室 2020 級碩士李彤宇轉述翻譯vZVEETC-電子工程專輯