深度圖像識別-深層網絡的隱式語義數據擴增 ISDA 方法

2020-12-09 電子工程專輯

在本文中,我們提出了一種新穎的隱式語義數據擴增 ISDA 方法,以補充諸如翻轉,平移或旋轉之類的傳統擴充技術。我們的工作受到有趣的屬性的啟發,即深層網絡擅長於線性化特徵,從而使深層特徵空間中的某些方向對應於有意義的語義轉換,例如添加陰影或更改背景。因此,在特徵空間中沿許多語義方向翻譯訓練樣本可以有效地擴充數據集以提高泛化能力。為了有效且高效地實現這一思想,我們首先對每個類別的深度特徵的協方差矩陣進行在線估計,以獲取類別內語義的變化。然後從具有估計協方差的零均值正態分布中提取隨機向量,以增強該類別中的訓練數據。重要的是,我們可以直接最小化增強訓練集上期望交叉熵(CE)損失的上限,而不是顯式地增強樣本,從而得到了一種高效算法。實際上,我們證明了所提出的 ISDA 可以最大程度地減少健壯 CE 損失,從而給正常訓練過程增加了可忽略的額外計算成本。儘管 ISDA 很簡單,但它不斷提高了流行的深度模型 ResNet 和 DenseNet 在各種數據集(例如 CIFAR 10,CIFAR 100 和 ImageNet)上的泛化性能。可在以下位置獲得用於重現我們結果的代碼:https://github.com/blackfeatherwang/ISDA-for-Deep-Networks。vZVEETC-電子工程專輯

1 介紹

數據增強是一種有效的技術,以緩解訓練深度網絡[1,2,3,4,5]中的過擬合問題。在圖像識別的背景下,這通常對應於在輸入樣本上應用保留內容的轉換,例如裁剪、水平鏡像、旋轉和顏色抖動。這些增強技術雖然有效,但不能進行語義轉換,例如改變對象的背景或前景對象的紋理。最近的工作表明,如果允許語義轉換(類標識保持),數據增強技術可能更強大[6,7,8]。例如,通過為訓練集中的每個類訓練一個生成性對抗網絡(GAN),就可以從生成器中採樣無限數量的樣本。不幸的是,這個過程在計算上是密集的,因為訓練生成模型並推斷它們以獲得增強樣本是不簡單的任務。此外,由於數據量的增加,訓練過程也可能會延長。vZVEETC-電子工程專輯

本文提出了一種用於訓練深度圖像識別網絡的隱式語義數據擴增(ISDA)算法。ISDA 是高效的,因為它不需要訓練/推斷輔助網絡或顯式地生成額外的訓練樣本。我們的方法是由最近的工作所做的有趣的觀察所驅動的,這些觀察表明網絡中的深層特徵通常是線性化的[9,10]。具體來說,在深層特徵空間中存在許多語義方向,使得沿著這些方向中的一個數據樣本被翻譯成一個特徵表示,對應於具有相同類標識但語義不同的另一個樣本。例如,某一方向對應於「戴眼鏡」的語義翻譯。當一個不戴眼鏡的人的特徵沿著這個方向被翻譯時,新的特徵可能對應於同一個戴眼鏡的人(新圖像可以使用適當的算法顯式重建,如[9]所示)。因此,通過搜索許多這樣的語義方向,我們可以有效地擴充訓練集,以補充傳統的數據增強技術。vZVEETC-電子工程專輯

然而,顯式地找到語義方向並不是一項簡單的任務,這通常需要大量的人工注釋[9]。相反,隨機採樣方向是有效的,但可能會導致無意義的轉換。例如,對」car」類應用」make-beaspeacled」轉換是沒有意義的。在本文中,我們採用了一種簡單的方法,在有效性和效率之間取得了很好的平衡。具體地說,我們對每個類的特徵協方差矩陣進行在線估計,從而捕獲類內的變化。然後,我們從零均值多元正態分布與估計的協方差中採樣方向,並將其應用於該類別中訓練樣本的特徵以擴充數據集。這樣,生成無意義的語義轉換的機率可以大大降低。vZVEETC-電子工程專輯

為了進一步提高效率,我們用所提出的數據增強方案導出了期望交叉熵(CE)損失的封閉形式上界。因此,我們可以直接最小化上界,而不是顯式地執行增強過程,這實際上是一種新的魯棒損失函數。由於不需要生成顯式的數據樣本,我們將我們的算法稱作隱式語義數據擴增(ISDA)。與現有的語義數據增強算法相比,我們所提出的 ISDA 可以在大多數深層模型之上方便地實現,而不需要引入輔助模型或額外的計算成本。vZVEETC-電子工程專輯

雖然 ISDA 算法簡單,但是它的有效性令人驚訝,並且很好地補充了現有的非語義數據擴增技術。我們對幾種有競爭力的圖像分類基準進行了大量的實證分析,結果表明,ISDA 能夠有效地提高常用深度網絡的泛化性能,特別是在訓練數據較少和傳統增強技術的情況下。vZVEETC-電子工程專輯

vZVEETC-電子工程專輯

 vZVEETC-電子工程專輯

2 相關工作

在本節中,我們簡要回顧了現有的相關課題研究。vZVEETC-電子工程專輯

數據擴增技術是一種廣泛應用於深度網絡訓練的方法。例如,在圖像識別任務中,應用諸如隨機翻轉、鏡像和旋轉等數據增強技術來增強卷積網絡中的某些不變性[4,5,3,11]。最近,提出了自動數據擴增技術,如 AutoAugment[12],以在大量候選對象中尋找更好的擴充策略。與我們的方法類似,具有邊緣化損壞特徵的學習[13]可以看作是一種隱式數據擴增技術,但它僅限於簡單的線性模型。另一方面,最近的研究表明,將類標識保持轉換(如改變對象背景或改變視角)應用於訓練數據的語義數據擴增技術也是有效的[14,15,6,8]。這通常是通過生成具有特殊深度結構的額外語義轉換訓練樣本來實現的,如 DAGAN[8]、域適應網絡[15]或其他基於 GAN 的生成器[14,6]。雖然這些方法是有效的,但由於需要預先訓練生成模型並在訓練過程中進行推斷,這些方法實現起來並不容易,而且計算成本也很高。vZVEETC-電子工程專輯

魯棒損失函數。如文中所示,ISDA 相當於最小化一個新的魯棒損失函數。因此,我們就這一課題的相關工作作一簡要回顧。近年來,人們提出了幾種用於深度學習的魯棒損失函數。例如,Lqloss[16]是由負 Box-Cox 變換導出的交叉熵(CE)損失和平均絕對誤差(MAE)損失的一種平衡噪聲魯棒形。focus loss[17]將高權重附加到稀疏的硬示例集上,以防止大量簡單樣本主導網絡的訓練。在[18,19,20]中提出了引入較大的 CE 損耗裕度的想法。在[21]中,將 CE 損失和對比損失結合起來,以學習更多的區分特徵。從相似的角度來看,中心損失[22]同時學習了每個類別的深層特徵的中心,並區別對待了特徵空間中樣本與它們對應的類別中心之間的距離,從而增強了類別內的緊湊性和類別間的可分離性。vZVEETC-電子工程專輯

深層特徵空間中的語義轉換。我們的工作源於這樣一個事實:由深卷積網絡學習的高級表示可以潛在地捕獲語義抽象[23,10]。事實上,在特定方向上翻譯深層特徵與對輸入圖像執行有意義的語義轉換相對應。例如,深度特徵插值[9]利用預先訓練的神經網絡對深度特徵的簡單插值來實現語義圖像轉換。基於變分自動編碼器(VAE)和生成對抗性網絡(GAN)的方法[24,25,26]建立了一個與圖像抽象相對應的潛在表示,可對其進行操作以編輯圖像的語義。一般來說,這些方法揭示了深層特徵空間中的某些方向對應於有意義的語義轉換,並可用於執行語義數據擴增。vZVEETC-電子工程專輯

3 方法

眾所周知,深度網絡擅長於在深層特徵空間[4,5,9,27]中形成高層次的表示,樣本之間的語義關係可以通過特徵的相對位置來捕捉[10]。以往的研究表明,當特徵映射到輸入空間時,向特定方向轉換特徵對應於有意義的語義轉換[9,28,10]。在此基礎上,我們提出在特徵空間中直接擴充訓練數據,並將此過程整合到深層模型的訓練中。vZVEETC-電子工程專輯

隱式語義數據擴增(ISDA)包含兩個重要組成部分,即類條件協方差矩陣的在線估計和魯棒損失函數的優化。第一個組件的目標是找到一個分布,我們可以從中抽取有意義的語義轉換方向來進行數據擴增,而第二個組件可以避免顯式地生成大量額外的訓練數據,與現有的數據擴增技術相比,ISDA 具有顯著的效率。vZVEETC-電子工程專輯

3.1 深層特徵空間的語義轉換

如前所述,深層特徵空間中的某些方向對應於有意義的語義轉換,如「make-bespectacled」或「change-view-angle」。這促使我們通過在深層特徵上應用這種語義轉換來擴充訓練集。然而,對於大規模的問題,人工搜索語義方向是不可行的。為了解決這個問題,我們建議從一個零均值的正態分布和一個與類內協方差矩陣成比例的協方差中抽樣隨機向量來近似該過程,該協方差矩陣捕獲了該類樣本的方差,因此很可能包含豐富的語義信息。vZVEETC-電子工程專輯

直觀地說,person 類的特徵可能會沿著「make-bespectacled」的方向變化,而在「has puller」方向上幾乎沒有變化,這種變化只出現在其他類,如 plane 類中。我們希望每個類的協方差矩陣的主成分能很好地表示每個類的有意義變換對應的方向。vZVEETC-電子工程專輯

vZVEETC-電子工程專輯

 vZVEETC-電子工程專輯

3.2 隱式語義數據擴增(ISDA)

vZVEETC-電子工程專輯

 vZVEETC-電子工程專輯

顯然,簡單實現在 M 很大的時候計算效率很低,因為特徵集會被放大 M 倍。下面,我們考慮 M 增長到無窮大的情況,並發現損失函數可以得到一個易於計算的上界,從而得到了一個高效的實現。vZVEETC-電子工程專輯

vZVEETC-電子工程專輯

 vZVEETC-電子工程專輯

vZVEETC-電子工程專輯

 vZVEETC-電子工程專輯

vZVEETC-電子工程專輯

 vZVEETC-電子工程專輯

4 實驗

在這一部分中,我們在幾個廣泛使用的圖像分類基準,即 CIFAR-10、CIFAR-100[1]和 ImageNet[29]上對所提出的算法進行了實證驗證。我們首先在這些數據集上評估不同深度網絡架構下 ISDA 的有效性。其次,在標準基線增強的基礎上,我們應用了最近提出的幾種非語義圖像增強方法,並研究了 ISDA 的性能。第三,我們比較了最新的魯棒損失函數和基於生成器的語義數據擴增算法。最後,進行消融研究,以檢查每個成分的有效性。我們還藉助生成網絡在原始輸入空間中可視化增強樣本。vZVEETC-電子工程專輯

4.1 數據集和基線

數據集。我們在實驗中使用了三個圖像識別基準。(1)兩個 CIFAR 數據集由 CIFAR-10 的 10 個類中的 32x32 彩色自然圖像和 CIFAR-100 的 100 個類中的 32x32 彩色自然圖像組成,其中 50000 個圖像用於訓練,10000 個圖像用於測試。在我們的實驗中,我們從訓練集中拿出 5000 幅圖像作為驗證集來搜索超參數 λ0。這些樣本在選擇最優 λ0 後也用於訓練,並報告了在測試集上的結果。採用通道均值和標準差對圖像進行歸一化預處理。對於訓練集的非語義數據擴增,我們遵循[30]中的標準操作:在圖像的每側填充 4 個像素,然後結合隨機水平翻轉進行 32x32 的隨機裁剪。(2)ImageNet 是 ILSVRC2012[29]提供的 1000 類數據集,提供 120 萬張用於訓練的圖像和 50000 張用於驗證的圖像。我們採用了[2,4,5]中相同的增強配置。vZVEETC-電子工程專輯

非語義增強技術。為了研究 ISDA 對傳統數據擴增方法的互補作用,應用了兩種最先進的非語義擴充技術,分別使用和不使用 ISDA。(1)Cutout[31]在訓練期間隨機屏蔽輸入的正方形區域,以使模型正則化。(2)AutoAugment[32]自動搜索最佳的擴充策略,以在目標數據集上獲取最高的驗證精度。所有超參數都與介紹它們的論文中聲明的相同。vZVEETC-電子工程專輯

基線。我們的方法與幾個基線進行了比較,包括最先進的魯棒損失函數和基於生成器的語義數據增強方法。(1)Dropout[37]是一種廣泛使用的正則化方法,它在訓練過程中隨機地靜音某些神經元。(2)Large-margin softmax loss[18]將用餘弦距離測量的大決策裕度引入標準 CE 損失。(3)Disturb label[38]是一種正則化機制,它在每次迭代中用不正確的標籤隨機替換一小部分標籤。(4)focus loss[17]將重點放在一組稀疏的硬示例上,以防止簡單樣本主導訓練過程。(5)Center loss[22]同時學習每個類的特徵中心,並最小化深度特徵與其對應的類中心之間的距離。(6)Lqloss[16]是一種噪聲-魯棒損失函數,採用負 Box-Cox 變換。(7) 對於基於生成器的語義擴充方法,我們訓練了幾個最先進的 GAN[39,40,41,42],然後使用這些 GAN 生成額外的訓練樣本進行數據擴增。為了公平比較,在可能的情況下,所有方法都使用相同的訓練配置來實現。超參數設置的詳細信息見附錄 B。vZVEETC-電子工程專輯

訓練細節。對於深層網絡,我們在 CIFAR 上實現 ResNet、SE-ResNet、Wide-ResNet、ResNeXt 和 DenseNet,在 ImageNet 上實現 ResNet、ResNeXt 和 DenseNet。附錄 B 給出了這些模型的詳細配置。ISDA 的超參數 λ0 根據驗證集的性能從集合{0.1,0.25,0.5,0.75,1}中選擇。在 ImageNet 上,由於 GPU 內存的限制,我們利用協方差矩陣的對角線來近似協方差矩陣,即特徵各維的方差。從{1,2.5,5,7.5,10}中選擇最佳超參數 λ0。vZVEETC-電子工程專輯

4.2 主要結果

表 1 顯示了 ISDA 在具有最先進的深層網絡的大規模 ImageNet 數據集上的性能。可以看出,ISDA 顯著提高了這些模型的泛化性能。例如,通過使用 ISDA 進行訓練,ResNet-50 的 Top-1 錯誤率降低了 1.1%,接近 ResNet-101 的性能(21.9%v.s.21.7%),參數減少了 43%。同樣,ResNet-101+ISDA 的性能超過了 ResNet-152,參數減少了 26%。與 ResNets 相比,DenseNets 由於其架構設計而受到的過擬合影響較小,因此似乎從我們的算法中獲益較少。vZVEETC-電子工程專輯

我們在表 2 中報告了 CIFAR-10/100 上幾種具有和不具有 ISDA 的深度網絡的錯誤率。可以獲得類似於 ImageNet 的觀測結果。在 CIFAR-100 上,對於相對較小的模型,如 ResNet-32 和 ResNet-110,ISDA 將測試誤差降低了約 1%,而對於 Wide-ResNet-28-10 和 ResNeXt-29、8x64d 等較大模型,我們的方法比競爭基線的性能高出近 0.7%。vZVEETC-電子工程專輯

表 3 顯示了最近提出的強大的傳統圖像增強方法(即 Cutout [31]和 AutoAugment[32])的實驗結果。有趣的是,當這些技術存在時,ISDA 似乎更加有效。例如,在應用 AutoAugment 時,在 CIFAR-100 上,通過 Shake-Shake(26,2x112d)和 Wide-ResNet-28-10,ISDA 的性能分別提高了 1.34%和 0.98%。請注意,這些改進比標準情況更重要。對於這種現象,一個合理的解釋是,非語義增強方法有助於學習更好的特徵表示,這使得深層特徵空間中的語義轉換更加可靠。圖 2 中顯示了在使用 Wide-ResNet-28-10 的 CIFAR-100 上進行訓練時測試誤差的曲線。很明顯,在第三次學習率下降之後,ISDA 取得了顯著改善。在第四次下降之後,ISDA 表現出了更好的性能。vZVEETC-電子工程專輯

vZVEETC-電子工程專輯

 vZVEETC-電子工程專輯

vZVEETC-電子工程專輯

 vZVEETC-電子工程專輯

vZVEETC-電子工程專輯

 vZVEETC-電子工程專輯

vZVEETC-電子工程專輯

 vZVEETC-電子工程專輯

4.3 與其他方法的比較

我們將 ISDA 與第 4.1 節中描述的一些競爭基線進行了比較,從魯棒損失函數到基於生成模型的語義數據擴增算法。結果總結在表 4 中,訓練曲線在附錄 D 中給出。可以觀察到 ISDA 與所有競爭的基線算法相比都有優勢。使用 ResNet-110,在 CIFAR-10 和 CIFAR-100 上,其他魯棒損失函數的測試誤差分別為 6.38%和 27.85%,而 ISDA 分別達到 6.23%和 27.11%。vZVEETC-電子工程專輯

在所有基於 GAN 的語義增強方法中,ACGAN 的性能最好,尤其是在 CIFAR-10 上。但是,這些模型在 CIFAR-100 上的性能通常會降低,因為 CIFAR-100 沒有足夠的樣本為每個類學習有效的生成器。相比之下,ISDA 在所有數據集上顯示出一致的改進。此外,基於 GAN 的方法需要額外的計算來訓練生成器,並在訓練過程中引入大量開銷。相比之下,ISDA 不僅導致較低的泛化誤差,而且更加簡單高效。vZVEETC-電子工程專輯

vZVEETC-電子工程專輯

 vZVEETC-電子工程專輯

4.4 可視化結果

為了證明我們的方法能夠生成有意義的語義增強樣本,我們引入了一種將增強特徵映射回像素空間的方法,以明確顯示圖像的語義變化。由於篇幅的限制,我們延後了對映射算法的詳細介紹,並在附錄 C 中給出。vZVEETC-電子工程專輯

圖 3 顯示了可視化結果。第一列和第二列表示原始圖像和未經任何增強的重建圖像。其餘各列展示了所提出的 ISDA 的增強圖像。可以觀察到 ISDA 能夠改變圖像的語義,如背景、視角、汽車的顏色和類型、皮膚的顏色等,這對於傳統的數據增強技術來說是不可能的。vZVEETC-電子工程專輯

vZVEETC-電子工程專輯

 vZVEETC-電子工程專輯

4.5 消融實驗

為了更好地理解 ISDA 中不同成分的有效性,我們進行了一系列的消融研究。具體來說,考慮了幾個變量:(1)單位矩陣是指用單位矩陣 ∑c 代替協方差矩陣。(2)對角線矩陣是指只使用協方差矩陣 ∑c 的對角元素。(3)單一協方差矩陣是指使用從所有類的特徵計算出的全局協方差矩陣。(4)常量 λ0 意味著使用一個常量 λ0,而不將其設置為訓練迭代的函數。vZVEETC-電子工程專輯

表 5 給出了消融結果。採用單位矩陣會使 CIFAR-10 的測試誤差增加 0.05%,使 CIFAR-100 的測試誤差增加近 0.56%。使用單一協方差矩陣也會大大降低泛化性能。原因很可能是它們都無法在深層特徵空間中找到正確的方向來執行有意義的語義轉換。採用對角線矩陣也會影響性能,因為它沒有考慮特徵之間的相關性。vZVEETC-電子工程專輯

vZVEETC-電子工程專輯

 vZVEETC-電子工程專輯

5 結論

本文提出了一種有效的隱式語義數據擴增算法(ISDA),以補充現有的數據擴增技術。與現有的利用生成模型來增加語義轉換樣本的訓練集的方法不同,我們的方法更有效,更容易實現。事實上,我們證明了 ISDA 可以表示為一個新的魯棒損失函數,它與任何具有交叉熵損失的深層網絡都兼容。在多個競爭圖像分類數據集上的大量實驗結果表明了該算法的有效性和效率。vZVEETC-電子工程專輯

附錄

A ISDA 實現細節vZVEETC-電子工程專輯

vZVEETC-電子工程專輯

 vZVEETC-電子工程專輯

vZVEETC-電子工程專輯

 vZVEETC-電子工程專輯

B 訓練細節vZVEETC-電子工程專輯

在 CIFAR 上,我們實現了 ResNet、SE-ResNet、Wide-ResNet、ResNeXt 和 DenseNet。採用具有 Nesterov 動量的 SGD 優化算法對所有模型進行訓練。訓練的具體超參數如表 6 所示。vZVEETC-電子工程專輯

在 ImageNet 上,我們使用與 CIFAR 相同的 L2 權重衰減和動量來訓練 300 個迭代的所有模型。初始學習率設置為 0.2,並用餘弦進行退火。批大小設置為 512。我們對 DenseNets 採用 λ0 =1,ResNet 和 ResNeXts 採用 λ0=7.5,ResNet-101 使用的是 λ0=5。vZVEETC-電子工程專輯

所有基線均採用上述相同的訓練配置。如果它在基本模型中沒有應用,則將 Dropout 率設置為 0.3,以便進行比較,遵循[37]中的說明。對於幹擾標籤中的噪聲率,在 CIFAR-10 和 CIFAR-100 數據集上的 Wide-ResNet-28-1 和在 CIFAR10 上的 ResNet-110 中採用 0.05,而 CIFAR100 上的 ResNet-110 使用 0.1。Focus loss 包含兩個超參數 α 和 γ。大量的組合已經在驗證集上進行了測試,我們最終選擇 α=0.5 和 γ=1 進行所有四個實驗。對於 Lqloss,雖然[16]指出 q=0.7 在大多數情況下都能達到最佳性能,但我們建議在我們的實驗中,q=0.4 更適合,因此採用 q=0.4。對於中心損失,我們發現它的性能很大程度上受中心損失模塊的學習率的影響,因此它的初始學習率設置為 0.5,以獲得最佳的泛化性能。vZVEETC-電子工程專輯

對於基於生成器的增強方法,我們採用了[39,40,41,42]]中引入的 GANS 結構來訓練生成器。對於 WGAN,在 CIFAR-10 數據集中為每個類訓練一個生成器。對於 CGAN、ACGAN 和 infoGAN,只需要一個模型就可以生成所有類的圖像。採用標準正態分布的 100 維噪聲作為輸入,生成與其標籤相對應的圖像。特別地,infoGAN 具有兩個維度的額外輸入,它們代表整個訓練集的特定屬性。合成圖像在每一個批處理中都有固定的比例。基於驗證集的實驗,將廣義圖像的比例設為 1/6。vZVEETC-電子工程專輯

vZVEETC-電子工程專輯

 vZVEETC-電子工程專輯

C 反向卷積網絡vZVEETC-電子工程專輯

為了明確說明 ISDA 所產生的語義變化,我們提出了一種將深度特徵映射回像素空間的算法。一些額外的可視化結果如圖 5 所示。vZVEETC-電子工程專輯

圖 4 顯示了該算法的概述。由於卷積網絡(如 ResNet 或 DenseNet)沒有閉合形式的逆函數,映射算法的作用類似於[43]和[9],通過固定模型和調整輸入來找到與給定特徵相對應的圖像。然而,考慮到 ISDA 本質上增強了圖像的語義,我們發現直接優化像素空間中的輸入是無關緊要的。因此,我們添加了一個固定的預訓練生成器 G,它是通過訓練 wasserstein GAN[39]獲得的,以生成分類模型的圖像,並優化生成器的輸入。這種方法使得用增強語義有效地重建圖像成為可能。vZVEETC-電子工程專輯

映射算法可分為兩個步驟:vZVEETC-電子工程專輯

vZVEETC-電子工程專輯

 vZVEETC-電子工程專輯

所提出的算法是在單個批處理上執行的。在實際應用中,採用 ResNet-32 網絡作為卷積網絡。 我們採用標準梯度下降(GD)算法進行 10000 次迭代來解決 Eq.15 16。對於步驟一和步驟二,初始學習速率分別設置為 10 和 1,每 2500 次迭代除以 10。我們應用了 0.9 的動量和 1e-4 的 l2 重量衰減。vZVEETC-電子工程專輯

D 附加實驗結果vZVEETC-電子工程專輯

最新方法和 ISDA 的測試誤差曲線如圖 6 所示。ISDA 的性能一直優於其他方法,並且在所有情況下都表現出最好的泛化性能。值得注意的是,ISDA 在 CIFAR-100 中降低了測試誤差,這表明我們的方法更適合於樣本較少的數據集。這一觀察結果與本文的結果一致。除此之外,在 CIFAR-10 上,中心損失方法與 ISDA 相比具有一定的競爭力,但它並不能顯著提高 CIFAR-100 的泛化能力。vZVEETC-電子工程專輯

vZVEETC-電子工程專輯

 vZVEETC-電子工程專輯

致謝

本文由南京大學 ISE 實驗室 2020 級碩士李彤宇轉述翻譯vZVEETC-電子工程專輯

相關焦點

  • 深度學習與圖像識別 圖像檢測
    傳統的BP算法針對高維的數據也是效果不佳。 CNN等為什麼對圖像領域更加有效,因為其不但關注了全局特徵,更是利用了圖像識別領域非常重要的局部特徵,應該是將局部特徵抽取的算法融入到了神經網絡中。圖像本身的局部數據存在關聯性,而這種局部關聯性的特徵是其他算法無法提取的。
  • 圖像識別中的深度學習【香港中文大學王曉剛】
    深度學習有何與眾不同?  深度學習和其他機器學習方法相比有哪些關鍵的不同點,它為何能在許多領域取得成功?  特徵  深度學習與傳統模式識別方法的最大不同在於它所採用的特徵是從大數據中自動學習得到,而非採用手工設計。好的特徵可以提高模式識別系統的性能。
  • 從全卷積網絡到大型卷積核:深度學習的語義分割全指南
    什麼是語義分割?  語義分割指像素級地識別圖像,即標註出圖像中每個像素所屬的對象類別。如下圖:    左:輸入圖像,右:該圖像的語義分割  除了識別車和騎車的人,我們還需要描繪出每個物體的邊界。因此,與圖像分類不同,語義分割需要根據模型進行密集的像素級分類。
  • 圖像分割系列<->語義分割
    下圖是 Segnet 網絡架構,後面講解。 Segnet的模型框架和思路比較簡單,應用了當年很火的VGG16框架,去掉全連接層,搭建對稱模型,在2014年當時還沒有興起框架,基於Caffe實現端到端的像素級別網絡模型是很難的,之後在MATLAB2016中,Sgenet成為內置的用於語義分割的深度學習算法。
  • CVPR 2018:新型語義分割模型:動態結構化語義傳播網絡DSSPN
    此外,模型語義層次的缺乏也阻礙了對一次性解決所有概念分割的通用分割模型的研究。現有研究 [24,5,40,37] 通常致力於訓練特定任務的模型,因為數據集之間存在標籤差異且數據集的注釋有限。這種方法很大程度上限制了模型的泛化能力,並且偏離了通過結合概念層次來識別並關聯所有概念的人類感知。
  • 「計算機視覺必讀乾貨」圖像分類、檢測,語義分割等方法梳理
    新智元專欄 作者:張皓【新智元導讀】本文作者來自南京大學計算機系機器學習與數據挖掘所(LAMDA),本文直觀系統地梳理了深度學習在計算機視覺領域四大基本任務中的應用,包括圖像分類、定位、檢測、語義分割和實例分割。
  • 深度學習不是萬靈藥!神經網絡3D建模其實只是圖像識別?
    但近期一項研究表明,幾乎所有基於深度神經網絡的3D中重建工作,實際上並不是重建,而是圖像分類。深度學習並不是萬能的!深度學習並不是萬靈藥。近幾年,隨著深度學習的大熱,許多研究攻克了如何從單張圖片生成3D模型。從某些方面似乎再次驗證了深度學習的神奇——doing almost the impossible。
  • 深度| 2017 CV 技術報告之圖像分割、超解析度和動作識別
    在 2016 年,為了解決上文提及的大規模任務以及本地實現問題,研究人員開始尋找替代性的網絡方案。DeepLab 就是一個例子,它在圖像語義分割任務上得到了令人激動的成果。Khoreva et al.[53] 基於 Deeplab[52] 的早期工作(circa 2015)提出了一個半監督學習方法,該方法和監督學習網絡的性能水平不相上下。
  • 語義分割中的深度學習方法全解:從FCN、SegNet到各版本DeepLab
    原標題:語義分割中的深度學習方法全解:從FCN、SegNet到各版本DeepLab 王小新 編譯自 Qure.ai Blog 量子位 出品 | 公眾號 QbitAI 圖像語義分割就是機器自動從圖像中分割出對象區域,並識別其中的內容
  • 語音識別 AI 挑戰賽上線:用深度學習三種結構,對 50 種環境聲音...
    深度學習與語音識別在目前大多數語音識別應用中,深度學習是較為常見的一種方法。它通過模仿人腦結構,建立起了一個深層神經網絡;通過輸入層輸入數據,由低到高逐層提取特徵,建立起低級特徵到高級語義之間複雜的映射關係。從而實現對輸入的複雜數據的高效處理,使機器可以像人一樣智能地學習不同的知識,並且有效地解決多類複雜的智能問題;例如:語音識別、圖像視頻識別、語言處理和信息檢索等領域。
  • 深度卷積神經網絡CNNs的多GPU並行框架 及其在圖像識別的應用
    將深度卷積神經網絡(Convolutional Neural Networks, 簡稱CNNs)用於圖像識別在研究領域吸引著越來越多目光。由於卷積神經網絡結構非常適合模型並行的訓練,因此以模型並行+數據並行的方式來加速Deep CNNs訓練,可預期取得較大收穫。
  • 基於單目圖像的深度估計算法,大幅度提升基於單目圖像深度估計的精度
    簡介 基於單目圖像的深度估計算法具有方便部署、計算成本低等優點,受到了學術界和工業界日益增長的關注。現有的單目深度估計方法通常利用單一視角的圖像數據作為輸入,直接預測圖像中每個像素對應的深度值,這種解決方案導致現有方法通常需要大量的深度標註數據,而這類數據通常需要較高的採集成本。
  • 語音識別 AI 挑戰賽上線:用深度學習三種結構,對 50 種環境聲音分類!
    這不,難度再次升級的「50 種環境聲音分類」的語音識別挑戰賽,來了!深度學習與語音識別在目前大多數語音識別應用中,深度學習是較為常見的一種方法。它通過模仿人腦結構,建立起了一個深層神經網絡;通過輸入層輸入數據,由低到高逐層提取特徵,建立起低級特徵到高級語義之間複雜的映射關係。從而實現對輸入的複雜數據的高效處理,使機器可以像人一樣智能地學習不同的知識,並且有效地解決多類複雜的智能問題;例如:語音識別、圖像視頻識別、語言處理和信息檢索等領域。
  • 谷歌開源語義圖像分割模型:該領域當前最優模型
    GitHub 地址:https://github.com/tensorflow/models/tree/master/research/deeplab語義圖像分割任務是指將語義標籤(例如「道路」、「天空」、「人」、「狗」)分配給圖像中的每一個像素,這種技術有很多新應用,例如,Pixel 2 和 Pixel 2 XL 智慧型手機中肖像模式的合成淺景深效應,以及行動裝置的實時語義分割等
  • 圖像語義分割之特徵整合和結構預測
    上採樣使用的雙線性插值poly learning rate policy數據擴增用了:random mirror, random resize(0.5-2), random rotation(-10 到 10 度), random Gaussian blur選取合適的 batchsize結構還是很清晰明確的,沒太多可說的。
  • 關於MATLAB 圖像處理與深度學習的作用分析和介紹
    接下來我們將介紹如何創建該算法,並說明為何深度學習和圖像處理對於對象檢測和圖像分類同樣十分有用。 圖像處理與深度學習 我們重點介紹兩種技術: 圖像處理 按像素級別變換或者修改圖像。比如,過濾、模糊、去模糊和邊緣檢測等; 深度學習 通過學習樣本圖像自動識別圖像特點。近幾年,深度學習已經徹底改變了圖像處理領域。
  • 王海峰出席CCHI2018 深度解析「多模態深度語義理解」
    王海峰指出,AI技術與產業的結合愈發多元化,單一技術已無法滿足應用需求,具備「多模態深度語義理解」能力的百度大腦通過多技術融合,能讓機器對客觀世界有更深層認知,從而更好的支撐應用。百度大腦新階段:多模態深度語義理解 「多模態深度語義理解」是指對文字、聲音、圖片、視頻等多模態的數據和信息進行深層次多維度的語義理解,包括數據語義、知識語義、視覺語義、語音語義一體化和自然語言理解等多方面的語義理解技術。
  • 風格遷移新方法:微軟與上海交大提出深度圖像類比技術
    最近這一領域的研究集中於深度卷積神經網絡,除康奈爾大學和Adobe 的真實照片風格轉換以外,UC Berkeley 推出的手繪紋理生成模型也引起了很多人的關注。它們隨著社交媒體的發展而變得廣為人們所知——因為圖片分享是互動的重要組成部分。Prisma 和 Facetune 等應用就成功利用了這種吸引力。來自微軟和上海交大的廖菁等人最近推出了又一種圖像風格轉換方法。
  • 卷積神經網絡在圖像領域中的發展及存在問題
    機器學習的研究過程通常分為淺層次的機器學習和深層次的機器學習(深度學習)。智慧機器人在2006年前,大多數機器學習方法是使用淺結構模型來處理數據,且結構模型至多只有一層或兩層的非線性特徵的層。深度學習(Deep Learning, DL),從狹義上理解,就是一種具有一定的結構和訓練方法且含有多個隱含層的神經網絡;從廣義上理解,可以把具有任何層次結構的機器學習方法稱為深度學習。在深度學習過程中,從輸入圖像,經過無監督的逐層訓練和學習圖像特徵,通過有監督的訓練更新整個網絡參數,最小化損失函數,在輸出層實現正確的分類。
  • 100個深度圖像分割算法,紐約大學UCLA等最新綜述論文
    研究者們提出了各種圖像分割算法。最近,由於深度學習模型在廣泛的視覺應用中取得了成功,已經有大量的工作致力於開發使用深度學習模型的圖像分割方法。 我們的調研涵蓋了圖像分割的最新文獻,並討論了到2019年提出的一百多種基於深度學習的分割方法。我們對這些方法的不同方面提供了全面的回顧和見解,包括培訓數據、網絡架構的選擇、損失功能、培訓策略以及它們的關鍵貢獻。我們對所述方法的性能進行了比較總結,並討論了基於深度學習的圖像分割模型的幾個挑戰和未來可能的方向。