深度圖像識別ISDA-深層網絡的隱式語義數據擴增方法

2020-12-24 EDN電子設計技術

算法一直是最基礎和底層的,而深度圖像識別算法在當今的AI中更是被不斷的研究,本文是清華大學&北京航空航天大學的作者提出的ISDA:隱式語義數據增廣新方法,漲點明顯!可提高分類、目標檢測、實例分割等任務性能,代碼現已開源!PGRednc

代碼:https://github.com/blackfeather-wang/ISDA-for-Deep-NetworksPGRednc
論文下載連結:https://arxiv.org/abs/2007.1053PGRednc

我們證明了所提出的 ISDA 可以最大程度地減少健壯 CE 損失,從而給正常訓練過程增加了可忽略的額外計算成本。儘管 ISDA 很簡單,但它不斷提高了流行的深度模型 ResNet 和 DenseNet 在各種數據集PGRednc

在本文中,我們提出了一種新穎的隱式語義數據擴增 ISDA 方法,以補充諸如翻轉,平移或旋轉之類的傳統擴充技術。我們的工作受到有趣的屬性的啟發,即深層網絡擅長於線性化特徵,從而使深層特徵空間中的某些方向對應於有意義的語義轉換,例如添加陰影或更改背景。因此,在特徵空間中沿許多語義方向翻譯訓練樣本可以有效地擴充數據集以提高泛化能力。為了有效且高效地實現這一思想,我們首先對每個類別的深度特徵的協方差矩陣進行在線估計,以獲取類別內語義的變化。然後從具有估計協方差的零均值正態分布中提取隨機向量,以增強該類別中的訓練數據。重要的是,我們可以直接最小化增強訓練集上期望交叉熵(CE)損失的上限,而不是顯式地增強樣本,從而得到了一種高效算法。實際上,我們證明了所提出的 ISDA 可以最大程度地減少健壯 CE 損失,從而給正常訓練過程增加了可忽略的額外計算成本。儘管 ISDA 很簡單,但它不斷提高了流行的深度模型 ResNet 和 DenseNet 在各種數據集(例如 CIFAR 10,CIFAR 100 和 ImageNet)上的泛化性能。可在以下位置獲得用於重現我們結果的代碼:https://github.com/blackfeatherwang/ISDA-for-Deep-Networks。PGRednc

1 介紹

數據增強是一種有效的技術,以緩解訓練深度網絡[1,2,3,4,5]中的過擬合問題。在圖像識別的背景下,這通常對應於在輸入樣本上應用保留內容的轉換,例如裁剪、水平鏡像、旋轉和顏色抖動。這些增強技術雖然有效,但不能進行語義轉換,例如改變對象的背景或前景對象的紋理。最近的工作表明,如果允許語義轉換(類標識保持),數據增強技術可能更強大[6,7,8]。例如,通過為訓練集中的每個類訓練一個生成性對抗網絡(GAN),就可以從生成器中採樣無限數量的樣本。不幸的是,這個過程在計算上是密集的,因為訓練生成模型並推斷它們以獲得增強樣本是不簡單的任務。此外,由於數據量的增加,訓練過程也可能會延長。PGRednc

本文提出了一種用於訓練深度圖像識別網絡的隱式語義數據擴增(ISDA)算法。ISDA 是高效的,因為它不需要訓練/推斷輔助網絡或顯式地生成額外的訓練樣本。我們的方法是由最近的工作所做的有趣的觀察所驅動的,這些觀察表明網絡中的深層特徵通常是線性化的[9,10]。具體來說,在深層特徵空間中存在許多語義方向,使得沿著這些方向中的一個數據樣本被翻譯成一個特徵表示,對應於具有相同類標識但語義不同的另一個樣本。例如,某一方向對應於「戴眼鏡」的語義翻譯。當一個不戴眼鏡的人的特徵沿著這個方向被翻譯時,新的特徵可能對應於同一個戴眼鏡的人(新圖像可以使用適當的算法顯式重建,如[9]所示)。因此,通過搜索許多這樣的語義方向,我們可以有效地擴充訓練集,以補充傳統的數據增強技術。PGRednc

然而,顯式地找到語義方向並不是一項簡單的任務,這通常需要大量的人工注釋[9]。相反,隨機採樣方向是有效的,但可能會導致無意義的轉換。例如,對」car」類應用」make-beaspeacled」轉換是沒有意義的。在本文中,我們採用了一種簡單的方法,在有效性和效率之間取得了很好的平衡。具體地說,我們對每個類的特徵協方差矩陣進行在線估計,從而捕獲類內的變化。然後,我們從零均值多元正態分布與估計的協方差中採樣方向,並將其應用於該類別中訓練樣本的特徵以擴充數據集。這樣,生成無意義的語義轉換的機率可以大大降低。PGRednc

為了進一步提高效率,我們用所提出的數據增強方案導出了期望交叉熵(CE)損失的封閉形式上界。因此,我們可以直接最小化上界,而不是顯式地執行增強過程,這實際上是一種新的魯棒損失函數。由於不需要生成顯式的數據樣本,我們將我們的算法稱作隱式語義數據擴增(ISDA)。與現有的語義數據增強算法相比,我們所提出的 ISDA 可以在大多數深層模型之上方便地實現,而不需要引入輔助模型或額外的計算成本。PGRednc

雖然 ISDA 算法簡單,但是它的有效性令人驚訝,並且很好地補充了現有的非語義數據擴增技術。我們對幾種有競爭力的圖像分類基準進行了大量的實證分析,結果表明,ISDA 能夠有效地提高常用深度網絡的泛化性能,特別是在訓練數據較少和傳統增強技術的情況下。PGRednc

PGRednc

 PGRednc

2 相關工作

在本節中,我們簡要回顧了現有的相關課題研究。PGRednc

數據擴增技術是一種廣泛應用於深度網絡訓練的方法。例如,在圖像識別任務中,應用諸如隨機翻轉、鏡像和旋轉等數據增強技術來增強卷積網絡中的某些不變性[4,5,3,11]。最近,提出了自動數據擴增技術,如 AutoAugment[12],以在大量候選對象中尋找更好的擴充策略。與我們的方法類似,具有邊緣化損壞特徵的學習[13]可以看作是一種隱式數據擴增技術,但它僅限於簡單的線性模型。另一方面,最近的研究表明,將類標識保持轉換(如改變對象背景或改變視角)應用於訓練數據的語義數據擴增技術也是有效的[14,15,6,8]。這通常是通過生成具有特殊深度結構的額外語義轉換訓練樣本來實現的,如 DAGAN[8]、域適應網絡[15]或其他基於 GAN 的生成器[14,6]。雖然這些方法是有效的,但由於需要預先訓練生成模型並在訓練過程中進行推斷,這些方法實現起來並不容易,而且計算成本也很高。PGRednc

魯棒損失函數。如文中所示,ISDA 相當於最小化一個新的魯棒損失函數。因此,我們就這一課題的相關工作作一簡要回顧。近年來,人們提出了幾種用於深度學習的魯棒損失函數。例如,Lqloss[16]是由負 Box-Cox 變換導出的交叉熵(CE)損失和平均絕對誤差(MAE)損失的一種平衡噪聲魯棒形。focus loss[17]將高權重附加到稀疏的硬示例集上,以防止大量簡單樣本主導網絡的訓練。在[18,19,20]中提出了引入較大的 CE 損耗裕度的想法。在[21]中,將 CE 損失和對比損失結合起來,以學習更多的區分特徵。從相似的角度來看,中心損失[22]同時學習了每個類別的深層特徵的中心,並區別對待了特徵空間中樣本與它們對應的類別中心之間的距離,從而增強了類別內的緊湊性和類別間的可分離性。PGRednc

深層特徵空間中的語義轉換。我們的工作源於這樣一個事實:由深卷積網絡學習的高級表示可以潛在地捕獲語義抽象[23,10]。事實上,在特定方向上翻譯深層特徵與對輸入圖像執行有意義的語義轉換相對應。例如,深度特徵插值[9]利用預先訓練的神經網絡對深度特徵的簡單插值來實現語義圖像轉換。基於變分自動編碼器(VAE)和生成對抗性網絡(GAN)的方法[24,25,26]建立了一個與圖像抽象相對應的潛在表示,可對其進行操作以編輯圖像的語義。一般來說,這些方法揭示了深層特徵空間中的某些方向對應於有意義的語義轉換,並可用於執行語義數據擴增。PGRednc

3 方法

眾所周知,深度網絡擅長於在深層特徵空間[4,5,9,27]中形成高層次的表示,樣本之間的語義關係可以通過特徵的相對位置來捕捉[10]。以往的研究表明,當特徵映射到輸入空間時,向特定方向轉換特徵對應於有意義的語義轉換[9,28,10]。在此基礎上,我們提出在特徵空間中直接擴充訓練數據,並將此過程整合到深層模型的訓練中。PGRednc

隱式語義數據擴增(ISDA)包含兩個重要組成部分,即類條件協方差矩陣的在線估計和魯棒損失函數的優化。第一個組件的目標是找到一個分布,我們可以從中抽取有意義的語義轉換方向來進行數據擴增,而第二個組件可以避免顯式地生成大量額外的訓練數據,與現有的數據擴增技術相比,ISDA 具有顯著的效率。PGRednc

3.1 深層特徵空間的語義轉換

如前所述,深層特徵空間中的某些方向對應於有意義的語義轉換,如「make-bespectacled」或「change-view-angle」。這促使我們通過在深層特徵上應用這種語義轉換來擴充訓練集。然而,對於大規模的問題,人工搜索語義方向是不可行的。為了解決這個問題,我們建議從一個零均值的正態分布和一個與類內協方差矩陣成比例的協方差中抽樣隨機向量來近似該過程,該協方差矩陣捕獲了該類樣本的方差,因此很可能包含豐富的語義信息。PGRednc

直觀地說,person 類的特徵可能會沿著「make-bespectacled」的方向變化,而在「has puller」方向上幾乎沒有變化,這種變化只出現在其他類,如 plane 類中。我們希望每個類的協方差矩陣的主成分能很好地表示每個類的有意義變換對應的方向。PGRednc

PGRednc

 PGRednc

3.2 隱式語義數據擴增(ISDA)

PGRednc

 PGRednc

顯然,簡單實現在 M 很大的時候計算效率很低,因為特徵集會被放大 M 倍。下面,我們考慮 M 增長到無窮大的情況,並發現損失函數可以得到一個易於計算的上界,從而得到了一個高效的實現。PGRednc

PGRednc

 PGRednc

PGRednc

 PGRednc

PGRednc

 PGRednc

4 實驗

在這一部分中,我們在幾個廣泛使用的圖像分類基準,即 CIFAR-10、CIFAR-100[1]和 ImageNet[29]上對所提出的算法進行了實證驗證。我們首先在這些數據集上評估不同深度網絡架構下 ISDA 的有效性。其次,在標準基線增強的基礎上,我們應用了最近提出的幾種非語義圖像增強方法,並研究了 ISDA 的性能。第三,我們比較了最新的魯棒損失函數和基於生成器的語義數據擴增算法。最後,進行消融研究,以檢查每個成分的有效性。我們還藉助生成網絡在原始輸入空間中可視化增強樣本。PGRednc

4.1 數據集和基線

數據集。我們在實驗中使用了三個圖像識別基準。(1)兩個 CIFAR 數據集由 CIFAR-10 的 10 個類中的 32x32 彩色自然圖像和 CIFAR-100 的 100 個類中的 32x32 彩色自然圖像組成,其中 50000 個圖像用於訓練,10000 個圖像用於測試。在我們的實驗中,我們從訓練集中拿出 5000 幅圖像作為驗證集來搜索超參數 λ0。這些樣本在選擇最優 λ0 後也用於訓練,並報告了在測試集上的結果。採用通道均值和標準差對圖像進行歸一化預處理。對於訓練集的非語義數據擴增,我們遵循[30]中的標準操作:在圖像的每側填充 4 個像素,然後結合隨機水平翻轉進行 32x32 的隨機裁剪。(2)ImageNet 是 ILSVRC2012[29]提供的 1000 類數據集,提供 120 萬張用於訓練的圖像和 50000 張用於驗證的圖像。我們採用了[2,4,5]中相同的增強配置。PGRednc

非語義增強技術。為了研究 ISDA 對傳統數據擴增方法的互補作用,應用了兩種最先進的非語義擴充技術,分別使用和不使用 ISDA。(1)Cutout[31]在訓練期間隨機屏蔽輸入的正方形區域,以使模型正則化。(2)AutoAugment[32]自動搜索最佳的擴充策略,以在目標數據集上獲取最高的驗證精度。所有超參數都與介紹它們的論文中聲明的相同。PGRednc

基線。我們的方法與幾個基線進行了比較,包括最先進的魯棒損失函數和基於生成器的語義數據增強方法。(1)Dropout[37]是一種廣泛使用的正則化方法,它在訓練過程中隨機地靜音某些神經元。(2)Large-margin softmax loss[18]將用餘弦距離測量的大決策裕度引入標準 CE 損失。(3)Disturb label[38]是一種正則化機制,它在每次迭代中用不正確的標籤隨機替換一小部分標籤。(4)focus loss[17]將重點放在一組稀疏的硬示例上,以防止簡單樣本主導訓練過程。(5)Center loss[22]同時學習每個類的特徵中心,並最小化深度特徵與其對應的類中心之間的距離。(6)Lqloss[16]是一種噪聲-魯棒損失函數,採用負 Box-Cox 變換。(7) 對於基於生成器的語義擴充方法,我們訓練了幾個最先進的 GAN[39,40,41,42],然後使用這些 GAN 生成額外的訓練樣本進行數據擴增。為了公平比較,在可能的情況下,所有方法都使用相同的訓練配置來實現。超參數設置的詳細信息見附錄 B。PGRednc

訓練細節。對於深層網絡,我們在 CIFAR 上實現 ResNet、SE-ResNet、Wide-ResNet、ResNeXt 和 DenseNet,在 ImageNet 上實現 ResNet、ResNeXt 和 DenseNet。附錄 B 給出了這些模型的詳細配置。ISDA 的超參數 λ0 根據驗證集的性能從集合{0.1,0.25,0.5,0.75,1}中選擇。在 ImageNet 上,由於 GPU 內存的限制,我們利用協方差矩陣的對角線來近似協方差矩陣,即特徵各維的方差。從{1,2.5,5,7.5,10}中選擇最佳超參數 λ0。PGRednc

4.2 主要結果

表 1 顯示了 ISDA 在具有最先進的深層網絡的大規模 ImageNet 數據集上的性能。可以看出,ISDA 顯著提高了這些模型的泛化性能。例如,通過使用 ISDA 進行訓練,ResNet-50 的 Top-1 錯誤率降低了 1.1%,接近 ResNet-101 的性能(21.9%v.s.21.7%),參數減少了 43%。同樣,ResNet-101+ISDA 的性能超過了 ResNet-152,參數減少了 26%。與 ResNets 相比,DenseNets 由於其架構設計而受到的過擬合影響較小,因此似乎從我們的算法中獲益較少。PGRednc

我們在表 2 中報告了 CIFAR-10/100 上幾種具有和不具有 ISDA 的深度網絡的錯誤率。可以獲得類似於 ImageNet 的觀測結果。在 CIFAR-100 上,對於相對較小的模型,如 ResNet-32 和 ResNet-110,ISDA 將測試誤差降低了約 1%,而對於 Wide-ResNet-28-10 和 ResNeXt-29、8x64d 等較大模型,我們的方法比競爭基線的性能高出近 0.7%。PGRednc

表 3 顯示了最近提出的強大的傳統圖像增強方法(即 Cutout [31]和 AutoAugment[32])的實驗結果。有趣的是,當這些技術存在時,ISDA 似乎更加有效。例如,在應用 AutoAugment 時,在 CIFAR-100 上,通過 Shake-Shake(26,2x112d)和 Wide-ResNet-28-10,ISDA 的性能分別提高了 1.34%和 0.98%。請注意,這些改進比標準情況更重要。對於這種現象,一個合理的解釋是,非語義增強方法有助於學習更好的特徵表示,這使得深層特徵空間中的語義轉換更加可靠。圖 2 中顯示了在使用 Wide-ResNet-28-10 的 CIFAR-100 上進行訓練時測試誤差的曲線。很明顯,在第三次學習率下降之後,ISDA 取得了顯著改善。在第四次下降之後,ISDA 表現出了更好的性能。PGRednc

PGRednc

 PGRednc

PGRednc

 PGRednc

PGRednc

 PGRednc

PGRednc

 PGRednc

4.3 與其他方法的比較

我們將 ISDA 與第 4.1 節中描述的一些競爭基線進行了比較,從魯棒損失函數到基於生成模型的語義數據擴增算法。結果總結在表 4 中,訓練曲線在附錄 D 中給出。可以觀察到 ISDA 與所有競爭的基線算法相比都有優勢。使用 ResNet-110,在 CIFAR-10 和 CIFAR-100 上,其他魯棒損失函數的測試誤差分別為 6.38%和 27.85%,而 ISDA 分別達到 6.23%和 27.11%。PGRednc

在所有基於 GAN 的語義增強方法中,ACGAN 的性能最好,尤其是在 CIFAR-10 上。但是,這些模型在 CIFAR-100 上的性能通常會降低,因為 CIFAR-100 沒有足夠的樣本為每個類學習有效的生成器。相比之下,ISDA 在所有數據集上顯示出一致的改進。此外,基於 GAN 的方法需要額外的計算來訓練生成器,並在訓練過程中引入大量開銷。相比之下,ISDA 不僅導致較低的泛化誤差,而且更加簡單高效。PGRednc

PGRednc

 PGRednc

4.4 可視化結果

為了證明我們的方法能夠生成有意義的語義增強樣本,我們引入了一種將增強特徵映射回像素空間的方法,以明確顯示圖像的語義變化。由於篇幅的限制,我們延後了對映射算法的詳細介紹,並在附錄 C 中給出。PGRednc

圖 3 顯示了可視化結果。第一列和第二列表示原始圖像和未經任何增強的重建圖像。其餘各列展示了所提出的 ISDA 的增強圖像。可以觀察到 ISDA 能夠改變圖像的語義,如背景、視角、汽車的顏色和類型、皮膚的顏色等,這對於傳統的數據增強技術來說是不可能的。PGRednc

PGRednc

 PGRednc

4.5 消融實驗

為了更好地理解 ISDA 中不同成分的有效性,我們進行了一系列的消融研究。具體來說,考慮了幾個變量:(1)單位矩陣是指用單位矩陣 ∑c 代替協方差矩陣。(2)對角線矩陣是指只使用協方差矩陣 ∑c 的對角元素。(3)單一協方差矩陣是指使用從所有類的特徵計算出的全局協方差矩陣。(4)常量 λ0 意味著使用一個常量 λ0,而不將其設置為訓練迭代的函數。PGRednc

表 5 給出了消融結果。採用單位矩陣會使 CIFAR-10 的測試誤差增加 0.05%,使 CIFAR-100 的測試誤差增加近 0.56%。使用單一協方差矩陣也會大大降低泛化性能。原因很可能是它們都無法在深層特徵空間中找到正確的方向來執行有意義的語義轉換。採用對角線矩陣也會影響性能,因為它沒有考慮特徵之間的相關性。PGRednc

PGRednc

 PGRednc

5 結論

本文提出了一種有效的隱式語義數據擴增算法(ISDA),以補充現有的數據擴增技術。與現有的利用生成模型來增加語義轉換樣本的訓練集的方法不同,我們的方法更有效,更容易實現。事實上,我們證明了 ISDA 可以表示為一個新的魯棒損失函數,它與任何具有交叉熵損失的深層網絡都兼容。在多個競爭圖像分類數據集上的大量實驗結果表明了該算法的有效性和效率。PGRednc

附錄

A ISDA 實現細節PGRednc

PGRednc

 PGRednc

PGRednc

 PGRednc

B 訓練細節PGRednc

在 CIFAR 上,我們實現了 ResNet、SE-ResNet、Wide-ResNet、ResNeXt 和 DenseNet。採用具有 Nesterov 動量的 SGD 優化算法對所有模型進行訓練。訓練的具體超參數如表 6 所示。PGRednc

在 ImageNet 上,我們使用與 CIFAR 相同的 L2 權重衰減和動量來訓練 300 個迭代的所有模型。初始學習率設置為 0.2,並用餘弦進行退火。批大小設置為 512。我們對 DenseNets 採用 λ0 =1,ResNet 和 ResNeXts 採用 λ0=7.5,ResNet-101 使用的是 λ0=5。PGRednc

所有基線均採用上述相同的訓練配置。如果它在基本模型中沒有應用,則將 Dropout 率設置為 0.3,以便進行比較,遵循[37]中的說明。對於幹擾標籤中的噪聲率,在 CIFAR-10 和 CIFAR-100 數據集上的 Wide-ResNet-28-1 和在 CIFAR10 上的 ResNet-110 中採用 0.05,而 CIFAR100 上的 ResNet-110 使用 0.1。Focus loss 包含兩個超參數 α 和 γ。大量的組合已經在驗證集上進行了測試,我們最終選擇 α=0.5 和 γ=1 進行所有四個實驗。對於 Lqloss,雖然[16]指出 q=0.7 在大多數情況下都能達到最佳性能,但我們建議在我們的實驗中,q=0.4 更適合,因此採用 q=0.4。對於中心損失,我們發現它的性能很大程度上受中心損失模塊的學習率的影響,因此它的初始學習率設置為 0.5,以獲得最佳的泛化性能。PGRednc

對於基於生成器的增強方法,我們採用了[39,40,41,42]]中引入的 GANS 結構來訓練生成器。對於 WGAN,在 CIFAR-10 數據集中為每個類訓練一個生成器。對於 CGAN、ACGAN 和 infoGAN,只需要一個模型就可以生成所有類的圖像。採用標準正態分布的 100 維噪聲作為輸入,生成與其標籤相對應的圖像。特別地,infoGAN 具有兩個維度的額外輸入,它們代表整個訓練集的特定屬性。合成圖像在每一個批處理中都有固定的比例。基於驗證集的實驗,將廣義圖像的比例設為 1/6。PGRednc

PGRednc

 PGRednc

C 反向卷積網絡PGRednc

為了明確說明 ISDA 所產生的語義變化,我們提出了一種將深度特徵映射回像素空間的算法。一些額外的可視化結果如圖 5 所示。PGRednc

圖 4 顯示了該算法的概述。由於卷積網絡(如 ResNet 或 DenseNet)沒有閉合形式的逆函數,映射算法的作用類似於[43]和[9],通過固定模型和調整輸入來找到與給定特徵相對應的圖像。然而,考慮到 ISDA 本質上增強了圖像的語義,我們發現直接優化像素空間中的輸入是無關緊要的。因此,我們添加了一個固定的預訓練生成器 G,它是通過訓練 wasserstein GAN[39]獲得的,以生成分類模型的圖像,並優化生成器的輸入。這種方法使得用增強語義有效地重建圖像成為可能。PGRednc

映射算法可分為兩個步驟:PGRednc

PGRednc

 PGRednc

所提出的算法是在單個批處理上執行的。在實際應用中,採用 ResNet-32 網絡作為卷積網絡。 我們採用標準梯度下降(GD)算法進行 10000 次迭代來解決 Eq.15 16。對於步驟一和步驟二,初始學習速率分別設置為 10 和 1,每 2500 次迭代除以 10。我們應用了 0.9 的動量和 1e-4 的 l2 重量衰減。PGRednc

D 附加實驗結果PGRednc

最新方法和 ISDA 的測試誤差曲線如圖 6 所示。ISDA 的性能一直優於其他方法,並且在所有情況下都表現出最好的泛化性能。值得注意的是,ISDA 在 CIFAR-100 中降低了測試誤差,這表明我們的方法更適合於樣本較少的數據集。這一觀察結果與本文的結果一致。除此之外,在 CIFAR-10 上,中心損失方法與 ISDA 相比具有一定的競爭力,但它並不能顯著提高 CIFAR-100 的泛化能力。PGRednc

PGRednc

 PGRednc

相關焦點

  • 深度學習用於多模態語義學習簡述
    在大規模數據上進行的實驗表明:通過深度學習得到的特徵表示在自然語言處理(詞向量學習)、知識圖譜構建、圖像分類和語音識別等領域表現出良好的性能。例如谷歌研究組在2014年大規模視覺識別挑戰賽(ImageNet Large Scale Visual Recognition Challenge,ILSⅤRC)中採用改進的卷積神經網絡GoogLeNet,將圖像識別準確率提升到93.3%;基於區域的卷積神經網絡(Convolution Neural Network,CNN)在精細度語義理解上取得了顯著進展;通過利用具有長短時記憶(Long Short-Term
  • 入選AAAI 2020,全新視頻語義分割和光流聯合學習算法問世
    打破現有方法局限現有的視頻語義分割方法,是利用前後幀的語義信息預測運動軌跡來分割,這種方法面臨兩大挑戰:準確率低。視頻標註不如圖像標註那樣每一幀都會標註,一個視頻片段往往只標註一幀,現有方法難以利用全部的數據,導致分割的準確率較低。效率低。由於對前後幀之間進行信息交互往往為模型引入額外的模塊,導致視頻分割效率低。商湯在研究中改進了這些不足,提出了一個光流和語義分割聯合學習的框架。
  • 【新智元乾貨】計算機視覺必讀:目標跟蹤、圖像分類、人臉識別等
    具有相近語義信息的圖像應該在t-SNE結果中距離相近。和PCA不同的是,t-SNE是一種非線性降維方法,保留了局部之間的距離。下圖是直接對MNIST原始圖像進行t-SNE的結果。可以看出,MNIST是比較容易的數據集,屬於不同類別的圖像聚類十分明顯。可視化中間層激活值 對特定輸入圖像,畫出不同特徵圖的響應。
  • 另闢蹊徑,中科院自動化所等首次用圖卷積網絡解決語義分割難題
    來自中科院自動化所和北京中醫藥大學的研究者另闢蹊徑,提出用圖卷積網絡解決語義分割問題。論文連結:https://arxiv.org/pdf/2001.00335.pdf使用深度學習執行語義分割在圖像像素分類方面取得了巨大進步。
  • 光學精密工程 | 實例特徵深度鏈式學習全景分割網絡
    該網絡由基本的鏈式單元組合而成,根據單元結構對特徵信息處理方法的不同,鏈式單元分為特徵保持鏈和特徵增強鏈兩種。特徵保持鏈是鏈式網絡特徵提取過程的輸入級,保證輸入信息的完整性,而後將特徵傳遞到特徵增強鏈結構;特徵增強鏈通過自身的拓展來加深網絡深度,提升特徵提取能力。鏈式學習網絡由於具有良好的深度堆疊特性,可以獲取豐富的邊緣特徵信息,提高分割精度。
  • 百度Apollo全新車輛識別方法等多篇論文收錄CVPR
    在自動駕駛領域,與安全息息相關的Apollo車輛識別全新數據合成方法研究便位列其中。近年來,CVPR蓬勃發展的重要原因,很大一部分是源自於中國科技公司的貢獻。本次會議中,百度入選的22篇論文,全面涵蓋視覺領域下的自動駕駛中的車輛檢測、人臉檢測&識別、視頻理解&分析、圖像超分辨及場景實例級分割等眾多熱門子領域,也向國際領域展示了中國視覺技術水平的深厚積累。
  • 客服機器人中的深度語義技術與應用探索(附視頻+PPT)| 雷鋒網公開課
    但在實際使用中,用戶經常發現,機器人並沒有想像中那麼智能,它能識別文字和語音,但卻「不懂你」。這其中的關鍵便涉及到自然語言處理中的」深度語義技術「。針對這個問題,本期雷鋒網(公眾號:雷鋒網)硬創公開課邀請到小i機器人創新中心的研究院陳培華為大家具體講解,在客服機器人領域的深度語義技術和應用探索。嘉賓介紹:
  • 圖像標註的基礎內容介紹
    介紹 「如果沒有數據分析,公司就會變得既盲又聾,就像高速公路上的鹿一樣在網絡上遊蕩。」 — Geoffrey Moore 每個數據科學任務都需要數據。具體地說,是輸入系統的乾淨易懂的數據。說到圖像,計算機需要看到人類眼睛看到的東西。
  • 網易AI Lab問鼎ACCV 2020細粒度網絡圖像識別賽
    近日,第十五屆亞洲計算機視覺學術會議ACCV 2020(Asian Conference on Computer Vision)國際細粒度網絡圖像識別賽公布最終成績,網易AI Lab以71.4%的準確率擊敗了來自全球的569個頂尖計算機視覺團隊,從超過1000份方案中脫穎而出
  • 螞蟻金服提自監督表徵學習識別方法
    而一些基於深度學習的驗證碼識別算法在準確性上取得了顯著的提高,但這些方法的主要問題是需要大規模的帶有標籤的訓練樣本參與訓練,而這通常需要耗費大量的人工成本。因此,基於深度學習類方法主要需要解決的是訓練樣本量不足的問題。
  • 何凱明的深度殘差網絡PPT是這樣的|ICML2016 tutorial
    曾以第一作者身份拿過兩次CVPR最佳論文獎(2009和2016)——其中2016年CVPR最佳論文為圖像識別中的深度殘差學習(Deep Residual Learning for Image Recognition),本文為何凱明博士在ICML2016上的tutorial演講以及相關PPT整理。
  • 今日Paper | 物體渲染;圖像和諧化;無偏數據處理方法;面部偽造檢測...
    基於深度學習的圖像引導的物體渲染基於域驗證的圖像和諧化人體姿態估計中的無偏數據處理方法的研究面部X射線,可進行更一般的面部偽造檢測即插即用(Plug and Play)的受限文本生成方法論文名稱:IGNOR
  • CVPR 2019 Oral 論文解讀 | 無監督域適應語義分割
    該論文提出了一種從「虛擬域」泛化到「現實域」的無監督語義分割算法,旨在利用易獲取的虛擬場景標註數據來完成對標註成本高昂的現實場景數據的語義分割,大大減少了人工標註成本。 本文是論文作者之一羅亞威為雷鋒網 AI 科技評論提供的論文解讀。
  • 科學家開發出一種基於深度學習的生物醫學圖像分割方法
    科學家開發出一種基於深度學習的生物醫學圖像分割方法 作者:小柯機器人 發布時間:2020/12/9 13:32:53 德國海德堡大學Klaus H.
  • 迪士尼研發深度語義面部模型,讓表情更豐富
    近期,迪士尼和麻省理工學院的研究人員合作研發了一種基於深度神經網絡的語義面部模型,用於快速製造多個具有細節特徵的人物頭像,該論文《深度語義面部模型(Semantic Deep Face Models)》發表至3D視覺國際會議。
  • AOGNets:首個語法生成網絡,視覺識別優於當前最先進框架
    研究人員開發出了首個通過語法引導的神經網絡生成器AOGNets,它能更有效地在原始數據中提取信息,在圖像分類、目標檢測和分割方面的表現優於包括ResNets、DenseNets、ResNeXts和DualPathNets在內最先進的神經網絡。北卡羅萊納州立大學的研究人員開發了一個通過語法指導的網絡生成器來打造深度神經網絡的新框架。
  • 深耕語義智能技術 拓爾思拓展AI「硬科技」
    良好的業績得益於公司在自主研發的語義智能和大數據產品基礎上進行了行業深度拓展,在政府網站集約化平臺建設、融媒體雲平臺建設、網絡空間輿情態勢感知及治理和金融風控大數據等多個相關領域,都實現了業務收入的快速增長。
  • 深度學習行人重識別綜述與展望,TPAMI 2021 最新文章
    ,圖像中行人將會佔據大部分面積;訓練數據標註,包含相機標籤和行人標籤等其他信息;重識別模型訓練,設計模型(主要指深度學習模型),讓它從訓練數據中儘可能挖掘「如何識別不同行人的隱藏特徵表達模式」;行人檢索,將訓練好的模型應用到測試場景中,檢驗該模型的實際效果。
  • ECCV 2020 | 騰訊優圖8篇論文入選,涵蓋目標跟蹤、行人重識別...
    從這些帶有行人幹擾的圖像中提取的特徵可能包含幹擾信息,這將導致錯誤的檢索結果。為了解決這一問題,本文提出了一種新的深層網絡(PISNet)。PISNet首先利用Query圖片引導的注意力模塊來增強圖片中目標的特徵。此外,我們提出了反向注意模塊和多人分離損失函數促進了注意力模塊來抑制其他行人的幹擾。