全新訓練及數據採樣&增強策略,FB全景分割實現新SOTA

2021-01-11 機器之心Pro

選自arXiv

作者:Lorenzo Porzi等

機器之心編譯

編輯:陳萍、杜偉

高解析度圖像上的全景分割面臨著大量的挑戰,當處理很大或者很小的物體時可能會遇到很多困難。來自 Facebook 的研究者通過引入實例 scale-uniform 採樣策略與 crop-aware 邊框回歸損失,能夠在所有尺度上改善全景分割效果,並在多個數據集上實現 SOTA 性能。

全景分割網絡可以應對很多任務(目標檢測、實例分割和語義分割),利用多批全尺寸圖像進行訓練。然而,隨著任務的日益複雜和網絡主幹容量的不斷增大,儘管在訓練過程中採用了諸如 [25,20,11,14] 這樣的節約內存的策略,全圖像訓練還是會被可用的 GPU 內存所抑制。明顯的緩解策略包括減少訓練批次大小、縮小高解析度訓練圖像,或者使用低容量的主幹。不幸的是,這些解決方法引入了其他問題:1) 小批次大小可能導致梯度出現較大的方差,從而降低批歸一化的有效性 [13],降低模型的性能 ;2)圖像解析度的降低會導致精細結構的丟失,這些精細結構與標籤分布的長尾目標密切相關;3)最近的一些工作[28,5,31] 表明,與容量較低的主幹相比,具有複雜策略的更大的主幹可以提高全景分割的結果。

克服上述問題的一個可能策略是從基於全圖像的訓練轉向基於 crop 的訓練。這被成功地用於傳統的語義分割[25,3,2]。由於任務被限定在逐像素的分類問題,整個問題變得更加簡單。通過固定某個 crop 的大小,精細結構的細節得以保留。而且,在給定的內存預算下,可以將多個 crop 堆疊起來,形成大小合理的訓練批次。但對於更複雜的任務,如全景分割,簡單的 cropping 策略也會影響目標檢測的性能,進而影響實例分割的性能。具體來說,在訓練過程中,從圖像中提取固定大小的 crop 會引入對大目標進行截取的偏置,在對完整圖像進行推斷時低估這些目標的實際邊界框大小(參見圖 1 左)。

為了解決這一問題,Facebook 的研究者進行了以下兩方面的改進。首先,他們提出了一種基於 crop 的訓練策略,該策略可以利用 crop-aware 損失函數(crop-aware bounding box, CABB)來解決裁剪大型目標的問題;其次,他們利用 instance scale-uniform sampling(ISUS)作為數據增強策略來解決訓練數據中目標尺度不平衡的問題。

論文連結:https://arxiv.org/abs/2012.07717

研究者表示,他們的解決方案擁有上述從基於 crop 訓練中得到的所有益處。此外,crop-aware 損失還會鼓勵模型預測出與被裁剪目標可視部分一致的邊界框,同時又不過分懲罰超出 crop 區域的預測。

背後的原理非常簡單:雖然一個目標邊界框的大小在裁剪後發生了變化,但實際的目標邊界框可能比模型在訓練過程中看到的還要大。對於超出 crop 可視範圍但仍在實際大小範圍內的預測採取不懲罰的做法,這有助於更好地對原始訓練數據給出的邊界框大小分布進行建模。通過 ISUS,研究者引入了一種有效的數據增強策略,以改進多個尺度上用於目標檢測的特徵金字塔狀表示。該策略的目的是在訓練過程中更均勻地在金字塔尺度上分布目標實例監督,從而在推理過程中提高所有尺度實例的識別準確率。

實驗結果表明,研究者提出的 crop-aware 損失函數對具有挑戰性的 Mapillary Vistas、Indian Driving 或 Cityscapes 數據集中的高解析度圖像特別有效。總體來說,研究者的解決方案在這些數據集上實現了 SOTA 性能。其中,在 MVD 數據集上,PQ 和 mAP 分別比之前的 SOTA 結果高出 4.5% 和 5.2%。

算法介紹

實例 Scale-Uniform 採樣 (ISUS)

研究者對 Samuel Rota Bulo 等人提出的 Class-Uniform 採樣(CUS)方法進行了擴展,創建了全新的 Instance Scale-Uniform 採樣(ISUS)方法。標準的 CUS 數據準備過程遵循四個步驟:1)以均勻的概率對語義類進行採樣;2)加載包含該類的圖像並重新縮放,使其最短邊與預定義大小 s_0 匹配;3)數據增強(例如翻轉、隨機縮放);4)從所選類可見的圖像區域中生成隨機 crop。

在 ISUS 方法中,研究者遵循與 CUS 相同的步驟,只是尺度增強過程是 instance-aware 的。具體地,當在步驟 1 中選擇「thing」類( 可數的 objects,如 people, animals, tools 等),並在完成步驟 2 之後,研究者還從圖像和隨機特徵金字塔層級中採樣該類的隨機實例。然後在第 3 步中,他們計算了一個縮放因子σ,這樣所選實例將根據訓練網絡採用的啟發式方法分配到所選層級。

為了避免出現過大或過小的縮放因子,研究者將σ限制在有限範圍 r_th 中。當在步驟 1 中選擇「stuff」類(相同或相似紋理或材料的不規則區域,如 grass、sky、road 等)時,他們遵循標準的尺度增強過程,即從一個範圍 r_st 均勻採樣 σ。從長遠來看,ISUS 具有平滑目標尺度分布的效果,在所有尺度上提供更統一的監督。

Crop-Aware 邊界框 (CABB)

在 crop 操作之後,研究者將真值邊界框 G 的概念放寬為一組與 G|_C 一致的真值框。用ρ(G,C)函數計算給定真值框 G 和 cropping 面積 C,公式如下

其中 X 覆蓋所有可能的邊界框Β。研究者將 ρ(G, C) 作為 Crop-Aware 邊框(CABB),它實際上是一組邊框(參見下圖 3)。如果真值邊框 G 嚴格地包含在 crop 區域中,那麼 CABB 歸結為原始真值,在這種情況下 ρ(G, C) = {G}。

Crop-aware 邊框損失:該研究對給定的真值框 G、anchor 框 A 和 crop 區域 C 引入了以下新的損失函數:

實驗

研究者在以下三個公開高解析度全景分割數據集上評估了 CABB 損失:它們分別是 Mapillary Vistas(MVD)、Indian Driving Dataset(IDD)和 Cityscapes(CS)。

網絡與訓練細節

該研究遵循無縫場景分割(Seamless-Scene-Segmentation)[23]框架,並進行了修改。首先,研究者用 HRNetV2-W48+[28,6]替換 ResNet-50 主體,前者是一種專門的骨幹網絡,它保存從圖像到網絡最後階段的高解析度信息;其次,研究者將 [23] 中的 Mini-DL 分割頭替換為 DeepLabV3+[4]模塊,該模塊連接到 HRNetV2-W48 + 主幹。最後將同步的 InPlace-ABN [25]應用於整個網絡,並在候選區域和目標檢測模塊中使用 CABB 損失替換標準邊界框回歸損失。

具體流程如下圖所示:

與 SOTA 結果進行比較

下表 1 頂部的 MVD 結果表明,CROP 在所有指標上均優於 FULL,這證明了基於 crop 訓練的優勢。除此以外,即使是該網絡變體中最弱的,也超過了所有的 PQ 基準,唯一的例外是基於 HRNet-W48 的 Panooptic Deeplab 版本。

表 1 中間的 IDD 實驗得到了類似的結果:CROP 在大多數指標上優於 FULL,而 CABB+ISUS 帶來了進一步改進,在 PC 中最為顯著。與之前的工作相比,該研究觀察到 mAP 分數和 SOTA PQ 都有了很大的提高,而分割指標有點落後。

表 1 底部的 Cityscapes 結果呈現相同趨勢,儘管邊際損失(margin)有所下降。需要注意,Cityscapes 是比 IDD 和 MVD 都小的數據集,在某些度量標準中,SOTA 結果接近 90%,因此預計會有較小的改進。儘管如此,與以前最佳方法相比,CROP+CABB+ISUS 在 mAP 上實現了 1.5%以上的顯著提升。

實驗細節

上表 1 為均在 1024×1024 crop 上訓練的兩種設置的結果:從其原始代碼中複製(Seamless + CROP)的未修改網絡 [23],以及結合 CABB 損失和 ISUS 網絡(Seamless+CABB+ISUS)的同一網絡。

與該研究的其他結果一致,基於 crop 訓練的引入相較基準實現了一致改進,特別是在檢測指標方面,同時 CABB 損失和 ISUS 進一步提高了分數,在 PQ w.r.t.Seamelss 上提升了 2.8% 以上。

下圖 6 展示了在具有大型目標的 12Mpixels Mapillary Vistas 驗證圖像上,CROP 與 CROP+CABB+ISUS 的輸出之間的對比情況:

相關焦點

  • 光學精密工程 | 實例特徵深度鏈式學習全景分割網絡
    TASCNet和AUNet兩個網絡為保持兩種分割結果尺寸的一致性,將Mask RCNN掩模分支得到的數據信息進行了大量上採樣操作。除Mask RCNN結構本身問題之外,上採樣處理非常容易破壞目標邊緣特性,導致實例目標輪廓特徵不明顯,出現分割失效情況。一般來說,神經網絡獲得圖像特徵的豐富程度與網絡結構深度有直接關係。
  • 全方位解讀全景分割技術, 曠視冠軍團隊最新分享
    ,全景分割算法 OANet 第一作者,研究方向包括全景分割、語義分割等。網絡框架搭建由於 object instance segmentation 子任務與 stuff segmentation 子任務分別屬於兩個不同的視覺預測任務,其輸入數據及數據增強方式、訓練優化策略與方法、網絡結構與方法具有較大的不同,如何將兩個子任務融合併統一網絡結構、訓練策略,是解決該問題的關鍵。
  • 全方位解讀全景分割技術,曠視冠軍團隊最新分享
    網絡框架搭建由於 object instance segmentation 子任務與 stuff segmentation 子任務分別屬於兩個不同的視覺預測任務,其輸入數據及數據增強方式、訓練優化策略與方法、網絡結構與方法具有較大的不同,如何將兩個子任務融合併統一網絡結構、訓練策略,是解決該問題的關鍵。
  • 性能提升30%以上,實時實例分割算法SOLOv2實現產業SOTA
    PaddleDetection 中的 SOLOv2經過 PaddleDetection 深度優化後的 SOLOv2 在具有如下五大亮點:更優的骨幹網絡:ResNet50vd-DCN + 蒸餾更穩定的訓練方式:EMA、Sync-BN更多的數據增強方法
  • 2019 語義分割指南
    因為只能獲得很少的訓練數據,這個模型在已有數據上應用彈性變形來對數據增強。就如上面圖1中所示,網絡架構由左側的收縮路徑和右側的膨脹路徑組成。收縮路徑由兩個 3x3 卷積組成,每個卷積後面都跟一個修正線性單元和一個用於下採樣的 2x2 最大池化。每個下採樣階段都多使特徵通道數加倍。膨脹路徑步驟中包含一個特徵通道的上採樣。
  • 百度飛槳發布工業級圖像分割利器PaddleSeg
    PaddleSeg 重磅發布飛槳的新產品 PaddleSeg 全新上線,重點針對圖像分割領域,面向開發者提供了完備且易用的工業級分割模型庫。是的,你沒有看錯,真正經得起考驗的【真. 工業級】的分割模型庫。
  • 華人博士生提出大場景三維點雲語義分割新框架
    通過對現有的採樣策略進行全面綜合的分析,本文採用簡單高效的隨機採樣來顯著地減少計算量以及內存消耗,並且引入了全新的局部特徵聚合模塊持續地增大每個點有效的感受野,保留大多數有效的信息。RandLA-Net能直接處理大規模點雲,不需要複雜的預處理/後處理,比基於圖的方法SPG快了接近200倍,有助於解決自動駕駛和AR等領域的核心問題。
  • 9102年了,語義分割的入坑指南和最新進展都是什麼樣的
    在這個模型中,ILSVRC 中的分類器被丟在了全連接網絡中,並且使用逐像素的損失和上採樣模塊做了針對稠密預測的增強。針對分割的訓練是通過微調來實現的,這個過程通過在整個網絡上的反向傳播完成。論文地址:https://arxiv.org/pdf/1605.06211.pdf3.
  • 語義分割領域開山之作:Google提出用神經網絡搜索實現語義分割
    在過去的一年中,元學習(meta-learning)在大規模圖像分類問題上,性能已經實現超越人類手工設計的神經網架構。基於 NAS 的圖像分類遷移到高解析度的圖像處理(語義分割、目標識別、實例分割)有很大的挑戰:(1)神經網絡的搜索空間和基本運算單元有本質不同。(2)架構搜索必須固有地在高解析度圖像上運行,因此不能實現從低解析度圖像訓練模型遷移到高解析度圖像。
  • 算法實現「管中窺豹」
    ASM方法以one-shot圖片提供的風格作為「錨」風格(anchored style),利用一個圖片生成網絡G在anchored style周圍採樣一個相似的風格(該風格離anchored style較近)進行圖片生成,然後將下一步的搜索方向確定為對當前任務模型M最難的方向(利用梯度上升實現)進行搜索,從而生成更多更難風格的圖像來提高任務特定模型 M 的泛化能力。
  • 一種基於深度卷積神經網絡(DCNN)用于于頭髮和面部皮膚實時分割方法
    為了解決這個問題,作者提出了一種基於深度卷積神經網絡(DCNN)的高效分割方法,用於頭髮和面部皮膚分割任務,該方法在三個基準數據集上實現了速度和性能之間的顯著權衡。據我們所知,由於外界環境因素(例如照明和背景噪聲)的影響,膚色分類的準確性通常不令人滿意。因此,使用分割後的人臉來獲得特定的人臉區域,並進一步利用色矩算法提取其色彩特徵。
  • Facebook 發布 Detectron2:基於 PyTorch 的新一代目標檢測工具
    這意味著許多新的研究項目可以用數百行代碼編寫,而核心 Detectron2 庫和全新的研究之間可以實現完全分離。通過建立新模型並發現新方法,可以不斷完善模塊化和可擴展的設計,這也幫助 Detectron2 變得更加靈活。其模塊化特性也能夠使其更有效地幫助研究人員探索最先進的算法設計。
  • 100個深度圖像分割算法,紐約大學UCLA等最新綜述論文
    我們提供了一個全面的調研和使用深度學習的分割算法的不同方面的深度分析,包括訓練數據,網絡架構的選擇,損失函數,訓練策略,以及他們的關鍵貢獻。 我們提供了一個概述約20個流行的圖像分割數據集,分為2D, 2.5D (RGB-D),和3D圖像。
  • NeurIPS 2020|:新型自動數據增強方法解讀
    導讀:在NeurIPS 2020上,商湯研究院工具鏈的搜索和決策團隊提出了一項基於權重共享的新型自動數據增強方法。該工作以多項有啟發性的實驗現象為動機,第一次從權重共享角度思考自動數據增強,實現了既高效又有效的增強策略搜索算法。該方法在多個圖像分類數據集上取得了優秀的表現,尤其在CIFAR-10數據集上刷新了當時的SOTA性能。
  • 102個模型、40個數據集,這是你需要了解的機器翻譯SOTA論文
    基於實例的方法:它的基本思想即將源語言句子分割為翻譯實例中見過的短語片段,並根據相似性檢索出與待翻句子片段相似的實例,最後對相似實例的翻譯結果執行替代操作,我們就能得到源語短語片段的翻譯結果。統計機器翻譯:將源語言句子分割為短語片段,利用基於雙語語料庫學習到的短語翻譯知識,將源語言短語轉化為合適的目標短語。最後對目標短語片段進行合理的調序,並生成完整的譯文。
  • MMSegmentation:標準統一的語義分割框架
    在 MMSeg 下,研究員們復現和比較了很多語義分割的算法,並對訓練測試的超參進行了優化和統一,在精度,速度,穩定性等方面都超過目前開源的其他代碼庫。為了幫助更多的同學在復現上少走彎路,並且實現可以在一個相同的環境下比較不同的settings, 香港中文大學多媒體實驗室(MMLab)推出了OpenMMLab計劃。
  • 標準統一的語義分割框架
    在近幾年的會議中,語義分割的論文層出不窮,但是市面上一直缺乏一款能夠相對公平比較各種方法的框架。為了方便研究員和工程師們,我們開源了一套基於 PyTorch 實現的標準統一的語義分割框架:MMSegmentation。
  • FB嵌入式人工智慧平臺發布,單目3D姿態估計新方法
    該數據集是基於KITTI基準的裡程測量數據集,包含城市內部交通、居民區、公路場景和鄉村道路,但不影響原始的裡程測量基準。新數據集也是同類數據中最大的,包括23201個用於訓練、20351個用於測試的完整3D掃描。為了開發數據集,研究人員避免使用邊界框或KITTI數據集可用的注釋來確保標籤的準確性和一致性。
  • 圖像分割系列<->語義分割
    精選文章,第一時間送達 上期講到圖像分割(Image segmentation)根據某些規則把圖片中的像素分為不同的部分(加不同的標籤),它可分為:超像素、語義分割、實例分割、全景分割, 各有聯繫,又有區別。