CondInst:性能和速度均超越Mask RCNN的實例分割模型

2021-02-18 機器學習算法工程師

點藍色字關注「機器學習算法工程師」

設為星標，乾貨直達！

對於實例分割來說，主流的做法還是基於先檢測後分割的流程，比如最流行的Mask RCNN模型就是構建在Faster RCNN基礎上。目前基於one-stage的物體檢測模型已經在速度和性能上超越two-stage模型，同樣地，大家也希望能找到one-stage的實例分割模型來替換Mask RCNN。目前這方面的工作主要集中在三個方向：

Mask encoding：對2D mask編碼為1D representation，比如PolarMask基於輪廓構建了polar representation，而MEInst則將mask壓縮成一個1D vector，這樣預測mask就類似於box regress那樣直接加在one-stage檢測模型上；分離檢測和分割：將檢測和分割分離成兩個部分這樣可以並行化，如YOLACT在檢測模型基礎上額外預測了一系列prototype masks，然後檢測部分每個instance會預測mask coeffs來組合masks來產生instance mask，BlendMask是對這一工作的進一步改進；不依賴檢測的實例分割：不依賴檢測框架直接進行實例分割，TensorMask和SOLO屬於此種類型，前者速度太慢，後者速度和效果都非常好；

對於mask encoding方法，雖然實現起來比較容易，但是往往會造成2D mask的細節損失，所以性能上會差一點；分離檢測和分割，對於分割部分可以像語義分割那樣預測global mask，解析度上會更高（要知道Mask RCNN的mask解析度只有28x28），但是這種方法需要一種好的方式來產生instance mask；不依賴檢測而直接進行實例分割這可能是未來的趨勢。這裡介紹的CondInst，其實屬於第二種，但是它與YOLACT不同，其核心點是檢測部分為每個instance預測不同的mask head，然後基於global mask features來產生instance mask，思路非常簡單，而且實現起來也極其容易（已經開源在AdelaiDet），更重要的是速度和效果上均超越Mask RCNN。

整體結構

CondInst是構建在物體檢測模型FCOS之上的（CondInst和FCOS是同一個作者），所以理解CondInst必須先理解FCOS，可以參考之前關於FCOS的介紹文章（FCOS），但其實CondInst也可以依賴其他的one-stage模型，CondInst整體結構如下圖所示：

相比FCOS，CondInst多了一個mask branch，其得到的mask features將作為mask FCN的輸入來生成最終的instance mask，這個mask features來自於P3，所以大小是輸入圖像的1/8。另外在FCOS的檢測部分增加了controller head（實際上controller head是直接加在box head上的），用來產生每個instance的mask head網絡的參數。這個思想其實是CondConv，傳統的Conv訓練完成後是固定的filters，但是CondConv的filters基於input和一個另外的網路來動態產生的。CondInst用來controller head生成instance-aware的mask FCN head，每個instance都有自己獨有的mask head，instance的形狀和大小等信息都編碼在其中。所以當mask head作用在global mask features上時，就可以區分當前的instance和其它背景信息，從而預測出instance mask。

這樣CondInst就可以實現實例分割了，CondInst的正負樣本策略和FCOS一樣，都是通過center region sampling方式來決定正負樣本，其訓練的loss相比FCOS增加intance mask的loss，這個loss也只計算正樣本部分：

Mask Branch

CondInst的mask branch就和語義分割類似是一個FCN網絡，包括4個channel為128的3x3卷積，然後最後接一個channel為8的1x1卷積。mask branch輸入為FPN的P3特徵，所以最終產生的特徵

# 額外的語義loss，採用focal loss
if self.training and self.sem_loss_on:
    logits_pred = self.logits(self.seg_head(
                features[self.in_features[0]]
            )) # 預測logits，區分class

    # 計算語義分割的gt，這裡的原則是合併instance的gt mask，但是當不同instance有重疊時，會取面積最小的instance的class作為gt
    semantic_targets = []
    for per_im_gt in gt_instances:
        h, w = per_im_gt.gt_bitmasks_full.size()[-2:]
        areas = per_im_gt.gt_bitmasks_full.sum(dim=-1).sum(dim=-1)
        areas = areas[:, None, None].repeat(1, h, w)
        areas[per_im_gt.gt_bitmasks_full == 0] = INF
        areas = areas.permute(1, 2, 0).reshape(h * w, -1)
        min_areas, inds = areas.min(dim=1)
        per_im_sematic_targets = per_im_gt.gt_classes[inds] + 1
        per_im_sematic_targets[min_areas == INF] = 0
        per_im_sematic_targets= per_im_sematic_targets.reshape(h, w)
        semantic_targets.append(per_im_sematic_targets)

    semantic_targets = torch.stack(semantic_targets, dim=0) # [N, 1, H, W] 

    # 對gt進行降採樣，為原始的1/8
    semantic_targets = semantic_targets[:, None, self.out_stride // 2::self.out_stride, self.out_stride // 2::self.out_stride]

    # one-hot gt
    num_classes = logits_pred.size(1)
    class_range = torch.arange(num_classes, dtype=logits_pred.dtype, device=logits_pred.device)[None, :, None, None]
    class_range = class_range + 1
    one_hot = (semantic_targets == class_range).float()
    num_pos = (one_hot > 0).sum().float().clamp(min=1.0)
    
    # 採用focal loss
    loss_sem = sigmoid_focal_loss_jit(
                logits_pred, one_hot,
                alpha=self.focal_loss_alpha,
                gamma=self.focal_loss_gamma,
                reduction="sum",
            ) / num_pos
            losses['loss_sem'] = loss_sem

return mask_feats, losses
Controller Head前面說過，CondInst的核心就在於controller head，其用來產生mask head的網絡參數，這個參數是每個instance所獨有的，所以當輸入為全局mask特徵時，可以預測出instance mask。由於controller head會編碼instance的形狀和大小信息，所以它是直接加在FCOS的box head上的，就和centerness head一樣。
controller head的輸出channel數為N，恰好是mask head的網絡參數量。mask head採用一個輕量級的FCN網絡，包含三個channel為8的3x3卷積層，卷積之後接ReLU，最後一層卷積直接加上sigmoid（二分類）就可以預測instance mask。所以mask head的參數量N為169：(#weights = (8 + 2) × 8(conv1) + 8 × 8(conv2) + 8 × 1(conv3) and #biases = 8(conv1) + 8(conv2) + 1(conv3))。這裡的輸入channel是8+2，而不是8，是因為送入mask head的輸入除了包括
def parse_dynamic_params(params, channels, weight_nums, bias_nums):
    assert params.dim() == 2
    assert len(weight_nums) == len(bias_nums)
    assert params.size(1) == sum(weight_nums) + sum(bias_nums)

    num_insts = params.size(0)
    num_layers = len(weight_nums)

    params_splits = list(torch.split_with_sizes(
        params, weight_nums + bias_nums, dim=1
    ))

    weight_splits = params_splits[:num_layers]
    bias_splits = params_splits[num_layers:]

    for l in range(num_layers):
        if l < num_layers - 1:
            # out_channels x in_channels x 1 x 1
            weight_splits[l] = weight_splits[l].reshape(num_insts * channels, -1, 1, 1)
            bias_splits[l] = bias_splits[l].reshape(num_insts * channels)
        else:
            # out_channels x in_channels x 1 x 1
            weight_splits[l] = weight_splits[l].reshape(num_insts * 1, -1, 1, 1)
            bias_splits[l] = bias_splits[l].reshape(num_insts)

    return weight_splits, bias_splits
由於輸入的
InferenceCondInst的inference就比較直接了，首先是檢測部分得到檢測的結果，然後採用box-based NMS來去除重複框，最後選出top 100的檢測框，只有這部分instances會進行instance mask的預測。由於產生的mask head非常小，所以100個instance的mask預測時間只需要4.5ms，那麼CondInst的預測時間僅比原始的FCOS增加了約10%。這裡額外要說的一點是CondInst的box預測主要用於NMS，但不會參與instance mask的預測中，而Mask R-CNN是需要box來進行ROI croping。CondInst和其它實例分割在COCO上的效果對比如下：

此外，CondInst的作者近期又發布了一篇新的不錯的工作：BoxInst，只用box級別的標註就可以訓練出一個不錯的實例分割模型，這個模型也是構建在CondInst上，只不過設計了兩個新的loss來進行半監督式的訓練。最後放一個BoxInst的一個分割視頻demo：
參考 Conditional Convolutions for Instance Segmentation   BoxInst: High-Performance Instance Segmentation with Box Annotations

CondInst:性能和速度均超越Mask RCNN的實例分割模型

相關焦點

算法| 超Mask RCNN速度4倍,僅在單個GPU訓練的實時實例分割算法

用於圖像分割的卷積神經網絡:從R-CNN到Mask R-CNN

Mask R-CNN

動態生成掩膜預測網絡生成模型CondInst,助力FCN重奪實例檢測顛峰

【論文解讀】Facebook 何凱明 Mask R-CNN 狙擊目標實例分割

代替Mask R-CNN,BlendMask欲做實例預測任務的新基準?

Facebook 最新論文:Mask R-CNN實例分割通用框架,檢測,分割和特徵...

Mask R-CNN官方實現「又」來了!訓練速度是原來2倍

經典目標檢測方法Faster R-CNN和Mask R-CNN|基於PaddlePaddle深度...

愷明大神 Mask R-CNN 超實用教程

FAIR最新視覺論文集錦:FPN,RetinaNet,Mask 和 Mask-X RCNN(含代碼...

愷明大神 Mask R-CNN 超實用教程

實例分割算法之Mask RCNN

【從零開始學Mask RCNN】一,原理回顧&&項目文檔翻譯

Ross、何愷明等人提出:渲染思路做圖像分割,提升Mask R-CNN性能

何愷明團隊開源圖像分割新算法PointRend:性能顯著提升,算力僅需Mask R-CNN的2.6%

何愷明團隊:從特徵金字塔網絡、Mask R-CNN到學習分割一切

【源頭活水】Sparse R-CNN:簡化版fast rcnn

FCOS進化版PolaMask,實例分割新思路

性能提升30%以上,實時實例分割算法SOLOv2實現產業SOTA