MaskFormer & Mask2Former
MaskFormer & Mask2Former
MaskFormer (2021 Facebook AI)
Per-Pixel Classification is Not All You Need for Semantic Segmentation.
本文为实例分割和语义分割提出了一个统一的框架:mask预测。可以看成是DETR在分割领域的姊妹篇。
- 图像先下采样encode,然后用一些learnable query(instance query)去提取图像特征,得到的特征经过class head得到类别信息;
- 上一步的query通过mlp,和上采样之后的图像特征做dot,然后通过sigmoid激活得到mask图层;
- 上一步的mask图层与padding后的gt进行二分图匹配,然后计算dice loss
inference的方法:
- 对于一般的情况,特别是实例分割、全景分割,用class概率乘以mask概率,最大的那个就是pixel所属的类别;
- 对于语义分割,不是取最大的,而是取所有mask求和最大的那个类别,这么做是因为每个像素都属于某一个类别;
需要注意,同一个像素在不同instance之间没有用softmax。
Mask2Former(2022 Facebook AI)
- 把mask运用到了attention中,只和前景做cross attention,加快模型的收敛;
- attention加入了FPN的相关机制
- 做了一些效率优化,针对匹配和最终的训练loss,加入了采样mask的策略,使得计算量降低。
本文由作者按照 CC BY 4.0 进行授权