一个实习生搞了个简单粗暴的算法，性能超过何恺明Mask R-CNN

乾明十三发自凹非寺量子位报道 | 公众号 QbitAI

框架更简单，但实现了比Mask R-CNN还好的性能。

这是字节跳动实习生提出的实例分割新方法，名为SOLO。

核心在于通过引入“实例类别”的概念，把实例分割问题转化为分类问题。

与Mask R-CNN相比，架构更加简单，是一种单阶段实例分割的方法：

但在性能上却强得多。

COCO数据集上的实验结果显示，SOLO的效果普遍超过此前的单阶段实例分割主流方法，在一些指标上还超过了增强版的Mask R-CNN。

这一论文发布之后，也引起了业内人士的关注，并赢得了不少点赞。

有人评价称：“这是一篇非常好的工作，不仅实现了single stage，精度也非常高……这些position variance的特性，一定会在物体检测与实体分割带来新的突破。本文则是一个非常好的尝试。”

也有人评价称：“我接触到的（我接触到的可能并不多）真正意义上的效果比较不错的实例分割单阶段方法。”

总之，新颖简洁的框架，称得上突破性的工作。他们具体如何实现的？我们下面一一解读。

突破在哪？

以往的实例分割方法主要分为两种，即自上而下和自下而上的范例。

但是这两种方法，要么严重依赖精确的边界框检测，要么依赖每个像素的嵌入学习和分组处理。

那么，是否存在一种方法，可以绕过这些条条框框来做实例分割呢？

这项研究其实是类比了语义分割的方法。

语义分割就是一个逐像素的语义类别分类任务。

那么实例分割就可以类比为，逐像素的实例类别分类。

也就是预测每个像素所在的物体的实例类别。

而在图片中，物体的位置和形状就是用来区分实例的属性。

因此，根据量化中心位置和对象大小，就可以简单粗暴的做实例分割。

方法故取名为SOLO： Segmenting Objects by Locations。

先来看下SOLO的惊人效果。

SOLO使用随机梯度下降(SGD)进行训练，在8个GPU上使用同步的SGD，每个小批(mini-batch)处理总共有16张图片(每个GPU 2张)。

实验所采用的是COCO数据集。

电力18 • 人工智能