公式1
其中n是奇数,它决定了中心区域j的比例。在本文中,对于小于和大于150的边界框的比例,n被设置为3和5。图3示出了当n = 3且n = 5时的两个中心区域。根据等式(1),我们可以确定尺度感知的中心区域,然后检查中心区域是否包含中心关键点。
图3
3.3. 丰富中心和角落信息中心池。物体的几何中心没有必须传达非常容易识别的视觉模式(例如,人体头部包含强烈的视觉图案,但中心关键点通常位于人体中间)。为了解决这个问题,我们提出使用中心池来捕获更丰富和更易识别的视觉模式。 图4(a)显示了中心池的原理。中心池的详细过程如下:主干输出特征图,并确定特征图中是否有像素是一个中心关键点,我们需要在水平和垂直方向找到最大值并将它们加在一起。通过这样做,中心池有助于更好地检测中心关键点。
图4
级联角落池。角落通常位于物体外部,缺乏局部外观特征。 CornerNet [20]使用角落池来解决这个问题。角池的原理如图4(b)所示。角落池旨在找到边界方向上的最大值,以便确定角落。但是,它会使边角对边缘敏感。为了解决这个问题,我们需要让角落"看到"对象的视觉模式。级联角池的原理如图4(c)所示。它首先沿着边界查找边界最大值,然后沿着边界最大值2的位置向内看以找到内部最大值,最后,将两个最大值一起添加。通过这样做,角落获得边界信息和物体的视觉图案。通过在不同方向组合角落池[20],可以轻松实现中心池和级联角池。 图5(a)显示了中心池模块的结构。为了在一个方向(例如水平方向)上取最大值,我们只需要将左池和右池连接起来。图5(b)显示了级联顶角池模块的结构。与CornerNet [20]中的顶角池相比,我们在顶角池之前添加了一个左角池。
3.4. 训练和推论训练。我们的方法在Pytorch [30]中实现并且从头开始训练网络。输入图像的分辨率为511×511,和起主导作用是128×128的热图。我们使用[20]中提出的数据增强策略来训练一个健壮的模型。Adam [18]用于优化训练损失: