机器之心原创
作者:陈萍
不同于人类,计算机「看待」世界有自己的方式。为了达到类似人类的视觉水平,各种算法层出不穷,本篇就来窥探其冰山一角。
我们生活的世界是一个三维物理空间。直观而言,三维视觉系统有助于机器更好地感知和理解真实的三维场景。三维视觉作为计算机视觉的一个比较重要的研究方向,在过去几十年间得到了扎实和系统地发展,形成了一套完整的理论体系。近年来,随着三维成像技术如激光雷达、TOF 相机及结构光等的快速发展,三维视觉研究再次成为研究热点。
在上一篇文章中,我们对 3D 视觉基础相关内容进行了概括性总结,本文我们将进行比较深层次的介绍,主要涉及 3D 视觉算法及其应用领域。
3D 目标检测多模态融合算法
基于视觉的目标检测是环境感知系统的重要组成,也是计算机视觉、机器人研究等相关领域的研究热点。三维目标检测是在二维目标检测的基础上,增加目标尺寸、深度、姿态等信息的估计。相比于二维目标检测,三维目标检测在准确性、实时性等方面仍有较大的提升空间。
在目标检测领域,2D 目标检测方面发展迅速,出现了以 R-CNN、Fast RCNN、Mask RCNN 为代表的 two-stage 网络架构,以及以 YOLO、SSD 为代表的 one-stage 网络架构。然而由于 2D 图像缺乏深度、尺寸等物理世界参数信息,在实际应用中存在一定局限性,往往需要结合激光雷达、毫米波等传感器实现多模态融合算法,以增强系统的可靠性。
因此,研究者们提出了许多 3D 目标检测方法,根据传感器的不同大致可分为视觉、激光点云以及多模态融合三大类。其中视觉又包括单目视觉和双目视觉(深度视觉)两类;激光点云包括三维点云投影和三维空间体素特征;而多模态融合实现了激光点云与视觉的融合。下面将对现阶段比较流行的 3D 目标检测多模态融合算法研究进行介绍。
论文 1《3D-CVF: GeneraTing Joint Camera and LiDAR Features USing Cross-View Spatial Feature Fusion for 3D Object Detection》提出了 voxel-based 的多模态特征融合。
论文地址:https://arxiv.org/pdf/2004.12636
该研究提出的网络整体结构如下所示。可以看出上下两层分别是对激光雷达点云信息的特征提取 (voxel-backbone) 和对多张图像信息的特征提取与模态转换。这里需要提及的是由于图像信息仅仅只有一个方向的视野,但是多个摄像头的图像存在视野重叠,所以多张图像的信息融合是为了保证整个环视点云场景的特征都被涉及到。
论文 2《PI-RCNN: An Efficient Multi-sensor 3D Object Detector with Point-based Attentive Cont-conv Fusion Module》提出了 point-based 的多模态融合方法。
论文地址:https://arxiv.org/pdf/1911.06084.pdf
该研究提出了一种新颖的融合方法——基于点的 Attentive Cont-conv Fusion(PACF)模块,该模块将多传感器特征直接融合在 3D 点上。除了连续卷积外,该研究还添加了 Point-Pooling 和 Attentive Aggregation 等组件,以使融合特征更具表达力。
此外,基于 PACF 模块,研究人员提出了一个叫做 Pointcloud-Image RCNN(PI-RCNN)的 3D 多传感器多任务网络,该网络负责图像分割和 3D 目标检测任务。PI-RCNN 使用分段子网从图像中提取全分辨率语义特征图,然后通过功能强大的 PACF 模块融合多传感器特征。受益于 PACF 模块的效果和分段模块的有表达力的语义特征,PI-RCNN 使 3D 目标检测的性能大大改善。在 KITTI 3D 检测基准测试中的实验揭示了 PACF 模块和 PI-RCNN 的有效性,并且该方法可以在 3D AP 的度量标准上达到最新水平。