场景深度指什么（场景化的含义是什么） - 原点资讯

3.7.2 几何约束为非参数

Ma 等人［44］提出 VFC( vector field consensus) 方法，利用向量场的光滑先验，从带有外点的样本中寻找向量场的鲁棒估计。向量场的光滑性由再生核希尔伯特空间( RKHS) 【45】范数表征，VFC 算法基于这一先验理论，使用贝叶斯模型的最大后验( MAP) 计算匹配是否正确，最后使用 EM 算法将后验概率最大化。VFC 算法的适用范围: 1) 误匹配比例高的时候( 遥感图像、红外图像和异质图像) ; 2) 无法提供变换模型的时候( 如非刚性变形、相机参数未知) ; 3) 需要一个快速匹配算法且不需要求解变换参数的时候。

Part2：局部不变特征点匹配-3D

3维图像常用的表现形式包括: 深度图( 以灰度表达物体与相机的距离) 、几何模型( 由 CAD 软件建立) 、点云模型( 所有逆向工程设备都将物体采样成点云) ，3 维点匹配算法中常见的是基于点云模型的和基于深度模型的。点云模型中的每个点对应一个测量点，包含了最大的信息量。

1.特征检测

PointNet【46】 可以直接将 3D 点云作为输入，其改进版 PointNet 【47】能更好地提取局部信息。3 维局部描述符在 3 维视觉中发挥重要作用，是解决对应估计、匹配、目标检测和形状检索等的前提，广泛应用在机器人技术、导航( SVM) 和场景重建中。点云匹配中的 3 维几何描述符一直是该领域的研究热点，这种描述符主要依赖 3 维局部几何信息。
Deng 等人［48］提出具有全局感知的局部特征提取网络 PPFNet ( point pair feature network) 。PPFNet 结构如图 5 所示。块描述 Fr 由点对特征( PPF) 集合、局部邻域内的点及法线构成，首先采用 PointNet 处理每个区域块，得到局部特征; 其次通过最大池化层将各个块的局部特征聚合为全局特征，将截然不同的局部信息汇总到整个片段的全局背景中; 最后将该全局特征连接到每个局部特征，使用一组多层感知机( MLP) 进一步将全局和局部特征融合到最终全局背景感知的局部描述符中。PPFNet 在几何空间上学习局部描述符，具有排列不变性，且能充分利用原始点云的稀疏性，提高了召回率，对点云的密度变化有更好的鲁棒性。但其内存使用空间与块数的 2 次方成正比，限制了块的数量，目前只能设置为 2 K。

场景深度指什么,场景化的含义是什么(5)

在基于深度模型的匹配算法中，Zhou 等人【49】基于多视图融合技术 Fuseption-ＲesNet(FRN) ，提出多视图描述符 MVDesc。FＲN 能将多视图特征映射集成到单视图上表示，如图 6 所示。其中，视图池化 ( view pooling) 用于快捷连接，Fuseption 分支负责学习残差映射，两个分支在精度和收敛率方面互相加强。采用 3 × 3、1 × 3 和 3 × 1 3 种不同内核尺寸的轻量级空间滤波器提取不同类型的特征，并采用上述级联特征映射的 1 × 1 卷积负责跨通道统计量的合并与降维。将 FＲN 置于多个并行特征网络之上，并建立 MVDesc 的学习网络，其中卷积 6 的通道数与特征网络输出的特征映射通道数相同。

场景深度指什么,场景化的含义是什么(6)

与依赖多视图图像或需要提取固有形状特征的卷积神经网络不同，Wang 等人［50］提出一种可以根据 3 维曲面形状生成局部描述符的网络框架。该方法将关键点的邻域进行多尺度量化并参数化为 2 维网格，并将其称之为几何图像，描述符的训练过程如下: 首先提取曲面上关键点邻域的多尺度局部块，根据这些块构造一组几何图像; 其次将这些块输入 Triplet 网络，每个网络分支采用 ConvNet ( convolutional networks) 训练; 最后输出 128 维描述符，并采用 MinCV Triplet 损失函数最小化锚样本和正样本距离的变异系数( CV) 之比。相对于其他局部描述符学习方法，该方法具有更好的可区分性、鲁棒性及泛化能力。
Georgakis 等人［51］提出用于特征点检测和描述符学习的端到端框架。 该框架基于 Siamese 体系结构，每个分支都是一个改进的 Faster Ｒ-CNN［52］。如图 7 所示，采用 VGG-16 的卷积层 cov5_3 提取深度图I的深度卷积特征，一方面经过ＲPN( region propose network) 处理，产生特征点的候选区域( 橙色区域) 及分数 S ; 另一方面输入到ＲoI( region of interest) 池化层，经过全连接层将特征点候选区域映射到对应卷积特征 f 上; 采样层以候选区域的质心 x、卷积特征 f 、深度图像值 D、相机姿态信息 g 和相机内在参数作为输入，动态生成局部块对应标签( 正或负) ，并采用对比损失函数 Lcontr 最小化正样本对间的特征距离，最大化负样本对间的距离，该方法对视角变化具有一定的鲁棒性。

场景深度指什么,场景化的含义是什么(7)

2. 误差剔除

采用基于图模型的3维误匹配点剔除方法RMBP( robust matching using belief propagation) 。该模型可以描述匹配对之间的相邻关系，并通过置信传播对每个匹配对进行推断验证，从而提高 3 维点匹配的准确性和鲁棒性。

Part3：直线匹配

研究直线匹配首先要克服线特征本身存在的一些问题，如端点位置不准确、图像边缘特征不明显、线段碎片问题等，与点特征相比，线特征包含更多场景和对象的结构信息。线特征匹配方法可以大致分为 3 种: 基于单线段匹配方法、基于线段组方法和基于共面线—点不变量( LP) 方法。

1.基于单线段匹配

Wang 等人［53］提出的 MSLD( mean standard deviation line descriptor) 方法通过统计像素支持区域内每个子区域 4 个方向的梯度向量构建描述子矩阵，进而提高描述符的鲁棒性。MSLD 对具有适当变化的纹理图像有较好的匹配效果，可以应用在 3 维重建和目标识别等领域。为了解决 MSLD 对尺度变化敏感问题，文献［54］将区域仿射变换和 MSLD 相结合，利用核线约束确定匹配图像对应的同名支持域，并对该支持域进行仿射变换以统一该区域大小，实现不同尺度图像上直线的可靠匹配。
与 MSLD 相似，Zhang 等人［55］提出线带描述符( LBD) ，在线支持区域( LSＲ) 中计算描述符，同时利用直线的局部外观和几何特性，通过成对几何一致评估提高对低纹理图像直线匹配的精确度。该方法可在不同尺度空间中检测线段，能够克服线段碎片问题，提高抗大尺度变化的鲁棒性。

2.基于线段组方法

当像对间旋转角度过大时，单线段匹配方法的匹配准确率不高，可以采用线段组匹配方法通过更多的几何信息解决这一问题。Wang 等人［56］基于线段局部聚类的方式提出半局部特征 LS( line signature) ，用于宽基线像对匹配，并采用多尺度方案提高尺度变化下的鲁棒性。
为了提高在光照不受控制情况下对低纹理图像的匹配准确度，López 等人［57］将直线的几何特性、局部外观及线邻域结构上下文相结合，提出双视图( two-view) 直线匹配算法 CA。首先对线特征进行检测: 1) 在高斯尺度空间利用基于相位的边缘检测器提取特征; 2) 根据连续性准则将边缘特征局部区域近似为线段; 3) 在尺度空间进行线段融合。其次，该方法中的相位一致性对于图像亮度和对比度具有较高不变性，线段融合可以减少重叠线段以及线段碎片出现。最后，线特征匹配采用迭代方式进行，通过不同直线邻域的局部结构信息来增强每次迭代的匹配线集，该方法适用于低纹理图像中线特征的检测与匹配。

基于线段组匹配方法对线段端点有高度依赖性，图像变换及部分遮挡可能导致端点位置不准确，进而影响匹配效果。

3.基于共面线—点不变量( LP) 方法

Fan 等人［58-59］利用线及其邻域点的局部几何信息构造共面线—点不变量( LP) 用于线匹配。 LP 包括: “一线两点”构成的仿射不变量和“一线四点”构成的投影不变量。该投影不变量和“两线两点”构成的投影不变量［60］相比，可以直接用于线匹配而无需复杂的组合优化。根据直线的梯度方向，将线邻域分为左邻域和右邻域( 线梯度方向) ，以获得左右邻域内与线共面的匹配点，进行线相似性度量时，取左右邻域相似性的最大值。
该方法对误匹配点和图像变换具有鲁棒性，但高度依赖匹配关键点的准确性。为此，Jia 等人［61］基于特征数 CN［62］提出一种新的共面线—点投影不变量。CN 对交叉比进行扩展，采用线上点和线外点描述基础几何结构。通过“五点”构造线—点不变量，其中两点位于直线上，另外三点位于直线同一侧但不共线，如图 8 所示。点 KP1 l ，KP2 l ， P1 ，P2 ，P3 用于构造该不变量，通过两点连线可以获得其他特征点。计算直线邻域相似性时，把线邻域按照线梯度方向分为左邻域和右邻域( 梯度方向) ，根据线点不变量分别计算左、右邻域的相似性。这种相似性度量方法受匹配特征点的影响较小。该方法对于低纹理和宽基线图像的线匹配效果要优于其他线匹配算法，对于很多图像失真也有较好鲁棒性。由于该线—点不变量是共面的，对于非平面场景图像的处理具有局限性。

场景深度指什么,场景化的含义是什么(8)