论文地址:https://arxiv.org/pdf/2009.00784.pdf
网络架构图如下所示:
该网络由三个阶段完成:1)2D 和 3D 的目标检测器分别提出 proposal;2)将两种模态的 proposal 编码成稀疏张量;3)对于非空的元素采用二维卷积做对应的特征融合。
3D 人脸检测基本流程
人脸识别技术在国家安全、军事安全、金融安全、共同安全等领域具有广泛的应用前景。人的大脑具备天生的人脸识别能力,可以轻易地分辨出不同的人。但是计算机自动识别人脸技术却面临着巨大的挑战。由于二维人脸识别不可避免地受到光照、姿态和表情的影响,这些因素已成为二维人脸识别技术向前发展的最大障碍。
随着结构光和立体视觉等三维成像技术的日益成熟,越来越多的人脸识别研究人员将目光投向了三维人脸识别技术领域。
目前 3D 人脸识别技术的主要技术流程如下:
- (1) 3D 人脸数据获取;
- (2) 3D 人脸数据的预处理,包括人脸的检测、切割、去噪等;
- (3) 3D 人脸数据的特征提取;
- (4) 构建适合的分类器对人脸数据进行判别。
目前 3D 人脸识别算法分为如下几个类别:
- 1. 基于空域匹配的识别算法
- 2. 基于局部特征匹配的识别算法
- 3. 基于整体特征匹配的识别算法
- 4. 基于模型拟合的识别算法
- 5. 基于 3D 2D 双模态的识别算法
3D 数据集简介
目前 3D 公开数据少,远少于 2D 图片;3D 高精度数据集只能靠昂贵的设备采集,过程繁琐。这里我们来了解一下现有的 3D 数据集。
1. BU-3DFE (Binghamton University 3D Facial Expression) 数据集:该数据库目前包含 100 位受试者(女性 56%,男性 44%),年龄从 18 岁到 70 岁不等,包含各种种族,包括白人、黑人、东亚人、中东人等。
下载地址:http://www.cs.binghamton.edu/~lijun/Research/3DFE/3DFE_Analysis.html
2. KITTI 数据集:由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评估 3D 目标检测和 3D 跟踪等计算机视觉技术在车载环境下的性能。
下载地址:http://www.cvlibs.net/datasets/kitti/raw_data.php
3. Cityscapes 数据集:这是一个较新的大规模数据集,它包含 50 个不同城市的街道场景中所记录的各种立体视频序列,除了一组较大的 20000 个弱注释帧外,还具有 5000 帧的高质量像素级注释。
下载地址:https://www.cityscapes-dataset.com/
4. Matterport 3D 重建数据集:该数据集包含 10800 个对齐的三维全景视图(RGB 每个像素的深度),来自 90 个建筑规模场景的 194400 个 RGB 深度图像。
下载地址:https://matterport.com/
5. 3D 人脸重建相关数据集:该数据集包含用 iPhone X 拍摄的 100 名受试者的 2054 张 2D 图像,以及每个受试者的单独 3D 头部扫描。
下载地址:https://ringnet.is.tue.mpg.de/challenge
6. TUM 数据集:主要包含多视图数据集、3D 物体的识别分割、场景识别、3D 模型匹配、vSALM 等各个方向的数据。
下载地址:https://vision.in.tum.de/
人脸数据库汇总官网指路:http://www.face-rec.org/databases/
面部 3D 重建
人脸重建是计算机视觉领域中一个比较热门的方向,3D 人脸相关应用也是近年来短视频领域的新玩法。不管是 Facebook 收购的 MSQRD,还是 Apple 研发的 Animoji,底层技术都与三维人脸重建有关。
面部 3D 重建,可以理解为从一张或多张 2D 图像中重建出人脸的 3D 模型。对于面部 3D 重建,我们先来直观地感受一下效果。
如下动图所示,最右边的重建人脸除了没有皱纹以外,身份特征和面部表情都和原图相当一致,阴影效果也高度还原。只是眼睛部分似乎不太对,显得浑浊无神。
论文《FML: Face Model Learning from Videos》效果展示
下图中的合成效果也很不错,表情动态很到位。只是可能实验者的眼神实在太有戏,AI 表示无力模仿。