图像理论和应用（心理图像理论） - 原点资讯

雷锋网AI 科技评论按：2018 年 4 月 14 日-15 日，中国图象图形学学会围绕「生物特征识别」这一主题，在中科院自动化所举办第四期「CSIG 图像图形学科前沿讲习班」。

生物特征识别（BIOMETRICS）技术，是指通过计算机利用人体所固有的生理特征（指纹、虹膜、面相、DNA等）或行为特征（步态、击键习惯等）来进行个人身份鉴定的技术。

本期讲习班邀请旷视科技首席科学家孙剑，中科院自动化所研究员孙哲南、王亮、赫然，中科院计算所研究员山世光、清华大学副教授冯建江、徐明星，中山大学教授郑伟诗等八位学者分别就人脸、虹膜、指纹、步态、音纹等人体特征的研究现状做了详细报告。雷锋网 AI 科技评论作为合作媒体针对会议进行报道。会议整体内容请参考雷锋网报道：

CSIG 图像图形学科前沿讲习班，旷视和中科院带来生物特征识别精彩报告（一）

CSIG 图像图形学科前沿讲习班，山世光等四位学者带来生物特征识别精彩报告（二）

本篇文章为讲习班报告第三篇，由中科院自动化所研究员赫然讲解，报告题目为：大规模人脸图像编辑理论、方法及应用。

赫然：2009年毕业于中科院自动化所，获博士学位。中国科学院自动化研究所模式识别国家重点实验室研究员，中国科学院脑科学与模式技术卓越创新中心年轻骨干。2017年至今，担任中国科学院大学人工智能技术学院模式识别教研室副主任。从事模式识别应用基础理论研究，并应用到生物特征识别和智能视频监控，在智慧城市监管需求的平台上取得成功应用，取得一定经济效益。近期主要聚焦在生成式深度学习及大规模图像编辑中遇到的瓶颈问题，展开图像模式分析基础理论研究。出版信息理论学习专著1部，在IEEE TPAMI、TIP、TIFS、TNNLS、TKDE等权威国际期刊以及NIPS、ICCV、CVPR、IJCAI、AAAI、SIGIR、ACM MM等权威会议发表论文120篇，研究工作获得国家自然科学基金优秀青年科学基金资助。

赫然：

大家下午好，我叫赫然。今天的主题是「大规模人脸图像编辑」。这里有两个要点，一是大规模，二是对人脸图像进行编辑。所谓人脸图像编辑，即对输入的人脸图像进行一系列操作处理，在内容和表观上对图像进行*和编辑，进而创造出完全不同的人脸图像。我们希望机器能够对现有的图像进行自动处理，并且得到一些新的图像，而这些新图像则需要同时符合人的认知和特定的需求。该问题是当前机器学习、计算机视觉重要的研究内容之一，并且在交互娱乐、卫生医疗、公共安全等领域有着广泛的应用场景。今天介绍的内容分为两个部分：第一部分介绍图像编辑涉及的理论基础，第二部分介绍它的方法和应用。

一、基础理论

1、全光人脸分析

在计算机处理图像的过程中，涉及一个基本的概念就是全光函数。它是决定空间中光线呈现形式的因素组成的一个函数，包括光谱信息、时间信息、空间信息、深度信息、亮度信息和方向信息等。如果波长固定，那就是灰度图像，如果有多个波长，那就是彩色图像；如果是时间有变化那么就是视频；空间信息自然不用说了；如果考虑深度信息就是深度成像，在成像时会测量图像的深度信息；如果考虑亮度信息就是高动态图像；如果考虑光线方向，就是光场相机。所有这些组成了全光函数，在人脸识别中我们需要对这个函数有所了解，从而得到比较符合真实世界的图像。目前，我们智能感知与计算研究中心依托国家自然科学基金委重大仪器专项[1]和华为公司合作项目[4][5]，已设计和搭建全光人脸采集系统和深度数码变焦图像分析设备。这部分工作主要由中心的张堃博和胡坦浩完成。

图像理论和应用,心理图像理论(1)

2、视觉拓扑优先

图像编辑的基本研究目标是希望生成/合成的图像是符合人的视觉认知的，通俗而言就是让观察者判断不出这个图像是真实的还是计算机生成的。基于这些考虑，中科院的陈霖院士提出了视觉拓扑优先的概念，他认为人在识别人脸时对拓扑信息的变化的感知优先于其它信息。实际上，对于拓扑结构变化的敏感性是生物感知系统中的基本特性，例如蜜蜂对空心圆和实心圆的拓扑结构变化非常敏感。相关成果发表在《科学》杂志上。视觉拓扑优先机制的数学建模问题一直是一个困难问题，我们中心在国家自然基金委重点基金项目[3]的支持下，深入研究了视觉拓扑优先的多种数学表达形式，例如全局和局部结构、小波分解、heatmap和人脸解析图等。根据拓扑变换的性质，相关的人脸图像编辑任务可以分为拓扑不变任务和拓扑变换任务。

图像理论和应用,心理图像理论(2)

3、生成对抗结构

这里涉及到最常用的模型是生成模型，即学习联合概率密度分布，它可以从统计的角度表示数据的分布情况，能够反映同类数据本身的相似度。生成模型的主要功能有两个：一是进行密度估计，二是生成样本。生成/合成人脸时，所要的就是生成/合成的人脸和真实人脸相似。生成模型中大家比较熟悉的就是GAN，即生成对抗网络。大家都比较熟悉，我在这里就不再详细介绍了。此外，我们也结合变分自编码机和胶囊模型来研究新的生成式模型。

4、身份保持结构

每个人都有自己的身份信息。人脸生成/合成任务自然希望能够保持这个身份信息。在身份保持方面，我们的研究借鉴视觉认知中最基本的概念，即，定序测量（Ordinal Measures，OM）。这是一个基本的度量方式。人类所采用的度量方式主要包含以下四种。

图像理论和应用,心理图像理论(3)

生活中，定序测量的思想随处可见。比如我们只需要知道篮球比足球重，至于重多少克则大多数情况下是没有必要知道的。根据 OM 概念，中科院的谭铁牛院士提出一个既简单又好用的方法，即，通过简单的比较大小，实现计算机视觉的复杂特征提取。最初这个研究工作应用到虹膜识别，判断虹膜是否属于同一个人。基本思路就是通过比较大小得到一个特征编码，通过这个特征编码便可以进行分类。目前这种思想已经被广泛应用于计算机视觉中。

我们把这种定序测量的方式引入到卷积神经网络的激活函数中。常用的激活函数有两种：ReLU 和Maxout。通常认为，由于 Maxout 需要使用两条直线才能近似 ReLU，因此，Maxout 网络通常是 ReLU 网络大小的两倍以上。而我们这个方法采用的定序测量非常简单，就是比数值大小，谁的值小谁就被抑制掉，因此可以得到一个比较小的卷积神经网络。

图像理论和应用,心理图像理论(4)