(腾讯云,图片风险内容识别技术原理)
想想看,人是怎么认识猫的?
其实就通过猫的脸部特征,例如鼻子到眼睛的距离,双眼的间隔,尾巴的长度,耳朵的形状,皮肤的颜色等等等等一系列方法,人知道,这种形态的生物,叫做猫。
同理,人脑是怎么识别色情图片的?
就是色情图片上有大量的关键要素,这些要素,才是核心,其他内容都是无关紧要的。
例如下图,一个穿白色衣服的性感照,颜色,背景都不重要,重要的是核心暴露的要素。
(人类真的是很会找重点的生物)
你会本能性的关注亮点,这个亮点,就是关键要素。
在模型上,就是要用Attention让模型更加关注特定要素,例如上图的热力区域,就是所谓【漏沟】要素。
(腾讯云,图片风险防范技术原理)
当然,要让机器认识到这种要素,最重要的就是教给机器何为【漏沟】。
就和人认识猫一样,机器认识【漏沟】这个概念,也是需要比对大量的要素,例如衣服和皮肤的色差,缝隙和皮肤的间隔,颜色分布和背景的比对,这些要素需要打上标签,让机器分辨。
最前沿的做法是,设置ignore label抑制高频标签,降Loss反向传播权值,可以有效提升低频标签召回率提升,进而提升整体的识别效果。
(腾讯天御模型效果,黄图克星)
5
讲完图片讲视频和音频。
视频鉴别其实主要难度在于效率。
视频可以简单理解为是大量高速闪动的图片,一个1分钟的视频,如果是24帧标准电影画质,可以拆解为60(秒)X24=1440张图片。
如果是60帧画质,可以拆解为60秒X60=3600张图片。
所以视频核验本质上就是高效率的图片核验。
那么问题来了,一个1分钟的视频,就要核验这么多的图片,那么如果要核验很多视频,基本上所有的服务器什么事情都不用做了,尤其是直播领域,都是实时的。
所以视频检测的核心点就是交给机器如何合理的偷懒。
3600张照片,不需要每张都看,实际上人的眼睛也看不出每张的区别,只要做算法抽帧就可以了,3600张照片里,只需要抽100到200张匹配就可以了。
至于选取哪200张,这就是模型的艺术了。