图像实际应用（函数图像的实际应用） - 原点资讯

图4.美女首图商品

上述问题都可以归结为和视觉技术所涉及的范围，实际上互联网公司已经大规模的应用相关技术解决实际问题，例如阿里、百度、腾讯等头部公司都有自己的视觉算法团队，每年各大顶会也都是常客。大家不但探索相关的前沿技术，同时将其转化应用到实际的产品中，如图像特征在拍立淘、百度识图中的应用，图像检测直接运用在自动驾驶和工业质检中，图像识别相关技术分别在审核、短视频、广告等业务得到广泛的应用。本文针对闲鱼产品中涉及的部分问题介绍如何利用视觉技术解决，例如图片内容本身非商品或是色情等违规的物料都是可以利用图像分类，图像特征等方法去解决，以下主要从以下几个部分介绍：

构建大规模图片分类模型，学习闲鱼产品中的图片分布特征；
基于分类模型学习图像比对特征；
组合图像分类和图像特征解决实际问题；

构建大规模图片分类模型

图像分类模型是视觉模型的基础，检测，分割等视觉问题都依赖基础的图像的分类模型。在闲鱼场景构建图像分类模型存在以下几个难点：

图片大部分是用户上传，图像质量偏低，增加识别难度；
图片内容不限于商品类目本身，涵盖很多和商品不相关其他类别，整体类别定义困难；
闲鱼商品的title是由用户自己填写的，结构化信息参差不齐，同时还包含很多口语化的噪声；
同类的商品包含的噪声图片很大，不能直接训练
数据标注成本高，短时间内不能有效覆盖大部分数据；

我们这里要求不直接识别出众多的具体商品类目名称，只要可以区分彼此即可，对于需要重点识别的类别，我们采用训练好的特征进行样本挖掘，整体流程如图5所示，包括基础图像特征学习，聚类样本构建，和分类模型的训练：

图像实际应用,函数图像的实际应用(5)

图5.半自动图像分类识别

基础图像特征学习

基础图像模型主要是为了学习数据的整体分布，在尽可能提高样本覆盖的情况下发掘较简单的样本使得模型可以冷启动。首先根据线上的query请求的展示结果，收集高频query下的点击商品作为候选集合，因为有用户误点击和高点击导流样本存在，所以需要过滤掉点击率偏低和偏高的商品样本，同时需要语义相近的query进行去重，经过上述几步就构成了图像分类的基础数据。模型训练采用resnet101模型，对比了softmax和arcface[5]两种损失的效果，结果softmax好于arcface，原因可能是因为样本不纯arcface很难收敛到较好的目标。

聚类样本构建

有了基础模型后，接下来需要收集闲鱼类目样本。首先收集闲鱼每个类目下商品样本，这步可以把语义概念控制在一定的范围内，接下来根据title中的中心词的命中率把该类目下下样本划分为不同的子类目，每个子类目下的样本都有明确的语义含义，但是图片存在较大变化如上图8-1所示“詹姆斯”这个子类目下的样本存在多个品类的情况，这类样本无法直接训练。这时我们可以利用上面得到的基础图像特征对子类目下的样本提纯，即在每个子类目类做聚类，把互为图像特征余弦距离最近的样本聚合成新的类别，过滤掉样本较少的类目，最终就得到了我们训练闲鱼场景下的图像分类样本，针对不同的距离阈值，我们分别选取了4.6K,7.4K,12K三组类目细分类，人工评估效果7.4K较为理想，其他两个对样本的划分要么太粗要么太细。

分类模型的训练

基于之前的分类模型参数，训练新的类目标签，采用batchsize=256, centercorp=224, 加入随机crop,镜像，cutout预处理，学习率采用cos学习率同时在一定轮数加入热重启，使模型在后期还能进一步提升准确率，最终验证集合top@1准确率74%，基本达到了应用要求。

为了能识别票据，文字图，建筑物，人物等特定类别，我们需要对这些类别做定制的样本挖掘：通过已经训练好的模型抽取特征搭建商品库的检索系统，收集需要特殊处理的样本进行最紧邻查找，对查找后的结果卡阈值并再次进行检索继续扩充需要的样本集合如图6，最终合并这些类目与原有类目一起训练。

图像实际应用,函数图像的实际应用(6)

图6.特定类目样本挖掘

基于分类模型学习图像比对特征

比对特征主要是用来判断商品是否同款，过滤掉或打散图片重复的商品。由于系统里每个商品已经单独定义，所以这里采用deepid[1][2]][3]方案，训练同款特征，但直接用每个商品的图片训练存在两个问题：1.每个id类别存在变化较大的多张图片并不能直接使用所有图片；2.每个id类目的样本稀少，直接训练很难收敛。

针对上述问题1我们有个先验的假设即用户上传的多张图片中与商品主要意图相关的图片占大多数，所以我们可以借鉴之前聚类的思路，在同一个商品的多张图片中进行聚类，选取样本最多的类别为我们的候选集合，如果类别间的样本相差不大则认为该商品不适合做训练应丢弃。

为了每个类别都可以尽可能挖掘到同款样本，我们选取在线上同一个query下有交易行为的商品和点击率较高的商品作为候选集合同时对每个商品内部进行聚类保证样本纯度，在实验时我们发现品牌类query或品类query下的样本存在较大的多样性,如“安踏”、“华为手机”、“电动车”，即使点击行为较为稠密，但可能属于不同sku的商品，所以我们需要对query进行限制，尽量保证query到单独sku粒度消除歧义性，如“华为p40 pro”、“极米投影仪h3”、“小牛电动车G2”。

有了上述的样本我们就可以训练deepid模型，这里采用人脸常用的arcface loss[5], backbone选择之前的分类模型和初始化参数，开始阶段先用较小margin参数，然后遍历scale参数，经过选取合适的margin和scale后训练模型到饱和，接下来增大margin参数同样选取合适的scale参数训练，经过3次这样的迭代使模型在不过拟合的情况下训练，最终相款识别准确率95%，商品sku内召回79%。

基于同款特征也可以用于在相同识别的场景中，即利用同款特征做召回再利用sift特征做最后的几何校验，可以实现对旋转、部分裁剪和遮挡的相同图识别。

组合图像分类和图像特征解决相关性和多样性问题

闲鱼搜索相关性问题

针对用户提交商品图片多样性的特点，为了提升搜索体感，采用首图相关性聚类的方式重排检索结果如下图7-1示例，以“锐鲨”搜索query为例：图7.1 举例对照组检索结果，可以看出整体队列都是和便携工具相关的商品，但也存在包装（坑位1，6）和歧义（坑位3）的体验不好的case，通过上述的商品图像分类模型对商品多张图片进行预测并聚类，我们可以得到每个商品的主要的top3类别，随后统计整个队列的top类别做为该队列置信类别，最后根据置信度分档重排，结果参考图7.2看到top商品都是移动工具相关。另一个case如图8.1所示query为“詹姆斯”经过图像特征重排球鞋这个主要类别被重排到前排如图8.2，其他一些不太相关的类别被降权。线上的case中，也会有badcase，例如有些query如“华为”，“苹果”存在多类别是否需要重排需要根据用户反馈进行优化，重排的实验结果如下，点击率还是有明显的提升。

图像实际应用,函数图像的实际应用(7)