线上部署和推理流程:离线训练完毕后,对所有存量歌曲的向量构建向量索引。对一个新的冷启动 Item,通过模型推理得到其向量,然后从向量索引内检索与之最相似的一些 item,这些 item 是过去一些存量 item,因此存在一批与它们有历史交互行为的用户(如播放、收藏行为等),将这个需要冷启动的 Item 分发给这批用户,完成对该 Item 的冷启动。
我们对该冷启动算法进行了评估,包括离线和线下指标的评估,取得了非常好的效果,如上图所示,冷启动模型计算得到的歌曲表征对不同曲风的歌曲可实现优秀的聚类效果。部分成果已有公开论文发表(Bootstrapping Contrastive Learning Enhanced Music Cold-Start Matching)。在线上,该冷启动算法在找到更多的潜在目标用户( 38%)的同时,还实现了冷启动item 的收藏率( 1.95%)、完播率( 1.42%)等业务指标的提升。
在此基础上我们又思考:
- 在上述 I2I2U 的方案中,未使用任何用户侧特征;
- 如何引入用户特征帮助 Item 冷启动?
U2I 冷启动方案采用多模态 DSSM 建模方法。该模型由一个 ItemTower 和一个 UserTower 组成。我们将之前歌曲的多模态特征继承到 ItemTower 中,用户塔创建了一个常规的用户塔。我们对用户序列进行了多模态的学习建模,模型训练基于全量的item 空间,无论是冷门还是热门歌曲,都会作为样本去训练模型。推理时,只对圈选好的新歌或冷门歌曲池进行推理。这样的做法与之前一些双塔方案类似:对于热门的item,构建一个塔,对于新的或冷门的 item,构建另一个塔来处理。然而,我们更独立地处理了常规的 item 和冷启动的 item。我们为常规的 item 使用常规的召回模型,而对于冷门的 item,则使用专门构建的 DSSM 模型。