以上是我们隐藏辱骂的一些实例。V2模型每天能打击万级别的新增辱骂评论。
--
04
评论排序
1. QQ音乐评论排序现状
之前QQ音乐评论排序只有最热和最新两个tab。最热tab排序出现了较严重的马太效应,头部评论万年不变;还会有一些抄袭、骗赞、负面的头部评论,例如“有人看到这句话麻烦点个赞”等;评论的多样性也比较差,头部经常出现重复性或是主题相同的评论。最新tab排序也存在一定的问题。因为评论是按照发布时间逆序排列的,最新评论没有热度因子(点赞、回复)干预排序,所以可能会导致头部评论的内容质量比较差。所以我们要综合考虑时间,互动,NLP因子来给出一个更好的分发方式。
2. 排序模型-V1
目前的评论上报是不完善的,所以我们使用手写经验公式,其中最重要是热度与NLP因子的融合。其中,热度因子主要包括点赞、回复、时间衰减等等;而NLP因子主要是一些质量、主题、情绪等标签。
此外,我们还对头部评论的主题内容进行了多样性重排。我们采用了推荐中常用的DPP算法,同时融合了热度信息,利用Cholesky矩阵分解和贪心的方法求近似解,就可以得到内部相似度较低,而热度较高的评论子集。上述行列式中使用了文本相似度计算,因此我们还需要提前对文本进行向量化处理,这里使用LSA主题模型,先将文档词矩阵进行SVD分解,得到文档主题矩阵,然后再计算相似度。多样性重排的方式很好地解决了头部评论主题重复的问题,提升了内容丰富性。
3. 排序模型-V2
① V2模型的业务目标