首先是内容池的服务。内容池服务作用于推荐的召回阶段,作为主推荐召回路径的一个补充。
它的背景主要是因为推荐准入池缺少很多我们需要扶持的内容,或者我们挖掘的冷门优质的内容。这些内容只有加入到我们的召回通路,才有可能在后续的排序、重排以及最后被用户播放到。
相比于推荐准入池另外的一个差异在于,我们内容运营中台有很多垂直类别的小池子,包括不同场景的精选池、不同语种流派的垂类池、不同圈层下的冷启池等等,
这些池子在之前是离线计算 导出文件 编辑审核 数据入库和上线,这里是缺乏一些数据流转和审核干预的工具的,整体效率比较低下。
内容运营中台封装的内容池功能,就解决了这些问题,提供方便的数据流工具和运营审核平台,同时后续也会引入一些基于数据反馈进行内容池的持续迭代的能力,包括ab实验和准入退出的功能。
3.3 参数服务
接下来是内容中台第2个重要的服务——参数服务。参数服务主要提供内容价值评估的策略配置和ab实验的能力。
下面第一个表是我们的内容价值评估结果的示意图,横向的是歌曲a、b、c、d,纵向的是内容在各个指标上的评估分数;第2个表格是我们的策略配置方案,实际中并不需要每一个评估指标都需要配置系数,只需要配置非0的部分即可。
那么综合这两个数据,在时间点t,内容的综合倾斜分数即为以下公式所示,其中S 为 m 个内容在n 个指标上的评分矩阵,P为某个实验策略的参数向量。
这里举了几个案例:
第1个是线性的策略,直接返回基于音频的内容评估分,可作为排序模型的特征参数。
第2个是动态的非线性策略,对特定圈层的用户,使用实时评估分作为变量的函数g的变换后的值g(S2)作为该指标系数,再与其他指标加权作为最终倾斜分。
这两个都相对简单的,还有一个相对复杂的是我们的EE模型:
EE模型是Explore-Exploit(也就是探索-利用策略),具体而言z是实时价值分,而x和y分别是大盘和单首歌曲的播放量。
当y小于探索阈值N时,内容的综合倾斜分数是由实时评估收益和收益置信上界(UCB)两部分决定的,当y较小的时候,会给予内容更大的置信上界倾斜;当y达到一定量,内容的实际收益比较稳定可信了,就以实际流量收益为主要影响因素。最后内容曝光的概率是这个正比公式决定的。
这里应用的场景主要是一些音乐人的新歌,或者潜力挖掘的冷门优质歌曲的探索和扶持。
以上就是我们内容中台的主要解决方案和思路,它是对推荐的排序阶段进行干预,达到不影响用户体验的同时,对特定内容进行扶持的。接下来介绍下我们在重排阶段进行干预的方案,也就是我们的精准投放系统。
04. 精准投放系统
4.1 概述
在介绍投放之前,我们先来对比下投放系统和推荐系统的差异:
- 首先,从本质上来说,推荐系统是为了迎合用户喜好的,是根据用户去找最喜欢的内容;而投放本质则是根据内容来找用户,本质是将用户的流量进行变现的。
- 从整体架构上看,推荐系统需要从上百万的候选池中去选择合适的内容推给用户,而投放则一般只有几百到几万的内容量,所以基本不需要召回层。
- 从评估指标上看,投放系统除了用户体验指标外,还有任务完成率等诉求。
- 从内容特点上看,投放系统中大部分内容是新冷内容,更需要注重解决冷启动的问题。
- 最后是投放系统要保证任务完成率,就需要对任务进度进行把控,需要有保量机制。当然,如果某些内容质量确实一般,但需要的量又大,对用户体验损失比较明显,我们也需要有退出机制,来保证用户体验不受太多伤害,而不是一定要完成保量。