一、看一看介绍编辑导读:微信已经成了不少人获取咨询的来源之一,看一看功能在这基础上实现内容的精确推荐,以及拓宽用户阅读兴趣,打破信息茧房。本文从六个方面,以多模型内容策略与召回的角度分析微信看一看,希望对你有帮助。
相信对于不少人而言微信已经成为获取资讯的主要场景。与此同时,由于微信用户群体的庞大,也吸引了大量的内容生产者在微信公共平台创造内容,以获取用户关注、点赞、收藏等。微信内的内容推荐产品:看一看应运而生。
基于微信通过多年的用户沉淀,积累得到的大量“隐式反馈”阅读兴趣信息,可以精准的实现内容与内容消费者之间的推荐。同时,秉承降低用户获取信息茧房效应,拓宽用户阅读兴趣,增强互动,强化用户认知,及时获取咨询等等诉求,看一看不断在算法迭代的同时,引入各类腾讯系,外部图文,视频,资讯,小视频等内容,丰富内容多样性的同时不断上线优化产品体验与进行样式优化。
二、内容库与内容画像1. 内容源
看一看接入了非常多合作方的数据作为内容源,包含但不仅限于微信公众平台及其他外部内容等等。
由于接入数据源较多,各家数据在内容、质量、品类等方面差异性比较大。看一看平台方会对数据做“归一化”操作,包括标签统一化,推荐标签提取,内容投放目标,投放人群倾向性等内容理解处理,这部分我们称为看一看内容画像部分。
2. 内容画像
内容理解:对接各种外部图文等内容,对接入内容做业务级内容多维基础理解,同时进行外部标签与自有标签体系对齐,完成应用级内容打标。
反馈至下游应用方:用户需求系统,召回策略,召回模型,排序/混排等使用。同时,在业务数据滚动与迭代中修正数据判断精度与效果,逐步贴合与提升业务线效果。
我们将内容画像,定义为两个大维度:通过内容本身来理解内容, 通过用户行为来理解内容。前者主要针对内容抽取静态属性标签;后者则通过用户行为积累的后验数据、统计或模型预估内容的知识、倾向性、投放目标以及抽象表达。
3. 多模态标签语义标签
我们将文本语义按粗到细粒度分为:文本多分类(1-3级),主题topic model(长效topic,实时topic),tagCluster, tag/entity,这也是NLP领域持续在关注和研究的重点方向。
文本分类与模式识别中心合作对长/短文本训练基于标注的增量多分类模型(1-2级分类准确率可以达到90% ),支持领域内DL文本分类模型。
Topic Model作为重要分支,为支持看一看推荐业务,解决了时效性热点的快速topic增量模型,实现多层级(1000维,1500维度,5000维, 1W维)topic model,以及以此为基础衍生出的topic Embedding技术等。
Tagcluster是介于tag和topic粒度之间的一类tag聚簇概念,维度为10W级;用于解决语义自动语义聚合的可解释问题;关键词提取(标签提取),技术演进从传统的基于标注,到半监督,到自动标注的序列提取的浅层模型;已经全部迁移为基于bilstm attention CRF 和 bert的一套深度模型系统。
标签是推荐系统的核心基础能力,深度模型的引入对算法准确率与覆盖率都有显著的提升。
视频理解的相关维度,我们与外部团队深度合作,建立起一套基于短/小视频,封面图多维度的多媒体特征体系,包括人脸识别,人脸embedding,标签,一二级分类,视频embedding表示,水印,OCR识别,清晰度,低俗色情,敏感信息等多种维度。有力辅助多媒体理解深度,并广泛用于召回模型,曝光展示策略,过滤策略等,目前,在召回与策略层面已经证明有一定在线提升效果。
4. 基于知识体系的表示与可解释标签
知识图谱作为知识承载系统,用于对接内外部关键词信息与词关系信息;内容画像会将原关系信息整合,并构建可业务应用的关系知识体系。
其次,依赖业务中积累用户行为产生的实体关系数据,本身用户需求的标签信息,一并用于构建业务知识的兴趣图谱,基于同构网络与异构网络表示学习等核心模型,输出知识表示与表达,抽象后的图谱用于文本识别,推荐语义理解,兴趣拓展推理等场景,直接用于兴趣推理的冷启场景已经验证有很不错的收益。
5. 嵌入表示
语义嵌入表示:这类是相对已经比较成熟的技术,基于短文本tag, word粒度,句子粒度,doc粒度都可以构建embedding表示。其次,除文本外,更为丰富的多媒体信息的融入,已经可以验证在一定程度上可以增强表达能力。
其次,我们基于微信阅读场景的用户点击/分享/关注等等序列结合场景的上下文信息,以他们作为文本切割的序列标注信息,早起基于传统的HMM,CRF类浅层模型,发展至目前的seq2seq,RNN,transformer,Bert等序列类,语义类模型,将内容作为文本切割的一个子序列,从而实现对文本的序列的表示信息。由于更加贴近推荐场景,这类嵌入表示业务可用性会更高,也体现在召回/排序模型的应用效果会更加明显。
6. 倾向性与目标性识别
这部分是通过用户行为数据来理解内容的重要体现。分为两部分:内容倾向性与内容投放目标性。都是建立在一套基于文本,多媒体,kg,投放日志等下的一套分类器进行打标,模型如上图所示。
内容倾向性:内容通过分类模型预打“倾向性”标签,例如:内容适合的性别倾向、年龄倾向性、地域倾向性等等,从而预判待投放内容的特殊人群倾向性。
目标性识别:看一看的场景会比较多,例如:主TL流,视频流,专题流,tag可点流,看一看 小程序,每个场景都有不同的投放目标(例如:主TL内容会以点击率为主,专题流会以时长消费为主,小程序分享率为主)。所以,我们会在item上同样基于投放预估的模型预先打上一组目标识别标签预判分数,供在线策略使用与内容库构建、以及内容试探等。
综上,通过内容理解与内容库构建的概要流程图如下: