内容怎么理解,内容理解的思路

首页 > 实用技巧 > 作者:YD1662024-01-06 01:46:30

什么是内容理解?

内容理解顾名思义,是对内容的理解工作。

内容行业根据创作者类型将内容做了不同划分。PGC(Professionally Generated Content)指专业生产内容、专家生产内容。UGC(User Generated Content)指用户原创内容。

理解实践中,我们会把围绕一篇内容产生的所有表征和语义做最全面的理解工作,不论PGC还是UGC,不管是图文还是视频,无关正文还是评论,都是理解工作的重点。

为什么要做内容理解?

和谐文明、健康积极、规范有序的网络环境,是各家内容平台建设发展的前提。

而内容生产者创作水平、传播目的各不相同,内容消费者认知能力、接受程度无法把握,直接带来的影响是,有大量违法违规、低质垃圾、广告诱导、令人反感等严重影响用户体验的内容混入,难以甄别。

为了将上述低质内容有效剔除,除了最低效的人工审核,人工智能的配合成为内容处理的新的依赖。通过机器建模与审核团队的配合,保证内容平台安全、优质、高效。

理解维度足够全,理解粒度足够细,内容处理更可控,内容推荐更精准。

如何对内容进行理解并应用?

广义的内容理解,根据其不同应用目的,我把它分为工程能力、内容安全、低质内容、优质内容、与特征理解。

01工程能力

人脸识别

影视识别

OCR识别

02 内容安全

内容怎么理解,内容理解的思路(1)

03低质内容(以标题党为例)

标题党的理解是个相对来说偏向主观的工作,受用户的教育经历、表达习惯、接受程度等多方面因素影响,很难达成一个定义的标准。

经过大量的阅读与总结,我把常见的标题党类型提炼为以下多种。

内容怎么理解,内容理解的思路(2)

而基于规则的过滤是无法满足内容平台对标题质量的要求的,这时NLP的价值便发挥出来。

04优质内容

我们在使用一个资讯产品时,除了希望在百无聊赖的时候有内容用于消遣,更多希望在此产品获取到新鲜资讯用以了解时事、紧跟社会。而对内容平台来说,热点内容的精准捕捉,便是突显产品优势的一个重要维度。

内容怎么理解,内容理解的思路(3)

05特征理解(以内容分类为例)

特征理解是深度学习的广泛运用之一,是对文本按其内容进行分类。

资讯行业一般会对内容作300-500个分类,包括一级分类(如游戏)、二级分类(如手游、端游等)、三级分类(如MOBA、PUBG等),部分平台会将三级分类分得更细(如王者荣耀、绝地求生等)。

三级分类的精细理解,一定程度已经类似一个tag的使用,辅助用户的历史行为和画像,在推荐时往往能产生更好的阅读表现。(如手机厂商的信息流产品,可以采集到设备上的app安装,对一个安装了“王者荣耀”的用户,推荐王者荣耀相关的资讯内容是一个可行的探索)

对分类的预测是做成互斥的二分类模型,还是多分类模型,是需要特别去考虑的。二分类模型应用时推荐置信度更高,但召回相对离散,即被预测为“古装剧”的内容,不会被“动作片”召回;而多分类模型便可将“妻子的浪漫旅行”预测为“综艺”和“旅行”两个分类,推荐场景便增加了更多可能。

以上介绍仅为各个理解维度的一些项目示例,根据内容类型,我将常见的一些理解工作简单概括如下。

内容怎么理解,内容理解的思路(4)

内容怎么理解,内容理解的思路(5)

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.