内容理解顾名思义,是对内容的理解工作。
内容行业根据创作者类型将内容做了不同划分。PGC(Professionally Generated Content)指专业生产内容、专家生产内容。UGC(User Generated Content)指用户原创内容。
理解实践中,我们会把围绕一篇内容产生的所有表征和语义做最全面的理解工作,不论PGC还是UGC,不管是图文还是视频,无关正文还是评论,都是理解工作的重点。
为什么要做内容理解?和谐文明、健康积极、规范有序的网络环境,是各家内容平台建设发展的前提。
而内容生产者创作水平、传播目的各不相同,内容消费者认知能力、接受程度无法把握,直接带来的影响是,有大量违法违规、低质垃圾、广告诱导、令人反感等严重影响用户体验的内容混入,难以甄别。
为了将上述低质内容有效剔除,除了最低效的人工审核,人工智能的配合成为内容处理的新的依赖。通过机器建模与审核团队的配合,保证内容平台安全、优质、高效。
即理解维度足够全,理解粒度足够细,内容处理更可控,内容推荐更精准。
如何对内容进行理解并应用?广义的内容理解,根据其不同应用目的,我把它分为工程能力、内容安全、低质内容、优质内容、与特征理解。
01工程能力
人脸识别
影视识别
OCR识别
02 内容安全
03低质内容(以标题党为例)
标题党的理解是个相对来说偏向主观的工作,受用户的教育经历、表达习惯、接受程度等多方面因素影响,很难达成一个定义的标准。
经过大量的阅读与总结,我把常见的标题党类型提炼为以下多种。
而基于规则的过滤是无法满足内容平台对标题质量的要求的,这时NLP的价值便发挥出来。
04优质内容
我们在使用一个资讯产品时,除了希望在百无聊赖的时候有内容用于消遣,更多希望在此产品获取到新鲜资讯用以了解时事、紧跟社会。而对内容平台来说,热点内容的精准捕捉,便是突显产品优势的一个重要维度。
05特征理解(以内容分类为例)
特征理解是深度学习的广泛运用之一,是对文本按其内容进行分类。
资讯行业一般会对内容作300-500个分类,包括一级分类(如游戏)、二级分类(如手游、端游等)、三级分类(如MOBA、PUBG等),部分平台会将三级分类分得更细(如王者荣耀、绝地求生等)。
三级分类的精细理解,一定程度已经类似一个tag的使用,辅助用户的历史行为和画像,在推荐时往往能产生更好的阅读表现。(如手机厂商的信息流产品,可以采集到设备上的app安装,对一个安装了“王者荣耀”的用户,推荐王者荣耀相关的资讯内容是一个可行的探索)
对分类的预测是做成互斥的二分类模型,还是多分类模型,是需要特别去考虑的。二分类模型应用时推荐置信度更高,但召回相对离散,即被预测为“古装剧”的内容,不会被“动作片”召回;而多分类模型便可将“妻子的浪漫旅行”预测为“综艺”和“旅行”两个分类,推荐场景便增加了更多可能。
以上介绍仅为各个理解维度的一些项目示例,根据内容类型,我将常见的一些理解工作简单概括如下。