网易云音乐大数据应用案例,大数据在音乐中的应用

首页 > 经验 > 作者:YD1662024-03-25 14:41:23

在大数据开发领域,大家都会被一个问题困扰:调度任务延迟,然后被老板、被业务“灵魂拷问”。本文将从问题挑战、目标衡量、行动方案、成果展示、后续规划五个方面展开,详述网易云音乐在全链路基线治理的实践。

一、问题挑战

基线治理前,我们的基线运维存在较多的问题,有两个数字很能说明问题:

要进行全链路基线治理,面临的挑战也很大,主要来自三方面:

二、目标衡量

全链路基线治理的价值,总结起来主要有4个方面:

那么我们用什么指标来衡量我们的目标呢?我们提出了两个数字来牵引:

三、行动方案

1.整体方案

基于上述问题挑战的剖析,我们对该问题的解题思路拆成3个方面:

用3个词归纳,就是稳基建、优任务、定标准。

网易云音乐大数据应用案例,大数据在音乐中的应用(1)

2.稳基建

基建这块,我们梳理了存在的问题:

针对上述问题,我们实施了如下的解决方案:

3.优任务

针对云音乐体量大、业务多、团队广的数据任务特点,我们在这块做的工作主要有:

其中,spark 升级得到了杭研同学的贴身服务,取得了比较好的成果,hive 升级到 spark3 完成大几百个任务的改造,节省60%资源。spark2 升级 spark3,完成将近千个任务的改造,整体性能提升52%,文件数量减少69%。

指标的异常监控,引入的机器学习模型,我们主要融合了 Holtwinter、XGBoost 算法,相比 dqc 的监控,我们在 DAU 这个指标上,召回率提升74%,准确率提升40%,正确率提升20%;同时这里还有一个很大的作用是,它能感知业务的动态趋势性变化,而且部署也很简单,配置化接入。在产品层面,我们也正在联合杭研产研同学,将该能力集成到数据质量中心。

网易云音乐大数据应用案例,大数据在音乐中的应用(2)

4.定标准

在定标准方面,主要从两方面出发:运维的范围和运维规范。基于这两点,我们展开了如下的工作:

四、成果展示

项目成果这块,主要分为业务成果、技术成果、产品成果三方面。

业务成果,目前我们的核心基线凌晨就能跑完,平均告警天数下降60%,核心基线破线次数0,完成全年可用天数98%以上的目标。

技术成果,我们的《机器学习模型在云音乐指标异动预测的应用实践》荣获了网易集团2022年度技术大会-开源引入奖。同时,我们的集群资源数字化,通过计算出合理的弹性资源,确保集群服务或者任务出现相关波动或异常的情况下,不会造成大量任务延迟、核心基线破线等现象;其次根据资源的安全水位,为扩缩容提供量化的数据指标;最后集群、队列、任务资源透明化后,可以提高整体的资源利用率,降低成本。

网易云音乐大数据应用案例,大数据在音乐中的应用(3)

网易云音乐大数据应用案例,大数据在音乐中的应用(4)

产品层面,在杭研的鼎力支持下,实现了队列资源的倾斜、自助取数自动查*等功能,有效的提升了我们的资源利用率。

五、后续规划

我们将从产品、系统、业务、机制四个方面继续全链路基线治理的工作。

产品层面,我们将引入 DataOps,增强任务的代码自动稽核能力,从开发、上线、审批全流程做管控。优化基线预警,通过检测基线上任务调度时间、依赖设置等,判断是否有优化空间或者异常,并做提示或告警。

系统层面,优化资源监控,支持基于 Label 级别展示分配的物理 CPU、虚拟 CPU、内存等系统资源总量以及指定时段的实际 CPU、虚拟 CPU、内存使用量。同时在任务级的资源使用上,对配置的资源做合理性评估,进而提供优化建议。

业务层面,提升内容级监控覆盖率、准确度;打通线上服务的血缘,覆盖线上服务的任务。

机制完善,联合分析师、数据产品等团队,确定报表、数据产品的下线以及对应历史任务下线流程。

写在最后,治理是一件久久为功的事情,上述更多的是从方法论的角度在讲这件事,但是治理其实更考验执行,需要不断修炼内功,把事情做细,把细事做透。

作者丨石烁

来源丨公众号:网易云音乐技术团队(ID:gh_e0a72742f973)

dbaplus社群欢迎广大技术人员投稿,投稿邮箱:editor@dbaplus.cn

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.