b站天选时刻要啥条件,b站天选时刻怎么设置实物奖励

首页 > 影视动漫 > 作者:YD1662024-01-28 17:53:20

图20 Fault业务场景演练

全链路压测

S13通过全链路压测平台Melloi(下文简称Melloi)来发现和验证高性能/高并发带来的问题,高在线房间存在的问题也非常具有共性:

  1. 热点Key问题:用户集中在主房间,以房间Id/主播Id为 Key的缓存成为热点Key。
  2. 空缓存问题:赛事期间用户量相比平时翻了几十上百倍,且存在不少一段时间内没有访问过直播的冷数据用户,需要空缓存或者使用布隆过滤器防止缓存穿透造成DB的高并发,甚至部分场景需要预热。
  3. 消费积压问题:赛事活动与用户行为强相关,例如观看达到X分钟可获奖励,主房间的观看量百万千万级别,要求高性能消费和削峰。

本文重点探讨基于Advisor的技术链路信息,在压测环节可做的优化:

  1. 提高压测数据准备的效率:纯读接口可根据Advisor信息从线上录制流量回放作为压测流量
  2. 提高压测结果回收的效率:可根据Advisor信息,与压测流量对比,检测压测流量是否已覆盖需要覆盖的链路,以及技术链路上各层的指标是否处于健康水位,并根据具体情况提供标准化解决方案的参考(例如热Key问题,可以提供统一的热Key识别和解决方案)。

b站天选时刻要啥条件,b站天选时刻怎么设置实物奖励(29)

图21 全链路提效示意图

预案SOP

针对故障演练识别到的强依赖路径,需要做好预案SOP。可以缩短MTTR为目标,从1分钟发现、5分钟定位、10分钟恢复的原则准备预案:

可能故障点

业务影响范围

如何1分钟发现

5分钟定位方法

10分钟恢复手段

操作人

表4 预案SOP模版

变更管控

基于安全变更要求,赛事直播保障期间,我们也启用了变更管控封网,严格控制线上变更

数量,同时也需要支持必要的需求迭代变更,我们采取了以下措施:

  1. 整个活动保障期间:非强变更管控,根据前期场景梳理涉及到的业务功能,对其业务需求和技术需求上线变更要求进行邮件报备。报备内容需要包括变更内容、变更的风险、如有问题是否支持回滚、预案SOP等;
  2. 关键赛事直播当天:强变更管控,同样来自前期场景梳理设计的业务应用,通过“变更管控 ChangePilot”平台进行创建业务 服务等级的封网策略。同时支持紧急情况下的变更需求提供绿色通道。

b站天选时刻要啥条件,b站天选时刻怎么设置实物奖励(30)

图22 强变更管控策略创建

赛中跟踪

稳定性可观测:基于SLO体系的持续建设,我们实现了服务可用率、服务饱和度的观测/告警覆盖。赛事过程中通过稳定性大盘我们能够非常直观的观测到全站业务的稳定性情况;当服务出现可用率的下跌(10分钟平均可用率N2),相关协同群会立即推送预警工单。同时提供相关错误详情和错误根因推荐,大幅提高问题排查定位效率;

b站天选时刻要啥条件,b站天选时刻怎么设置实物奖励(31)

图23 SLO全网业务大盘

实时监控大盘:除了全局业务稳定性的观测,赛事过程也同样会关注PCU情况、核心场景的QPS、P90耗时、限流情况;以及核心场景涉及服务的容量水位;通过应用APPID进行元信息关联,获取直播场景下相关的缓存集群、数据库实例、消息队列等组件的信息,关联实现组件容量水位的实时观测。以上指标均配置了不同档位的阈值,能够快速发现基础资源容量风险。

b站天选时刻要啥条件,b站天选时刻怎么设置实物奖励(32)

上一页45678下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.