监控网络超时怎么解决,监控网络超时请稍后再试怎么解决

首页 > 科技 > 作者:YD1662023-11-13 22:22:48

最近从性能、监控方面对引擎进行优化,这不,监控刚上了,就发现了一个很严重的问题--超时。

今天,借助此文,分享下该问题的发现、排查以及解决过程!

业务背景

在广告业务中,分为效果广告、KA广告以及三方广告等。效果广告和KA广告一般都仅限于内网,也就是说在内网中通过RPC进行访问,而三方广告,则需要访问外网,因为外网环境以及每家三方广告主的处理能力不同,导致性能不同。本次的超时就是针对的某个三方广告主。

监控网络超时怎么解决,监控网络超时请稍后再试怎么解决(1)

本次针对三方的业务监控中,包括对三方广告主的请求数、返回数、qps、rt等指标。

收到报警

增加了监控的业务上线后,根据引擎监控系统来查看三方的基础数据监控,如下:

监控网络超时怎么解决,监控网络超时请稍后再试怎么解决(2)

通过上述图表,看了下平均rt等业务指标,一切正常。开始着手配置超时等监控报警指标。鉴于业务的重要性,配置了邮件告警和短信告警两种,配置完成后,一键生效。结果,过了没几分钟,就收到了告警。

监控网络超时怎么解决,监控网络超时请稍后再试怎么解决(3)

看到超时这么多,第一时间先ping下,看看网络间耗时咋样,结果如下:

64 bytes from 114.67.237.131: icmp_seq=1 ttl=49 time=7.13 ms 64 bytes from 114.67.237.131: icmp_seq=2 ttl=49 time=6.37 ms 64 bytes from 114.67.237.131: icmp_seq=3 ttl=49 time=6.10 ms 64 bytes from 114.67.237.131: icmp_seq=4 ttl=49 time=6.07 ms 64 bytes from 114.67.237.131: icmp_seq=5 ttl=49 time=6.04 ms 64 bytes from 114.67.237.131: icmp_seq=6 ttl=49 time=6.07 ms 64 bytes from 114.67.237.131: icmp_seq=7 ttl=49 time=6.03 ms 64 bytes from 114.67.237.131: icmp_seq=8 ttl=49 time=6.09 ms 64 bytes from 114.67.237.131: icmp_seq=9 ttl=49 time=6.11 ms 64 bytes from 114.67.237.131: icmp_seq=10 ttl=49 time=6.03 ms 64 bytes from 114.67.237.131: icmp_seq=11 ttl=49 time=6.07 ms

网络很稳定,看来跟网络没关系,只能通知对方。

双方沟通

跟对方反馈其rt超时很严重后,对方第一反应是内部有些广告主太耗时,于是其关闭了超时严重的广告主,然后让我这边继续观察。

待对方关闭耗时长的广告主后,重新打开监控报警(之前因为报警太频繁,暂时关闭了报警),然后没有几分钟,报警又又又来了。

赶紧在群里跟对方反馈,对方也是一脸懵逼,双方开始一起排查问题,毕竟没人跟钱过不去

为了便于尽快发现,在测试环境尝试将超时时间设置为2s,然后模拟发送请求,果不其然,超时。。。

监控网络超时怎么解决,监控网络超时请稍后再试怎么解决(4)

首页 1234下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.