故障范围已被大大缩小;
故障对象是应用服务器;
故障产生原因是由于网关找不到服务器MAC地址;
服务器看到了网关的ARP请求,没有响应;
故障恢复的原因是,服务器主动发起了ARP更新请求,得到了网关响应;
出现故障时,同网段其它服务器通讯正常。
问题解决建议
由于故障对象被锁定为服务器本身。
接下来查找问题就相对简单了。
造成故障的对象包括:服务器和交换机2端网卡及设置,传输介质质量等,建议对这部分进行检查,可使用替换对象的方法来排除。
故障解决及验证
根据分析结论,造成故障的对象是服务器。
网管人员尝试重启网卡,但在进行网卡重启时,始终无法重启网卡。
随后重启操作系统,网卡恢复正常,故障再无发生。
系统连接信息验证
下图是故障解决后,该系统的网络运行情况视图。
故障恢复前,该应用服务器每隔一段时间,发送的连接数明显下降,失败数对应上升。
故障恢复后,再没有出现连接数下降现象。
ARP数据分析验证
同样,我们通过对采集点2和采集点3的ARP数据进行分析。服务器再没有出现自身ARP请求响应问题,因此故障再无发生。