背景描述:在日常项目维护中,经常有服务器异常重启死机的问题,导致这类问题的一般可分为3种情况:环境问题、软件问题、硬件问题。对于此类问题,要去借助windows的系统日志进行分析;
1. 环境问题(最易排除,优先确认):
a) 电源环境:
一般现场除服务器外还会有其他设备,譬如其他服务器、存储、DVR等,将同一机柜的设备对比查看系统日志,确认是否有在同一时间点附近关机,如果有基本可以断定为异常断电,
b) 网络环境:
这种情况比较少见,多见于服务器挂载iscsi磁盘的时候,从日志上可以看到由于网络不稳定,导致服务器会去频繁的主动连接iscsi挂在盘,由于现有的2008R2的重连机制,如果服务器超过一段时间连接不上后就会服务器挂死,此时需要重启服务器才能使用;windows日志报错如下图:
windows日志报错
在频繁的去重连iscsi挂载盘后死机;
2. 软件问题
软件问题导致的异常重启一般分为2类:应用软件、操作系统;
a) 应用软件
多见于软件消耗的硬件资源太多,导致CPU占用过高(超过60%),这个时候CPU一般会超频以满足我们软件的资源需求,这是一个不稳定的状态,很容易导致服务器异常重启,这种情况尤其多见于只能分析服务器以及服务器中毒等问题,一般打开任务管理器即可发现;碰到这种问题,一般是将相关的软件进程先关闭,然后拷机一段时间,基本可以确认问题原因。任务管理器里面一般能看到某个或某几个进程占用过多的CPU,如图:
进程占用过多的CPU
b) 操作系统
这种情况比较难排除,一般是当排除了环境问题、硬件问题以及应用软件的可能时,这时可以考虑重装系统试试,如果重装系统后还是无法解决,就需要考虑换主板试试。
3. 硬件问题
服务器硬件问题会导致异常重启,一般是内存、硬盘、主板问题会导致,CPU出问题的概率基本为零(如果CPU出问题,机器是无法启动的)。
a) 内存
如果内存有问题,一般系统日志都会有记录,如下图;
内存问题
b) 硬盘
如果硬盘出问题后,一般会出现服务器比较卡,此时可以用HD tune pro查看下硬盘健康值,如果显示警告或者坏盘,都意味着硬盘有问题,建议换掉。
HD tune pro查看下硬盘健康值
c) 主板
此类问题比较难排查,一般都是在确认环境、应用软件、内存、硬盘没问题后,如果说现场重装系统比较方便,就先重装,如果不方便重装就考虑先换主板。