第 7 章 运行维护
信息系统的核心价值在于使用。在信息系统工程建设项目交付后,其成为支撑业主单位相关业务正常运行的核心及支柱,因此信息系统工程的运行维护工作对业务连续性尤为重要。随着以云计算、大数据、物联网、人工智能等为代表的新技术迅速发展,信息系统运行维护(简称“运维”)领域的相关技术也在不断更新。
我国信息技术服务标准 (Information Technology Service Standards,ITSS) 系列的建立,明确了信息技术服务分类、运行维护工作涉及的关键要素、质量评价指标体系等。运维服务人员可以通过运维服务级别协议熟悉运维服务项目的交付内容及应急响应要点,达到提升运维服务质量的目标。运维服务团队可以在服务能力、运维项目过程交付、应急响应等各方面提升整体规范化管理能力,提升运维服务团队的工作效率和服务质量。
7.1 运行维护概述本节阐释信息系统运行维护的基本概念,同时展望其演进轨迹,介绍运行维护当前实践及其潜在发展的概览。
7.1.1 基本概念信息系统运维是指新建或升级改造类信息系统工程实施完成后的系统在完成其试运行周期后,正式进入生产环境交付使用阶段的维护和保养工作。
运行维护服务是指采用信息技术手段及方法,依据信息系统业主单位提出的服务需求,为其在使用信息系统过程中提出的各类需求提供的综合服务。
运行维护服务对象(简称“服务对象”)是指信息系统工程建设项目交付的内容,主要包括机房基础设施、物理资源、虚拟资源、平台资源、应用和数据等。
运行维护服务级别协议(简称“服务级别协议”或 “SLA”)是指业主单位与运维服务提供方之间为约定运维服务内容和各项服务指标所签署的文件。
运行维护服务交付是指在签署的服务级别协议中,运维服务提供方承诺在服务有效期内向业主单位提供的运行维护服务内容。运维服务交付的内容通常包括例行操作、响应支持、优化改善、调研评估等。
运行维护监理是指运维服务提供方受业主单位委托,依据国家有关法律法规、标准规范、监理合同,对运维服务团队提供的运行维护服务实施监督管理。
7.1.2 运行维护的发展历程纵观国内外信息系统建设的发展,经历了从无到有、从单机到网络、从单一的业务办公系统到综合性管理信息系统的发展历程。在这个过程中,信息系统的运维工作也随之经历了从单一化的网络管理 (Network System Management,NSM),到一体化的运行维护服务管理 (IT Service Management,ITSM), 再到以业务支撑为核心的业务服务运维管理 (Business Service Management,BSM)这三个循序渐进的阶段。
1.基于NSM的基础运维阶段
在信息系统运维工作发展的早期,运维工作主要表现为针对信息系统基础架构的管理,以及以信息系统设备为核心的基础设施管理两大任务。任何信息系统基础架构都有其建设周期,随着信息技术的不断进步和信息系统建设需求的变化,建设完成的信息系统设施也存在更新换代、升级改造的过程。因此上述两个核心任务应当是并行融合的关系,它们是实现信息系统服 务管理以及ITSM和BSM的基础,是发展阶段中不可跨越的起始点。
信息系统运行涉及的基础软件和基础硬件是业务的基础支撑环境,主要包括网络、链路、路由器、服务器、数据库等。为保障硬件环境稳定、网络运行通畅、系统可用,最大程度地减少各类故障的发生,避免业务因基础支撑环境变化而造成被动影响,需要对信息系统的基础支撑环境进行全面管理。通过网络实现对所有监控数据的采集、分析,获得系统及基础环境运行状态的信息,通过对动态信息的监控,保障在故障发生的第一时间或发生之前定位故障的原因及趋势并及时发出报警信息,采取主动的故障防御措施,从而提高信息系统运行环境的健康程度,同时利用基于 SNMP协议的相关技术实现对信息系统基础设施的远程管理操作,降低信息系统管理的成本并提高效率。
2.基于 ITSM 的集中运维阶段
在实现了基于NSM 的基础设施运维后,信息系统基础设施的环境数据得到全面监控,信息系统基础软硬件的稳定性、连续性有了明显提升,但用户在信息系统运行过程中仍会遇到各种各样的问题,由于各信息系统及基础设施的运维是相互独立的,相应的运维管理制度、流程、工具及方法也是相对独立的,各运维团队不得不对用户的网络设备、服务器、信息系统等进行逐一排查,运维工作效率低下,在这个过程中也容易出现互相推诿的现象,造成更大的资源浪费。调查表明,管理原因造成的问题远远多于基础设施和技术本身的问题,运维团队长时间承担着“救火队”的角色。随着我国信息化进程的加快,业主单位对信息系统的依赖程度也逐渐提升,对信息系统运维也提出了更高的要求。ITSM 作为一种新的信息化运维理念开始普及,其最大的变革在于使信息系统运维工作不再仅仅依赖信息技术,而是对整个流程进行梳理,并形成规范化的运维管理标准和制度。
ITSM 主要强调以最终用户为核心,以流程为导向,提供高质量、低成本、高效的信息技术服务。在信息系统建设期,信息化服务管理需要针对组织业务和客户的真实、可用的需求,对信息系统基础架构配置进行合理的安排与设计,避免盲目地投资和重复建设信息系统;在信息系统运维期,ITSM不同于传统的以系统功能为中心的信息系统管理方式,而是以流程为重点,从复杂的信息系统管理活动中梳理出那些核心流程,例如事故管理、问题管理和配置管理,将流程进行规范化、标准化,明确各运维流程的目的和范围、相关人员的责任和权利、运维步骤、关键成功因素和绩效指标,以及各个流程之间的关系等。ITSM的目标是将组织的信息系统运维工作从成本中心转化为服务中心和效益中心,使业主单位的业务所产生的价值与信息化成本投入比逐步提高,同时降低信息系统运营的成本。
3.基于BSM 的业务导向集中运维阶段
经过ITSM 阶段,组织实现了规范化、流程化的信息系统运维,但ITSM 阶段的管理仍然 是以业务信息化为对象,针对业务提出的需求进行被动式调整,随着运维服务管理流程的逐步捋顺,业主单位越来越关注信息化服务对业务带来的影响及整体业务情况,越来越注重运维服 务团队从业务目标出发来优化运维服务质量,也就是进入了信息化与业务融合的BSM 阶段。
BSM 实现了业主单位信息系统运维到运维服务团队业务的映射过程,业务目标和成果的达成依赖于实现关键业务流程的自动化工具,这些自动化工具出现故障或性能问题可能会导致严重的业务影响,而信息系统的性能还与许多外部因素有关,例如网络组件、服务器、操作系统 和其他基础设施等。要完成运维工作,首先需要进行业务的梳理,确定服务对象,包括每项业 务涉及的所有资源、过程、状态、绩效指标、成本和收益等;然后对服务对象的各项性能指标 进行定义,并确定如何获取各项性能指标;将各项指标进行关联对应,分析服务对象产生问题 时会影响到哪些业务,及如何对业务产生影响;最后,完成资源到业务关联的分析,对运维服务所涉及业务需要的信息化资源进行重现,按需最优化分配。
由此可见,BSM 的核心主要体现为三个方面,即业务、资源配置及两者之间的关系:
(1)业务蓝图展现运维服务团队业务的构成情况;
(2)资源配置蓝图展现一个运维服务团队及所有对象构成关系全景;
(3)最终将业务蓝图与资源配置蓝图进行整合,可以动态展现当前信息系统的运行情况,并动态体现出其对业务支撑的相关运维要素及各类资源的情况和能力。
BSM相关的软件或平台是智能运维服务的实践。业主单位的用户可以将因业务变化产生的请求提交给运维服务团队,通过BSM 技术可以对相应的基础设施做出动态的改变和配置,而且能对系统性能进行建模,实时对系统性能进行跟踪和监控,动态地调整基础设施等资源以适应业务的变化。到目前为止,我国大多数业主单位及运维服务团队的管理层次仍然停留在ITSM初级阶段,甚至是NSM 阶段,如果以这样的运维架构实施BSM技术,不仅无法实现信息化与业务的有效结合,还会导致业务混乱。从传统的信息化运维服务向BSM发展的过程,也是信息化运维与组织业务相互匹配、相互磨合、相互融合的过程,许多技术和管理细节需要持续改进、优化。
7.1.3 运行维护服务发展趋势1.新技术不断涌现
随着基础设施运维技术、节能技术、新能源技术、网络技术、存储技术、虚拟技术、数据库技术、分布式计算技术、云计算技术、大数据技术、人工智能技术、开发运维一体化(DevOps)技术、物联网技术等新一代信息技术在5G 、云计算、区块链、人工智能、数字孪生、北斗通信等场景的应用,为运维服务提供了新的实现手段,促使数据服务、区块链服务、数字内容处理服务、数字化转型服务等新兴信息技术服务不断涌现,服务模式也由传统的人月方式、项目方式扩展到云订阅、远程服务等方式。创新技术的不断涌现使运维服务走向多元化模式。
2.运维服务模式转型升级
传统的运维服务,由基于人员、流程、资源和技术的传统运维模式向基于知识、数据、算 法、算力的智能运维模式转变。随着人工智能、大数据、云计算等技术的飞速发展,运维服务面临信息系统技术架构日趋复杂、运维对象规模快速增长、告警信息海量涌现、业务需求快速迭代等困难,智能运维应运而生。智能运维是人工智能在运行维护领域的应用,更关注知识、 数据、算法、算力的应用,具备能感知、会描述、自学习、会诊断、可决策、自执行、自适应等特征,是“数据驱动的运维”,极大地降低了运维成本,提高了运维效率。
3.自主创新能力进一步加强
在国家政策的支持下,构建自主可控的运维服务产业生态,基于自主研发芯片、操作系统、中间件和应用软件进行研发的运维服务工具、监控工具、专业工具等,通过对软硬件的重构,自主创新实现从软硬件到云的全面升级,从单一到重点领域的突破,进而实现信息技术应用创新技术的跃升和融合发展,最终达到提升运维服务质量的目的。
7.2 运行维护服务能力为确保提供的运行维护服务符合与业主单位约定的质量,运维服务团队应具备提供服务的条件和能力。
7.2.1 运行维护服务能力模型按照ITSS 体系要求,可以从人员、技术、过程、资源四个维度评价运维服务团队的能力,如图7-1所示。
运行维护服务能力模型中提出了运行维护服务能力的四个关键要素:人员、技术、过程、资源,每个要素通过关键指标反映运维服务团队应具备的能力。运维服务团队可以有效地利用资源,运用适当的技术手段,通过规定的运维服务过程为业主单位提供运行维护服务工作,在运维执行过程中采取有效的管理手段,促使运行维护团队达成既定的运维工作目标。
1.策划
在招标阶段,按照业主单位的服务需求、关键技术标准、行业相关标准和服务标准等要求,确定运维服务提供方,在签订运行维护服务合同时应明确的合同及 SLA 要点如下:
(1)运行维护合同条款包含运行维护服务期限、服务范围、服务内容、服务级别(例如 SLA、人员投入、运行维护评估、付款节点、服务变更控制及奖惩条款等)。
(2)服务目录定义的完整性、文件的规范性、考核评估机制的有效性和完整性。
(3)在运行维护合同中应明确要求运维服务提供方接受监理单位的监理。
在运维服务合同签订后,运维工作启动前,运维服务提供方对运维团队的服务能力和关键指标进行策划,并制定相应的运行维护服务方案,服务方案应关注服务内容的完整性、合理性、适宜性等方面,保证运维服务团队能够顺利执行运行维护服务工作。服务方案中包括的内容有:
(1)根据业务需求和管理要求,结合新技术、新模式等要求,策划运行维护服务对象的内容与要求,并形成项目级运维服务目录。
(2)确定参与运维项目的相关方,建立项目管理制度,以支持服务目录的实现。
(3)运维服务团队识别出影响运维服务的相关因素,并依据项目级运维服务目录开展运维服务工作。
(4)结合服务场景,对人员、技术、过程和资源进行策划,并保留运维项目交付过程中的工作内容等相关记录性文件。具体包括以下内容:
●针对业主单位人员和运维服务提供人员,策划项目人员的岗位及岗位职责,并对人员的储备、培训、绩效考核、能力评价等进行管理。
●识别现有技术与服务需求间的差距,确定技术管理目标,规划技术研发与成果应用等方面的技术实现方案。
●识别并建立运维过程,设计过程框架,确定过程之间的关系,策划各过程的能力要求、过程的执行保障等。
●综合评估现有资源及需求,确定运行维护工具、服务台、备件库、最终软件库、服务数据、服务知识等资源的配备方案。
(5)建立相适应的能力指标体系,包括指标、度量方法、数据来源,以及评价方法等。
(6)确定质量目标,对管理、审核并改进服务质量进行策划,形成服务质量管理计划。
(7)对策划结果的适宜性、合规性等方面进行评审,必要时进行修订。
2. 实施
运维服务提供方按照审核通过的运行维护服务方案开展如下运行维护工作:
(1)制定与运行维护服务方案相适应的实施计划;
(2)建立运维项目相关方内外部的沟通协调机制;
(3)对运维服务过程进行管理,保证实施计划的执行可追溯、服务结果可计量或可评价;
(4)提交满足质量要求的运维服务过程交付物;
(5)形成必要的过程记录文件,并对记录文件进行管理。
3. 检查
业主对运行维护服务的过程和实施结果进行监控和评审,保证运行维护服务质量满足要求。具体包括以下内容:
(1)对服务绩效及能力水平进行评价,包含服务能力实施情况、各项指标达成情况、服务级别协议达成情况、业主单位满意度等;
(2)参考法律法规及标准体系中适用的评价指标,如运行维护服务的安全性、可靠性、响应性、有形性等指标,以识别运维过程中的薄弱环节和潜在问题,以及与预期目标之间的差距,制定服务改进跟踪表以促进运维服务质量的持续提升。
4.改进
针对运行维护服务过程中发现的不足之处,运维服务提供方应建立运维服务持续改进机制,对业主单位不满意的情况、服务级别协议中要求了但运维团队未达成的指标进行调查、总结、分析,根据汇总的分析结果确定运维服务的改进措施及服务能力改进工作计划,并按照服务改进计划自行跟进运维服务交付过程,形成服务改进跟踪表,纳入运维服务项目绩效考核统计的指标数据。
7.2.2 运维服务级别管理1.运维服务目录
运维服务提供方应首先识别和分析业主单位的运行维护服务需求,形成项目级的运维服务目录,具体要求如下:
(1)项目级运维服务目录的结构设计可参考GB/T 29264《信息技术服务分类与代码》的要求;
(2)梳理运维服务项目的服务对象,确定服务内容以及相关方;
(3)运维服务提供方应对运维服务项目级服务目录的变更进行管控,当内、外部环境发生重大变化时,应该对服务目录进行修订;
(4)组织项目相关方对修订后的服务目录进行评审,确保满足运维需求。
2.运维服务对象
运行维护的服务对象是信息系统工程建设项目交付的内容,主要包括机房基础设施、物理资源、虚拟资源、平台资源、应用和数据等。
(1)机房基础设施:主要是指机房基础环境、安防系统、电气系统、精密空调系统、环境检测系统、消防系统,如高低压供配电系统、电源系统、照明系统、防雷与接地、空调系统、火灾自动报警系统、消防供水设施及消火栓系统、自动灭火系统、防烟排烟系统、防火分隔设 施、应急照明与疏散指示系统、应急广播系统、环境和设备监控系统、安全防范系统、综合布缆系统等。
(2)物理资源:主要是指网络、服务器、存储、终端、外设等硬件,如网络线路、路由器、交换机、防火墙、入侵检测、负载均衡、语音以及通信传输设备、通用计算服务器、人工智能 服务器、小型机、大型机、磁盘阵列、磁带库、光盘库、台式计算终端、移动计算终端、输入 输出设备、移动存储设备、通信设备等。
(3)虚拟资源:主要是指网络资源、计算资源、存储资源等,如虚拟网络设备、虚拟链路、虚拟机网络、虚拟机、虚拟机宿主机、虚拟存储卷、存储控制器、存储链路等。
(4)平台资源:主要是指支撑应用系统运行的基础软件,如操作系统、数据库、中间件等。
(5)应用:主要是指面向各类应用的软件系统,或者应用于运维服务管理的工具软件,如财务软件、人力资源管理软件、办公自动化软件、监控软件、流程管理软件、安全分析软件等。
(6)数据:主要是指业务数据、运维数据、安全数据等,如业务数据包括信息系统采集、分析并存储的各种信息载体等,运维数据包括运行维护过程中产生的各类运维信息,运行状态日志、故障处理文档等信息,安全数据包括在业务运行和运维过程中与安全相关的数据。
3.运维服务内容
运行维护服务根据其工作目标、工作内容、交付结果分为四大类,包括调研评估、例行操作、响应支持和优化改善。
- 调研评估。对运行维护对象的运行状况进行分析和评估,并提出方案建议。
(2)例行操作。具体包括:
●监控。对运行维护对象的动态指标、静态指标、运行状况和发展趋势等进行记录、分析和告警。
●预防性检查。对监控记录、运行条件和运行状况进行检查和趋势分析,发现其脆弱性,以消除或改进。
●常规作业。对运行维护对象进行的日常维护,包括定期维护、配置备份、数据备份、数据恢复、定期重启等活动。
(3)响应支持。具体包括:
●事件驱动响应。由于外部事件、系统事件或安全事件,导致运行维护对象整体或部分性能下降、功能丧失,而触发的将运行维护对象恢复到正常状态的活动。
●服务请求响应。由于业主单位提出各类服务请求,引发的需要针对运行维护对象、服务级别做出调整或修改的响应型服务。可能涉及服务级别、服务范围、技术资源、运维服 务提供方式等的变更。
●应急响应。依据 GB/T28827.3《 信息技术服务运行维护第3部分:应急响应规范》规定的应急响应服务,执行运行维护服务应急操作流程 (Emergency Operating Procedure, EOP)。
(4)优化改善。具体包括:
●适应性改进。为保持运行维护对象在新环境中可持续运行而实施的优化改进。
●增强性改进。采取改进措施,增强数据中心的安全性、可用性和可靠性。
●预防性改进。检测和纠正运行维护对象运行过程中潜在的问题或缺陷。
7.2.3 人员1.组织架构
为了保障信息系统运维工作的正常运转,应对突发事件、应急事件的解决和处理,以及重大事项的决策,确保一体化运维工作的顺利实施,确保相关资源的协调和调度,运维服务提供 方应该制定合理的组织架构。
(1)识别职能的设置与调整需求:
●结合信息系统的运维规划、服务需求,定期对项目的组织结构设置、岗位设置进行分析;
●识别职能设置及调整需求,成立运维保障部门,包括运维保障领导小组、运维保障调度组、运维保障技术组、运维保障专家组等;
●如有调整,对调整后的组织结构和岗位实施效果进行回顾,并进行必要的改进。
(2)制定职能设计方案并落实,保证职能设置的完整性(覆盖适用的能力,没有已知的遗
漏)、合理性(满足职责分离和职责不重叠的要求)、稳定性(确保职能的调整对业务的负面影响可控):
●结合分析结果制定职能设计方案,划分或调整职能结构框架和汇报关系;
●梳理必要的工作活动,落实常态化运营要求,应根据职能设计方案建立或调整职能,配置组织资源,并进行必要的培训和辅导。
(3)职责不清或需要协同处置的,运维服务提供方要同步制定和落实协同方案:
●确定处置原则和方式,明确协同决策机制;
●制定协同各方认可的处置方案并落实。
2.岗位职责
为保证运行维护服务工作的顺利开展,运维工作一般由专职的运维服务团队负责,每个角色有明确的分工和职责定义,规定各岗位在知识、技能、经验等方面需达到的要求。明确运行维护服务对运维团队各岗位的安全要求。识别出运维团队中的关键岗位,并针对关键岗位建立人员备份机制。对运维服务人员的岗位进行等级划分,等级划分可参考GB/T37696《信息技术服务从业人员能力评价要求》。
运维服务提供方的运维团队岗位设置一般包括管理岗、技术岗、操作岗等岗位。
(1)管理岗的岗位职责如下:
●负责管理运行维护项目的服务及相关管理工作;
●负责与相关方建立顺畅的沟通渠道,并准确地将运维需求传递给运维团队;
●负责规划、检查运行维护服务的各个过程,对运行维护服务能力的策划、实施、检查、改进的范围、执行过程、信息安全和成果等负责。
(2)技术岗的岗位职责如下:
●在运行维护服务中负责技术支持工作,如运维服务对象相关的技术、信息安全技术等;
●对运行维护服务过程中接受的请求、发生的事件和问题做出响应,保障信息安全并对处理结果负责;
●必要时负责与技术研发、成果应用、预防风险等能力要素相关的技术实现。
(3)操作岗的岗位职责如下:
●在运行维护服务中负责日常操作的实施;
●根据规范和手册等,执行运行维护服务全过程,并对其执行结果负责。
3.人员储备
为了保证有足够的运维人员,以满足当前和未来的运行维护服务需求,运维团队在运维服务项目启动前,需要建立起与运维服务相关的人员储备计划和机制。具体如下:
(1)根据信息系统运维业务发展的需要和岗位聘用要求,确定运维服务人员储备的需求、时间与机制;
(2)根据储备需求和运维服务人员现状,选拔符合要求的运维人员,或制定招聘计划招聘人员。
4.人员培训
运维服务提供方根据运维服务需求,建立与运行维护服务相关的培训计划,在制订培训计划时应识别培训要求,并提供及时和有效的培训。具体如下:
(1)建立与运维服务对象和服务内容相关的培训与考核机制;
(2)通过分析运维服务相关方人员的岗位职责要求和人员技术能力现状,确定培训需求;
(3)按运维项目的服务对象、服务内容,结合培训需求,制订培训计划;
(4)按照培训计划执行培训,并对培训效果进行评价,评价方式包括考核、调查和验证等。
5.绩效考核
运维服务提供方需要建立与运行维护服务相关的绩效考核体系或机制,并有效组织实施。具体如下:
(1)建立与运维服务相关的绩效考核体系或机制;
(2)应结合绩效管理,根据岗位履职情况对人员使用进行评价,并明确奖惩规则,评价方式宜包括考核、沟通和调查。
7.2.4 技术运维团队根据运行维护服务能力策划要求,开展技术研发和技术成果应用等活动,保证技术能力可以满足业主单位不同服务场景下的服务要求,包括运维服务能力长期发展的需求调研与分析、技术管理、预期目标等,实现其服务价值。
运维服务提供方根据运行维护服务能力策划要求,实施技术管理活动,确保运维服务提供方具备预防风险、发现问题、解决问题和优化创新的技术能力。项目相关负责人要针对以下工作进行管理:
(1)根据不同的服务场景,确定技术研发范围;
(2)根据运维项目的服务对象及内容,选择适合的技术研发方式,包括自研、外采及合作研发等;
(3)根据运维服务策划的要求,分配技术研发资金,管理预算使用情况;
(4)为运维项目配备必要的技术研发环境和研发队伍;
(5)对技术研发风险进行识别和评估,并采取有效的控制措施;
(6)对技术研发活动进行有效管理,并监控技术研发活动的执行情况;
(7)对运维服务团队的技术研发成果进行综合评价。
7.2.5 资源1.运维工具
为了满足与业主单位约定的运行维护服务需求,运维服务提供方需要根据不同的服务场景使用具体的运维工具开展日常运行维护工作。运行维护工具可分为过程管理工具、监控工具和 专用工具,其功能覆盖运维服务流程管理、系统及硬件环境运行状态的监控、信息安全防护、计算资源调度、自动化维护操作、服务数据分析、服务知识提炼、服务可视化等。运维工具作为运维工作不可或缺的部分,其好坏直接影响运维人员的服务能力和服务效率。通过制定运行 维护工具的管理制度,管理各类运维工具的选择与使用,并定期评估运行维护工具的应用效果,用以进行运行维护工具的优化改进。需要考虑的要素包含:
(1)运维服务流程管理工具。具体功能为:
●根据不同层级用户的权限进行分别设置;
●按照运维服务合同约定的服务级别协议管理运行维护服务的交付过程;
●运维服务流程管理的内容包括日常运行维护管理、记录、测量、监督和评估等;
●运维服务团队使用的功能包括值班管理、服务巡检管理、服务请求管理、事件管理、问题管理、配置管理、变更管理和发布管理等内容;
●能够针对服务结果和过程进行统计分析和报告,能够实现对 SLA 完成情况及达成率的考评分析,例如对事件分布、解决率、及时率等进行评估分析;
●定期对运维流程管理工作的使用效果进行自评估,保存自评估报告。
(2)运维监控工具。具体功能为:
●能够采集机房基础设施、物理资源、虚拟资源、平台资源、应用和数据等监控数据;
●能够对各种技术路线的物理资源的状态进行监控,如服务器、存储、网络和安全等硬件设备及其附带软件;
●能够对平台资源涉及的软件运行状态及健康度进行监控,包括但不限于系统运行情况、资源占用及运行情况,以及性能状况的监控;
●通过监控系统收集全部应用的监控状态信息,实现异常监控信息的初步分析,能够智能告警并定位故障点,支持故障溯源和关联分析;
●宜采用自动化运维工具定期对IT 设备硬件和应用系统进行作业,例如系统补丁的同步分发与升级、数据备份、病毒查*和自助巡检等工作;
●应制定监控数据采集、传输、共享和交换的标准规范或通用协议,以实现信息系统运维可扩展、易集成。
(3)专用工具。具体功能为:
●根据运行维护的服务需求选择专用工具,实现工具技术指标的规范化、标准化;
●通过统一的运维服务工作流程来管理信息系统生产环境中的各个组成部分;
●通过各种工具提高运维工作效率和质量,必要时,可通过二次开发实现工具间的集成;
●量化运维管理过程中的各项运行数据,为运维管理部门和领导评估运维质量和效率提供支撑数据。
2.备品备件
为了实现有效管理运行维护服务活动所需的备件资源,按照SLA 要求为所运行维护的设备或系统及时提供备件,运维服务团队需要建立备件库,保证设备或系统的正常运行。具体要求 应包含以下几个方面:
●制定备件库管理规范,包括备件响应方式和级别定义、备品备件的数量和类型、类别与编码、存放环境,以上内容均能够满足 SLA 所要求的备件支持。
●制订备件采购计划或方案,包括采购流程、库存策略、紧急采购预案等。
●制定出入库制度,包括送货、验收、入库、出库等的流程并实施,做好日常管理的记录,并定期形成报告。
●制定备件的检测、报废制度,并按照制度定期对备件状态进行检测,对国家强制规定检定的设备须有专业机构的检测报告。
3.服务台
服务台负责在各时间段,提供给用户或服务人员利用电话、邮箱、即时通信、网络或其他 自动化手段,针对发生的事件、用户请求、变更等进行交流的途径。服务台是运维服务团队的重要组成部分,为用户和服务人员提供联络手段的同时,使用专门的工具进行记录并管理相关 内容。具体包括:
●制定服务台的职能说明、服务台管理制度、培训体系、操作手册等。
●根据服务台的知识、技能和经验要求,设立服务台培训课程。
●根据绩效考核办法,定期对服务台进行绩效考核,分析考核的评价结果。
●根据服务请求的需要,规范服务请求的操作规程、跟踪和反馈方法。
●服务台的日常工作纳入过程管理工具支撑范围,集成服务台管理与服务交付流程、事件管理流程、服务级别管理流程等。
●服务台对服务交付发挥支撑作用,如事件的接受和处理、一线支持、服务交付的调度管理等。
●服务台能够从知识库中获得必要的技术支持,如发现问题的手段、常见问题处理方 法等。
●定期评估服务台的设立和运行情况并持续改进,并可根据运维工作需要,量化衡量服务台的资源整合和过程促进的价值。
●对运维服务需方的行为进行分析,分析内容至少包括行为习惯、知识技能域和潜在需求等。
●及时有效跟踪运维服务交付的状态信息,实现对运维服务的高效管理及运维活动关联分析、决策支持和优化。
4.知识库
运维服务团队应对运行维护工作相关的经验进行积累,形成可在运维团队内共享、可重复使用的知识和信息,具体内容包括:
●识别主要岗位和主要业务流程的知识技能需求,知识库内容包括针对已知错误和问题的描述、分析和解决方法等。
●制定知识管理策略,包括知识来源、类别、共享范围、更新升级、传播方式等。
●制定知识管理和使用制度,对知识库进行生命周期管理,知识管理的角色应落实到具体人员。
●根据项目的具体情况,选择适宜的工具对知识库进行管理,支撑运维服务团队的日常工作。
●对知识库的使用情况和知识库内容的适宜性、有效性等进行分析,并保留相关统计分析等管理记录。
7.3 运行维护服务交付过程运行维护服务交付过程包括运维服务需求识别、运维服务交付内容、运维服务交付方式等内容。
7.3.1 运维服务需求识别运行维护服务根据其工作目标、工作内容、交付结果可分为四大类:
(1)例行操作服务:是指运维服务提供方提供的预定的例行服务,为了及时获得运行维护服务对象状态,发现并处理潜在的故障隐患。
(2)响应支持服务:是指运维服务提供方接到业主单位服务请求或故障申告后,在SLA 的承诺内尽快降低和消除对业主单位业务的影响而执行的服务。
(3)优化改善服务:是指运维服务提供方为适应业主单位业务要求,通过提供调优改进服务,达到提高运行维护服务对象性能或管理能力的目的。
(4)调研评估服务:是指运维服务提供方结合业主单位业务需求,通过对运行维护服务对象的调研和分析,提出咨询建议或评估方案。
7.3.2 运维服务交付内容1.调研评估
运维服务提供方通过对信息系统的运行现状和未来预期进行调研、分析,根据业务需求,提出运维服务方案。运维服务方案的主要内容如下:
(1)需求的调研、评估和服务方案的制定;
(2)系统版本管理方案的制定;
(3)需求变更方案的制定与评估;
(4)软件升级方案的制定与评估;
(5)系统优化方案的制定与评估;
(6)重大配置变更评估和方案的制定;
(7)系统迁移需求的调研、评估和方案的制定。
2.例行操作
按照约定的触发条件或预先规定的常态服务,运维服务提供方对信息系统的例行操作一般分为监控、预防性检查和常规作业。
(1)监控。采用各类工具和技术,对系统的功能、性能和稳定性等运行状况和发展趋势进行记录、分析和告警。
(2)预防性检查。包括功能检查、性能检查和安全性检查等。
(3)常规作业。定期对基础环境、硬件、软件、服务安全和健康状况等进行定期巡检,具体包括:
●对网络及其他硬件设备的运行状态进行检查;
●对系统磁盘状态、CPU 状态、进程、内存的使用情况进行巡检;
●对各项服务及服务器运行状态进行检查;
●对组件进行自查;
● 通过相关运维工具的功能页面检查服务是否正常;
●对系统操作行为进行记录备案,定期检查系统调用访问日志;
●检查服务运行健康情况,包括服务URL是否可以正常访问、服务是否正常运行;
●定期对系统接口进行测试与自查;
●定期对软件系统进行自查。
3.响应支持
根据运维的需要或服务相关方的请求,运维服务提供方对信息系统的响应支持工作一般包括:应用级启停、系统级启停、用户注册、权限配置、更新驱动、用户口令重置、参数调整、系统配置、故障处理。
4.优化改善
运维服务提供方对信息系统的优化改善工作包括:
(1)对操作系统、数据库、应用服务器中间件等的集成性优化;
(2)优化系统参数、配置文件,更新系统错误或性能更新包;
(3)对现有系统进行功能更新,应用系统升级;
(4)对客户端错误或已知漏洞进行修复;
(5)对性能和可靠性进行优化改善;
(6)对业务逻辑、符合度的优化改善;
(7)对应用服务能力进行优化,如对应用进程数、应用线程数的优化;
(8)应用日志级别及日志空间的调整。
7.3.3 运维服务交付方式运维服务提供方可以根据运维服务内容选择现场交付或远程交付的方式开展运行维护工作。
1.现场交付
在实施现场交付的过程中,运维服务提供方需要做好以下工作:
(1)在到达业主单位现场前的工作包括:
●了解现场交付的内容、到达时间要求、之前的支持情况及遗留问题,并与业主单位确认;
●对复杂或存在风险的工作做好预案,经审核后实施;
●准备必要的资料和工具;
●根据安全要求,做好准备工作。
(2)在到达业主单位现场后的工作包括:
●及时通知业主单位并确认到达现场时间;
●与业主单位确认服务内容、操作流程和可能的风险后实施;
●严格遵守业主单位现场的管理制度;
●根据安全要求提供现场交付服务,并做好相关服务记录;
●完成确认的工作内容;
●遇到无法解决的问题或业主单位提出额外要求时,通知上级,得到授权后再做处理。
(3)在离开业主单位现场前的工作包括:
●与业主单位确认工作完成情况,必要时签署服务单;
●就遗留问题的处理建议和业主单位达成共识;
●根据业主单位要求恢复服务现场原状并保持整洁;
●做必要的安全检查,如清除本次服务临时账号等;
●获得业主单位的离场许可。
(4)在离开业主单位现场后的工作包括:
●调查客户满意度;
●更新服务记录;
●就遗留问题寻找解决方案,跟踪解决。
2.远程交付
在实施远程交付的过程中,运维服务提供方需要做好以下工作:
(1)在提供远程交付前的工作包括:
●了解需要远程交付的内容、支持时间要求、之前的支持情况及遗留问题,并与业主单位确认;
●对复杂或存在风险的工作做好预案,经供需双方审核后实施;
●确保远程交付所需的工作条件满足安全、稳定和可用的要求。
(2)在远程交付过程中的工作包括:
●按照约定的时间提供远程交付;
●与业主单位确认服务内容、操作流程和可能的风险后实施;
●严格遵守业主单位的管理制度;
●根据安全要求提供远程交付服务,并做好相关服务记录;
●完成确认的工作内容;
●遇到无法解决的问题或业主单位提出额外要求时,通知上级,得到授权后再做处理。
(3)在结束远程交付前的工作包括:
●就遗留问题的处理建议和业主单位达成共识;
●做必要的安全检查,如清除本次服务临时账号等;
●获得业主单位结束许可。
(4)在结束远程交付后的工作包括:
●调查客户满意度;
●更新服务记录;
●就遗留问题寻找解决方案,跟踪解决。
7.4 运行维护应急管理运行维护应急管理包括建立应急管理制度、规范应急响应组织、制定应急响应预案、组织培训并开展应急演练、应急响应工作总结等内容。
7.4.1 建立应急管理制度业主单位负责制定应急响应制度,明确应急响应的目标、原则、范围及各项管理制度。具体要求如下:
●应急管理制度要遵循统一领导、分级负责、预防为主、快速响应的原则;
●与相关利益方就应急响应制度达成一致;
●定期对应急响应制度进行评审;
●在组织战略、业务流程、客户要求等发生重大变化时调整应急管理制度。
7.4.2 规范应急响应组织在日常运行维护交付工作的基础上建立应急响应组织,应急管理组织架构由运维项目相关单位组成,包括业主单位的信息化主管部门、信息系统的运维服务提供方、运维服务执行单位等。具体要求如下:
●实行统一领导,分级负责。在业主单位信息化主管部门的统一领导下,建立“分级管理,分线负责”的应急管理制度,各司其职、各负其责,应充分发挥应急响应的指挥协 调作用。
●规定运行维护服务及应急响应相关的所有人员角色及职责,至少应包括应急响应责任者、运维现场负责人、分组负责人、值班人员等,并为关键角色提供备份人选。
●与相关单位就应急响应服务的范围、要求等达成一致,确定沟通流程和方式,并形成记录。
●如果应急组织内的人员发生变更,应及时与相关单位进行通报,并记录。
7.4.3 制定应急响应预案结合信息系统现状和要求开展风险评估,从技术和管理等方面确定风险要素,制定应急响应预案,主要包括以下内容:
●对风险要素进行评估,形成风险评估报告,并对识别的风险形成应对措施;
●根据风险级别制定相应的应急响应预案;
●应急响应预案可以分为总体预案和针对某个核心系统的专项预案;
●应急响应预案的格式应该能够为应急响应组织进行系统恢复操作提供快速明确的指导;
●应急响应预案要清晰、简洁,易于在紧急情况下执行,可使用检查列表;
●应针对应急预案定期开展培训,至少每年举办一次。
7.4.4 组织培训并开展应急演练为检验应急响应预案的有效性,同时使相关人员了解运行维护预案的目标和内容,熟悉应急响应的操作规程,运维服务团队应进行应急演练,具体执行工作应包括:
●制订应急演练计划、演练脚本;
●对应急组织人员进行培训,讲解应急演练预案、应急演练计划和脚本;
●对应急演练的整个过程进行详细记录,并形成报告;
●要保证应急演练的过程不影响业务的正常运行。
7.4.5 应急响应工作总结运维服务团队定期对发生的应急事件和应急响应工作进行分析与回顾,并总结经验教训。具体包括:
●对应急响应工作的分析和回顾应形成总结报告,并将总结报告作为改进应急响应工作及信息系统的重要依据;
●应急事件总结、应急工作审核的结果应该作为应急准备阶段各项工作的改进要素;
●组织应根据总结报告中给出的建议项和评审结果完善信息系统,深化应急准备工作。