闭环的IT服务全生命周期管理为服务连续性和不断地服务改进创造了条件,为IT服务高效、标准化的输出奠定坚实的基础,显著提高IT服务的效率和质量。服务流程对云管理平台服务的组织架构、角色以及角色的职责进行全面而细致的梳理,从而满足能够支撑IT服务流程运行的目标。可视化的ITIL服务流程步骤和表流程单的自定义设计,使得用户可根据自身业务和管理方式的不断变化,随时调整和新建IT服务流程的环节,流程设计器是使ITIL服务管理流程灵活适应运维管理工作的多变性和复杂性的一大利器。
多视角的可视化监控监控管理的对象包括一般资源池管理平台所涉及的所有软硬件设备以及系统和业务,通过对监控对象相关指标的实时运行状态的数据采集、展示、问题分析、告警生成与展示和告警的通知与处理是监控工作的主要内容,全面而深入的监控工作是提供稳定优质的IT服务的保障。
平台独有的多视角可视化监控,提供监控、告警功能的图形化界面入口,例如监控详细数据查询、监控配置查询、告警视图配置、采集周期设置、监控数据导出等;资源监控视图是从逻辑分层的角度,提供综合视图、运维视图、网络视图。各类视图支持分级显示,展示不同级次设备种类、关系及数据,同时展现设备健康情况;此外还能提供同一类型对象、同一监控指标的比较性视图,例如互为负载均衡的主机,在CPU、内存、网卡吞吐量等指标上的同一视图中的比较,以改善负载均衡策略设置;同时提供多形式的图表展示,例如网络拓扑图上展示告警节点位置、监控对象的告警发生折线图等、资源使用量仪表盘统计图、多种柱状图等。
丰富的报表定制数据的价值在于经过分析整理反映出深层的问题,从而帮助决策者更好地进行管理。云平台通常会对云纳管下的虚拟资源、物理设备进行监控,这些监控数据及其他如IT服务模块的工单数据、资源管理模块的资源使用数据等,各类型数据对统计分析的需求侧重点是不同的,这就要求有全面而灵活的统计工具来满足需求。
私有云云运维管理平台支持用户可通过图形化的报表自定义功能,针对不断变化的业务和统计需求,自由方便的定制符合决策需要的报表类型,报表展现字段项、数据类型、报表名称均可以通过报表设计器实现。
- 建设内容
虚拟化平台:可以将服务器、存储、网络组成虚拟资源池,根据应用系统的情况,在资源池上分配相应的资源,实现资源灵活调配。
云管理平台:通过建设云平台,可以实现整个基础平台的标准化、自动化,并提供运维管理和成本分析等重要功能。
- 容灾双活数据中心规划概述
衡量容灾技术的两个技术指标RPO、RTO
RPO(Recovery Point Objective): 以数据为出发点,主要指的是业务系统所能容忍的数据丢失量。及在发生灾难,容灾系统接替原生产系统运行时,容灾系统与原生产中心不一致的数据量。以传统使用备份软件传统备份方案,如果结合数据库归档模式,RPO则可以恢复至15分钟内。但数据库外的其他系统,RPO仍只能恢复至前一天备份时间点。
RTO(Recovery Time Objective):以应用为出发点,即应用的恢复时间目标,主要指的是所能容忍的应用停止服务的最长时间,也就是从灾难发生到业务系统恢复服务功能所需要的最短时间周期。使用传统备份与恢复方案,则RTO基本在1小时以上,且恢复时间还由恢复的数据量增加而增加。如果系统故障至硬件或操作系统层面,RTO则难以估算。
不同容灾方案的RTO和RPO是不相同的,我们的目标是对于任何用户数据,RPO<1秒,RTO<15分钟。
SHARE 78是建立容灾系统的一种评审标准。建立容灾系统的最终目的,是为了在灾难发生后能够以最快速度恢复数据服务,主要体现在RTO Objective)和RPO上。SHARE 78, M028报告中定义的灾备的七个级别和与其对应的数据丢失量与恢复时间情况详见下图表:
灾难备份等级与业务恢复情况对照表 | ||||
等级 | 描述 | RPO | RTO | 企业百分比 |
0级 | 无灾备计划 | - | - | <0.3% |
1级 | 车辆运送方式 | 24~48小时 | >48小时 | <0.1% |
2级 | 车辆运送+热备份 | 24~48小时 | 24小时 | 90% |
3级 | 电子传送 | <24小时 | <24小时 | 6% |
4级 | 活动状态备份中心 | 秒级 | <24小时 | <0.5% |
5级 | 两中心、两阶段确认 | 秒级 | <2小时 | <0.1% |
6级 | 零数据丢失 | 零丢失 | <2小时 | 3% |
从上图表可见,本项目目前的容灾级别仅为2、3级,如果按国家要求的GB/T 22239—2008《信息安全技术 信息系统安全等级保护基本要求》对国家医院单位核心系统三级要求标准,需要做到4、5级容灾标准。
本次方案中,我们设计的容灾级别是6级,存储双活技术和主机集群技术实现数据库系统的双活,利用负载均衡设备实现应用系统在两个数据中心内的负载均衡,利用动态域名确保两个数据中心的网络双活。
双活数据中心可以实现业务系统同时在两个节点同时工作,达到负载均衡的目的。当生产节点出现故障时,业务系统还能够在第二生产节点上正常工作,实现业务零切换。
- 双活方案规划
(1)整体双活架构设计
(2)前端应用双活设计
(3)存储层双活设计