企业通常希望通过公共云为许多应用程序类型提供灵活、快速可扩展和可靠的服务,但公共云也并不是完美的。每个云计算提供商都经历过内部系统或存储以及外部资源(如网络连接)的中断等各种情况。业务中断对任何企业来说都是毁灭性的打击,而云服务中断也可能会影响到大量用户的业务,造成不可估量的损失。
所有这些都凸显了公共云计算的现实情况:用户必须要采用灾难应对策略,就像使用内部部署数据中心一样。在出现公共云服务中断时采取的合理应对措施可以减轻对企业用户的影响。
1:制定灾难恢复策略
应对云服务中断的第一步是创建和实施灾难恢复(DR)计划,并在灾难发生之前就将其部署到位。尽管云计算提供商提供了大量的服务和资源,但是用户需要为每个工作负载创建、部署、配置和监视这些服务和资源。
实际的灾难恢复策略可能会根据工作负载的需求及其对企业的重要性而发生根本性的变化。日常应用程序可能非常适合常规数据备份和虚拟机快照到指定位置。
高级灾难恢复计划可以使用已部署但在另一个区域处于空闲状态的备用实例,并准备在主要实例中断时接管。甚至更全面的灾难恢复策略也可以包括分布式存储,该方法可以在多个云区域或可用性区域中运行重复的工作负载实例。例如,这种策略可以包括使用负载平衡器在多个实例之间分配流量,并在该区域发生云中断时重定向流量。
这些复制工作的变化是多云灾难恢复策略,其中工作负载跨两个或多个云平台进行冗余操作,以防止云计算中断的可能性。
2:沟通并实现云计算透明
当事情发生变化时,需要了解云中发生了什么。传统上,云计算提供商对服务中断一直不透明,但随着企业将更有价值的工作负载委托给公共云,这种情况正在改变。企业需要更多的云计算透明性,提供商也在改善与用户的通信,提供有关中断其当前状态的更及时的反馈。
例如,AWS公共云提供的服务运行状况仪表板显示了所有服务的当前状态,而微软Azure公共云提供了类似的“Azure状态”页面。灾难恢复决策可以取决于企业对灾难及其严重性的理解,提供商对灾难持续时间的估计——所有这些都可以随着云计算透明度的提高而改善。
但是不要停留在那里。业务和用户群取决于受影响的工作负载,因此,将中断的详细信息传达给内部用户或客户也同样重要。通知他们停机对工作的影响以及为解决停机而采取的措施,这样可以让用户更准确的应对业务中断造成的一系列情况。
3:确定灾难恢复计划的业务价值
确定需要执行实施灾难恢复计划。有些计划是自动的。例如,重要的工作负载通常通过某种类型的策略来保护,即使节点(或实例)发生故障,业务也应继续运行。但是,针对次要工作负载的灾难恢复策略可能需要人为干预或分散步骤,例如恢复和重新启动快照或切换到备份实例。
如果需要人为干预,需要考虑恢复过程中涉及的工作和费用,并确定启动恢复的业务价值。询问恢复是否会比只是等待云计算提供商解决中断所需的时间更长且成本更高。来自云计算提供商的通信将会显著影响这一决定。
4:监控灾难恢复策略
无论实施灾难恢复策略所涉及的工作量或自动化程度如何,验证已恢复的业务是否正常运行仍然很重要。管理人员应将以灾难恢复状态运行的业务的性能与在正常条件下运行的相同业务的性能进行比较。
应用程序监视工具着眼于工作负载运行状况。这些工具还收集日志、指标和事件,以中断有关已恢复工作负载的操作数据。此外,他们将在整个云计算中断期间继续监控业务的性能和可用性。
5:云服务中断的事后评估
云服务中断对企业来说可能会很痛苦,但不会一直持续下去。当云计算提供商解决其中断并恢复正常的业务操作时,组织需要对事件进行事后评估,并评估其灾难恢复响应。
企业还要考虑灾难恢复计划的效果如何,并根据需要调整计划。这可能包括更改分配给应用程序的灾难恢复保护级别,微调用于实施灾难恢复程序的过程或其他可能减轻未来云计算中断影响的更改。
在云服务的使用中,肯定会遇到各种各样的情况,希望以上内容可以帮您更好的应对云服务出现的一些突发状况。