本文以云原生为时代背景,介绍了阿里云块存储快照服务如何基于高性能 ESSD 云盘提升快照服务性能,提供轻量、实时的用户体验,并揭秘其背后的技术原理。依据行业发展及云上数据保护场景,为企业用户及备份厂商提供基于快照高级特性的数据保护的技术方案,满足云上用户数据保护的迫切需求,保障云上企业的业务连续性。
2021年7月份,国际知名咨询公司Gartner发布了公有云的IaaS(基础设施即服务)和PaaS(平台即服务)平台的“魔力象限(Magic Quadrant)”,阿里云凭借其领先的技术能力首次成为“远景者”象限的公有云服务提供商,其中阿里云块存储获得单项得分第一的成绩,阿里云计算、存储,网络及安全得分获得全球第一。
存储领先业界的背后离不开高性能的 ESSD 云盘产品为用户提供高可用、高可靠、高性能的块级随机访问服务及原生的快照数据保护能力。
随着云原生技术的发展,越来越多的企业基于分布式框架,容器技术、编排系统、持续交付及快速迭代,构建起了大规模、弹性扩展强、丰富的云上分布式业务场景。
企业应用的部署规模、存储、计算等资源需求随之成指数级增长,导致传统的数据保护方案无法满足云端新的技术变化。用户面临的市场竞争环境更加激烈,迫切需要适应业务规模及发展的云端数据保护方案来满足自身竞争力及业务的发展需要。虽然数据保护的业务背景及场景因云计算及云原生而发生变化,但用户对数据保护的诉求没有发生变化,衡量的标准依然是恢复时间点目标 RTO 及恢复点目标 RPO。
用户追求的首要目标依然是业务连续性,即在业务面临中断威胁,迅速实现业务恢复;业务面临增长压力,迅速实现业务扩展。用户根据业务场景对云上的数据保护及快照服务提出了如下的迫切需求:
- 创建时间短:快照极速完成,关键业务即刻进行数据备份。
- 极速可用:快照极速可用,应对突发事件,完成云盘回滚恢复。
- 业务扩展:业务量突增需要业务扩容。
- 整机保护:单 ECS 实例及多 ECS 实例的关联多盘的一致性数据保护。
- 测试验证:生产环境以外即可进行数据测试验证及恢复。
- 恢复速度快:文件系统及应用数据处于应用一致性的备份状态,避免应用宕机恢复过程。
- 容器备份:容器业务环境的快速迭代及发布,迫切需要保护元数据及应用业务数据。
根据存储网络工业协会 SNIA 对快照的定义:快照是指定数据集合的一个完全可用拷贝,该拷贝包括相应数据在某个时间点(拷贝开始的时间点)的映像。阿里云块存储快照就是提供 ESSD 云盘某一时刻的一致性数据镜像。
为了适应行业的发展趋势,快照服务不断发现用户的新需求及新场景,不懈地进行了新功能开发及迭代演进,在不断独立输出及被集成的发展过程中,满足了云上企业用户的需求,服务大数据、游戏,人工智能、金融行业等领域,也得到了阿里云其他团队(如云数据库团队 RDS、混合云备份团队、弹性容器实例 ECI、容器服务 ACK 等业务团队)及用户的认可。
典型场景轻量、实时的快照极速可用特性,一致性组快照及应用一致性快照的高级特性,为企业用户及第三方备份厂商快速构建起:极速备份恢复、容灾测试、副本利用及容灾切换的副本数据管理(Copy Data Management)应用场景。Gartner 于 2021 年 7 月份发布的关于存储及数据保护的技术趋势(Hype Cycle)分析中,将容器备份、云数据备份及副本数据管理(CDM)列为未来几年的数据保护的行业发展趋势。
Gartner 对副本数据的管理的基本定义为:基于应用一致性的主存储快照在辅助存储上生成“Golden Image”,并利用其进行备份,容灾及测试,而且异构存储作为能力的基本条件。阿里云的 ESSD 的高级快照服务特性完全满足构建 CDM 的条件,帮助用户实现云上副本数据管理的原生数据保护典型场景:
备份恢复:极速型备份及标准型备份相结合,提供近密远疏的备份可恢复点。基于云上的 ECS 实例的整机保护及 K8S 环境的容器应用,定期创建极速可用快照。在启用一致性组快照特性及极速可用特性后,本地即时快照的生成间隔可以到秒级。快照即时副本本地保留,成为极速型备份,用于秒级 IO 性能无损恢复。周期性基于上层的企业应用生成整机应用一致性快照。本地快照副本同时通过网络上传到对象存储 OSS 上作为标准型备份。标准型备份在完成备份数据上传后,本地域全可用区可见,适合保留时间长的历史数据。
容灾测试:基于极速型备份的容灾测试。副本数据管理中要求对灾备环境定期测试。定期的测试可以提高灾备环境的可靠性,避免配置问题和环境变更问题使得真的灾难发生时,容灾切换无法正确完成,从而导致业务无法快速进行容灾系统恢复。基于本地快照副本的极速克隆技术,灾备实例及拉起容器应用,周期性进行挂载及备份数据测试验证。传统基于复制技术的方案,需要等待快照在灾备端复制可用后才能进行测试演练。而采取极速型备份方式后,实现灾备端的秒级克隆,秒级挂载及秒级启动测试。
副本利用:基于极速型备份的数据分析。在不影响生产环境的情况下,灾备环境下基于极速克隆技术,进行容器应用的定时拉起,对副本进行大数据计算及分析,挖掘数据价值。副本利用在实践中也体现在 MySQL 数据库应用基于极速型备份进行只读备库的即时拉起,进行离线数据分析。
容灾切换:业务从生产环境切到灾备环境。当生产发生较大灾难时,短时间无法恢复业务,生产无法继续,将业务从生成中心切换到灾备中心;在生产中心业务恢复后,再将业务进行容灾切回。
相比于传统的副本数据管理 CDM 方案,云计算环境及云原生环境拥有大规模弹性的同构的计算环境,企业用户不必进行设备资源及软件投入;极速型备份及极速型克隆技术极大地降低了副本开发、测试及容灾切换的恢复时间点目标 RTO;云上快照服务的统一备份数据格式降低了各种管理流程中所需的副本数量,消除了备份软件之间数据格式兼容性问题。
技术原理我们对分布式快照算法和实现进行了大量优化,让用户可以抛开影响性能的顾虑,随时进行轻量、实时的数据保护。“轻”,在快照创建期间不影响 IO 读写性能;“快”,ESSD 云盘快照可以在秒级创建、秒级回滚和秒级克隆——极速可用特性,满足用户实时数据保护和 DevOps 快速编排上的需要。