引言
在上一期的介绍中,我们探讨了 NVMe 技术和 NVMe-oF 不同的技术优缺点。今天来看看该如何选择合适的 NVMe-oF 技术,以及思科的解决方案和针对不同金融场景下的建议。
对于计划升级基础设施以支持 NVMe-oF 的金融行业 IT 架构师来说,主要问题是采用何种技术架构。自然,答案将取决于他们当前基础设施的内容,以及他们对未来的计划和预算。
另一个关键因素是时机。NVMe/RoCEv2 目前显示出潜力,但在准备好可靠地承担企业级关键工作负载之前,它可能还需要几年的时间来发展。当技术成熟时,NVMe/TCP 看起来也可能提供出色的性价比,但这同样也需要几年的时间。
目前,大多数 IT 架构师得出结论,FC 为企业关键任务工作负载提供了最成熟的数据传输协议,使 NVMe/FC 成为正确的存储网络架构选择。
复杂的协议栈不是存储的最佳选择
NVMe 协议比 SCSI 协议更有效的原因之一是 NVMe 的协议栈明显更简单。协议堆栈的简化性也非常重要,因此我们可以对比一下不同的 NVMe 结构的协议堆栈。光纤通道、RoCEv2 和 TCP 的堆栈在下面的存储 Fabric 协议全栈图中可以看到差别。
IP/以太网相对于光纤通道的复杂性是显而易见的。协议中有几个关键问题导致了这种复杂性:以太网和 IP(以及 TCP/UDP)在比光纤通道 FC 更独立的层中实现传输渠道。IP 网络的设计初衷是必须支持具有数十亿个节点的全球范围地址分配和路由,需要多个复杂的层面和算法支持。光纤通道 FC 是为数据中心规模设计的,有其自身的复杂性,但比 IP 的全球规模要简单得多。
以太网是在网络早期作为一种最佳共享介质开发的。该协议演变了多种用于避免环路、快速地址学习等的零碎机制。多年来,流量控制逐渐得到加强。相比之下,光纤通道的开发人员能够从这些早期的经验教训中吸取教训,从而创建一个整体上更加一致的协议。
对协议栈的要求。光纤通道一直专注于高级数据中心用例,因此没有向更大的规模发展。
在这里承认 TCP 和 RoCEv2 堆栈的复杂性并不一定会增加微不足道的延迟;许多堆栈复杂性由启用 RDMA 的专用 NIC 或 TCP offload 在 “硬件” 中处理(尽管通常涉及基于 ASIC 的处理器内核)引擎。但复杂的堆栈在实际部署中会转化为配置管理、互操作性、故障排除与分析等多方面的挑战。
IP/以太网复杂性的遗留问题代表了优质、无损环境中的挑战:设备的默认行为以及支持人员的经验和培训主要面向主流市场。虽然应该可以利用一些高级操作来配置以太网和 IP 设备,但这种操作不是正常的默认设置,通常也不是网络运维中不同角色的能力所及。相比之下,光纤通道始终被设计为简单的高可用网络,这在 NVMe 环境中和几十年来在 SCSI 环境中一样都是如此。
新堆栈创建新的安全目标
在光纤通道 SAN 中维护高价值存储资产的优势之一是此类结构很难通过 IP 网络访问。从 IP 协议到稳定的光纤通道协议栈,根本没有路径。攻击者无法通过 IP 发送光纤通道帧来探测 SAN。因此,经常出现的小安全漏洞不会转化为存储卷的零日漏洞。复杂且相对未经验证的 RoCEv2 和 TCP 堆栈开辟了新的威胁面,这些威胁面相对可通过 IP 访问,从而增加了整个组织 IP 网络中安全机制管理的复杂性。
企业存储架构迁移的考虑
NVMe over Fibre Channel 提供光纤通道传输的性能和稳健性,以及在同一基础设施上同时运行 FCP 和 FC‑NVMe 协议的能力。这种双协议方法使 IT组织能够将其存储卷从 SCSI 顺利过渡到 NVMe,有了 NVMe over Fibre Channel,当组织开始采用 NVMe 时,无需推倒和替换 SAN,也无需创建昂贵的新基础设施。双协议 HBA 和驱动程序堆栈意味着每个存储应用程序都可以根据需要逐步迁移。SCSI 资产可以逐卷地从 SCSI 迁移到 NVMe。低风险的性能敏感卷可以先迁移,风险敏感的卷可以保留到以后。此外,可以在顶级企业阵列上创建和维护关键资产的主副本,同时可以将运营副本发布到同一 SAN 中的低成本阵列,以供其他应用程序使用。
金融行业应用可以通过多种方式受益于 NVMe 技术。所以,建议路线图应该适用于多种 NVMe 解决方案实施。
决定部署哪种类型的 NVMe over Fabrics 协议取决于应用,您的数据中心技术设施能力以及这些应用程序对 NVMe over RoCE、NVMe over FC 或 NVMe over TCP的准备情况,完善的解决方案将支持所有这些协议,
思科针对 NVMe-oF 部署的建议
建议 NVMe/FC 协议和 SCSI/FC 协议使用相同的光纤通道基础设施,并使用不同的 VSAN 来保持 NVMe 和 SCSI FC 流量之间的分离, NVMe/FC 提供更高的性能和更好的错误恢复 (SLER),目前光纤通道速度为 64G,128G 标准正在研究中。
整体的方案示意如下:
Cisco MDS 提供丰富的基于 ASIC 的 NVMe/FC 分析功能,以及用于进一步分析 NVMe 帧的专用附加 NPU,目前基于以太网技术的 NVMe over ROCEv2 和 NVMe over TCP 还没有基于芯片级别的可以分析 NVMe 帧的能力。
思科的 MDS SAN 解决方案能提供对 NVMe/FC 完整的支持
这是客户在涉及 SAN 的对话中最常见且最关心的问题。Cisco MDS SAN 完全支持 NVMe。
•透明支持 —— 无需额外的硬件/命令
•可与任何当前使用 Cisco NX-OS 8.x 版本的 16G/32G 交换矩阵交换机或当前 Cisco MDS 9700 16G/32G 模块配合使用
•无需额外许可证
•无需额外功能即可识别 NVMe 命令
针对 NVMe 的整体部署方案,思科提出了 NVMe-Anywhere 整体解决方案
该方案建议通常 NVMe/RoCEv2 使用无损以太网部署在机架内, 流量工程通过 DSCP、PFC、ECN、DCQCN、IB/CNP 功能进行管理,以发挥 NVMe/RoCEv2 的最佳性能。对 NVMe/RoCEv2 进行故障排除需要了解 Infiniband TH 协议。NVMe/RoCEv2 不能用于长距离(NVMe/TCP 是更好的选择),因此在一部分场合可以部署 NVMe/TCP 解决方案。采用思科的 N9K 解决方案实现NVMe/RoCEv2和NVMe/TCP的同时,N9K支持 FC/FCoE 的特性,配合思科 MDS 交换机可以实现全栈全连通的 NVMe over Fabric 数据中心解决方案,实现真正的 NVMe-Anywhere 才是客户现实环境的最佳选择,同时兼容现有 SAN 环境,实现无缝迁移,多级存储,新老设备共存,充分体现投资保护。
在思科 NVMe-Anywhere 整体解决方案下,思科提出针对 NVME-oF 的选择建议:
•将企业级关键任务应用程序部署在 NVMe/FC 光纤通道环境中;
• 关键业务的存储迁移可以在统一的 FC 结构上直接进行,从 SCSI 迁移到 NVMe/FC;
• 对于某些考虑较低成本或者较长距离需求的 NVMe 存储数据流量,可以使用 NVMe/TCP ;
• 针对 cloud native 兼容的部分应用场景,可以考虑采用 NVMe/RoCEv2 作为 DAS 替代,目前状态下流量应尽可能限制在机架级别(低于 TOR 交换机);
• 存储网络要具备 NVMe 流量的可视分析能力;
• 通过统一的融合管理平台管理混合结构 (Ethernet/FC) 。
综上,在目前的阶段下,针对金融行业的应用特点,大部分使用场景以确保关键业务的可靠性和安全性为首要目标。因此,选择成熟、稳定、安全的 NVMe/FC 技术作为关键业务场景的首选,对于非关键业务场景可以考虑其他类型的 NVMe-oF 技术。思科公司凭借完备的产品线和经验丰富的技术支持能力,可以帮助金融行业客户采用 NVMe 技术支持各种类型的应用,实现 NVMe-Anywhere。