存力除了内存本身的性能,还包含CPU与内存之间的互连技术,至强® 6导入了最新的Compute Express Link 2.0 (CXL 2.0) 。
CXL 2.0支持多种设备类型,且可向后兼容,实现对内存和存储设备的灵活扩展。
支持链路分叉、更强的CXL内存分层支持,以及以受控热插拔的方式添加/移除设备,为未来的数据中心架构带来了更多可能性。
更值得一提的是至强® 6独占的“Flat”内存模式,CXL内存和DRAM内存被视为单一的内存层,让操作系统可以直接访问这一统一的内存地址空间。
这样的分层管理可以确保最大限度地提升内存使用效率,并且实现利用好CXL内存扩展而无需修改软件。
如此这般能对内存速度、带宽、容量和可扩展性全面兼顾,已经形成了至强® 6 性能核处理器独树一帜的竞争力。
具体到服务器设计上,CLX2.0可以支持每机提供8TB内存容量扩展,同时提供384GB/s的内存带宽扩展。
当然,作为CPU的至强® 6 性能核处理器并没有忘记自己的本份,把存力与算力的硬指标优势结合起来,转化成真正的优势,才是它被看好的底气。
在算力方面,除了更多内核,它还有内置加速器与指令集更新带来的加成。
主攻AI加速的英特尔® 高级矩阵扩展(Intel® AMX)新增对FP16数据类型的支持,现已全面覆盖 int8、BF16和FP16数据类型。
其在每个内核中的矩阵乘加(MAC)运算速度可达 2048 FLOPS(int8)和1024 FLOPS(BF16/FP16),能大幅提升 AI 推理和训练性能。
英特尔® 高级矢量扩展 512(AVX-512)虽然是员老将了,但在得到如此丰沛的内核资源支持后,也依然是科学计算、数据库和 AI 任务中的矢量计算担当。
这些加速器的升级与焕新带来的成果就是下图这种多负载性能表现普遍倍增的现象,在AI领域,尤其是在Llama2-7B上的提升直接达到了前一代产品的3.08倍。