每个 Xe 内核中包含 XMX 矩阵引擎、XVE 适量引擎、光追单元、采样器等,这些构成了一个完整的 Xe 内核,也是 Xe HPG 微架构的基本运算单元,这与以往的执行单元 EU 概念有所不同,通过 4 个 Xe 内核构成的渲染切片,以不同组合方式就构成不同的 SoC 以此形成不同的产品形态。
英特尔锐炫显卡通过叠加渲染切片方式构成不同的产品线,最小为 2 个,最大为 8 个,通过不同形式的组合构成了各种各样的产品。针对光追和 DX12 Ultimate,Xe HPG 微架构也有很好的支持。
回到 Xe 内核上,每个 Xe 内核提供 16 个 256 位的 XVE 矢量引擎、16 个 1024 位的 XMX 矩阵引擎,并配备 192KB 的共享一级缓存。XVE 适量引擎用于执行传统的图像处理计算,XMX 矩阵引擎则主要用于 AI 加速。
其中 XVE 矢量引擎每个时钟周期可以执行 16 个 FP32 操作、32 个 FP16 操作以及 64 个 INT8 操作,专用的 FP 浮点执行接口和共享 INT / EM 执行接口。XMX 矩阵引擎每个时钟周期可以执行 128 个 FP16 / BF16 操作、256 个 INT8 操作、512 个 INT4 / INT2 操作。
XMX 算力提升相比于传统的 MAC 或者进阶的 DP4a 是非常巨大的,我们知道 MAC 是图形中使用的基本 SIMD 矢量指令,每个时钟周期共执行 8 次并行运算乘法和 8 次并行加法。而 DP4a 则针对不需要 32 位精度的 AI 计算所做的优化,每个时钟周期共执行 32 次并行乘法、32 次累加或每个周期总共 64 次 操作,这比标准 SIMD MAC 提高了 4 倍的性能。
而 XMX 矩阵引擎通过将乘法累加 4 深度流水线化,将其提升到一个新的水平。与 DP4a 一样,每个操作数都被分成 4 个块,这些块被独立的相乘和累加 —— 每个阶段 64 个操作 ——(由紫色图块显示)。通过 4 个阶段,每个时钟产生 256 次操作 —— 比传统的 32 位 SIMD MAC 增加了 16 倍的性能。