e炫超级电视怎么使用和安装（e炫电视怎么用） - 原点资讯

每个 Xe 内核中包含 XMX 矩阵引擎、XVE 适量引擎、光追单元、采样器等，这些构成了一个完整的 Xe 内核，也是 Xe HPG 微架构的基本运算单元，这与以往的执行单元 EU 概念有所不同，通过 4 个 Xe 内核构成的渲染切片，以不同组合方式就构成不同的 SoC 以此形成不同的产品形态。

e炫超级电视怎么使用和安装,e炫电视怎么用(9)

英特尔锐炫显卡通过叠加渲染切片方式构成不同的产品线，最小为 2 个，最大为 8 个，通过不同形式的组合构成了各种各样的产品。针对光追和 DX12 Ultimate，Xe HPG 微架构也有很好的支持。

回到 Xe 内核上，每个 Xe 内核提供 16 个 256 位的 XVE 矢量引擎、16 个 1024 位的 XMX 矩阵引擎，并配备 192KB 的共享一级缓存。XVE 适量引擎用于执行传统的图像处理计算，XMX 矩阵引擎则主要用于 AI 加速。

e炫超级电视怎么使用和安装,e炫电视怎么用(10)

其中 XVE 矢量引擎每个时钟周期可以执行 16 个 FP32 操作、32 个 FP16 操作以及 64 个 INT8 操作，专用的 FP 浮点执行接口和共享 INT / EM 执行接口。XMX 矩阵引擎每个时钟周期可以执行 128 个 FP16 / BF16 操作、256 个 INT8 操作、512 个 INT4 / INT2 操作。

e炫超级电视怎么使用和安装,e炫电视怎么用(11)

XMX 算力提升相比于传统的 MAC 或者进阶的 DP4a 是非常巨大的，我们知道 MAC 是图形中使用的基本 SIMD 矢量指令，每个时钟周期共执行 8 次并行运算乘法和 8 次并行加法。而 DP4a 则针对不需要 32 位精度的 AI 计算所做的优化，每个时钟周期共执行 32 次并行乘法、32 次累加或每个周期总共 64 次操作，这比标准 SIMD MAC 提高了 4 倍的性能。

而 XMX 矩阵引擎通过将乘法累加 4 深度流水线化，将其提升到一个新的水平。与 DP4a 一样，每个操作数都被分成 4 个块，这些块被独立的相乘和累加 —— 每个阶段 64 个操作 ——（由紫色图块显示）。通过 4 个阶段，每个时钟产生 256 次操作 —— 比传统的 32 位 SIMD MAC 增加了 16 倍的性能。

e炫超级电视怎么使用和安装,e炫电视怎么用(12)