近几年台式电脑内存技术最火的进步无疑是DDR5内存和英特尔第12代酷睿系列处理器的发布。DDR5内存不仅为许多不同的应用提供更高的内存带宽,而且DDR5还提供了内存容量的世代增长,随着时间的推移允许更高容量的UDIMM。
但是,与以往一样,内存市场绝不是同质化的。只有三家真正的DRAM制造商,DIMM供应商正在以一系列的时钟速度提供DDR5,包括官方的JEDEC速度和X.M.P.内存,这两种内存基本上都是开箱即用的。目前常用的DDR5内存配置也有显著的差异,包括单侧内存(1Rx8)和双侧内存(2Rx8),以及不同容量的UDIMM。
在本篇文章中,我们研究了三星的 DDR5-4800 内存,包括 2 x 32 GB、2 x 16 GB 和 4 x 16 GB,以测量单列和双列内存之间的性能差异,以及及DDR5在一个或两个内存通道(DPC)中运行的任何差异。最后,由于我们也有来自 Micron 和 SK Hynix 的 DDR5-4800 DIMM 和 DRAM,我们还将在结果中查看这些,看看这三个内存制造商之间是否存在任何性能差异。
在具体这些分析之前,我们先来了解一下,DDR5究竟改变了什么。
什么是DDR 5?
DDR5规范最初计划于2018年发布,但直到2020年7月才首次亮相,这相对于JEDEC的原定计划有些落后,但并没有降低新存储器规范的重要性。像之前的DDR每次迭代一样,DDR5的主要重点再次是提高内存密度和速度。JEDEC希望将两者都提高一倍,最大内存速度设置为至少6.4Gbps,而单个封装的LRDIMM的容量最终将达到2TB。
一直以来,存在一些较小的更改以支持这些目标或简化生态系统的某些方面,例如,DIMM上的电压调节器以及芯片上的ECC。
(1)变得更大:更密的内存和芯片堆叠
我们首先简要介绍一下容量和密度,因为与DDR4相比,这是对标准最直接的更改。DDR5的设计时间跨度为数年,它将允许单个存储芯片达到64Gbit的密度,这比DDR4的最大16Gbit密度高出4倍。结合die堆叠,可以将多达8个管芯die为一个芯片,那么40个单元的LRDIMM可以达到2TB的有效存储容量。或者对于更不起眼的无缓冲DIMM,这意味着我们最终将看到典型双列配置的DIMM容量达到128GB。
当然,当芯片制造赶上规范允许的范围时,DDR5规范的峰值容量将用于该标准生命周期的后期。首先,内存制造商将使用当今可达到的密度8Gbit和16Gbit芯片来构建其DIMM。因此,虽然DDR5的速度提升将是相当立即的,但是随着制造密度的提高,容量的提升将更加缓慢。
(2)更快:一个DIMM,两个通道
DDR5的另一部分是关于再次增加内存带宽。每个人都希望获得更高的性能(尤其是随着DIMM容量的增长),并且毫不奇怪的是,为了实现这一目标,在规范中进行了大量工作。
对于DDR5而言,JEDEC希望比DDR存储器规范更积极地开始工作。通常,新标准是从上一个标准开始的地方开始的,例如从DDR3到DDR4的过渡,DDR3正式停止在1.6Gbps,而DDR4从那里开始。但是,对于DDR5,JEDEC的目标是更高的,该组织预计将以4.8Gbps的速度推出,比DDR4的官方3.2Gbps最大速度快约50%。在随后的几年中,该规范的当前版本允许的数据速率高达6.4Gbps,是DDR4官方峰值的两倍。
当然,爱好者会注意到DDR4已经超过了官方规定的最大3.2Gbps(有时远高于),并且DDR5最终可能会走类似的路线。不论具体数字如何,其基本目标是使单个DIMM的可用带宽翻倍。因此,如果SK海力士确实在本十年后期实现了DDR5-8400的目标,也不要感到惊讶。
这些速度目标的基础是DIMM和内存总线上的更改,以便每个时钟周期馈送和传输大量数据。与DRAM速度一样,最大的挑战来自DRAM核心时钟速率缺乏进展。专用逻辑仍在变得越来越快,存储器总线也在变得越来越快,但是支撑现代存储器的基于电容器和晶体管的DRAM的时钟频率仍然不能超过几百兆赫兹。
因此,为了从DRAM裸片中获得更多收益(以保持内存本身正在变得越来越快并提供实际上更快的内存总线的错觉),需要越来越多的并行性。DDR5再次提高了赌注。
此处最大的变化是,与我们在LPDDR4和GDDR6等其他标准中看到的情况类似,单个DIMM被分解为2个通道。DDR5不会为每个DIMM提供一个64位数据通道,而是为每个DIMM提供两个独立的32位数据通道(考虑ECC时为40位)。同时,每个通道的burst length从8字节(BL8)翻倍到16字节(BL16),这意味着每个通道每次操作将交付64字节。与DDR4 DIMM相比,以两倍于额定内存速度(相同核心速度)运行的DDR5 DIMM将在DDR4 DIMM传输一个DDR4 DIMM的时间内提供两个64字节操作,从而使有效带宽增加了一倍。
总体而言,内存操作的魔术数字仍然是64字节,因为这是标准高速缓存行的大小。DDR4样式的内存上较大的burst length将带来128字节的操作,这对于单个高速缓存行而言太大,并且如果存储器控制器不希望占用两行的书序数据的值,这充其量会导致效率/利用率损失。相比之下,由于DDR5的两个通道是独立的,因此内存控制器可以从不同的位置请求64个字节,这使其更适合处理器的实际工作方式,并且避免了利用率打折扣(utilization penalty)。
这样一来,对标准PC台式机的最终影响将是,代替今天的DDR4规划,即两个DIMM填充两个通道以进行2x64位设置,而DDR5系统将在功能上表现为4x32位设置。内存仍将成对安装-我们不会回到安装32位SIMM的时代-但现在最低配置是DDR5较小通道中的两个。
这种结构变化还会在其他地方产生连锁反应,尤其是在这些较小的通道中最大化使用。DDR5引入了更细粒度的存储体刷新功能,该功能将允许某些存储体在使用中的同时进行刷新。这样可以更快地进行必要的刷新(电容器充电),从而保持等待时间,并使未使用的存储库尽快可用。存储体组的最大数量也从4个增加到8个,这将有助于减轻顺序存储访问带来的性能损失。
(3)快速总线服务:决策反馈均衡
相比寻找增加DRAM DIMM并行化数量的方法,增加总线速度既简单又困难:这种想法在概念上很简单,在执行上也很困难。最终,要使DDR的内存速度提高一倍,DDR5的内存总线的运行速度必须是DDR4的两倍。
DDR5进行了几处更改以实现这一目标,但是令人惊讶的是,存储总线没有任何大规模的根本更改,例如QDR或差分信令(differential signaling)。取而代之的是,JEDEC及其成员已经能够使用经过稍微修改的DDR4总线版本实现其目标,尽管这种总线必须在更严格的公差范围内运行。
这里的关键驱动因素是决策反馈均衡(Decision Feedback Equalization:DFE)的引入。在非常高的水平上,DFE是一种通过使用来自内存总线接收器的反馈来提供更好的均衡效果来减少 inter-symbol 干扰的方法。更好的均衡又可以使DDR5内存总线以更高的传输速率运行所需的更清晰的信号传输,而不会发生任何故障。同时,标准中的一些较小更改进一步帮助了这一点,例如添加了新的改进训练模式,以帮助DIMM和控制器补偿内存总线上的微小时序差异。
(4)更简单的主板,更复杂的DIMM:DIMM上的电压调节
随着内核在密度和存储速度方面的变化,DDR5再次提高了DDR存储器的工作电压。根据规格,DDR5的Vdd为1.1v,低于DDR4的1.2v。像过去的更新一样,这将提高内存相对于DDR4的电源效率,尽管到目前为止,功耗提升的幅度不如DDR4和早期标准。
JEDEC还在DDR5内存标准中引入来对DIMM的电压调节方式进行相当重要的更改。简而言之,电压调节正从主板移至各个DIMM,而DIMM则负责其自身的电压调节需求。这意味着DIMM现在将包括一个集成的稳压器,并且适用于从UDIMM到LRDIMM的所有内容。
(5)DDR5 DIMM:仍为288针,但引脚排列已更改
最后,正如早期供应商原型中已经广泛证明的那样,DDR5将保持与DDR4相同的288针数。这反映了DDR2到DDR3的过渡,此处的引脚数在240个引脚处也保持相同。
但是,不要期望在DDR4插槽中使用DDR5 DIMM。尽管引脚数没有改变,但引脚排列却是为了适应DDR5的新功能,尤其是其双通道设计。
这里最大的变化是命令和地址总线正在收缩和分区( shrunk and partitioned),其引脚被重新分配给第二个存储通道的数据总线。DDR5将具有两个7位CA总线,而不是单个24位CA总线,每个通道一个。当然,7只是旧总线的一半,因此对于交换的存储控制器来说,事情变得越来越复杂。
使用 DDR5 内存进行扩展
2021年12月,我们使用G.Skill的Trident Z5 2 x 16 GB DDR5-6000 CL36内存套件在不同频率范围内测试了 DDR5 内存的性能可扩展性。我们的研究结果表明,当使用我们对内存最敏感的基准测试之一WinRAR 5.90 时,从 DDR4-4800 CL36 的 JEDEC 设置到 DDR4-6400 CL36 的性能提升了14%。这里的共识是,使用更快的内存确实可以提升我们测试的几乎所有场景。尽管如此,需要注意的是,由于更快的套件价格高昂,目前除了当前的 DDR5-4800 JEDEC 套件之外,没有任何价格/性能最佳点——高速套件的价格溢价目前大于性能好处。
三星 DDR5-4800B CL40 内存 (2 x 32 GB) (2Rx8)
今天的测试:Rank、DPC
和内存制造商重要吗?
由于此前的文章专注于内存频率和延迟,我们想看看 DDR5 性能等式的其他元素。这包括 DIMM 等级、单个内存通道中的 DIMM 数量,甚至内存制造商本身。我们已经看到了当我们使用前两个变量时会发生什么,现在当我们使用其他变量时会发生什么?
专注于 DDR5 DIMM 配置,目前可供使用英特尔第 12 代酷睿系列的消费者使用的 DDR5 内存模块有四种不同的组合。这包括单列 (1Rx8) 和双列 (2Rx8) DIMM,它们通常以两个或四个为一组,分别构成每通道 1 个 DIMM (1DPC) 或每通道 2 个 DIMM (2DPC)。而且,正如我们将在测试中看到的那样,rank 和 DPC 都会影响 DDR5 性能,因此要充分利用 DDR5 内存,不仅仅是频率和延迟。
针对DDR5内存配置,目前使用英特尔第12代核心系列的消费者可获得的DDR5内存模块有四种不同的组合。这包括单列(1Rx8)和双列 (2Rx8)内存,它们通常是2个或4个套件,分别为每个通道1条内存(1DPC)或每个通道2条内存(2DPC)。而且,正如我们将在测试中看到的那样,列和DPC都会影响DDR5的性能,所以要最大限度地利用DDR5内存,不仅仅是频率和延迟。
在本文中,我们想要回答的基本问题是:
1、带 DDR5 内存的 1Rx8 和 2Rx8 性能有区别吗?
2、使用 1DPC 与 2DPC(2x32GB 与 4x16GB)时性能是否存在差异?
3、不同制造商的内存在相同时间的性能是否存在差异?
为了探索DDR5在不同级别和DPC上运行的性能差异,三星发送了两种配置/容量的最新DDR5- 4800b内存:16GB 1Rx8内存和32GB 2Rx8内存。三星电子虽然是世界三大DRAM制造商之一,在存储器市场上占有巨大的市场份额,但这是三星电子首次对消费级UDIMMs进行送样。因此,我们很高兴看到他们自己的内部内存在这方面的表现。
有了三星的内存,我们已经能够在两种不同配置之间进行测试,看看1Rx8和2Rx8在性能上是否更好。我们还能够测量从1DPC迁移到2DPC的影响,随着每一代DDR内存信令变得越来越困难,这总是一个有趣的问题。