DMM由第三代RTcore本地处理,与前几代相比,它只使用基本三角形渲染复杂几何图形,极大减少了存储和处理需求。
具体的工作原理从图中一目了然,新的DMM可以将面数非常多的复杂图形做简化,创造出简单的模型,但整体的光线追踪效果不变。
通过一些模型数据我们可以具体看到,新的DMM将模型简化了多少。原本1100万三角面的模型,经过简化后,只有15万左右的微网格,BVH的构建速度提升了8.5倍,小了6.5倍。
而这还不是最夸张的,越复杂的模型往往优化的效果越好,在官方展示的这几组对比示例中,最快可提升大于15倍的速度,容量简化20倍的模型。
第四代TensorCores
除了光追单元的升级外,第四代张量核心的升级更加恐怖。它采用了新的FP8张量引擎,在GeForceRTX 4090这张显卡上,吞吐量达到了1.32Tensor petaFLOPs,提高了5倍。
注意这里的单位——petaFLOPs。以往的TFLOPs为万亿次浮点运算,而petaFLOPs则为千万亿次浮点运算。
DLSS3
本次推出的DLSS3也是RTX40系一大卖点,从DLSS2.3直接迈入了3.0版本,也能看出此次的升级之大。而DLSS3也被NVIDIA官方称为神经网络渲染新时代。
全新的DLSS3在原有的DLSS超分辨率的基础上,添加了光学多帧生成技术,以生成全新的帧,而不像原来只能生成像素。
DLSS3结合了DLSS超分辨率、DLSS帧生成和NVIDIAReflex这三大技术,能够重建八分之七的像素,极大提高性能。
在GPU受限的游戏中,比如2K分辨率及以上的更高分辨率,DLSS2能够将帧率提高2倍,DLSS3则能够提升4倍。
本次DLSS3跨越了一个大版本,从想法和原理上也再度升级,完全“猜想”1帧的技术,我们解释起来简单,但实施起来需要大量的推理与演算,以及绝对超前的想法。
不过“凭空”生成的1帧,在延迟上绝对要比DLSS2高。所以此次完整的DLSS3中,捆绑了NVIDIAReflex,可以有效帮助减小延迟。