
NVIDIA 的 DLSS 4 “多帧生成” 技术在采用路径追踪的最苛刻游戏中,性能提升高达 8 倍。虽然更精细的细节仍在保密中,但以下是实现这一壮举的原因以及它与 DLSS 3 的不同之处的分解。简而言之,NVIDIA 已将其大部分神经网络替换为更新或改进的 AI 模型,从而提高了算法的质量和性能。
更新的帧生成 AI 模型

DLSS 3 帧生成 利用引擎数据,包括运动矢量、深度、抖动偏移和来自光流加速器的光流场,在每两个帧之间生成一个额外的帧。这被称为 帧插值。多次运行此过程以获得多个插值帧是不可行的,因为它会减慢 GPU 的速度。

DLSS 4 帧生成 模式速度提高 40%,并且使用的 VRAM 减少 30%。此外,它一次最多可以生成 3 帧,而无需调用光流加速器。光流场由 AI 模型生成,允许每两个渲染帧插入多个帧。
硬件翻转计量和第五代张量内核
硬件翻转计量: RTX 40 系列 GPU 上的帧生成使用 CPU 级别 的步调,这可能导致帧之间的帧步调不一致,从而在某些情况下导致步调不均匀。即使您获得高帧率,这也会对 流畅度 产生不利影响。

Blackwell GPU 依赖于硬件翻转计量,该计量将排队的帧处理卸载到 GPU 显示引擎。这允许 GPU 以更高的精度调整帧显示时序。为了以最佳性能促进这一点,Blackwell 的显示引擎的速度是 Ada 的两倍,以支持更高的分辨率和刷新率,以便通过 DLSS 4 进行硬件翻转计量:在 4K 下高达 480Hz 或在 8K 下为 120Hz。
第五代张量内核: DLSS 4 采用 5 个 AI 模型,包括在每两个渲染帧之间进行超分辨率、光线重建和多帧生成。RTX 50 系列利用第五代张量内核,与之前的内核相比,吞吐量提高了 2.5 倍。这是通过切换到较低精度的 FP4 指标来实现的。
DLSS Transformer 模型
DLSS 4 用 Transformer 模型取代了广泛使用的 CNN 模型。这种视觉 Transformer 具有 “自注意力” 操作,可以评估帧上和多个帧上不同像素的相对重要性。使用两倍于 CNN 的数据,Transformer 模型可以提高时间 稳定性、减少 重影 并增加运动中感知的 细节。

较新的 Transformer 模型与采用 CNN 模型的游戏兼容,并且将在 本月底 推出。尚未更新到最新模型的游戏可以通过 NVIDIA 应用程序使用该模型。以下选项将在受支持的应用程序的 “驱动程序设置” 下提供:

- 帧生成 DLSS 覆盖 – 在游戏中启用帧生成时,为 GeForce RTX 50 系列用户启用多帧生成。
- 模型预设 DLSS 覆盖 – 在游戏中启用 DLSS 时,为 GeForce RTX 50 系列和 GeForce RTX 40 系列用户启用最新的帧生成模型,并为所有 GeForce RTX 用户启用超分辨率和光线重建的 Transformer 模型。
- 超分辨率 DLSS 覆盖 – 设置 DLSS 超分辨率的内部渲染分辨率,在游戏中启用超分辨率时启用 DLAA 或 Ultra 性能模式。