Nvidia 在 GamesCom 上宣布,新款 GeForce 卡将于下周上市。首批推出的两款产品是超高端 GeForce RTX 2080 Ti 和超高端 RTX 2080。再见 GTX,欢迎来到 RTX,新的 3D 强大怪物,其使命是增强我们的游戏,但也着眼于未来。
是的,Nvidia 设计 RTX 是为了满足新的需求、新的用途,而对于许多人来说,这些在发布时并不相关。但这应该会在未来的几个月和几年内很快发生。我们特别考虑超现实的光线追踪渲染(来自 RTX 的 RT),甚至使用人工智能来进行游戏的图形渲染。可能性清单还不止于此。 “智能”显卡将不再局限于计算三角形,而是能够执行许多其他功能,足以让我们不寒而栗。在进一步讨论之前,我们先总体概述一下这些新 RTX 与 GTX 相比的优势。
RTX 和 GTX:巨大差异
就像Quadro RTX,GeForce RTX 采用图灵图形芯片(代号 TU10x),采用 12 nm FFN(FinFet Nvidia)雕刻。上一代主流架构被称为帕斯卡并根据型号以 16 nm 或 14 nm 进行雕刻。
新的图灵芯片最多由 186 亿个晶体管组成(GTX 10 系列最多由 120 亿个晶体管组成),尺寸为 545 毫米2(与 314 毫米相比2对于帕斯卡)。降低雕刻精度并增加芯片尺寸使 Nvidia 可以在电路中添加更多元件。
第二个重大发展是在芯片的核心。计算单元不再是一种,而是三种,它们都专门从事不同的活动,但在某些情况下能够一起运行。我们将在下面详细介绍它们,但要知道迄今为止还没有 GTX 显卡将如此多的不同单元集成到一个电路中。只有基于 Volta 芯片的专业型号才能拥有如此之多。
第三个大变化,放弃GDDR5X显存和GDDR5,转而采用GDDR6。这种迁移显着提高了芯片和存储模块之间的交换速度。就像存储更多纹理和数据的可能性一样,对于以 4K 甚至 8K 格式显示游戏很有用。而且由于 Nvidia 进一步改进了内存管道中压缩数据的算法以及芯片不同部分(缓存)中保存指令的方式,一切都变得更快。因此,GDDR6 的性能比最强大的 Pascal 卡 (GTX 10) 的 GDDR5X 高出 20%。
在其他明显的变化中,我们要提到的通风系统现在被委托给双风扇系统,每个系统有 13 个叶片和一个大容量均热板,并由热管穿过。据 Nvidia 称,GTX 1080 可能会造成高达 36 dB 的噪音污染,而 RTX 2080 只会产生 29 dB。而且达到某些峰值的速度也会较慢,尤其是在超频地图时。在我们下次评估期间进行检查。
在视频输出方面,Nvidia 已明确将 DVI 视频输出收归囊中。所有 RTX 现在仅具有 1 个 HDMI 输出 (2.0b)、3 个 DisplayPort(1.4a 兼容 60 Hz 的 8K)以及新的兼容 USB Type-C 插座虚拟链路(下一个 VR 标准?)。
最后,价格来了。两年前发布时,RTX 比 GTX 更贵。此外,正如Nvidia所宣布的那样,其销售的Founders Edition版本与其合作伙伴销售的卡之间,标签和技术表上将会存在差异。为了证明这一点,设计师列举了所选择的电子元件,这些元件可以更好地提高GPU Boost、内部通风系统等芯片的频率。事实是,迄今为止,在显卡上市前几天,所有 GTX 2080 Ti 型号虽然宣布起价为 999 美元,但实际上售价在 1,250 美元(创始人版的价格)到 1300 欧元之间,甚至可以达到1500欧元。这就是一台非常好的、完整的游戏电脑的价格!
图灵处理器组织
这是图灵系列中最先进的 3D 处理器 TU102 的图表,该处理器出现在某些 Nvidia 专业卡上。
它是为 RTX 2080 Ti 提供动力的 TU102 的稍微修改版,在 2080 上,工作的是 TU104。最后,在 RTX 2070 上,它将是 TU106。
对于每种变体,按照 GPU 领域的惯例,图形处理器的元件都会被停用或简单地删除,以达到所需的技术和功率水平(从而细分产品)。
对于更有经验的人来说,我们注意到图灵芯片就像 Pascal 一样总是像嵌套娃娃一样组织起来。
主要元素是 GPC(图形处理集群)集。 2080 和 2080 Ti 上有 6 个,而 1080 和 1080 Ti 上有 4 个和 6 个。
每个都包含 TPC(纹理处理集群)块。两款新 RTX 上有 23 和 34 个,而 GTX 1080 和 1080 Ti 只有 23 和 28 个。
最后,TPC 内托管 SM(流式多处理器)单元,这些单元本身分为 4 个相同的部分。 2080 Ti 上总共有 68 个 SM,2080 上有 46 个 SM,而 1080 Ti 上有 28 个 SM,1080 上有 20 个 SM。
每个SM单元由四部分组成。它们容纳了芯片的三个执行单元系列中的两个(以及其他元件):CUDA Core (64) 和 Tensor Core (8)。 RT 核心则以每个 SM 单元 1 个的比例存在。
GPC 块的外围是内存控制器,其数量或多或少取决于显卡上 GDDR6 模块的数量。这会改变内存接口的大小,进而影响带宽速度。然后是 GigaThread 引擎、PCI-Express 3.0 接口,最后是 NVLink。它继承自专业领域,是一种通信接口,直接安装在芯片中(与使用 PCI-Express 的 SLI 不同),允许两个或多个卡协同工作,共享 RAM。 NVLink 的特点是比以前的接口更快,但根据芯片的不同,提供的速度也有所不同(Quadro TU102 上最多 100 GB/s,Quadro TU102 上最多 300 GB/s)GV100)。
Turing:Nvidia 的“混合”架构
正如我们上面所说,图灵架构之所以具有创新性,是因为它建立在三大支柱之上,即 CUDA 核心、Tensor 核心和 RT 核心,这三个大型计算单元实际上就像基于 Volta 芯片的卡。
CUDA 核心:
第一个也是数量最多的单元仍然是 CUDA 计算单元,负责计算(着色器、图形数据)和 3D 渲染,正如我们长期以来所知的那样。它们继承自老一代 GeForce 卡,但当然也有所发展。它们现在有两种类型(INT32、FP32 和第三种 FP64),并且它们的操作在各个级别上都得到了改进甚至重新设计。从组织到并行运行任务,再到合并和重新组织共享内存和 L1 缓存等等。与第 10 代 GeForce 相比,一切都发生了变化。
主要归功于 CUDA 单元的变化,Nvidia 可以说 RTX 在当前游戏中比上一代显卡的效率提高了 50%。
让我们具体说明一下,我们认为这些发展构成了 Nvidia 显卡自 400 系列以来所经历的最大的技术变革之一。还要注意,正是由于这些全新的单元,设计师才能提供新的方法。进一步改进我们视频游戏的传统渲染(着色/光栅化)。
张量核心:
接下来是 Tensor Core 单元。它们采用 Volta 专业架构引入,专注于与人工智能相关的所有领域,并利用 Nvidia NGX 工具生态系统。在图灵上,他们主要进行“推理”,也就是说,他们知道如何解释、适应和实施先前在外部神经网络上进行的训练结果。
Nvidia 声称已经采用并改进了 Volta 中的单元,就 RTX 而言,确保它们的潜力首先用于图形和视频游戏服务。第一个具体应用是DLSS(深度学习超级采样)。
这是一种由 AI 提供支持的图像增强过程,可提供卓越的渲染质量,并且 RTX 2080 Ti 每秒生成的图像数量是 GTX 1080 Ti 的两倍,GTX 1080 Ti 使用相同的时间抗锯齿 (TAA) 处理图像。
RT 核心:
现在我们来谈谈 GeForce(和 Quadro)RTX RT 核心。这些单元肩负着促进、支持和加速兼容游戏中实时光线追踪渲染的重任,使用DirectX 光线追踪(在 Windows 10 的 10 月更新中发布)、下一个版本的 Vulkan 甚至使用当前的 Nvidia OptiX。
迄今为止,消费级 3D 卡几乎无法实现这一操作。
只有专业模型才能做到这一点,但并不总是实时的,而且条件是,必须将所有精力集中在这项任务上。
CUDA 核心 + RT 核心 + Tensor 核心 = RTX-OPS
为了量化 GeForce RTX 在调动不同系列的设备时所产生的整体性能,Nvidia 创建了 RTX-OPS 指数。它可以在新 GeForce 的技术表上找到,旁边还有传统数据(频率、核心数量、功耗等)。出于信息目的,Nvidia 还对 10 系列进行了计算,以显示两代产品之间的差距有多大。
RTX-OPS 由 Nvidia 建立,是对图灵芯片的行为进行数小时测试和长期分析的结果。如上图所示,它是根据使用 CUDA Core(INT32 和 FP32)、RT Core 和 Tensor Core 处理复杂图像时的单位占用的一定平均百分比来计算的。
例如,2080 Ti 的 RTX-OPS 在基本型号上为 76,在创始人版 (FF) 上为 78。差异可以通过芯片达到的 GPU Boost 频率来解释,我们记得,FF 型号上的频率高于其他型号。相比之下,GeForce GTX 1080 Ti 的 RTX-OPS 得分为 11.3。
RTX 2080 的经典型号指数为 57,FF 卡的指数为 60(GTX 1080 的指数为 8.9),最后,RTX 2070 的峰值为 42/45,而 GTX 1070 的指数必须为 6.5。
3D 的未来就在这里
Turing 的到来显然标志着 Nvidia 在消费 3D 领域的新起点。然而,这位 GPU 设计师并不是从零开始设计他的图灵架构:它很大程度上受到了 Volta 的启发,Volta 是多年来人工智能和光线追踪研究的成果,并结合了设计芯片以满足不断增长的算力的需要。利润丰厚的电脑游戏市场的需求。
然而,Turing 体现了一个新的、强大的基础,下一代 GeForce 芯片将由此诞生,就像当时的 Tesla (GeForce 8000) 或 Fermi (GTX 400) 架构一样。
得益于RTX和Turing,Nvidia也希望能进一步拉大目前AMD的GeForce和Radeon之间的差距,从而保持在显卡市场的领先地位。尤其是红军不再是唯一在这方面取得进展和进展必须观察的球队!Intel确实有其用意到 2020 年重返专用 GPU 市场。