就在几个月前,人工智能还是未来的代名词。如今,它已成为我们日常生活的一部分。随着“PC AI”时代的到来,人工智能完美地融入到我们的个人电脑中,使我们能够更高效地工作,以执行比以往任何时候都更加雄心勃勃的令人难以置信的项目。这就是 NVIDIA 现在提供新技术的原因NVIDIA RTX 和 GeForce RTX为您提供最好的工具。
这些新技术带来了一种评估人工智能加速任务性能的新方法,以及一种在台式机和笔记本电脑之间进行选择时难以理解的新语言。忘记游戏玩家和 PC 游戏所熟知的每秒帧数 (FPS),现在,通过 AI,我们谈论的是 TOPS 和代币。这是一个快速概述。
从个人电脑到顶尖技术
因此,我们可以解决的第一个衡量标准是 TOPS,即“每秒万亿次操作”。万亿是个重要的词
在这里,因为它强调了人工智能能够处理的相当大的数量级。 TOPS 类似于原始性能的衡量标准,类似于发动机的功率。
以微软最近发布的 Copilot+ 系列 PC 为例。该范围包括每秒能够执行超过 40 万亿次操作的神经处理单元 (NPU)。这是 40 TOPS 的运行时间,对于一些轻量级人工智能辅助任务来说已经足够了,比如询问本地聊天机器人你前一天的笔记在哪里。
然而,许多生成式人工智能任务要求更高,需要更多资源。这就是 NVIDIA RTX 和 GeForce RTX GPU 发挥作用的地方,后者能够为所有生成任务提供无与伦比的性能。如果我们采用 GeForce RTX 4090 GPU,后者可以提供超过 1,300 TOPS 的功率。得益于此,您将能够(并且毫无问题)管理人工智能辅助的数字内容创建 (DCC)、PC 游戏中的人工智能超分辨率、从文本或视频生成图像、查询大型本地语言模型 (LLM) 等等。
游戏代币
TOPS 是新措施的一部分,但并不是唯一的措施。 LLM 的表现是通过模型生成的代币数量来衡量的。简单来说,代币就是LLM的输出。例如,标记可以是句子中的单词,甚至是标点符号或空格。人工智能加速任务的性能可以用“每秒令牌数”来衡量。
法学硕士将成为许多现代人工智能系统的核心。因此,它处理多个输入(例如,来自单个应用程序或多个应用程序)的能力至关重要。因此,批量大小或在单个推理过程中同时处理的输入数量是一个重要因素。虽然较大的批次可以提高并发输入的性能,但它们也需要更多的内存,特别是与较大的模板结合使用时。
准确地说,NVIDIA 已确保其GPU RTX凭借其大量专用视频随机存取存储器 (VRAM)、Tensor 核心和 TensorRT-LLM 软件,非常适合法学硕士。因此,GeForce RTX GPU 提供高达 24 GB 的高速 VRAM,NVIDIA RTX GPU 高达 48 GB,这使得管理更大的模型和增加批量大小成为可能。
更进一步,NVIDIA 确保其 RTX GPU 也利用 Tensor Core,即专用 AI 加速器,可显着加速深度学习和 AI 模型生成所需的密集计算操作。因此,当应用程序使用 NVIDIA TensorRT SDK 时,它可以在超过 1 亿台配备 RTX GPU 的 Windows PC 和工作站上解锁更好的生成式 AI。
以光速从文本到图像
得益于这些新技术,生成式人工智能流程大大加速。因此,测量图像生成速度是评估性能的另一种方法。 NVIDIA 技术再次为我们带来了非凡的成果。
最简单的计算方法之一是使用稳定扩散,这是一种流行的基于图像的人工智能模型,允许用户轻松地将文本描述转换为复杂的视觉表示。这就是 Midjourney 的原理,您将输入文本命令,然后将生成图像(或视频)。
通过稳定扩散,用户可以根据文本提示快速创建和细化图像,以达到所需的结果。得益于 NVIDIA 的 RTX GPU,这些结果可以比在 CPU 或 NPU 上处理 AI 模型更快地生成。
当然,如果使用TensorRT扩展,性能会更高。 RTX 用户通过 SDXL Base 检查点根据提示生成图像的速度提高了一倍,从而显着简化了稳定扩散工作流程。
Stable Diffusion 3 是 Stability AI 备受期待的新型文本图像模型。后者还使用了 TensorRT,性能提升了 50%。得益于新的 TensorRT 模型优化器,加速甚至可以高达 70%。该优化器还可以减少 50% 的内存消耗。
与 NVIDIA 合作