Nvidia 推出 Tesla V100,这是首款采用 Volta 芯片的专业显卡,专为人工智能和深度学习而设计。 2018 年之前尚未计划推出适用于普通公共 PC 的版本,但前景诱人。
在GTC大会(GPU技术大会)上,Nvidia终于推出了首款基于其全新架构Volta的显卡。不过,目前它将保留给非常专业的 Tesla V100,并且只能用于售价在 70,000 美元到 150,000 美元之间的大型服务器或工作站。
Tesla V100:IA、深度学习和云计算
首先,Tesla V100 是有史以来生产的最大芯片之一,英伟达为此花费了略高于 30 亿美元的研发费用。以12纳米刻制的芯片在815平方毫米的表面积上包含210亿个晶体管。相比之下,其前身 P100 在 610 mm2 芯片上“仅”拥有 153 亿个晶体管……
降低雕刻的精细度并增加芯片的尺寸使英伟达能够显示一系列数字,每一个都比上一个更令人印象深刻。
因此,在这款 V100 中,有 5120 个 Cuda 核心,由 16 GB HBM2 内存(带宽为 900 GB/秒,接口为 4096 位)支持,图形计算能力介于 7.5(双精度 FP64)和 15 TFLOPS(单精度)之间。精度 FP32)。提醒一下,泰坦Xp- 当今最高端的消费卡 - 提供 12 TFLOPS 的计算能力。
当然,可以结合多个 V100 的功能,并利用这一点,Nvidia 提供了新版本的接口 (NVLink),允许 GPU 之间以及 GPU 与 CPU 之间的对话数量增加一倍。在深度学习应用中如此重要的内存访问问题仍然没有得到解答。
据其创造者称,基于 Pascal 架构(例如 GTX 1080),TV100 的性能将比当前 Tesla 同类产品好 5 倍,并且能够提供 100 个高端计算机处理器的计算能力。经典。一根稻草!
心系人工智能
证明 Tesla V100 与我们的游戏 PC 无关,该芯片还包括一个新功能,Tensor Cores (640),专门用于执行神经网络来训练人工智能的计算单元。
显然,V100 旨在以最佳方式运行支持深度学习的不同平台,包括 TensorFlow、MXnet 和 Caffe2。这些超专业的张量核心可以更快地处理特定于深度学习的算法层。换句话说,他们更快地处理学习人工智能的每一步。由于 Nvidia 在支持的框架方面是不可知的,因此这种收益可以在医疗领域以及研究、高级工程甚至自动运输领域获得。
在执行与深度学习相关的计算时,Tensor Core 和 Cuda Core 的累积功率将达到 120 TFLOPS(混合精度 FP16I 和 FP32)。
亚马逊、Facebook、百度、微软甚至谷歌显然都对这种超强大的计算解决方案感兴趣。在 Nvidia 老板 Jensen Huang 的开幕主题演讲中,杰夫·贝索斯 (Jeff Bezos) 公司和雷蒙德巨头的代表上台宣誓效忠这一解决方案。
但那些没有资格成为聚光灯的人却在圣何塞会议中心的走廊里无所不在,这证明了英伟达确实处于人工智能革命的核心地位。
我们很容易理解高科技和网络巨头的这种热情。据 Jensen Huang 称,Nvidia 的一台 DGX-1V 服务器(售价 15 万美元)配备了 8 个 Tesla V100 芯片,能够替代 400 台现有服务器。基础设施和能源方面的节省将是巨大的。特别是因为该服务器能够提供计算能力,使得在 8 台 Titan X 上需要 8 天的操作在相同数量的 Tesla V100 上只需要 8 小时。
在人工智能这样一个竞争激烈、时间和人力都短缺的领域,争论相当大。因此,特斯拉V100的未来很可能是光明的。
离我们更近
如果说人工智能革命显然对我们的日常生活产生了直接影响,那么这一切仍然相当遥远,有时甚至是模糊的。但在如此强大的力量背后,我们绝不能忘记我们正在为游戏电脑的未来做好准备。
如果 Nvidia 遵循其一贯的节奏,Volta 应该不会在明年之前到达我们的塔楼(最多)。有一点是肯定的,该芯片未来的 GeForce GTX 版本也可能非常可怕。