NVIDIA发布全新数据中心推理平台，推进新一轮AI服务发展

2018年9月13日，NVIDIA推出全新人工智能数据中心平台，为语音、视频、图像和推荐服务提供业界最先进的推理加速，从而推动全球AI服务的发展。

NVIDIA TensorRT™ 超大规模推理平台采用基于突破性的NVIDIA Turing™架构的NVIDIA® Tesla® T4 GPU，以及一整套完整的新推理软件。

该平台可为端到端应用提供最快性能和更低延迟，助力超大规模数据中心提供全新服务，例如增强型自然语言交互，以及对搜索查询的给出直接答案而非模糊匹配的一系列结果。

NVIDIA副总裁兼加速业务总经理Ian Buck表示：“未来人工智能将触及每种产品和服务并为之带来改进，我们的客户正在朝此方向发展。NVIDIA TensorRT超大规模平台的设计旨在实现这一目标，即比以往设想的更快、更高效。”

每天，大规模数据中心都会处理数以亿计的语音查询、翻译、图像、视频、推荐和社交媒体交互。所有这些应用的处理过程都需要在位于服务器上不同类型的神经网络进行。

为优化数据中心以实现最高吞吐量和服务器利用率，NVIDIA TensorRT超大规模平台包括实时推理软件和Tesla T4 GPU，处理查询的速度比仅采用CPU时快40倍。

NVIDIA预计AI推理行业有望在未来五年内平稳增长至200亿美元的市场。

先进的AI推理平台

NVIDIA TensorRT超大规模平台包括一整套硬件和软件产品，这些产品针对强大、高效的推理进行了优化。关键要素包括：

・ NVIDIA Tesla T4 GPU C 搭载320个Turing Tensor Core和2560个CUDA® Core，这款全新GPU具有突破性的性能，以及灵活的多精度功能，从FP32到FP16再到INT8及INT4。它采用高能效的75瓦小型PCIe封装，可轻松适用于大多数服务器。FP16的峰值性能为65 teraflops，INT8为130 teraflops，INT4为260 teraflops。

・ NVIDIA TensorRT 5 – 推理优化器和运行时引擎，NVIDIA TensorRT 5支持Turing Tensor Core，并对适用于多精度工作负载的神经网络优化集进行了扩展。

・ NVIDIA TensorRT推理服务器 – 这一容器化的微服务软件使应用能够在数据中心生产中采用AI模型。其在NVIDIA GPU Cloud容器注册中免费提供，可实现数据中心吞吐量和GPU利用率的最大化，支持所有常用AI模型和框架，并集成了Kubernetes和Docker。

全球技术领导者的支持

NVIDIA全新推理平台获得了全球领先的消费级及企业级技术公司的支持。

微软Bing和AI产品公司副总裁Jordi Ribas表示：“微软致力于为客户提供最具创新性的AI服务。在实时推理工作负载中，NVIDIA GPU的使用实现了Bing高级搜索产品的改进，使我们能够减少图像的对象检测延迟。我们期待采用NVIDIA的下一代推理硬件和软件，让人们能够通过更多方式受益于AI产品和服务。”

Google Cloud产品经理Chris Kleban表示：“AI越来越普及，推理是客户成功部署AI模型所需的关键功能，因此我们非常高兴很快Google云平台将支持NVIDIA基于Turing架构的Tesla T4 GPU 。”

包括所有主流服务器制造商在内的其他公司也表示了对NVIDIA TensorRT超大规模平台的支持，包括：

“思科的UCS产品组合提供策略驱动的GPU加速系统和解决方案，可为AI全生命周期内的每一阶段提供有力支持。借助基于NVIDIA Turing架构的NVIDIA Tesla T4 GPU，思科的客户可访问最高效的AI推理工作负载加速器，更快地获得洞察并加速展开工作。”

――思科数据中心事业群产品管理副总裁Kaustubh Das

“Dell EMC致力于助力客户实现IT转型，同时受益于人工智能等方面的进步。作为全球领先的服务器系统供应商，Dell EMC不断改进PowerEdge服务器产品组合，以助力客户最终实现其目标。我们与NVIDIA密切合作，且一直以来都采用Tesla产品组合中的最新GPU加速器，这对于帮助我们的客户在AI训练和推理方面保持领先地位起着至关重要的作用。”

――Dell EMC服务器和基础设施系统产品管理和营销高级副总裁Ravi Pendekanti

“富士通计划将NVIDIA的Tesla T4 GPU整合至我们全球的富士通服务器PRIMERGY系统阵容中。利用NVIDIA最新的高效GPU加速器，我们将为全球客户提供针对不断增长的AI需求而优化的服务器。”

――富士通数据中心平台业务部产品部副总裁Hideaki Maeda

“HPE致力于推进边缘智能，以加速获得洞察并改善体验。借助基于NVIDIA Turing架构的NVIDIA Tesla T4 GPU，我们将持续进行数据中心现代化和加速，以实现边缘推理。”

――HPE HPC和AI事业群副总裁兼总经理Bill Mannel

“借助我们的深度学习训练和推理软件PowerAI及IBM Power Systems AC922加速服务器，在简化的AI平台上协同优化的硬件和软件使IBM Cognitive Systems能够将深度学习训练速度提高4倍。我们一直以来与NVIDIA保持合作伙伴关系并开展创新，共同开发了IBM Power处理器上业界唯一的CPU至GPU NVIDIA NVLink连接，我们很高兴能够围绕全新NVIDIA T4 GPU加速器展开探索，进一步扩展在推理工作负载方面的业界领先地位。”

――IBM Power Systems产品管理副总裁Steve Sibley

“我们很高兴看到NVIDIA通过NVIDIA TensorRT推理服务器为Kubernetes带来GPU推理，并期待将其与Kubeflow集成，为用户提供一种简单、可迁移且可扩展的方式，以在各种基础设施中部署AI推理。”

――Kubeflow联合创始人兼产品经理David Aronchick

“开源跨框架推理对于机器学习模型的生产部署至关重要。我们很高兴看到NVIDIA TensorRT推理服务器能够为大规模服务的GPU和CPU推理提供强大的解决方案，并加快AI应用部署并提高基础设施利用率。”

――Oracle云基础设施产品开发副总裁Kash Iftikhar

“Supermicro致力于通过创新来应对5G、智能城市和物联网设备等技术驱动下快速兴起的高吞吐量推理市场，这些技术在持续产生大量数据并需要实时决策。我们认为NVIDIA TensorRT与基于Turing架构的T4 GPU加速器的结合是应对这些新的要求苛刻且对延迟敏感的工作负载的理想组合，并计划在我们的GPU系统产品线中大举采用。”

― Supermicro总裁兼首席执行官Charles Liang