适用于 AI 的 Triton 管理服务

NVIDIA Triton 管理服务

可在 Kubernetes 中借助能够高效利用资源的模型编排功能，自动部署多个 Triton 推理服务器实例。

简介
优势

简介
优势

NVIDIA Triton 管理服务是什么？

NVIDIA Triton™ 是 NVIDIA® AI 平台的一部分，可提供一项称为 Triton 管理服务的全新功能。该功能可以在 Kubernetes 上高效利用资源进行模型编排，从而将多个 Triton 推理服务器实例自动部署到 GPU 和 CPU 上。这款软件应用可管理包含一个或多个 AI 模型的 Triton 推理服务器实例的部署，并能够将模型分配给各个 GPU/CPU，还可以按框架高效搭配模型。Triton 管理服务有助于实现大规模推理部署，同时实现卓越的性能和硬件利用率。TMS, 由 NVIDIA AI Enterprise 独家提供，企业级 AI 软件平台，可实现高性能和硬件利用率高的大规模推理部署。

阅读技术文档

探索 Triton 管理服务的优势

简化部署

可在 Kubernetes 中自动部署和管理 Triton 服务器实例，并且有助于组合源于不同框架的模型，以便高效利用内存。

更大限度地利用资源

可通过租约系统按需加载模型，并在不使用模型时将其卸载；还可以在单个 GPU 服务器上放置尽可能多的模型。

监控和自动扩展

监控每个 Triton 推理服务器的运行状况和容量，还可根据延迟时间和硬件利用率进行自动扩展。

大规模推理

使用 Triton 管理服务可高效管理单个模型乃至数百个模型的推理部署任务。可在本地或任何公有云上进行部署。

及时了解 NVIDIA 最新发布的 AI 推理资讯。