英伟达Triton架构

  • 智能时刻
  • 2025-05-19 02:50:55
studyaccount
学习打卡Day34

【英伟达Triton架构】

Triton推理服务器的高级体系结构。模型存储库是一个基于文件系统的模型存储库,Triton将使其可用于推理。推理请求通过HTTP/REST或GRPC或C API到达服务器,然后路由到相应的每个模型调度程序。Triton实现了多种调度和批处理算法,这些算法可以逐个模型进行配置。每个模型的调度器可选地执行推理请求的批处理,然后将请求传递到与模型类型对应的后端。后端使用批处理请求中提供的输入执行推理,以产生请求的输出。然后返回输出。

Triton支持后端C API,允许使用新功能扩展Triton,如自定义的预处理和后处理操作,甚至新的深度学习框架。

Triton提供的模型可以通过专用的模型管理API查询和控制,该API可通过HTTP/REST或GRPC协议或C API使用。

就绪性和生存性健康端点以及利用率、吞吐量和延迟指标简化了Triton与Kubernetes等部署框架的集成。

网页链接
英伟达Triton架构英伟达Triton架构