JetStream:专为XLA设备优化的LLM推理引擎,针对TPU和GPU进行了吞吐量和内存优化,支持JAX和PyTorch模型,提供完整的服务部署方案。特别适合在Cloud TPU VM上进行在线推
- 爱可可-爱生活
- 2024-12-08 11:31:57
【JetStream:专为XLA设备优化的LLM推理引擎,针对TPU和GPU进行了吞吐量和内存优化,支持JAX和PyTorch模型,提供完整的服务部署方案。特别适合在Cloud TPU VM上进行在线推理,可用于Gemma等大模型的高效部署】
'JetStream is a throughput and memory optimized engine for LLM inference on XLA devices, starting with TPUs (and GPUs in future -- PRs welcome).'
GitHub: github.com/AI-Hypercomputer/JetStream
大模型推理 TPU优化 MLOps LLM部署
'JetStream is a throughput and memory optimized engine for LLM inference on XLA devices, starting with TPUs (and GPUs in future -- PRs welcome).'
GitHub: github.com/AI-Hypercomputer/JetStream
大模型推理 TPU优化 MLOps LLM部署