lite_llama：轻量级推理框架，专为大型语言模型优化，提供高达3.4倍的加速比，支持最新模型和流式输出

爱可可-爱生活
2024-12-24 00:19:37

【lite_llama：轻量级推理框架，专为大型语言模型优化，提供高达3.4倍的加速比，支持最新模型和流式输出】'The llama model inference lite framework by triton.' GitHub: github.com/harleyszhang/lite_llama 轻量级推理大语言模型 AI加速 AI创造营