lite_llama:轻量级推理框架,专为大型语言模型优化,提供高达3.4倍的加速比,支持最新模型和流式输出 爱可可-爱生活 2024-12-24 00:19:37 【lite_llama:轻量级推理框架,专为大型语言模型优化,提供高达3.4倍的加速比,支持最新模型和流式输出】'The llama model inference lite framework by triton.' GitHub: github.com/harleyszhang/lite_llama 轻量级推理 大语言模型 AI加速 AI创造营