【TPI-LLM:一款高性能的边缘设备语言模型推理系统,能够在资源有限的设备上运行大型语言模型,保护用户隐私,减少延迟。目前,TPI-LLM 能够在 4 台内存为 5GB 的笔记本电脑上以完整精度运行 Yi-34B 模型,以及在 8 台内存为 3GB 的设备上运行 Llama 2-70B 模型】’TPI-LLM: A High-Performance Tensor Parallelism Inference System for Edge LLM Services.' GitHub: github.com/Lizonghang/TPI-LLM
边缘计算 语言模型 隐私保护