这两天DeepSeek的本地部署还是很火的...
- 青云Pix
- 2025-02-08 03:18:10
这两天DeepSeek的本地部署还是很火的,我来小小的勘误一下
大家部署的1.5B、7B、8B、14B、32B、70B的本地模型其实并不是真正的SeepSeek R1模型
详细的对照模型可以在图二中对应查找到,也就是1.5B、7B、14B、32B是属于阿里巴巴通意千问的Qwen模型,8B、70B为Meta公司的Llama模型,而完整的DeepSeek模型则需要大概671B的数据量。
这几个小体量模型的主要目的其实是为了实验把DeepSeek这样的大模型蒸馏到小模型后是否能够具备大模型的知识和应对能力。换个方向来说也就是可以用很低的成本在消费电脑上本地运行一个接近DeepSeek水平的模型。
当然,至于什么是蒸馏,解释已经放在图三了
大家部署的1.5B、7B、8B、14B、32B、70B的本地模型其实并不是真正的SeepSeek R1模型
详细的对照模型可以在图二中对应查找到,也就是1.5B、7B、14B、32B是属于阿里巴巴通意千问的Qwen模型,8B、70B为Meta公司的Llama模型,而完整的DeepSeek模型则需要大概671B的数据量。
这几个小体量模型的主要目的其实是为了实验把DeepSeek这样的大模型蒸馏到小模型后是否能够具备大模型的知识和应对能力。换个方向来说也就是可以用很低的成本在消费电脑上本地运行一个接近DeepSeek水平的模型。
当然,至于什么是蒸馏,解释已经放在图三了