开源微调神器Unsloth带着黑科技又来了...

新智元
2025-03-14 00:22:27

开源微调神器Unsloth带着黑科技又来了：上次更新把GRPO需要的内存见到了7GB，这次只需要5GB的VRAM，就能训练自己的推理模型Qwen2.5（1.5B），比上次要少2GB。

这次彻底把推理模型训练显存打下来了！

这次把GRPO训练推理模型的上下文变长10倍，同时需要的显存少了90%。

使用最新的Unsloth，只要5GB显存就能训练自己的推理模型，而且Qwen2.5-1.5B不会损失准确率。网页链接