小米首个推理大模型开源

莉妮塔
2025-05-03 10:15:56

小米首个推理大模型开源 2025年4月30日，小米开源首个为推理而生的大模型「Xiaomi MiMo」。以下是对它的具体介绍：

模型性能

在数学推理（AIME 24 - 25）和代码竞赛（LiveCodeBench v5）公开测评集上，MiMo仅用7B的参数规模，超越了OpenAI的闭源推理模型o1 - mini和阿里Qwen更大规模的开源推理模型QwQ - 32B - Preview。在相同RL训练数据情况下，MiMo - 7B的数学和代码领域的强化学习潜力显著领先，分数超过DeepSeek - R1 - Distill和Qwen2.5 - 32B。

技术创新

• 预训练：核心是让模型见过更多推理模式，着重挖掘富推理语料，并合成约200B tokens推理数据，进行三阶段训练，逐步提升训练难度，总训练25T tokens。

• 后训练：核心是高效稳定的强化学习算法和框架。算法上，提出Test Difficulty Driven Reward来缓解困难算法问题中的奖励稀疏问题，引入Easy Data Re - Sampling策略，以稳定RL训练；框架上，设计了Seamless Rollout系统，使得RL训练加速2.29倍，验证加速1.96倍。

开源情况

小米大模型Core团队将MiMo - 7B全系列的4个模型开源至Hugging Face，包括基础模型MiMo - 7B - Base、监督微调模型MiMo - 7B - SFT、基于基础模型训练的强化学习模型MiMo - 7B - RL和基于SFT模型训练的强化学习模型MiMo - 7B - RL - Zero，代码库采用Apache2.0许可证授权。

应用前景

该模型7B参数规模小，推理能耗仅为阿里32B模型的1/5，可在高通骁龙8 Gen4等移动芯片上流畅运行，推理延迟降至300毫秒以内。小米正将其深度集成至小米HyperOS 3.0系统服务层，还与小米Vela物联网系统联动，未来计划整合图像、音频等多模态能力，以重塑移动设备的核心操作系统逻辑，构建“人 - 车 - 家”全场景智能生态。