小米首个推理大模型开源

  • 莉妮塔
  • 2025-05-03 10:15:56
小米首个推理大模型开源 2025年4月30日,小米开源首个为推理而生的大模型「Xiaomi MiMo」。以下是对它的具体介绍:

模型性能

在数学推理(AIME 24 - 25)和代码竞赛(LiveCodeBench v5)公开测评集上,MiMo仅用7B的参数规模,超越了OpenAI的闭源推理模型o1 - mini和阿里Qwen更大规模的开源推理模型QwQ - 32B - Preview。在相同RL训练数据情况下,MiMo - 7B的数学和代码领域的强化学习潜力显著领先,分数超过DeepSeek - R1 - Distill和Qwen2.5 - 32B。

技术创新

• 预训练:核心是让模型见过更多推理模式,着重挖掘富推理语料,并合成约200B tokens推理数据,进行三阶段训练,逐步提升训练难度,总训练25T tokens。

• 后训练:核心是高效稳定的强化学习算法和框架。算法上,提出Test Difficulty Driven Reward来缓解困难算法问题中的奖励稀疏问题,引入Easy Data Re - Sampling策略,以稳定RL训练;框架上,设计了Seamless Rollout系统,使得RL训练加速2.29倍,验证加速1.96倍。

开源情况

小米大模型Core团队将MiMo - 7B全系列的4个模型开源至Hugging Face,包括基础模型MiMo - 7B - Base、监督微调模型MiMo - 7B - SFT、基于基础模型训练的强化学习模型MiMo - 7B - RL和基于SFT模型训练的强化学习模型MiMo - 7B - RL - Zero,代码库采用Apache2.0许可证授权。

应用前景

该模型7B参数规模小,推理能耗仅为阿里32B模型的1/5,可在高通骁龙8 Gen4等移动芯片上流畅运行,推理延迟降至300毫秒以内。小米正将其深度集成至小米HyperOS 3.0系统服务层,还与小米Vela物联网系统联动,未来计划整合图像、音频等多模态能力,以重塑移动设备的核心操作系统逻辑,构建“人 - 车 - 家”全场景智能生态。
小米首个推理大模型开源