阿里巴巴通义千问Qwen团队在最新博客文章介绍其QwQ-32B开源大语言模型。根据介绍,这款仅有320亿参数的模型在性能上不仅能够媲美拥有6710亿参数的DeepSeek-R1(其中370亿被激活),更在某些测试中实现超越。
有外国X友测评称,QwQ 32B模型的LiveBench评分位于R1和o3-mini之间,但其成本仅为后者的十分之一。
通义团队称将此次改进归功于大规模强化学习(Reinforcement learning)。发现通过少量步骤的通用 RL可以提升其他通用能力,同时在数学和编程任务上的性能没有显著下降。