#Meta发布Llama4被曝作弊#，发布后实测差评如潮

知未科技
2025-04-08 15:15:08

【Meta发布Llama4被曝作弊，发布后实测差评如潮】
4月5日，Meta公司发布了大型语言模型Llama的最新版本Llama 4 Scout与Llama 4 Maverick。没想到，随后就被曝出模型训练测试集作弊，内部员工直接辞职，引发争议。争议的导火索源于海外留学求职交流论坛“一亩三分地”的一篇帖子，发帖人自称是参与Llama 4训练的内部员工，并表示已因此辞职。
该员工透露，尽管团队反复努力训练，Llama 4的内部模型性能始终无法达到开源SOTA（State-of-the-Art，顶尖水平）基准，差距明显。为达成目标，公司领导层提出在训练后期将各种基准测试的“测试集”数据混入训练或微调数据中，以此在各项指标上达成目标，交出一份“好看”的成绩单。
知名科技媒体TechCrunch也发文质疑Llama 4的性能测试存在误导性。文章聚焦Llama 4（即Maverick）在著名的人类评估排行榜LM Arena上的表现，指出Maverick虽取得第二名的好成绩，但背后另有隐情。在一些实测中，号称千万上下文的召回率，上下文的实际表现，远低于预期。而Llama 4 Maverick在aider多语言编码基准测试中得分为实测仅为16%。
有人认为Llama 4的表现甚至和Llama 3.2一样没有任何进步，也无法完成写诗。其他用户在测试后也表达了同样的观点，Llama 4有点不符合预期。
几位AI研究人员在社交媒体上都“吐槽”认为，Meta提交给LM Arena进行测试评估的Maverick版本，和公开发布给开发者使用的版本可能并非同一个。（界面新闻）