#模型时代# 起码这5年...

高飞
2024-12-23 14:46:10

模型时代起码这5年，不能用刻舟求剑的方法评价AI。

11月份的时候，Epoch AI邀请了包括菲尔兹奖得主陶哲轩在内的60多位数学家，开发了一个新的数学基准测试FrontierMath（地址：epoch.ai/frontiermath/the-benchmark）。

这个测试就是瞄着大模型来的，让数学家们原创数学难题，模型不可能基于既定数据集训练（图一）。

效果也很好，sota模型的得分只有2%。

当时有不少媒体很激动，写了一堆耸人听闻的标题：

我大概搜了下，比如：

*ScalingLaw终结了么?

*AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”

*陶哲轩联手60多位数学家出题，世界顶尖模型通过率仅2%！专家级数学基准，让AI再苦战数年

结果刚过一个月，o3模型就把2%提升到了25%。

显然，还不到谈第四次AI寒冬的时候。

新的基准测试，不但不是拦路虎，而是为模型的修炼给了一个新方向的指路明灯。