#模型时代# 起码这5年...

  • 高飞
  • 2024-12-23 14:46:10
模型时代 起码这5年,不能用刻舟求剑的方法评价AI。

11月份的时候,Epoch AI邀请了包括菲尔兹奖得主陶哲轩在内的60多位数学家,开发了一个新的数学基准测试FrontierMath(地址:epoch.ai/frontiermath/the-benchmark)。

这个测试就是瞄着大模型来的,让数学家们原创数学难题,模型不可能基于既定数据集训练(图一)。

效果也很好,sota模型的得分只有2%。

当时有不少媒体很激动,写了一堆耸人听闻的标题:

我大概搜了下,比如:

*ScalingLaw终结了么?

*AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”

*陶哲轩联手60多位数学家出题,世界顶尖模型通过率仅2%!专家级数学基准,让AI再苦战数年

结果刚过一个月,o3模型就把2%提升到了25%。

显然,还不到谈第四次AI寒冬的时候。

新的基准测试,不但不是拦路虎,而是为模型的修炼给了一个新方向的指路明灯。
#模型时代# 起码这5年...