针对苹果的《The Illusion of Thinking》...
- i陆三金
- 2025-06-15 17:11:26
针对苹果的《The Illusion of Thinking》论文,Anthropic 发表评论文章《The Illusion of the Illusion of Thinking》称,苹果的实验设计有问题,而非模型固有的局限性。
文章称:
(1)汉诺塔实验在报告的失败点系统地超出了模型输出 token 的限制,模型在其输出中明确承认了这些约束;
(2)作者的自动化评估框架未能区分推理失败与实际约束,导致对模型能力的错误分类;
(3)最令人担忧的是,他们的渡河基准测试中包含了由于船只容量不足而数学上不可能解决的实例,但模型因未能解决这些无解问题而被评为失败。
链接:arxiv.org/html/2506.09250v1
文章称:
(1)汉诺塔实验在报告的失败点系统地超出了模型输出 token 的限制,模型在其输出中明确承认了这些约束;
(2)作者的自动化评估框架未能区分推理失败与实际约束,导致对模型能力的错误分类;
(3)最令人担忧的是,他们的渡河基准测试中包含了由于船只容量不足而数学上不可能解决的实例,但模型因未能解决这些无解问题而被评为失败。
链接:arxiv.org/html/2506.09250v1