第三方评测:Claude 4...
- 宝玉xp
- 2025-05-23 11:15:04
第三方评测:Claude 4 Opus 正式发布了,表现惊艳!
我们最近几天内部一直在试用它,从写作、编辑到编程,各种任务都测试了一遍。
可以肯定地说:Anthropic 这次做得相当棒。Claude 4 Opus 展示出了一些前所未有的能力,甚至超过了 OpenAI 的 o3 和谷歌的 Gemini 2.5 Pro。
关键问题来了:日常工作中会主动选 Opus 吗?
日常任务:不会
在日常使用方面,我还是更喜欢 o3。我觉得很大原因是因为 ChatGPT 的记忆功能实在太好用了,形成了强大的用户黏性。如果 Opus 想让我放弃这个便利,它必须聪明得多、快得多才行。
编程任务:绝对会
在编程方面,Claude 4 Opus 表现超级亮眼。特别是在 Anthropic 自家的命令行工具 Claude Code 中,Opus 是个真正的编程高手。一旦你给它一个任务,它可以长时间独立工作,几乎不需要人工干预。
我们发现,它在一次性完成复杂的代码任务方面甚至超越了 OpenAI 的 Codex。而且,Claude 3.7 Sonnet 曾经过于热情,总爱把简单的任务复杂化,现在这个问题终于解决了。你让它换个按钮颜色,它再也不会给你修座泰姬陵了。
甚至连 Cora 总经理兼 Rails 专家 kieranklaassen(出了名的挑剔,对 AI Agent 非常严格)也非常满意。
Claude 完胜。
写作与编辑:有得有失
写作上,o3 明显还是更优秀的作家。但在编辑任务上,Opus 表现突出,因为它具备一个其他模型都没有的特点:诚实地编辑,不乱给好评。
现在大部分 AI 模型的问题在于,它们总会告诉你文章写得很好,哪怕实际上糟糕透顶(别问我怎么知道的)。
以前的 Claude 模型,第一次编辑总是给 B+,稍微改一改就升级到 A-,再改就直接给 A 了。
尽管我很希望我高中物理老师也这么给我评分,但我不希望 AI 这么做。我需要一个拿着词典和红笔的“魔鬼教官”,狠狠指出问题。
令人欣喜的是,Opus 很懂写作。我和 Spiral 的总经理(LLM写作训练专家)合作,给 Opus 设定了一系列“好文章”的原则,例如“优秀的文章能引发读者真实的情感和思考”,“避免套路和陈词滥调”等。
我们用有趣和无聊的文章测试 Opus(后者可能是我写的),它精准地指出哪些无聊、无聊在哪里。
Opus 不会随便给你好评,即使提示信息冗长复杂,原则埋在中间,它也能同时考虑多个原则进行精准的判断。这一点非常难得,其他模型往往只抓住其中一点忽略其他(不信的话,可以问问SBF忽略风险管理的惨痛教训)。
长篇深度研究任务:绝对行
Opus 暂时还无法替代日常研究任务的 o3,但在需要大量深入思考的任务时,Opus 非常厉害。
它似乎能同时启动多个研究代理(agents),并行地进行搜索和研究。这种能力比 OpenAI 的更强大。
不像其他模型只有一个代理慢慢搜索全部内容,Opus 能迅速启动多个“小分队”,同时向不同方向扩散,然后由一个主代理汇总综合结果。
来源:/x.com/danshipper/status/1925592015305416941
我们最近几天内部一直在试用它,从写作、编辑到编程,各种任务都测试了一遍。
可以肯定地说:Anthropic 这次做得相当棒。Claude 4 Opus 展示出了一些前所未有的能力,甚至超过了 OpenAI 的 o3 和谷歌的 Gemini 2.5 Pro。
关键问题来了:日常工作中会主动选 Opus 吗?
日常任务:不会
在日常使用方面,我还是更喜欢 o3。我觉得很大原因是因为 ChatGPT 的记忆功能实在太好用了,形成了强大的用户黏性。如果 Opus 想让我放弃这个便利,它必须聪明得多、快得多才行。
编程任务:绝对会
在编程方面,Claude 4 Opus 表现超级亮眼。特别是在 Anthropic 自家的命令行工具 Claude Code 中,Opus 是个真正的编程高手。一旦你给它一个任务,它可以长时间独立工作,几乎不需要人工干预。
我们发现,它在一次性完成复杂的代码任务方面甚至超越了 OpenAI 的 Codex。而且,Claude 3.7 Sonnet 曾经过于热情,总爱把简单的任务复杂化,现在这个问题终于解决了。你让它换个按钮颜色,它再也不会给你修座泰姬陵了。
甚至连 Cora 总经理兼 Rails 专家 kieranklaassen(出了名的挑剔,对 AI Agent 非常严格)也非常满意。
Claude 完胜。
写作与编辑:有得有失
写作上,o3 明显还是更优秀的作家。但在编辑任务上,Opus 表现突出,因为它具备一个其他模型都没有的特点:诚实地编辑,不乱给好评。
现在大部分 AI 模型的问题在于,它们总会告诉你文章写得很好,哪怕实际上糟糕透顶(别问我怎么知道的)。
以前的 Claude 模型,第一次编辑总是给 B+,稍微改一改就升级到 A-,再改就直接给 A 了。
尽管我很希望我高中物理老师也这么给我评分,但我不希望 AI 这么做。我需要一个拿着词典和红笔的“魔鬼教官”,狠狠指出问题。
令人欣喜的是,Opus 很懂写作。我和 Spiral 的总经理(LLM写作训练专家)合作,给 Opus 设定了一系列“好文章”的原则,例如“优秀的文章能引发读者真实的情感和思考”,“避免套路和陈词滥调”等。
我们用有趣和无聊的文章测试 Opus(后者可能是我写的),它精准地指出哪些无聊、无聊在哪里。
Opus 不会随便给你好评,即使提示信息冗长复杂,原则埋在中间,它也能同时考虑多个原则进行精准的判断。这一点非常难得,其他模型往往只抓住其中一点忽略其他(不信的话,可以问问SBF忽略风险管理的惨痛教训)。
长篇深度研究任务:绝对行
Opus 暂时还无法替代日常研究任务的 o3,但在需要大量深入思考的任务时,Opus 非常厉害。
它似乎能同时启动多个研究代理(agents),并行地进行搜索和研究。这种能力比 OpenAI 的更强大。
不像其他模型只有一个代理慢慢搜索全部内容,Opus 能迅速启动多个“小分队”,同时向不同方向扩散,然后由一个主代理汇总综合结果。
来源:/x.com/danshipper/status/1925592015305416941