早上看到deepseek也出o1类似的推理了...

Transformer-周
2024-11-24 07:10:56

早上看到deepseek也出o1类似的推理了，试了一下strawberry有几个r,9.11和9.8谁大，这种级别的问题都回答正确，但是现在gpt4oL和claude sonnet都可以了，然后试着上了个强度，让大家一起做一道数列复杂的递推式(图2）结果出了o1和o1mini，其他全挂，4oL（4o 0806完全不行）和sonnetv2，接近于真实答案，但是还是错了常量部，deepseek最后等于1，它给趋近化了，某种程度也算对，但是它没回答我要的问题答案。最离谱的是kimi完全不知道它在说些什么