早上看到deepseek也出o1类似的推理了,试了一下strawberry有几个r,9.11和9.8谁大,这种级别的问题都回答正确,但是现在gpt4oL和claude sonnet都可以了,然后试着上了个强度,让大家一起做一道数列复杂的递推式(图2)结果出了o1和o1mini,其他全挂,4oL(4o 0806完全不行)和sonnetv2,接近于真实答案,但是还是错了常量部,deepseek最后等于1,它给趋近化了

,某种程度也算对,但是它没回答我要的问题答案。最离谱的是kimi完全不知道它在说些什么
