这个模型是lmarena随机出来的,大概率是最新的Wolfstride,不必再问哪里用了,实在需要的话再去试试运气,它肯定不是flamesong,整体能力比flamesong强挺多。
起因是我上传了一张图片,问它看到了什么?
它的回答


Gemini 2.5 Pro的回答

O3的回答

图我就不放了,它的图形能力给我感觉相比2.5和O3是全面进步的,拥有更多的细节;并且相比O3没有幻觉问题,它基本延续了2.5只说确定的事实,O3这里" 数显屏读数分别是 26 °C 和 52(似乎有两台热水器或一台被镜子二次反射成两台)。"26度是错误的,也不是被反射成两台。O3的幻觉问题是真的严重,它总是觉得自己什么都是对的,纠正都纠正不过来。
还有代码能力,测了一道洛谷蓝题,O3、2.5 Pro、Sonnet 4、Opus 4、flamesong均TLE1个点,并且当我反复要求优化时间复杂度时也没有进步,Qwen3想了老半天,结果比我还菜,TLE了11个点,甚至我直接告诉它思路都没用,还是TLE11个点。而它直接一次AC了。
不过我没买Gemini Advance,不知道有没有影响2.5 Pro的发挥。
Gemini给我的感觉更像是一个人类,而O3给我的感觉是一个AI在刻意地扮演人类,Claude给我的感觉就是一个AI助手。