谷歌新模型简直了

日常闲聊 · 3 天前

这个模型是lmarena随机出来的，大概率是最新的Wolfstride，不必再问哪里用了，实在需要的话再去试试运气，它肯定不是flamesong，整体能力比flamesong强挺多。
起因是我上传了一张图片，问它看到了什么？

它的回答

Gemini 2.5 Pro的回答

O3的回答

图我就不放了，它的图形能力给我感觉相比2.5和O3是全面进步的，拥有更多的细节；并且相比O3没有幻觉问题，它基本延续了2.5只说确定的事实，O3这里" 数显屏读数分别是 26 °C 和 52（似乎有两台热水器或一台被镜子二次反射成两台）。"26度是错误的，也不是被反射成两台。O3的幻觉问题是真的严重，它总是觉得自己什么都是对的，纠正都纠正不过来。

还有代码能力，测了一道洛谷蓝题，O3、2.5 Pro、Sonnet 4、Opus 4、flamesong均TLE1个点，并且当我反复要求优化时间复杂度时也没有进步，Qwen3想了老半天，结果比我还菜，TLE了11个点，甚至我直接告诉它思路都没用，还是TLE11个点。而它直接一次AC了。
不过我没买Gemini Advance，不知道有没有影响2.5 Pro的发挥。
Gemini给我的感觉更像是一个人类，而O3给我的感觉是一个AI在刻意地扮演人类，Claude给我的感觉就是一个AI助手。

xzshengli · 3 天前

都是怎么测大模型的水平？我之前有一个需求要统计PPT文件页数，假如这个PPT文件很大，内存有可能撑不住，只有Claude帮我实现这个需求局部通过xml计算得出，其他的大模型都是直接把具体文件读到内存里做统计

zhengdejin · 3 天前

这个新模型哪可以用啊

1qaz · 3 天前

zhengdejin 发表于 2025-7-7 13:49
这个新模型哪可以用啊

谷歌现在还没有公开

十四 · 3 天前

串台了？

wuyou008 · 3 天前

这个模型的代号是什么呀？Wolfstride嘛

ouyang2008 · 3 天前

十四发表于 2025-7-7 13:50
串台了？

会不会是全局记忆引起的，因为Gemini也有全局记忆

时光匆匆 · 3 天前

bard时代一直过来的，当初还说Google要被ChatGPT干碎了，想不到能见证一个那么大的企业落寞。结果现在拐弯超车

1qaz · 3 天前

wuyou008 发表于 2025-7-7 13:50
这个模型的代号是什么呀？Wolfstride嘛

很可能是，我还没用够，没有看

diyaxu88 · 3 天前

不说我甚至忘了谷歌还有bard。。

diyaxu88 · 3 天前

时光匆匆发表于 2025-7-7 13:51
bard时代一直过来的，当初还说Google要被ChatGPT干碎了，想不到能见证一个那么大的企业落寞。结果现在拐弯 ...

不说我甚至忘了谷歌还有bard。。

weekeight · 3 天前

Google主要是数据量和算力优秀，所以能后来居上，当初被严重小看了。不过现在Gemini app那里还是奇奇怪怪的，不知道怎么想的。

fcsyzh03 · 3 天前

在2.5pro上面，我感觉它就很像人了，他说的内容很容易让人理解，很形象，也会用比喻，并且还会谄媚
o3就是彻彻底底的精炼，能少一个字绝不多一个字

1qaz · 3 天前

weekeight 发表于 2025-7-7 13:52
Google主要是数据量和算力优秀，所以能后来居上，当初被严重小看了。不过现在Gemini app那里还是奇奇怪怪的 ...

Gemini给我的感觉更像是一个人类，而O3给我的感觉是一个AI在刻意地扮演人类，Claude给我的感觉就是一个AI助手

		自动登录	找回密码
密码			立即注册

分享谷歌新模型简直了

13 回复

点评

点评

点评

点评

点评

元老级人物

第一篇帖

我是萌新

CV工程师

缝合怪