谷歌新模型简直了_日常闲聊_BigSeek AI社区

1qaz 发表于 2025-7-7 13:49:08

谷歌新模型简直了

这个模型是lmarena随机出来的，大概率是最新的Wolfstride，不必再问哪里用了，实在需要的话再去试试运气，它肯定不是flamesong，整体能力比flamesong强挺多。 
起因是我上传了一张图片，问它看到了什么？
它的回答
<img src="data/attachment/forum/202507/07/134809zy42hjkarhy4ccz4.jpeg" alt="3af66e516eb4ed814a40145bd13c925a724b5e68.jpeg" title="3af66e516eb4ed814a40145bd13c925a724b5e68.jpeg" />
<img src="data/attachment/forum/202507/07/134815ixwilzaox7rykkrz.jpeg" alt="6c11cc275c60c7a047b27d6d727d99a079d0553b.jpeg" title="6c11cc275c60c7a047b27d6d727d99a079d0553b.jpeg" />
Gemini 2.5 Pro的回答
<img src="data/attachment/forum/202507/07/134819p6xb95qz554lr51x.webp" alt="4694e7a8b1539284dbdde2f29a2a7fafd249a315.webp" title="4694e7a8b1539284dbdde2f29a2a7fafd249a315.webp" />
O3的回答
<img src="data/attachment/forum/202507/07/134826u4d4cg544ld5cza5.webp" alt="3b4bea0bd8ad2a5bdac48eee8798da68b86b8ae1.webp" title="3b4bea0bd8ad2a5bdac48eee8798da68b86b8ae1.webp" />
图我就不放了，它的图形能力给我感觉相比2.5和O3是全面进步的，拥有更多的细节；并且相比O3没有幻觉问题，它基本延续了2.5只说确定的事实，O3这里" 数显屏读数分别是 26 °C 和 52（似乎有两台热水器或一台被镜子二次反射成两台）。"26度是错误的，也不是被反射成两台。O3的幻觉问题是真的严重，它总是觉得自己什么都是对的，纠正都纠正不过来。
还有代码能力，测了一道洛谷蓝题，O3、2.5 Pro、Sonnet 4、Opus4、flamesong均TLE1个点，并且当我反复要求优化时间复杂度时也没有进步，Qwen3想了老半天，结果比我还菜，TLE了11个点，甚至我直接告诉它思路都没用，还是TLE11个点。而它直接一次AC了。 
不过我没买Gemini Advance，不知道有没有影响2.5 Pro的发挥。 
Gemini给我的感觉更像是一个人类，而O3给我的感觉是一个AI在刻意地扮演人类，Claude给我的感觉就是一个AI助手。

xzshengli 发表于 2025-7-7 13:49:39

都是怎么测大模型的水平？我之前有一个需求要统计PPT文件页数，假如这个PPT文件很大，内存有可能撑不住，只有Claude帮我实现这个需求局部通过xml计算得出，其他的大模型都是直接把具体文件读到内存里做统计

zhengdejin 发表于 2025-7-7 13:49:53

这个新模型哪可以用啊

1qaz 发表于 2025-7-7 13:50:05

zhengdejin 发表于 2025-7-7 13:49
这个新模型哪可以用啊

谷歌现在还没有公开

十四发表于 2025-7-7 13:50:19

串台了？

wuyou008 发表于 2025-7-7 13:50:35

这个模型的代号是什么呀？Wolfstride嘛

ouyang2008 发表于 2025-7-7 13:50:45

十四发表于 2025-7-7 13:50
串台了？

会不会是全局记忆引起的，因为Gemini也有全局记忆

时光匆匆 发表于 2025-7-7 13:51:04

bard时代一直过来的，当初还说Google要被ChatGPT干碎了，想不到能见证一个那么大的企业落寞。结果现在拐弯超车

1qaz 发表于 2025-7-7 13:51:24

wuyou008 发表于 2025-7-7 13:50
这个模型的代号是什么呀？Wolfstride嘛

很可能是，我还没用够，没有看

diyaxu88 发表于 2025-7-7 13:51:41

不说我甚至忘了谷歌还有bard。。

diyaxu88 发表于 2025-7-7 13:52:02

时光匆匆发表于 2025-7-7 13:51
bard时代一直过来的，当初还说Google要被ChatGPT干碎了，想不到能见证一个那么大的企业落寞。结果现在拐弯 ...

不说我甚至忘了谷歌还有bard。。

weekeight 发表于 2025-7-7 13:52:17

Google主要是数据量和算力优秀，所以能后来居上，当初被严重小看了。不过现在Gemini app那里还是奇奇怪怪的，不知道怎么想的。

fcsyzh03 发表于 2025-7-7 13:52:30

在2.5pro上面，我感觉它就很像人了，他说的内容很容易让人理解，很形象，也会用比喻，并且还会谄媚
o3就是彻彻底底的精炼，能少一个字绝不多一个字

1qaz 发表于 2025-7-7 13:52:44

weekeight 发表于 2025-7-7 13:52
Google主要是数据量和算力优秀，所以能后来居上，当初被严重小看了。不过现在Gemini app那里还是奇奇怪怪的 ...

Gemini给我的感觉更像是一个人类，而O3给我的感觉是一个AI在刻意地扮演人类，Claude给我的感觉就是一个AI助手

webgotoo 发表于 2025-7-24 11:00:02

了解，模型各有千秋

页: [1]

BigSeek_AI社区_AI论坛's Archiver

谷歌新模型简直了