1qaz 发表于 2025-7-7 13:49:08

谷歌新模型简直了

<p>这个模型是lmarena随机出来的,大概率是最新的Wolfstride,不必再问哪里用了,实在需要的话再去试试运气,它肯定不是flamesong,整体能力比flamesong强挺多。<br />
起因是我上传了一张图片,问它看到了什么?</p>
<p>它的回答</p>
<p><img src="data/attachment/forum/202507/07/134809zy42hjkarhy4ccz4.jpeg" alt="3af66e516eb4ed814a40145bd13c925a724b5e68.jpeg" title="3af66e516eb4ed814a40145bd13c925a724b5e68.jpeg" /></p>
<p><img src="data/attachment/forum/202507/07/134815ixwilzaox7rykkrz.jpeg" alt="6c11cc275c60c7a047b27d6d727d99a079d0553b.jpeg" title="6c11cc275c60c7a047b27d6d727d99a079d0553b.jpeg" /></p>
<p><strong>Gemini 2.5 Pro的回答</strong></p>
<p><img src="data/attachment/forum/202507/07/134819p6xb95qz554lr51x.webp" alt="4694e7a8b1539284dbdde2f29a2a7fafd249a315.webp" title="4694e7a8b1539284dbdde2f29a2a7fafd249a315.webp" /></p>
<p><strong>O3的回答</strong></p>
<p><img src="data/attachment/forum/202507/07/134826u4d4cg544ld5cza5.webp" alt="3b4bea0bd8ad2a5bdac48eee8798da68b86b8ae1.webp" title="3b4bea0bd8ad2a5bdac48eee8798da68b86b8ae1.webp" /></p>
<p>图我就不放了,它的图形能力给我感觉相比2.5和O3是全面进步的,拥有更多的细节;并且相比O3没有幻觉问题,它基本延续了2.5只说确定的事实,O3这里&quot; 数显屏读数分别是 <strong>26 °C</strong> 和 <strong>52</strong>(似乎有两台热水器或一台被镜子二次反射成两台)。&quot;26度是错误的,也不是被反射成两台。O3的幻觉问题是真的严重,它总是觉得自己什么都是对的,纠正都纠正不过来。</p>
<p>还有代码能力,测了一道洛谷蓝题,O3、2.5 Pro、Sonnet 4、Opus4、flamesong均TLE1个点,并且当我反复要求优化时间复杂度时也没有进步,Qwen3想了老半天,结果比我还菜,TLE了11个点,甚至我直接告诉它思路都没用,还是TLE11个点。而它直接一次AC了。<br />
不过我没买Gemini Advance,不知道有没有影响2.5 Pro的发挥。<br />
Gemini给我的感觉更像是一个人类,而O3给我的感觉是一个AI在刻意地扮演人类,Claude给我的感觉就是一个AI助手。</p>

xzshengli 发表于 2025-7-7 13:49:39

都是怎么测大模型的水平?我之前有一个需求要统计PPT文件页数,假如这个PPT文件很大,内存有可能撑不住,只有Claude帮我实现这个需求 局部通过xml计算得出,其他的大模型都是直接把具体文件读到内存里做统计

zhengdejin 发表于 2025-7-7 13:49:53

这个新模型哪可以用啊

1qaz 发表于 2025-7-7 13:50:05

zhengdejin 发表于 2025-7-7 13:49
这个新模型哪可以用啊

谷歌现在还没有公开

十四 发表于 2025-7-7 13:50:19

串台了?

wuyou008 发表于 2025-7-7 13:50:35

这个模型的代号是什么呀?Wolfstride嘛

ouyang2008 发表于 2025-7-7 13:50:45

十四 发表于 2025-7-7 13:50
串台了?

会不会是全局记忆引起的,因为Gemini也有全局记忆

时光匆匆 发表于 2025-7-7 13:51:04

bard时代一直过来的,当初还说Google要被ChatGPT干碎了,想不到能见证一个那么大的企业落寞。结果现在拐弯超车

1qaz 发表于 2025-7-7 13:51:24

wuyou008 发表于 2025-7-7 13:50
这个模型的代号是什么呀?Wolfstride嘛

很可能是,我还没用够,没有看

diyaxu88 发表于 2025-7-7 13:51:41

不说我甚至忘了谷歌还有bard。。

diyaxu88 发表于 2025-7-7 13:52:02

时光匆匆 发表于 2025-7-7 13:51
bard时代一直过来的,当初还说Google要被ChatGPT干碎了,想不到能见证一个那么大的企业落寞。结果现在拐弯 ...

不说我甚至忘了谷歌还有bard。。

weekeight 发表于 2025-7-7 13:52:17

Google主要是数据量和算力优秀,所以能后来居上,当初被严重小看了。不过现在Gemini app那里还是奇奇怪怪的,不知道怎么想的。

fcsyzh03 发表于 2025-7-7 13:52:30

在2.5pro上面,我感觉它就很像人了,他说的内容很容易让人理解,很形象,也会用比喻,并且还会谄媚
o3就是彻彻底底的精炼,能少一个字绝不多一个字

1qaz 发表于 2025-7-7 13:52:44

weekeight 发表于 2025-7-7 13:52
Google主要是数据量和算力优秀,所以能后来居上,当初被严重小看了。不过现在Gemini app那里还是奇奇怪怪的 ...

Gemini给我的感觉更像是一个人类,而O3给我的感觉是一个AI在刻意地扮演人类,Claude给我的感觉就是一个AI助手

webgotoo 发表于 2025-7-24 11:00:02

了解,模型各有千秋
页: [1]
查看完整版本: 谷歌新模型简直了