发帖
 找回密码
 立即注册
搜索
13 3 0
日常闲聊 199 13 3 天前

这个模型是lmarena随机出来的,大概率是最新的Wolfstride,不必再问哪里用了,实在需要的话再去试试运气,它肯定不是flamesong,整体能力比flamesong强挺多。
起因是我上传了一张图片,问它看到了什么?

它的回答

3af66e516eb4ed814a40145bd13c925a724b5e68.jpeg

6c11cc275c60c7a047b27d6d727d99a079d0553b.jpeg

Gemini 2.5 Pro的回答

4694e7a8b1539284dbdde2f29a2a7fafd249a315.webp

O3的回答

3b4bea0bd8ad2a5bdac48eee8798da68b86b8ae1.webp

图我就不放了,它的图形能力给我感觉相比2.5和O3是全面进步的,拥有更多的细节;并且相比O3没有幻觉问题,它基本延续了2.5只说确定的事实,O3这里" 数显屏读数分别是 26 °C52(似乎有两台热水器或一台被镜子二次反射成两台)。"26度是错误的,也不是被反射成两台。O3的幻觉问题是真的严重,它总是觉得自己什么都是对的,纠正都纠正不过来。

还有代码能力,测了一道洛谷蓝题,O3、2.5 Pro、Sonnet 4、Opus 4、flamesong均TLE1个点,并且当我反复要求优化时间复杂度时也没有进步,Qwen3想了老半天,结果比我还菜,TLE了11个点,甚至我直接告诉它思路都没用,还是TLE11个点。而它直接一次AC了。
不过我没买Gemini Advance,不知道有没有影响2.5 Pro的发挥。
Gemini给我的感觉更像是一个人类,而O3给我的感觉是一个AI在刻意地扮演人类,Claude给我的感觉就是一个AI助手。

──── 3人觉得很赞 ────

使用道具 举报

都是怎么测大模型的水平?我之前有一个需求要统计PPT文件页数,假如这个PPT文件很大,内存有可能撑不住,只有Claude帮我实现这个需求 局部通过xml计算得出,其他的大模型都是直接把具体文件读到内存里做统计
这个新模型哪可以用啊
1qaz
3 天前
谷歌现在还没有公开  详情 回复
3 天前
zhengdejin 发表于 2025-7-7 13:49
这个新模型哪可以用啊

谷歌现在还没有公开
串台了?
ouyang2008
3 天前
会不会是全局记忆引起的,因为Gemini也有全局记忆  详情 回复
这个模型的代号是什么呀?Wolfstride嘛
1qaz
3 天前
很可能是,我还没用够,没有看  详情 回复

会不会是全局记忆引起的,因为Gemini也有全局记忆
bard时代一直过来的,当初还说Google要被ChatGPT干碎了,想不到能见证一个那么大的企业落寞。结果现在拐弯超车
diyaxu88
3 天前
不说我甚至忘了谷歌还有bard。。  详情 回复
3 天前
wuyou008 发表于 2025-7-7 13:50
这个模型的代号是什么呀?Wolfstride嘛

很可能是,我还没用够,没有看
不说我甚至忘了谷歌还有bard。。
时光匆匆 发表于 2025-7-7 13:51
bard时代一直过来的,当初还说Google要被ChatGPT干碎了,想不到能见证一个那么大的企业落寞。结果现在拐弯 ...

不说我甚至忘了谷歌还有bard。。
Google主要是数据量和算力优秀,所以能后来居上,当初被严重小看了。不过现在Gemini app那里还是奇奇怪怪的,不知道怎么想的。
1qaz
3 天前
Gemini给我的感觉更像是一个人类,而O3给我的感觉是一个AI在刻意地扮演人类,Claude给我的感觉就是一个AI助手  详情 回复
在2.5pro上面,我感觉它就很像人了,他说的内容很容易让人理解,很形象,也会用比喻,并且还会谄媚
o3就是彻彻底底的精炼,能少一个字绝不多一个字
3 天前
weekeight 发表于 2025-7-7 13:52
Google主要是数据量和算力优秀,所以能后来居上,当初被严重小看了。不过现在Gemini app那里还是奇奇怪怪的 ...

Gemini给我的感觉更像是一个人类,而O3给我的感觉是一个AI在刻意地扮演人类,Claude给我的感觉就是一个AI助手
您需要登录后才可以回帖 立即登录
高级模式