madein163 发表于 2025-8-6 15:36:08

看了下隔壁知乎佬对于gpt oss的逻辑成绩测试的分数,我吓到瘫坐在椅子上

这逻辑分数有点厉害吧
oai我错了
来源:https://www.zhihu.com/question/1936231771294376320/answer/1936391686038230140
https://images.bigseek.com/forum/202507/22/1754465768730.jpeg

高云月 发表于 2025-8-6 15:37:00

就我自己在解题时的体验而言,逻辑能力确实挺不错的,速度也非常快。目前在我的测试用例下,确实不比R10528逊色。

lianyuan1986 发表于 2025-8-6 15:37:31

<p>看样子题目有多模态和agent能力<br />
这些东西确实是oai强项,qwen只要一出现多模态就会导致智商降低(信息提取正确但做不对题),可以看我前几天测试的物理</p>
<p><img src="data/attachment/forum/202508/06/153841h8wvmm26f2xvgx26.webp" alt="2c70e3581674c6308a40201ea0bc53a28e6ab4be.webp" title="2c70e3581674c6308a40201ea0bc53a28e6ab4be.webp" /></p>

小快树儿 发表于 2025-8-6 15:54:45

主要是其他那些家伙测试的结果还不如Qwen,这也太离谱了

fdsgsg 发表于 2025-8-6 20:08:43

Qwen都能吊打?

雪泥鸿爪 发表于 2025-8-7 05:38:34

这逻辑分数有点厉害吧
oai我错了
来源:远山直(toyama nao 推测的中文名,具体需看实际情况)

justcool 发表于 2025-8-7 09:24:16

没觉得有多强

scrollll 发表于 2025-8-7 09:53:48

看到标题:笑死我了
看内容:?啊?

平凡 发表于 2025-8-7 10:01:49

这个参数量还算正常吧,而且还是 fp4
grok4青春开源版?

shenyuan266 发表于 2025-8-8 07:38:44

你说的也有一定的道理

aelks 发表于 2025-8-8 09:59:36

奥特曼经典梗

wanpin 发表于 6 天前

自己亲自测试一下才是硬道理。看站里大佬测试的情况,只有数学能力比较强,其他方面不怎么样

xianwlg 发表于 5 天前

水军,自己的体验才是最重要的

jylrb 发表于 前天 10:01

我觉得,这得看稳定程度,极限情况还是太少了。
页: [1]
查看完整版本: 看了下隔壁知乎佬对于gpt oss的逻辑成绩测试的分数,我吓到瘫坐在椅子上