看了下隔壁知乎佬对于gpt oss的逻辑成绩测试的分数，我吓到瘫坐在椅子上_日常闲聊_BigSeek AI社区

madein163 发表于 2025-8-6 15:36:08

看了下隔壁知乎佬对于gpt oss的逻辑成绩测试的分数，我吓到瘫坐在椅子上

这逻辑分数有点厉害吧
oai我错了
来源：https://www.zhihu.com/question/1936231771294376320/answer/1936391686038230140
https://images.bigseek.com/forum/202507/22/1754465768730.jpeg

高云月 发表于 2025-8-6 15:37:00

就我自己在解题时的体验而言，逻辑能力确实挺不错的，速度也非常快。目前在我的测试用例下，确实不比R10528逊色。

lianyuan1986 发表于 2025-8-6 15:37:31

看样子题目有多模态和agent能力 
这些东西确实是oai强项，qwen只要一出现多模态就会导致智商降低（信息提取正确但做不对题），可以看我前几天测试的物理
<img src="data/attachment/forum/202508/06/153841h8wvmm26f2xvgx26.webp" alt="2c70e3581674c6308a40201ea0bc53a28e6ab4be.webp" title="2c70e3581674c6308a40201ea0bc53a28e6ab4be.webp" />

小快树儿 发表于 2025-8-6 15:54:45

主要是其他那些家伙测试的结果还不如Qwen，这也太离谱了

fdsgsg 发表于 2025-8-6 20:08:43

Qwen都能吊打？

雪泥鸿爪 发表于 2025-8-7 05:38:34

这逻辑分数有点厉害吧
oai我错了
来源：远山直（toyama nao 推测的中文名，具体需看实际情况）

justcool 发表于 2025-8-7 09:24:16

没觉得有多强

scrollll 发表于 2025-8-7 09:53:48

看到标题：笑死我了
看内容：？啊？

平凡发表于 2025-8-7 10:01:49

这个参数量还算正常吧，而且还是 fp4
grok4青春开源版？

shenyuan266 发表于 2025-8-8 07:38:44

你说的也有一定的道理

aelks 发表于 2025-8-8 09:59:36

奥特曼经典梗

wanpin 发表于 6 天前

自己亲自测试一下才是硬道理。看站里大佬测试的情况，只有数学能力比较强，其他方面不怎么样

xianwlg 发表于 5 天前

水军，自己的体验才是最重要的

jylrb 发表于前天 10:01

我觉得，这得看稳定程度，极限情况还是太少了。

页: [1]

BigSeek_AI社区_AI论坛's Archiver

看了下隔壁知乎佬对于gpt oss的逻辑成绩测试的分数，我吓到瘫坐在椅子上