发帖
 找回密码
 立即注册
搜索
10 3 0
前沿情报 83 10 昨天 09:39

使用道具 举报

赞一个,超过K2了?
warkinger
昨天 09:40
还没体验呢 看跑分是赢  详情 回复
步子迈大了,扯着蛋
昨天 09:40
cdlzguo 发表于 2025-7-22 09:39
赞一个,超过K2了?

还没体验呢 看跑分是赢

simpleQA从12.2一跃到54.3?

90cc9be59a7663994b860dacc1a285f94b7e4229.jpeg

AI已经进入刷分时代了
刷分刷的太变态太明目张胆了有点。。。

simpleQA 比 gemini 都高。(而且说了增强长尾知识覆盖,说明数据没打错)

aime25 比部分思考模型都高。。。

有本事把 aider swe 之类刷上去。目前还不如 opus 一根。
分开是好事,但是部署成本上升了
赢麻了,就是体验没赢过
我觉得造假可能性不大,最多也就是题库特化罢了,用qwen的学术界很多,一旦造假很快就会被揭穿
qwen3用起来还可以,之前一直是带思考,现在不带思考
您需要登录后才可以回帖 立即登录
高级模式