发帖
 找回密码
 立即注册
搜索
10 3 0
前沿情报 607 10 2025-7-22 09:39:10

使用道具 举报

2025-7-22 09:39:52
赞一个,超过K2了?
warkinger
2025-7-22 09:40
还没体验呢 看跑分是赢  详情 回复
步子迈大了,扯着蛋
2025-7-22 09:40:08
cdlzguo 发表于 2025-7-22 09:39
赞一个,超过K2了?

还没体验呢 看跑分是赢
2025-7-22 09:40:28

simpleQA从12.2一跃到54.3?

90cc9be59a7663994b860dacc1a285f94b7e4229.jpeg

2025-7-22 09:40:43
AI已经进入刷分时代了
2025-7-22 09:40:59
刷分刷的太变态太明目张胆了有点。。。

simpleQA 比 gemini 都高。(而且说了增强长尾知识覆盖,说明数据没打错)

aime25 比部分思考模型都高。。。

有本事把 aider swe 之类刷上去。目前还不如 opus 一根。
2025-7-22 09:41:06
分开是好事,但是部署成本上升了
2025-7-22 09:41:13
赢麻了,就是体验没赢过
2025-7-22 09:41:44
我觉得造假可能性不大,最多也就是题库特化罢了,用qwen的学术界很多,一旦造假很快就会被揭穿
2025-7-22 09:44:32
qwen3用起来还可以,之前一直是带思考,现在不带思考
您需要登录后才可以回帖 立即登录
高级模式